題:
置信區間和預測區間之間的差異
question
2011-10-04 23:35:50 UTC
view on stackexchange narkive permalink

對於線性回歸中的預測間隔,您仍然可以使用$ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $生成間隔。您還可以使用它生成$ E [Y | x_0] $的置信區間。兩者有什麼區別?

$ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $不會“生成間隔”。
在以上任何答案中,我都看不出兩種方法之間存在差異的原因。回歸結果通常根據參數學生的t分佈參數進行估算,並且通常進行回歸,尤其是由於與數據回歸模型的匹配不佳,會導致殘差未被學習,例如偏斜,但尾部通常很粗(如果並非總是如此),使得數據散佈的參數測量值大於其相應的預期測量分位數。我發現有一條經驗法則是有用的:如果我看到帶有異常值,長尾巴和u的殘差
相關文章:[在線性模型中獲得預測極限的公式](http://stats.stackexchange.com/q/9131/17230)。
六 答案:
Charlie
2011-10-05 00:36:59 UTC
view on stackexchange narkive permalink

您的問題不太正確。如您所說,置信區間給出了$ \ text {E} [y \ mid x] $的範圍。預測間隔給出$ y $本身的範圍。自然,我們對$ y $的最佳猜測是$ \ text {E} [y \ mid x] $,因此間隔都將圍繞同一值$ x \ hat {\ beta} $居中。

就像@Greg所說的那樣,標準錯誤將有所不同-我們猜測$ \ text {E} [y \ mid x] $的期望值比我們估計的$ y $更精確本身。估算$ y $需要包括來自真實誤差項的方差。

為說明差異,假設我們可以對$ \ beta $係數進行完美估計。然後,我們對$ \ text {E} [y \ mid x] $的估計將是完美的。但是我們仍然不確定$ y $本身是什麼,因為我們需要考慮一個真正的錯誤項。因為我們估計$ \ text {E} [y \ mid x] $完全正確,所以我們的“間隔”只是一個關鍵點,但是由於我們考慮了真實的誤差項,因此我們的預測間隔會更寬。

因此,預測間隔將比置信區間寬。

jpgard
2017-04-01 20:31:07 UTC
view on stackexchange narkive permalink

一個是對未來觀察的預測,另一個是對預測的平均響應。我將給出更詳細的答案,以期希望解釋這種差異及其來源,以及這種差異如何在更寬泛的區間內表現出來,以進行預測而不是用於置信。

此示例可能說明置信度和預測間隔之間的差異:假設我們有一個回歸模型,該模型根據臥室的數量,大小等來預測房屋的價格。對於給定的$,我們可以進行兩種預測x_0 $:

  1. 我們可以預測市場上具有特徵$ x_0 $的特定新房子的價格(“該房子的預測價格是$ x_0 $?” )。它的真實價格為$$ y = x_0 ^ T \ beta + \ epsilon $$。由於$ E(\ epsilon)= 0 $,所以預測價格將為$$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$在評估此預測的方差時,我們需要包括以下不確定性$ \ hat {\ beta} $,以及我們對預測的不確定性(我們的預測誤差),因此必須包括$ \ epsilon $的方差(我們的預測誤差)。這通常稱為對未來價值的預測。。

  2. 我們還可以預測具有$ x_0 $特徵的房屋的平均價格(“具有$ x_0 $特徵的房屋的平均價格是多少?” )。點估計仍然是$$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$,但是現在只需要考慮$ \ hat {\ beta} $中的方差。這通常稱為平均響應的預測。

  3. ol>

    大多數時候,我們真正想要的是第一種情況。我們知道$$ var(x_0 ^ T \ hat {\ beta})= x_0 ^ T(X ^ TX)^ {-1} x_0 \ sigma ^ 2 $$

    這是我們平均響應的方差(案例2)。但是,為了預測將來的觀測值(情況1),請回想一下,我們需要$ x_0 ^ T \ hat {\ beta} + \ epsilon $的方差;$ \ epsilon $具有方差$ \ sigma ^ 2 $,並假定獨立於$ \ hat {\ beta} $。使用一些簡單的代數,得出以下置信區間:

    1. CI用於$ x_0 $的單個未來響應:$$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0^ T(X ^ TX)^ {-1} x_0 + 1} $$

    2. 給定$ x_0 $的平均響應的
    3. CI:$$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0 ^T(X ^ TX)^ {-1} x_0} $$

    4. ol>

      其中$ t_ {n-p} ^ {\ alpha / 2} $是t統計量,在$ \ alpha / 2 $分位數處具有$ n-p $自由度。

      希望這使我們更清楚了為什麼預測間隔總是更寬,以及兩個間隔之間的根本區別是什麼。該示例改編自Faraway,帶有R,Sec的線性模型。4.1。

很高興看到清晰而周到的響應大大改善了舊線程。歡迎來到我們的網站!
這不應該是 ... x0 + 1 / n +1(對於預測間隔(1)),以及 ... x0 + 1 / n(對於置信區間(2)_ http://www2.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf http://www.real-statistics.com/regression/confidence-and-prediction-intervals/
@jpgard因此形式差異僅僅是E(eps)= 0的結果嗎?
如果我理解您的問題@Pugl,,則形式上的區別在於,ε僅與單個觀察值的預測相關,而不與平均響應的預測相關。
這很有幫助,謝謝@jpgard
嗯,我認為(1)的差異可能存在問題。您聲明我們需要$ x_0 ^ T \ hat {\ beta} + \ epsilon $的方差。這裡也不應該有剩餘成分嗎?
是殘差。
Greg Snow
2011-10-04 23:53:32 UTC
view on stackexchange narkive permalink

預測間隔和置信區間之間的差是標準誤差。

均值置信區間的標準誤差考慮了採樣帶來的不確定性。您從樣本中計算出的線將與如果您擁有整個總體時所計算出的線不同,則標準誤差會考慮此不確定性。

預測區間上的標準誤差個體觀察考慮了由於上述採樣而導致的不確定性,但也考慮了個體圍繞預測均值的變異性。預測間隔的標準誤差將比置信區間的標準誤差寬,因此預測間隔將比置信區間的寬度寬。

vonjd
2014-04-17 11:56:03 UTC
view on stackexchange narkive permalink

我發現以下解釋很有幫助:

置信區間,告訴您確定平均值的程度。假設數據確實是從高斯分佈中隨機抽樣的。如果您進行多次,併計算每個樣本的平均值的置信區間,那麼您會期望其中大約95%的區間包含總體平均值的真實值。關鍵點是置信區間告訴您真實總體參數的可能位置。

預測區間告訴您可以在哪裡看到下一個採樣的數據點。假設數據確實是從高斯分佈中隨機抽樣的。收集數據樣本併計算預測間隔。然後從總體中再採樣一個值。如果您多次執行此操作,則可能希望下一個值位於95%的樣本的預測間隔內。關鍵是預測間隔可以告訴您有關值的分佈,而不是確定總體的不確定性意思。

預測間隔必須考慮到總體平均值的不確定性以及數據分散性。因此,預測間隔總是比置信區間寬。

來源: http://www.graphpad.com/support/faqid/1506/ >

這裡的“數據分散”是什麼意思?
@tel:顯然是方差
Pablo Casas
2015-11-21 03:43:42 UTC
view on stackexchange narkive permalink

簡短答案:

預測間隔是與尚待觀察(預測)的隨機變量相關的間隔。

置信區間是與參數關聯的區間,是一種慣常概念。

此處查看完整答案,R中的預測數據包的創建者。

Serhii Kushchenko
2019-08-23 11:48:42 UTC
view on stackexchange narkive permalink

此答案適用於無法完全理解先前答案的讀者。讓我們討論一個具體的例子。假設您嘗試根據身高,性別(男性,女性)和飲食習慣(標準,低碳水化合物,素食主義者)來預測人們的體重。目前,地球上有超過80億人。當然,您會發現成千上萬的人具有相同的身高和其他兩個參數但體重不同。他們的體重差異很大,因為其中一些患有肥胖症,而另一些則可能挨餓。這些人中的大多數將處於中間位置。

一項任務是預測所有三個解釋變量具有相同值的所有人的平均體重。在這裡,我們使用置信區間。另一個問題是預測某些特定人的體重。而且我們不知道那個人的生活狀況。在此必須使用預測間隔。它以同一點為中心,但必須比置信區間寬得多。

感謝您的好榜樣。因此,在您的第一種情況的示例中,我們具有不確定性,因為我們仍然只有整個總體中的一個樣本,因此這裡的不確定性是否在總體的估計均值和真實均值之間?在第二種情況下,我們有抽樣方差以及殘差?
我不確定你的第二種情況。使用哪個間隔取決於目標。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...