對於線性回歸中的預測間隔,您仍然可以使用$ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $生成間隔。您還可以使用它生成$ E [Y | x_0] $的置信區間。兩者有什麼區別?
對於線性回歸中的預測間隔,您仍然可以使用$ \ hat {E} [Y | x] = \ hat {\ beta_0} + \ hat {\ beta} _ {1} x $生成間隔。您還可以使用它生成$ E [Y | x_0] $的置信區間。兩者有什麼區別?
您的問題不太正確。如您所說,置信區間給出了$ \ text {E} [y \ mid x] $的範圍。預測間隔給出$ y $本身的範圍。自然,我們對$ y $的最佳猜測是$ \ text {E} [y \ mid x] $,因此間隔都將圍繞同一值$ x \ hat {\ beta} $居中。
就像@Greg所說的那樣,標準錯誤將有所不同-我們猜測$ \ text {E} [y \ mid x] $的期望值比我們估計的$ y $更精確本身。估算$ y $需要包括來自真實誤差項的方差。
為說明差異,假設我們可以對$ \ beta $係數進行完美估計。然後,我們對$ \ text {E} [y \ mid x] $的估計將是完美的。但是我們仍然不確定$ y $本身是什麼,因為我們需要考慮一個真正的錯誤項。因為我們估計$ \ text {E} [y \ mid x] $完全正確,所以我們的“間隔”只是一個關鍵點,但是由於我們考慮了真實的誤差項,因此我們的預測間隔會更寬。
因此,預測間隔將比置信區間寬。
一個是對未來觀察的預測,另一個是對預測的平均響應。我將給出更詳細的答案,以期希望解釋這種差異及其來源,以及這種差異如何在更寬泛的區間內表現出來,以進行預測而不是用於置信。
此示例可能說明置信度和預測間隔之間的差異:假設我們有一個回歸模型,該模型根據臥室的數量,大小等來預測房屋的價格。對於給定的$,我們可以進行兩種預測x_0 $:
我們可以預測市場上具有特徵$ x_0 $的特定新房子的價格(“該房子的預測價格是$ x_0 $?” )。它的真實價格為$$ y = x_0 ^ T \ beta + \ epsilon $$。由於$ E(\ epsilon)= 0 $,所以預測價格將為$$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$在評估此預測的方差時,我們需要包括以下不確定性$ \ hat {\ beta} $,以及我們對預測的不確定性(我們的預測誤差),因此必須包括$ \ epsilon $的方差(我們的預測誤差)。這通常稱為對未來價值的預測。。
我們還可以預測具有$ x_0 $特徵的房屋的平均價格(“具有$ x_0 $特徵的房屋的平均價格是多少?” )。點估計仍然是$$ \ hat {y} = x_0 ^ T \ hat {\ beta} $$,但是現在只需要考慮$ \ hat {\ beta} $中的方差。這通常稱為平均響應的預測。
大多數時候,我們真正想要的是第一種情況。我們知道$$ var(x_0 ^ T \ hat {\ beta})= x_0 ^ T(X ^ TX)^ {-1} x_0 \ sigma ^ 2 $$
這是我們平均響應的方差(案例2)。但是,為了預測將來的觀測值(情況1),請回想一下,我們需要$ x_0 ^ T \ hat {\ beta} + \ epsilon $的方差;$ \ epsilon $具有方差$ \ sigma ^ 2 $,並假定獨立於$ \ hat {\ beta} $。使用一些簡單的代數,得出以下置信區間:
CI用於$ x_0 $的單個未來響應:$$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0^ T(X ^ TX)^ {-1} x_0 + 1} $$
CI:$$ \ hat {y} _0 \ pm t_ {np} ^ {(\ alpha / 2)} \ hat {\ sigma} \ sqrt {x_0 ^T(X ^ TX)^ {-1} x_0} $$
其中$ t_ {n-p} ^ {\ alpha / 2} $是t統計量,在$ \ alpha / 2 $分位數處具有$ n-p $自由度。
希望這使我們更清楚了為什麼預測間隔總是更寬,以及兩個間隔之間的根本區別是什麼。該示例改編自Faraway,帶有R,Sec的線性模型。4.1。
預測間隔和置信區間之間的差是標準誤差。
均值置信區間的標準誤差考慮了採樣帶來的不確定性。您從樣本中計算出的線將與如果您擁有整個總體時所計算出的線不同,則標準誤差會考慮此不確定性。
預測區間上的標準誤差個體觀察考慮了由於上述採樣而導致的不確定性,但也考慮了個體圍繞預測均值的變異性。預測間隔的標準誤差將比置信區間的標準誤差寬,因此預測間隔將比置信區間的寬度寬。
我發現以下解釋很有幫助:
置信區間,告訴您確定平均值的程度。假設數據確實是從高斯分佈中隨機抽樣的。如果您進行多次,併計算每個樣本的平均值的置信區間,那麼您會期望其中大約95%的區間包含總體平均值的真實值。關鍵點是置信區間告訴您真實總體參數的可能位置。
預測區間告訴您可以在哪裡看到下一個採樣的數據點。假設數據確實是從高斯分佈中隨機抽樣的。收集數據樣本併計算預測間隔。然後從總體中再採樣一個值。如果您多次執行此操作,則可能希望下一個值位於95%的樣本的預測間隔內。關鍵是預測間隔可以告訴您有關值的分佈,而不是確定總體的不確定性意思。
預測間隔必須考慮到總體平均值的不確定性以及數據分散性。因此,預測間隔總是比置信區間寬。
此答案適用於無法完全理解先前答案的讀者。讓我們討論一個具體的例子。假設您嘗試根據身高,性別(男性,女性)和飲食習慣(標準,低碳水化合物,素食主義者)來預測人們的體重。目前,地球上有超過80億人。當然,您會發現成千上萬的人具有相同的身高和其他兩個參數但體重不同。他們的體重差異很大,因為其中一些患有肥胖症,而另一些則可能挨餓。這些人中的大多數將處於中間位置。
一項任務是預測所有三個解釋變量具有相同值的所有人的平均體重。在這裡,我們使用置信區間。另一個問題是預測某些特定人的體重。而且我們不知道那個人的生活狀況。在此必須使用預測間隔。它以同一點為中心,但必須比置信區間寬得多。