題:
為方差創建置信區間時,為什麼使用卡方?
nafrtiti
2013-11-13 18:22:34 UTC
view on stackexchange narkive permalink

這是一個非常基本的問題。為什麼我們使用卡方分佈?此分佈的含義是什麼?為什麼使用此分佈來創建方差的置信區間?

我在每個地方的Google谷歌網站上的解釋都只是說明了這一事實,它解釋了何時使用chi,但沒有解釋為什麼使用chi以及其外觀為何。

非常感謝任何能將我引向正確方向的人,那就是-真正理解我在創建方差的置信區間時為什麼使用chi的原因。

您使用它的原因是-當數據正常時-$ Q =(n-1)\ frac {s ^ 2} {\ sigma ^ 2} \ sim \ chi ^ 2_ {n-1} $。 (這使$ Q $成為關鍵數量)
另請參見http://stats.stackexchange.com/questions/15711/confidence-of-a-variance-estimate及其鏈接。
對於那些對$ \ chi ^ 2 $的應用或進一步的研究感興趣的人,您將需要注意$ \ chi ^ 2 $(“卡方”)分佈與$ \ chi的區別。 $(“ chi”)分佈(毫不奇怪,它是$ \ chi ^ 2 $的平方根)。
一 回答:
Néstor
2013-11-13 18:48:01 UTC
view on stackexchange narkive permalink

快速解答

原因是因為,假設數據是i.i.d。和$ X_i \ sim N(\ mu,\ sigma ^ 2)$,並定義\ begin {eqnarray *} \ bar {X} & = & \ sum ^ N \ frac {X_i} {N} \\ S ^ 2 & = & \ sum ^ {N} \ frac {(\ bar {X} -X_i)^ 2} {N-1} \ end {eqnarray *}在形成置信區間時,採樣分佈與樣本方差($ S ^ 2 $,請記住,是一個隨機變量!)是卡方分佈($ S ^ 2(N-1)/ \ sigma ^ 2 \ sim \ chi ^ 2_ {n-1} $),就像當您知道方差時,與樣本均值相關的採樣分佈是標準正態分佈($(\ bar {X}-\ mu)\ sqrt {n} / \ sigma \ sim Z(0,1)$)不在的學生($(\ bar {X}-\ mu)\ sqrt {n} / S \ sim T_ {n-1} $)。

長答案

首先,我們將證明$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循卡方分佈,其中$ N-1 $度為自由。之後,我們將看到該證明在推導方差的置信區間時如何有用,以及卡方分佈如何顯示(以及為什麼如此有用!)。讓我們開始。

證明

為此,也許您必須習慣這篇 Wikipedia文章中的卡方分佈。此分佈只有一個參數:自由度$ \ nu $,並且碰巧具有矩生成函數(MGF),由以下公式給出:\ begin {equation *} m _ {\ chi ^ 2_ \ nu}(t)= (1-2t)^ {-\ nu / 2}。\ end {equation *}如果我們可以證明$ S ^ 2(N-1)/ \ sigma ^ 2 $的分佈具有這樣的矩生成函數一個,但具有$ \ nu = N-1 $,則我們表明$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循具有$ N-1 $自由度的卡方分佈。為了顯示這一點,請注意兩個事實:

  1. 如果我們定義,\ begin {equation *} Y = \ sum \ frac {(X_i- \ bar {X})^ 2} {\ sigma ^ 2} = \ sum Z_i ^ 2,\ end {equation *}其中$ Z_i \ sim N(0,1)$,即標準正態隨機變量,$ Y $的矩生成函數為由\ begin {eqnarray *} m_Y(t)給定& = & \ mathbb {E} [e ^ {tY}] \\ & = & \ mathbb {E} [e ^ {tZ_1 ^ 2}] \ times \ mathbb {E} [e ^ {tZ_2 ^ 2}] \ times ... \ mathbb {E} [e ^ {tZ_N ^ 2 }] \\ & = &m_ {Z_i ^ 2}(t)\ times m_ {Z_2 ^ 2}(t)\ times ... m_ {Z_N ^ 2}(t)。\ end {eqnarray *} $ Z ^ 2 $由\ begin {eqnarray *} m_ {Z ^ 2}(t)& = & \ int _ {-\ infty} ^ {\ infty} f(z)\ exp(tz ^ 2)dz給出\\ & = &(1-2t)^ {-1/2},\ end {eqnarray *},其中我使用了標準法線的PDF,$ f(z)= e ^ {-z ^ 2/2 } / \ sqrt {2 \ pi} $,因此\開始{equation *} m_Y(t)=(1-2t)^ {-N / 2},\ end {equation *},暗示$ Y $遵循具有$ N $自由度的卡方分佈

  2. 如果$ Y_1 $和$ Y_2 $是獨立的,並且各自以卡方分佈,但具有$ \ nu_1 $和$ \ nu_2 $自由度,則$ W = Y_1 + Y_2 $分佈的卡方分佈具有$ \ nu_1 + \ nu_2 $自由度(這取自$ W $的MGF;執行此操作!)。

  3. ol>

    基於上述事實,請注意,如果乘以用$ N-1 $的樣本方差,得到(在一些代數之後),\ begin {equation *}(N-1)S ^ 2 = -n(\ bar {X}-\ mu)+ \ sum(X_i -\ mu)^ 2,\ end {equation *},因此除以$ \ sigma ^ 2 $,\ begin {equation *} \ frac {(N-1)S ^ 2} {\ sigma ^ 2} + \ frac {(\ bar {X}-\ mu)^ 2} {\ sigma ^ 2 / N} = \ sum \ frac {(X_i- \ mu)^ 2} {\ sigma ^ 2}。\ end { equation *}請注意,該總和左側的第二項以具有1個自由度的卡方分佈分佈,而右側和是具有$ N $自由度的卡方分佈。 因此,$ S ^ 2(N-1)/ \ sigma ^ 2 $以具有$ N-1 $自由度的卡方分佈

    計算置信度

    尋找方差的置信區間時,您想知道\ begin {equation *} \ mathbb {P} \ left(中的限制$ L_1 $和$ L_2 $ L_1 \ leq \ sigma ^ 2 \ leq L_2 \ right)= 1- \ alpha。 \ end {equation *}讓我們處理括號內的不等式。首先,將$ S ^ 2(N-1)$除以\ begin {equation *} \ frac {L_1} {S ^ 2(N-1)} \ leq \ frac {\ sigma ^ 2} {S ^ 2(N-1)} \ leq \ frac {L_2} {S ^ 2(N-1 )}。 \ end {equation *}然後記住兩件事:(1)統計量$ S ^ 2(N-1)/ \ sigma ^ 2 $具有卡方分佈,自由度為$ N-1 $,並且(2 )方差始終大於零,這意味著您可以反轉不等式,因為\ begin {eqnarray *} \ frac {L_1} {S ^ 2(N-1)} \ leq \ frac {\ sigma ^ 2} {S ^ 2(N-1)} & \ Rightarrow& \ frac {S ^ 2(N-1)} {\ sigma ^ 2} \ leq \ frac {S ^ 2(N-1)} {L_1},\ \ \ frac {\ sigma ^ 2} {S ^ 2(N-1)} \ leq \ frac {L_2} {S ^ 2(N-1)} & \ Rightarrow& \ frac {S ^ 2(N-1) } {L_2} \ leq \ frac {S ^ 2(N-1)} {\ sigma ^ 2},\\ \ end {eqnarray *}因此,我們要尋找的概率是:\ begin {equation *} \ mathbb {P} \ left(\ frac {S ^ 2(N-1)} {L_2} \ leq \ frac {S ^ 2(N-1)} {\ sigma ^ 2} \ leq \ frac {S ^ 2 (N-1)} {L_1} \ right)= 1- \ alpha。 \ end {equation *}注意$ S ^ 2(N-1)/ \ sigma ^ 2 \ sim \ chi ^ 2(N-1)$。然後,我們想要\ begin {eqnarray *} \ int _ {\ frac {S ^ 2(N-1)} {L_2}} ^ {N-1} p _ {\ chi ^ 2}(x)dx & = &( 1- \ alpha)/ 2 \ \ \,\\ \ int_ {N-1} ^ {\ frac {S ^ 2(N-1)} {L_1}} p _ {\ chi ^ 2}(x)dx & = &(1- \ alpha)/ 2 \ \ \,\ end {eqnarray *}(我們最多可以對$ N-1 $進行積分,因為具有$ N-1 $自由度的卡方隨機變量的期望值是$ N-1 $)或等效地\ begin {eqnarray *} \ int_ {0} ^ {\ frac {S ^ 2(N-1)} {L_2}} p _ {\ chi ^ 2}(x) dx = \ alpha / 2,\\ \ int _ {\ frac {S ^ 2(N-1)} {L_1}} ^ {\ infty} p _ {\ chi ^ 2}(x)dx = \ alpha / 2。 \ end {eqnarray *}調用$ \ chi ^ 2 _ {\ alpha / 2} = \ frac {S ^ 2(N-1)} {L_2} $和$ \ chi ^ 2_ {1- \ alpha / 2} = \ frac {S ^ 2(N-1)} {L_1} $,其中可以找到值$ \ chi ^ 2 _ {\ alpha / 2} $和$ \ chi ^ 2_ {1- \ alpha / 2} $在卡方表中(主要是在計算機中!)並求解$ L_1 $和$ L_2 $,\ begin {eqnarray *} L_1 & = & \ frac {S ^ 2(N-1)} {\ chi ^ 2_ { 1- \ alpha / 2}},\\ L_2 & = & \ frac {S ^ 2(N-1)} {\ chi ^ 2 _ {\ alpha / 2}}。 \ end {eqnarray *}因此,您對方差的置信區間為\ begin {equation *} CI = \ left(\ frac {S ^ 2(N-1)} {\ chi ^ 2_ {1- \ alpha / 2 }}, \ frac {S ^ 2(N-1)} {\ chi ^ 2 _ {\ alpha / 2}} \右)。 \ end {equation *}

感謝您的詳細答案。但是我的問題更為基本:為什麼(S2(N-1)/σ2是統計量而不是S2?為什麼這個統計量具有卡方分佈?這是什麼意思?
僅僅因為$ S ^ 2 $不遵循中心的卡方分佈,而$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循,因此更易於使用。您是否要為此推導? (即,您希望有人告訴您$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循具有$ N-1 $自由度的卡方分佈嗎?)
修改此答案以包括“非常強”但未聲明的假設(當基礎數據“獨立”且遵循正態分佈時,樣本方差遵循卡方分佈)將很有幫助。與樣本均值分佈的理論不同,在實踐中,樣本均值的分佈將“近似” *在許多情況下都可以達到正常的準確度,而樣本方差往往不會出現相同的漸近行為(直到樣本數量變得非常大) 。
哎呀。所以,如此真實!這實際上來自我提供給某些學生的問題解決方案,我在其中陳述所有這些假設。我現在編輯了答案。
甚至比這更基本。我要求解釋卡方分佈。而且,為什麼S2(N-1)/σ2遵循具有N-1個自由度的卡方分佈?
@user34756:是指“卡方分佈是標準正態分佈(具有與自由度一樣多的圖)的平方圖之和的分佈”這樣的描述嗎?
好的,我添加了一個證明。
-1
不是$ f(z)= e ^ {-z ^ 2/2} $而不是$ f(z)= e ^ {-z ^ 2} $嗎?
是的,你是對的;錯字在那裡糾正,謝謝。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...