這是一個非常基本的問題。為什麼我們使用卡方分佈?此分佈的含義是什麼?為什麼使用此分佈來創建方差的置信區間?
我在每個地方的Google谷歌網站上的解釋都只是說明了這一事實,它解釋了何時使用chi,但沒有解釋為什麼使用chi以及其外觀為何。
非常感謝任何能將我引向正確方向的人,那就是-真正理解我在創建方差的置信區間時為什麼使用chi的原因。
這是一個非常基本的問題。為什麼我們使用卡方分佈?此分佈的含義是什麼?為什麼使用此分佈來創建方差的置信區間?
我在每個地方的Google谷歌網站上的解釋都只是說明了這一事實,它解釋了何時使用chi,但沒有解釋為什麼使用chi以及其外觀為何。
非常感謝任何能將我引向正確方向的人,那就是-真正理解我在創建方差的置信區間時為什麼使用chi的原因。
原因是因為,假設數據是i.i.d。和$ X_i \ sim N(\ mu,\ sigma ^ 2)$,並定義\ begin {eqnarray *} \ bar {X} & = & \ sum ^ N \ frac {X_i} {N} \\ S ^ 2 & = & \ sum ^ {N} \ frac {(\ bar {X} -X_i)^ 2} {N-1} \ end {eqnarray *}在形成置信區間時,採樣分佈與樣本方差($ S ^ 2 $,請記住,是一個隨機變量!)是卡方分佈($ S ^ 2(N-1)/ \ sigma ^ 2 \ sim \ chi ^ 2_ {n-1} $),就像當您知道方差時,與樣本均值相關的採樣分佈是標準正態分佈($(\ bar {X}-\ mu)\ sqrt {n} / \ sigma \ sim Z(0,1)$)不在的學生($(\ bar {X}-\ mu)\ sqrt {n} / S \ sim T_ {n-1} $)。
首先,我們將證明$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循卡方分佈,其中$ N-1 $度為自由。之後,我們將看到該證明在推導方差的置信區間時如何有用,以及卡方分佈如何顯示(以及為什麼如此有用!)。讓我們開始。
為此,也許您必須習慣這篇 Wikipedia文章中的卡方分佈。此分佈只有一個參數:自由度$ \ nu $,並且碰巧具有矩生成函數(MGF),由以下公式給出:\ begin {equation *} m _ {\ chi ^ 2_ \ nu}(t)= (1-2t)^ {-\ nu / 2}。\ end {equation *}如果我們可以證明$ S ^ 2(N-1)/ \ sigma ^ 2 $的分佈具有這樣的矩生成函數一個,但具有$ \ nu = N-1 $,則我們表明$ S ^ 2(N-1)/ \ sigma ^ 2 $遵循具有$ N-1 $自由度的卡方分佈。為了顯示這一點,請注意兩個事實:
如果我們定義,\ begin {equation *} Y = \ sum \ frac {(X_i- \ bar {X})^ 2} {\ sigma ^ 2} = \ sum Z_i ^ 2,\ end {equation *}其中$ Z_i \ sim N(0,1)$,即標準正態隨機變量,$ Y $的矩生成函數為由\ begin {eqnarray *} m_Y(t)給定& = & \ mathbb {E} [e ^ {tY}] \\ & = & \ mathbb {E} [e ^ {tZ_1 ^ 2}] \ times \ mathbb {E} [e ^ {tZ_2 ^ 2}] \ times ... \ mathbb {E} [e ^ {tZ_N ^ 2 }] \\ & = &m_ {Z_i ^ 2}(t)\ times m_ {Z_2 ^ 2}(t)\ times ... m_ {Z_N ^ 2}(t)。\ end {eqnarray *} $ Z ^ 2 $由\ begin {eqnarray *} m_ {Z ^ 2}(t)& = & \ int _ {-\ infty} ^ {\ infty} f(z)\ exp(tz ^ 2)dz給出\\ & = &(1-2t)^ {-1/2},\ end {eqnarray *},其中我使用了標準法線的PDF,$ f(z)= e ^ {-z ^ 2/2 } / \ sqrt {2 \ pi} $,因此\開始{equation *} m_Y(t)=(1-2t)^ {-N / 2},\ end {equation *},暗示$ Y $遵循具有$ N $自由度的卡方分佈。
如果$ Y_1 $和$ Y_2 $是獨立的,並且各自以卡方分佈,但具有$ \ nu_1 $和$ \ nu_2 $自由度,則$ W = Y_1 + Y_2 $分佈的卡方分佈具有$ \ nu_1 + \ nu_2 $自由度(這取自$ W $的MGF;執行此操作!)。
基於上述事實,請注意,如果乘以用$ N-1 $的樣本方差,得到(在一些代數之後),\ begin {equation *}(N-1)S ^ 2 = -n(\ bar {X}-\ mu)+ \ sum(X_i -\ mu)^ 2,\ end {equation *},因此除以$ \ sigma ^ 2 $,\ begin {equation *} \ frac {(N-1)S ^ 2} {\ sigma ^ 2} + \ frac {(\ bar {X}-\ mu)^ 2} {\ sigma ^ 2 / N} = \ sum \ frac {(X_i- \ mu)^ 2} {\ sigma ^ 2}。\ end { equation *}請注意,該總和左側的第二項以具有1個自由度的卡方分佈分佈,而右側和是具有$ N $自由度的卡方分佈。 因此,$ S ^ 2(N-1)/ \ sigma ^ 2 $以具有$ N-1 $自由度的卡方分佈。
尋找方差的置信區間時,您想知道\ begin {equation *} \ mathbb {P} \ left(中的限制$ L_1 $和$ L_2 $ L_1 \ leq \ sigma ^ 2 \ leq L_2 \ right)= 1- \ alpha。 \ end {equation *}讓我們處理括號內的不等式。首先,將$ S ^ 2(N-1)$除以\ begin {equation *} \ frac {L_1} {S ^ 2(N-1)} \ leq \ frac {\ sigma ^ 2} {S ^ 2(N-1)} \ leq \ frac {L_2} {S ^ 2(N-1 )}。 \ end {equation *}然後記住兩件事:(1)統計量$ S ^ 2(N-1)/ \ sigma ^ 2 $具有卡方分佈,自由度為$ N-1 $,並且(2 )方差始終大於零,這意味著您可以反轉不等式,因為\ begin {eqnarray *} \ frac {L_1} {S ^ 2(N-1)} \ leq \ frac {\ sigma ^ 2} {S ^ 2(N-1)} & \ Rightarrow& \ frac {S ^ 2(N-1)} {\ sigma ^ 2} \ leq \ frac {S ^ 2(N-1)} {L_1},\ \ \ frac {\ sigma ^ 2} {S ^ 2(N-1)} \ leq \ frac {L_2} {S ^ 2(N-1)} & \ Rightarrow& \ frac {S ^ 2(N-1) } {L_2} \ leq \ frac {S ^ 2(N-1)} {\ sigma ^ 2},\\ \ end {eqnarray *}因此,我們要尋找的概率是:\ begin {equation *} \ mathbb {P} \ left(\ frac {S ^ 2(N-1)} {L_2} \ leq \ frac {S ^ 2(N-1)} {\ sigma ^ 2} \ leq \ frac {S ^ 2 (N-1)} {L_1} \ right)= 1- \ alpha。 \ end {equation *}注意$ S ^ 2(N-1)/ \ sigma ^ 2 \ sim \ chi ^ 2(N-1)$。然後,我們想要\ begin {eqnarray *} \ int _ {\ frac {S ^ 2(N-1)} {L_2}} ^ {N-1} p _ {\ chi ^ 2}(x)dx & = &( 1- \ alpha)/ 2 \ \ \,\\ \ int_ {N-1} ^ {\ frac {S ^ 2(N-1)} {L_1}} p _ {\ chi ^ 2}(x)dx & = &(1- \ alpha)/ 2 \ \ \,\ end {eqnarray *}(我們最多可以對$ N-1 $進行積分,因為具有$ N-1 $自由度的卡方隨機變量的期望值是$ N-1 $)或等效地\ begin {eqnarray *} \ int_ {0} ^ {\ frac {S ^ 2(N-1)} {L_2}} p _ {\ chi ^ 2}(x) dx = \ alpha / 2,\\ \ int _ {\ frac {S ^ 2(N-1)} {L_1}} ^ {\ infty} p _ {\ chi ^ 2}(x)dx = \ alpha / 2。 \ end {eqnarray *}調用$ \ chi ^ 2 _ {\ alpha / 2} = \ frac {S ^ 2(N-1)} {L_2} $和$ \ chi ^ 2_ {1- \ alpha / 2} = \ frac {S ^ 2(N-1)} {L_1} $,其中可以找到值$ \ chi ^ 2 _ {\ alpha / 2} $和$ \ chi ^ 2_ {1- \ alpha / 2} $在卡方表中(主要是在計算機中!)並求解$ L_1 $和$ L_2 $,\ begin {eqnarray *} L_1 & = & \ frac {S ^ 2(N-1)} {\ chi ^ 2_ { 1- \ alpha / 2}},\\ L_2 & = & \ frac {S ^ 2(N-1)} {\ chi ^ 2 _ {\ alpha / 2}}。 \ end {eqnarray *}因此,您對方差的置信區間為\ begin {equation *} CI = \ left(\ frac {S ^ 2(N-1)} {\ chi ^ 2_ {1- \ alpha / 2 }}, \ frac {S ^ 2(N-1)} {\ chi ^ 2 _ {\ alpha / 2}} \右)。 \ end {equation *}