題:
在沒有模擬的情況下,統計學家究竟如何同意使用(n-1)作為總體方差的無偏估計量?
PhD
2014-05-26 05:09:20 UTC
view on stackexchange narkive permalink

用於計算方差的公式在分母中具有$(n-1)$:

$ s ^ 2 = \ frac {\ sum_ {i = 1} ^ N(x_i-\ bar { x})^ 2} {n-1} $

我一直想知道為什麼。然而,閱讀和觀看一些有關“為什麼”的好視頻,似乎($ n-1)$是人口方差的一個很好的無偏估計量。而$ n $低估了$(n-2)$高估了人口方差。是否有實際的數學證明來證明這一點?或者,這純粹是經驗和統計學家親自進行了大量計算,以得出當時的“最佳解釋”?

統計學家是如何在19世紀初期借助計算機提出這個公式的?手動還是比目光更遠?

我認為您是說“ *沒有*借助計算機”。答案是-也許不足為奇-通過使用代數。推導非常簡單,在許多地方,統計專業學生通常會將其推導為練習,而將其作為本科生學習。
我認為這給出了一個很好的解釋:http://en.wikipedia.org/wiki/Variance#Sample_variance
密切相關:[為什麼樣本標準偏差是$ \ sigma $的有偏估計量](http://stats.stackexchange.com/questions/11707)和[計算sd時用$ n-1 $除以直觀的解釋? ](http://stats.stackexchange.com/questions/3931)。
我已經編輯了您的公式,以使用$ s ^ {2} $和$ \ bar {x} $,因為分母中的$ n-1 $是* sample *方差(拉丁符號)而不是* population *方差(希臘符號)。
五 答案:
Glen_b
2014-05-26 08:40:34 UTC
view on stackexchange narkive permalink

我所見過的大多數證明都足夠簡單,以至於高斯(無論他怎麼做)都可能很容易證明。

我一直在尋找CV的派生詞,我可以將其鏈接到(有許多指向場外證明的鏈接,其中至少包括答案中的一個),但是我在幾次搜索中都沒有在簡歷上找到一個,因此,出於完整性考慮,我將給出一個簡單的一個。考慮到它的簡單性,很容易看出人們將如何開始使用通常稱為貝塞爾修正的方法。

這需要$ E(X ^ 2)= \ text {Var}( X)+ E(X)^ 2 $作為已知知識,並假定前幾個基本方差屬性是已知的。

\ begin {eqnarray} E [\ sum_ { i = 1} ^ {n}(x_i- \ bar x)^ 2] & = & E [\ sum_ {i = 1} ^ {n} x_i ^ 2-2 \ bar x \ sum_ {i = 1} ^ {n} x_i + n \ bar {x} ^ 2] \\ & = & E [\ sum_ {i = 1} ^ {n} x_i ^ 2-n \ bar {x} ^ 2] \\ & = & n E [x_i ^ 2]-n E [\ bar {x} ^ 2] \\ & = & n(\ mu ^ 2 + \ sigma ^ 2)-n(\ mu ^ 2 + \ sigma ^ 2 / n )\\ & = &(n-1)\ sigma ^ 2 \ end {eqnarray}

哪個屬性使術語$ -2 \ bar {x} \ sum_ {i = 1} ^ {n} x_i $消失?
它不會消失。您是否注意到上學期的變化?
(+1)我最近聽到一個很好的證明,我個人覺得更直觀。可以將具有$ 1 / n $因子的樣本方差重新表示為所有對點之間所有平方差的平均值。現在請注意,同一點進入兩次的對都為零,這會使表達式產生偏差。通過從雙和中排除所有這些對並僅對其餘部分進行平均,可以糾正偏差。這產生了貝塞爾的校正。
我不太了解如何從第3行轉到第4行。樣本均值的期望值為$ E [\ bar {x}] = \ mu $,對嗎?但是您是說樣本均值平方的期望值為$ E [\ bar {x} ^ 2] = \ mu ^ 2 + \ frac {\ sigma ^ 2} {n} $?我感覺好像錯過了某個地方。您能否對此部分進行詳細說明,或者只是在證明中增加一個中間步驟?
-1
不,算了,算了。$ V [\ bar {x}] = \ frac {V [x]} {n} $,因此您只是將上面提到的同一標識應用於第3行中的兩個術語。
感謝您的快速回复(我仍在編輯上一條消息)。另一個令人困惑的地方:第3行的第一項中的$ i $下標是錯字,還是即使沒有求和也沒有意義嗎?
任何一個iid變量都具有相同的第二矩。我們從談論所有這些,到只討論其中之一。您可能很容易接受了$ x_1 $(有些人也這樣做),$ x_2 $或$ x_n $ ...,但是我接受了$ i $
mugen
2014-05-26 05:24:16 UTC
view on stackexchange narkive permalink

校正稱為貝塞爾校正,它具有數學證明。就我個人而言,這是一個簡單的方法:使用$ n-1 $可以糾正$ E [\ frac {1} {n} \ sum_1 ^ n(x_i-\ bar x)^ 2] $(參見此處)。

您還可以基於自由度的概念來解釋校正,並非必須進行仿真。

證明候選項#3具有漂亮的直觀解釋,即使是外行人也可以理解。基本思想是樣本均值與總體均值不同。您的觀察結果自然會比總體平均值更接近樣本均值,並且最終以$(x_i-\ bar {x})^ 2 $項低估了這些(x_i-\ mu)^ 2 $項。對於大多數人來說,這可能是顯而易見的,但是直到現在,我才從未考慮過“直覺”關於偏向樣本方差為何偏向的問題。我只學過正式證明。
還有一種用n-1進行校正的幾何方法(在Saville and Wood中很好地解釋了:統計方法:幾何方法)。簡而言之:n的樣本可以視為n維數據空間。樣本點向量添加到觀察向量,可以將其分解為具有對應於p參數的p維的模型向量和具有n-p維的誤差向量。誤差矢量的對應畢達哥拉斯分解具有n-p個平方,其平均值是變化的量度。
我會給你一個漂亮的鏈接,其中包含簡短的解釋:http://en.wikipedia.org/wiki/Bias_of_an_estimator
您能解釋一下為什麼在證明(替代3)中我們假設使用$ n $ $ x $來計算真實和有偏方差嗎?當我們有一個總體(具有真實方差)和一個樣本(具有偏差方差)時,就會出現不同方差的問題。但是,如果我們在相同數據(即$ x_1,x_2,...,x_n $)上計算方差,為什麼它們會有所不同?在那裡,我們認為$ \ sigma ^ 2 $是使用與偏置的$ s_ \ text {biased} ^ 2 $完全相同的$ x $計算出的真實方差。我不同意這個證明。請幫忙,我想念什麼?
Flounderer
2014-05-26 05:54:19 UTC
view on stackexchange narkive permalink

根據Weisstein的《數學世界》,這是高斯在1823年首次證明的。參考文獻是高斯Werke的第4卷,可以在 https://archive.org/details/werkecarlf04gausrich中閱讀

一個>。相關頁面似乎是47-49。高斯似乎調查了這個問題並提出了證明。我不會讀拉丁語,但文字中有德語摘要。第103-104頁解釋了他的所作所為(編輯:我加了一個粗略的翻譯):

僅僅因為一個人無權為自己的真實價值觀持有最安全的價值觀,所以說服自己很容易人們總是必須用這種方法來找到最可能和最平均的誤差,因此,給定的結果比實際的精度要高。 [但是由於人們無權像對待實際價值一樣對待最可能的價值,因此人們可以輕鬆地說服自己,必須始終發現最可能的誤差和平均誤差太小,因此給定的結果比實際具有更高的準確性。]

從中看來,眾所周知,樣本方差是總體的有偏估計方差。文章繼續說,兩者之間的差異通常會被忽略,因為如果樣本量足夠大,這並不重要。然後它說:

因此,作者對該主題進行了特殊的研究,從而得出了非常特殊的極其簡單的結果。即,您需要在指示的錯誤過程之後發現平均錯誤,才能將其轉換為正確的錯誤,只需使用

$$ \ sqrt {\ frac {\ pi- \ rho} {\ pi}} $$ span>

相乘,其中 $ \ pi $ span>觀察數( 觀察結果)和 $ \ rho $ span>死於Anzahl der Unbekannten groessen(未知數)。 [因此,作者對此對象進行了特殊研究,得出了非常奇怪和極其簡單的結果。即,只需將上述錯誤過程發現的平均誤差乘以(給定表達式)即可將其更改為正確的誤差,其中 $ \ pi $ span>為觀測值的數量,而 $ \ rho $ span>是未知數量的數量。]

因此,如果確實是第一次發現該校正,然後似乎是通過高斯的聰明計算發現的,但是人們已經意識到需要進行一些校正,因此也許有人在此之前憑經驗發現了該校正。也許以前的作者可能並不在意得出確切的答案,因為他們還是在處理相當大的數據集。

摘要:手冊,但人們已經知道分母中的$ n $ span>不太正確。

如果有人可以提供德語翻譯,那就太好了。我一個都不懂德語。
是的,由於我的拼寫錯誤,Google翻譯無法正常工作!我將嘗試翻譯。這將是練習我的德語的好方法。
Kenny LJ
2016-06-23 13:11:35 UTC
view on stackexchange narkive permalink

對我來說,直覺是

$$ \ begin {array} {c} \ mbox {} \\ X_ {i} \ mbox {的程度與} \ bar {X} \ end {array} + \ begin {array} {c} \ mbox {} \\\ bar {X} \ mbox {的程度從} \ mu \ end {array} = \ begin {array } {c} \ mbox {}} \\ X_ {i} \ mbox {的程度從} \ mu。\ end {array} $$

$$ \ mathbf {E} \ left [\ left(X_ {i}-\ bar {X} \ right)^ {2} \ right] + \ mathbf {E} \ left [\ left(\ bar {X }-\ mu \ right)^ {2} \ right] = \ mathbf {E} \ left [\ left(X_ {i}-\ mu \ right)^ {2} \ right]。$$

實際證明上述方程需要一些代數(此代數與上述@Glen_b的答案非常相似)。但是假設這是真的,我們可以重新排列以獲得:

$$ \ mathbf {E} \ left [\ left(X_ {i}-\ bar {X} \ right)^ {2} \ right] = \ underset {\ sigma ^ {2}} {\ underbrace {\ mathbf {E} \ left [\ left(X_ {i}-\ mu \ right)^ {2} \ right]}}}-\ underset {\ frac {\ sigma ^ {2}} {n}} {\ underbrace {\ mathbf {E} \ left [\ left(\ bar {X}-\ mu \ right)^ {2} \ right]}}} = \ frac {n-1} {n} \ sigma ^ 2。$$

對我來說,另一種直覺是,使用$ \ bar {X} $代替$ \ mu $會產生偏差。並且此偏差恰好等於$ \ mathbf {E} \ left [\ left(\ bar {X}-\ mu \ right)^ {2} \ right] = \ frac {\ sigma ^ 2} {n} $

Satwik Bhattamishra
2017-05-31 20:07:47 UTC
view on stackexchange narkive permalink

大多數答案已經詳盡地解釋了它,但是除了那些答案之外,還有一個簡單的例子,它可能會有所幫助:

假設給定$ n = 4 $並且前三個數字是:

$ 8,4,6 $,_

現在第四個數字可以是任何數字,因為沒有限制。現在考慮給定$ n = 4 $和$ \ bar x = 6 $的情況,那麼如果前三個數字為:$ 8,4,6 $,則第四個數字必須為$ 6 $。

這就是說,如果您知道$ n-1 $值和$ \ bar x $,那麼$ nth $值就沒有自由。因此,n-1美元為我們提供了一個無偏估計量。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...