題:
在計算標準差時用$ n-1 $除以直觀的解釋?
Tal Galili
2010-10-24 03:04:57 UTC
view on stackexchange narkive permalink

今天我在課堂上被問到,為什麼在計算標準差時,將平方誤差之和除以$ n-1 $而不是除以$ n $。

我說我不會在課堂上回答這個問題(因為我不想進入無偏估計量),但後來我想知道-是否有對此的直觀解釋?!

我想從《數字食譜》一書中引用這句話:“ ...如果$ n $和$ n-1 $之間的差異對您而言很重要,那麼您可能根本就沒有好處-例如,試圖用邊際數據證實可疑的假設。”
(在證明下方)此處提供了一個非常優雅,直觀的解釋。https://en.wikipedia.org/wiki/Bessel%27s_correction#Proof_of_correctness_-__Alternate_3基本思想是,您的觀察結果自然會更接近於樣本均值比總體均值。
-1
如果您正在尋找一個直觀的解釋,那麼應該通過實際採樣來了解自己的原因!觀看此內容,它正好回答您的問題。 https://www.youtube.com/watch?v=xslIhnquFoE
** tl; dr:**(來自最高答案:)“ ...使用與樣本均值的偏差計算出的標準偏差低估了總體的期望標準偏差...”另請參見:https:// en.wikipedia.org / wiki / Unbiased_estimation_of_standard_deviation#Bias_correction因此,除非您想計算一些複雜的東西,否則使用n-1(如果它來自樣本)。
十五 答案:
Michael Lew
2010-10-24 08:46:26 UTC
view on stackexchange narkive permalink

除數為$ n-1 $的標準偏差是從樣本計算的標準偏差,作為從中抽取樣本的總體標準偏差的估計值。因為觀測值平均而言平均地更接近樣本均值,而不是總體均值,所以使用與樣本均值的偏差計算得出的標準差會低估總體的期望標準差。使用$ n-1 $而不是$ n $作為除數可以通過使結果稍大來進行校正。

請注意,當$ n $較小時,校正要比較大時校正具有更大的比例效果,這是我們想要的,因為當n較大時,樣本均值可能是對n的良好估計。

當樣本為總體時,由於樣本均值,因此我們將標準差以$ n $作為除數。

(我附帶指出,以“第二個時間點圍繞已知的,確定的均值重新開始”開頭的內容不會滿足發問者對直觀說明的要求。)

我們不要將“直覺”與“非技術”混淆。
@Michael,不能解釋為什麼我們使用n-1而不是n-2(甚至n-3)嗎?
@Pacerier請查看下面的Whuber答案,以詳細了解這一點。本質上,校正是n-1而不是n-2等,因為n-1校正所得到的結果非常接近我們所需的結果。此處顯示了更精確的更正:http://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
@Michael,,您好,為什麼從樣本均值計算出的偏差往往小於總體均值?
“由於觀測值平均而言,與樣本平均值相比,與總體平均值相比更近,因此使用與樣本平均值的偏差計算出的標準偏差會低估總體所需的標準偏差。”為什麼樣本均值總是被低估?如果它高估了怎麼辦?
Allen和@boramalper被低估的是標準偏差,而不是平均值。
sevenkul
2014-02-21 20:40:47 UTC
view on stackexchange narkive permalink

根據定義,方差是通過取均值的平方差之和再除以大小來計算的。我們有一個通用公式

$ \ sigma ^ 2 = \ frac {\ sum_ {i} ^ {N}(X_i- \ mu)^ 2} {N} $其中$ \ mu $是平均值,而$ N $是總體大小。

根據此定義,樣本的方差(例如樣本$ t $)也必須以這種方式計算

$ \ sigma ^ 2_t = \ frac {\ sum_ {i} ^ {n}(X_i- \ overline {X})^ 2} {n} $其中$ \ overline { X} $是這個小樣本的平均值,而$ n $是這個小樣本的大小。

但是,通過樣本方差$ S ^ 2 $,我們是指總體方差$ \的估計量sigma ^ 2 $。我們如何僅通過使用樣本中的值來估計$ \ sigma ^ 2 $?

根據上述公式,隨機變量$ X $與樣本均值$ \ overline {X} $的偏差為方差$ \ sigma ^ 2_t $。樣本均值$ \ overline {X} $也與$ \ mu $偏離,且有方差$ \ frac {\ sigma ^ 2} {n} $,因為樣本均值在樣本之間獲得不同的值,並且它是一個均值的隨機變量$ \ mu $和方差$ \ frac {\ sigma ^ 2} {n} $。 (可以很容易地證明這一點。)

因此,粗略地,$ X $應該與$ \ mu $偏離一個涉及兩個方差的方差,因此將這兩個相加得到$ \ sigma ^ 2 = \ sigma ^ 2_t + \ frac {\ sigma ^ 2} {n} $。通過解決這個問題,我們得到$ \ sigma ^ 2 = \ sigma ^ 2_t \ times \ frac {n} {n-1} $。替換$ \ sigma ^ 2_t $提供了總體方差的估算器:

$ S ^ 2 = \ frac {\ sum_ {i} ^ {n}(X_i- \ overline {X}) ^ 2} {n-1} $。

還可以證明$ E [S ^ 2] = \ sigma ^ 2 $是真實的。

我希望這不太瑣碎:因為n任意大時,樣本均值收斂到ND($ \ mu $,$ \ frac {\ sigma} {\ sqrt {n}} $)的事實樣本均值與實際均值有偏差$ \ frac {\ sigma ^ 2} {n} $?
這是一個比其他方法更好的解釋,因為它顯示了方程式和推導,而不是簡單地使用統計項對yagga yagga進行運算。
@sevenkul我們可以一些如何直觀地查看嗎?當你說X應該與$ \ mu $偏離那個淨方差時,我迷失了
@whuber和sevenkul ...或其他知道答案的人。為什麼總體的總方差是樣本與樣本均值的方差與樣本均值本身的方差之和?我們如何對方差求和?謝謝!
也許(1)樣本內變化的期望和(2)樣本均值的變化可能是“總方差定律”兩個術語的強項。有關直覺和證明,請參見[here](https://math.stackexchange.com/q/1742578)。
這是python中的一個快速的經驗證明:`SDs = np.array([i in range(10000)] [[np.random.normal(size = 10).std())SDs.mean()`-如果未應用負1修正值,則標準偏差的期望值將被低估(<1)。
雖然“減1”修復不能完全解決問題:`SDs = np.array([i在range(100000)中的[np.random.normal(size = 50).std(ddof = 1))));SDs.mean()`-標準偏差的期望值仍為〜0.995(多次運行後)。
什麼是$ \ sigma ^ 2_t $和$ E $?
不知道為什麼,但是statex似乎傾向於使用不太直接的寫作風格的答案,但解釋得足夠深入(儘管我和我可能無法達到的深度)。您的答案是不同的,您的答案應以黑體字“ intuitive”配音。
whuber
2010-10-24 03:21:58 UTC
view on stackexchange narkive permalink

一個常見的說法是(分佈的)方差的定義是圍繞著一個已知的確定的均值最近的第二個時刻,而估計量使用的是一個估計的均值。這種自由度的損失(鑑於平均值,您可以僅了解數據值的$ n-1 $來重構數據集),需要使用$ n-1 $而不是$ n $來“調整”結果。

這樣的解釋與方差分析和方差成分分析中的估計方差一致。我真的認為這只是一種特殊情況。

我認為,通過有效的參數不僅僅是準確為$ n /(n-1)$很難證明,尤其是當您認為調整後的SD不是 無偏估計量時。 (這只是方差的無偏估計量的平方根。無偏通常無法承受非線性變換。)因此,實際上,對SD進行正確調整以消除其偏倚的方法不是 not 只是$ \ sqrt {n /(n-1)} $的一個因數!

一些入門教科書甚至不介意介紹調整後的sd:它們教一個公式(除以$ n $) 。當我從這樣的書中教書時,我首先對此做出了消極的反應,但是逐漸意識到了這種智慧:為了專注於概念和應用,作者剔除了所有無關緊要的數學技巧。事實證明,沒有什麼受到傷害,沒有人被誤導。

謝謝韋伯。我必須用n-1校正來教學生,因此,單獨除以n並不是一個選擇。如我之前所寫,提及與第二時刻的聯繫不是一種選擇。儘管要提到均值是如何估算的,從而使我們為sd減少了“數據”,但這很重要。關於sd的偏見-我記得遇到過-感謝您將其歸位。最好,塔爾
@Tal我是用您的語言而不是您的學生的語言寫作的,因為我相信您完全有能力將其翻譯成您知道的任何語言。換句話說,我將您問題中的“直覺”解釋為對* you *直觀。
嗨,惠伯。謝謝您的信任投票:)。我期望在課堂上使用自由度來估計期望值。問題在於,“自由度”的概念本身就是需要知識/直覺的概念。但是將其與該線程中給出的其他一些答案結合起來將很有用(對我來說,我希望將來有其他答案)。最好,塔爾
對於大的$ n $,除以$ n $或$ n-1 $通常沒有太大的區別,因此可以引入未校正的公式,前提是該公式適用於較大的樣本,不是嗎?
@Patrick是的,我相信這在所有答案中都是隱含的:當差異很小時,沒有人會擔心。
我認為可以在您的答案中明確指出。我不只是說“有些書不打擾”,還想讓您明確地說出它們不打擾的原因。如果處理大樣本,則調整是無關緊要的。可以很直覺地(OP請求)說:“當$ n $大時,通常沒有什麼大的區別。”沒有?
-1
我知道了,對。
user88
2010-10-24 15:28:15 UTC
view on stackexchange narkive permalink

這是一個總的直覺,但最簡單的答案是對單元素樣本的標準偏差未定義而不是為0進行的修正。

Why not, then, use $\frac{n}{n^2-1}$ or even $\frac{1}{\exp(1)-\exp(1/n)}$ as corrections? :-)
@whuber簡約(-;
$\frac{1}{n-1}$ is even more "parsimonious". :-)
@mbq,關於您的答案〜“這是為了使單元素樣本的標準偏差未定義而不是0而進行的更正”,這是*確實*的原因,還是這是個笑話?您知道像我們這樣的非母親無法分辨。
從形式上說,這是後果,而不是理由,但是,正如我所寫的那樣,我發現記住它是一個很好的直覺。
onestop
2010-10-24 16:01:32 UTC
view on stackexchange narkive permalink

您僅通過幾何就可以對$ n-1 $項有更深入的了解,不僅是為什麼它不是$ n $而是為什麼要採用這種形式,但您可能首先需要用$建立自己的直覺n $維幾何。但是,從那裡開始,這是更深入了解線性模型(即df模型&殘差df)的自由度的一小步。我認為毫無疑問,費希爾是這樣的。這是一本逐步建立起來的書:

Saville DJ,Wood GR。 統計方法:幾何方法。第三版。紐約:施普林格出版社; 1991年。560頁。 9780387975177

(是,有560頁。我的確是逐漸說了。)

謝謝一站式服務-我認為從這個方向來看不會有答案。有什麼辦法可以總結直覺,還是不太可能?塔爾乾杯
我自己不能這樣做,但是一位書評員在Amer的一段中總結了這種方法。統計1993年:http://www.jstor.org/stable/2684984。我不確定與您的學生一起使用這種方法是否真的可行,除非您在整個課程中都採用這種方法。
您能概括一下直覺而不只是參考書嗎?
Richard Hansen
2016-09-03 01:08:29 UTC
view on stackexchange narkive permalink

將總體方差的估計量應用於總體樣本時有偏差。為了調整該偏差,需要除以n-1而不是n。從數學上可以看出,當我們除以n-1而不是n時,樣本方差的估計量是無偏的。此處提供了正式證明:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

最初是數學正確性我想這導致了公式。但是,如果要在公式中增加直覺,已經提到的建議似乎是合理的。

首先,對樣本的觀察平均而言更接近樣本平均值而不是總體平均值。方差估計量利用樣本均值,因此低估了總體的真實方差。除以n-1而不是n可以校正該偏差。

此外,除以n-1會使單元素樣本的方差不確定,而不是零。

Mark L. Stone
2015-08-28 20:28:45 UTC
view on stackexchange narkive permalink

為什麼要除以$ n-1 $而不是$ n $?因為它是慣例,並且導致方差的無偏估計。但是,這會導致標準偏差的估計偏倚(較低),這可以通過將Jensen不等式應用於凹函數平方根來體現。

那麼,擁有一個無偏估計量有什麼好處呢?它不一定使均方誤差最小。正態分佈的MLE除以$ n $而不是$ n-1 $。教會您的學生思考,而不是反省和漫不經心地應用一個世紀前的陳舊觀念。

(+1)我對這種情況的思考越深(我已經給出了一些實際的想法,以研究早期論文(例如Student的1908 Biometrica貢獻)的程度來嘗試追踪$ n-1 $的產生時間和原因它的外觀),我認為“因為它是習慣”是唯一可能的正確答案。我很不願意看到的downvotes,只能猜測,他們正在回應的最後一句話,這很容易被視為攻擊O.P.,儘管我懷疑這是你的意圖。
我的最後一句話是對所有有關方面的友好建議,而不是對OP的攻擊。
在大量使用中,這無關緊要,當用於測試或置信區間時,必須調整過程的其他部分,最後才能獲得相同的結果!
Dilip Sarwate
2015-09-01 09:17:32 UTC
view on stackexchange narkive permalink

眾所周知(或容易證明),二次 $ \ alpha z ^ 2 + 2 \ beta z + \ gamma $ span>在 $ z =-\ frac {\ beta} {\ alpha} $ span>該點位於根之間的中間 $ \ frac {- \ beta-\ sqrt {\ beta ^ 2- \ alpha \ gamma}} {\ alpha} $ span>和 $ \ frac {-\ beta + \ sqrt {\ beta ^ 2- \ alpha \ gamma}} {\ alpha} $ span>的二次方。這表明,對於任何給定的 $ n $ span>實數 $ x_1,x_2,\ ldots,x_n $ span>,數量 $$ G(a)= \ sum_ {i = 1} ^ n(x_i-a)^ 2 = \ left(\ sum_ {i = 1} ^ n x_i ^ 2 \ right)-2a \ left(\ sum_ {i = 1} ^ n x_i \ right)+ na ^ 2,當 $ \ displaystyle a = \ frac 1n \ sum_ {i = 1} ^ n x_i = \ bar {x} $ span>時,$$ span>具有最小值。

現在,假設 $ x_i $ span>是大小為 $ n $ span的樣本>來回均值 $ \ mu $ span>和方差 $ \ sigma ^ 2 $ span>的ma分佈。我們可以估算 $ \ mu $ span> as $ \ frac 1n \ sum_ {i = 1} ^ n x_i = \ bar {x} $ span>它很容易計算,但是嘗試將 $ \ sigma ^ 2 $ span>估計為 $ \ frac 1n \ sum_ {i = 1} ^ n(x_i- \ mu)^ 2 = n ^ {-1} G(\ mu)$ span>遇到我們不知道的問題 $ \ mu $ span>。當然,我們可以輕鬆地計算 $ G(\ bar {x})$ span>,我們知道 $ G(\ mu)\ geq G(\ bar {x})$ span>,但是 $ G(\ mu)$ span>更大?答案是 $ G(\ mu)$ span>更大 比 $ G(\ bar {x})$ span>的因子大約為 $ \ frac {n} {n-1} $ span>,即 $$ G(\ mu)\ approx \ frac {n} {n-1} G(\ bar {x})\ tag {1} $$ span>,然後 estimate $ \ displaystyle n ^ {-1} G(\ mu)= \ frac 1n \ sum_ {i = 1} ^ n(x_i- \ mu)^ 2 $ span>可以通過 $ \ displaystyle \ frac {1 } {n-1} G(\ bar {x})= \ frac {1} {n-1} \ sum_ {i = 1} ^ n(x_i- \ bar {x})^ 2。$ span >

那麼, $(1)$ span>的直觀解釋是什麼? class =“ math-container”>“>開始{align} G(\ mu)& = \ sum_ {i = 1} ^ n(x_i- \ mu)^ 2 \\ & = \ sum_ {i = 1} ^ n (x_i- \ bar {x} + \ bar {x}-\ mu)^ 2 \\ & = \ sum_ {i = 1} ^ n \ left((x_i- \ bar {x})^ 2 +(\ bar {x}-\ mu)^ 2 + 2(x_i- \ bar {x})(\ bar {x}-\ mu)\ right)\\ & = G(\ bar {x})+ n(\ bar {x}-\ mu)^ 2 +(\ bar {x}-\ mu)\ sum_ {i = 1} ^ n(x_i- \ bar {x})\\ & = G(\ bar {x})+ n(\ bar {x}-\ mu)^ 2 \ tag {2} \ end {align} span>,因為 $ \ sum_ {i = 1} ^ n(x_i- \ bar {x})= n \ bar {x} -n \ bar {x} = 0 $ span>。現在, \ begin {align} n(\ bar {x}-\ mu)^ 2 & = n \ frac {1} {n ^ 2} \ left(\ sum_ {i = 1} ^ n(x_i- \ mu )\ right)^ 2 \\ & = \ frac 1n \ sum_ {i = 1} ^ n(x_i- \ mu)^ 2 + \ frac 2n \ sum_ {i = 1} ^ n \ sum_ {j = i + 1} ^ n(x_i- \ mu)(x_j- \ mu)\\ & = \ frac 1n G(\ mu)+ \ frac 2n \ sum_ {i = 1} ^ n \ sum_ {j = i + 1} ^ n(x_i- \ mu)(x_j- \ mu)\ tag {3} \ end {align} span>除非我們有一個非常不尋常的示例,其中所有 $ x_i $ span>大於 $ \ mu $ span>(或者它們都小於 $ \ mu $ span>),將 $(x_i- \ mu)(x_j- \ mu)$ span>的和加到 $(3)$ span>具有正值和負值, 因此發生許多取消。因此,可以預期雙和具有絕對值,而與 $ \ frac 1nG(\ mu)$ span > $(3)$ span>右側的術語。因此, $(2)$ span>成為 $$ G(\ mu)\ approx G(\ bar {x})+ \ frac 1nG(\ mu)\ Longrightarrow G(\ mu)\ approx \ frac {n} {n-1} G(\ bar {x})$ span>,如 $(1)$ span>。

僅在此堆棧交換上,才可以認為這是一個直觀的答案。
B Student
2010-10-25 14:51:11 UTC
view on stackexchange narkive permalink

可以認為樣本方差是所有樣本點之間成對“能量” $(x_i-x_j)^ 2/2 $的精確均值。樣本方差的定義變為$$ s ^ 2 = \ frac {2} {n(n-1)} \ sum_ {i< j} \ frac {(x_i-x_j)^ 2} {2} = \ frac { 1} {n-1} \ sum_ {i = 1} ^ n(x_i- \ bar {x})^ 2。$$

這也與將隨機變量的方差定義為期望值相同能量的對,即讓$ X $和$ Y $是具有相同分佈的獨立隨機變量,則$$ V(X)=​​ E \ left(\ frac {(XY)^ 2} {2} \ right) = E((XE(X))^ 2)。 $$

從隨機變量方差定義到樣本方差定義是通過均值估算期望的問題,該均值可以通過典型性的哲學原理來證明:典型代表分佈。 (請注意,這與瞬間估算有關,但不相同。)

在最後一段,我不太了解您。數學上的事實不是$ V(X)=​​ E \ left(\ frac {(X-Y)^ 2} {2} \ right)= E((X-E(X))^ 2)$嗎?儘管方程很有趣,但我不知道如何用它直觀地教授n-1?
我喜歡這種方法,但是它忽略了一個關鍵思想:要計算*所有*對採樣點之間的平均能量,即使它們全為零,也必須計算值$(x_i-x_i)^ 2 $。因此,$ s ^ 2 $的分子保持不變,但分母應為$ n $,而不是$ n-1 $。這顯示出已經發生的過人之處:不知何故,您需要證明*不*包括此類自對。(因為它們被*包括在方差的類似總體定義中,所以這不是顯而易見的事情。)
-1
因此,要想完整地回答這個問題,我將與@whuber的最後一點相反:必須排除自我對,因為它們也不在總體方差中。它們的比例$ {n \ over {n ^ 2}} = {1 \ over n} \ to 0 $作為$ n \ to \ inf $。超過{n-1} $的$ n因子正好校正了樣本對群體中自我對的這種過度表示。在樣本中的$ n ^ 2 $對中,$ n $是自對,而$ n ^ 2-n $遵循總體方差。因此,我們將$ s ^ 2 $乘以$ {n ^ 2 \ over {n ^ 2-n}} = {n \ over {n-1}} $,以從分母中刪除自對。
@zwets我發現您的論點有趣,但沒有用,因為有兩個缺陷:您假設一個無限的總體(並且這樣的假設既多餘又過於嚴格),並且您似乎將總體規模與樣本規模相混淆,都稱為$n。美元
謝謝@whuber,,這裡的問題也許是註釋空間的限制。讓我再試一次:分佈的方差是從中得出的任意值對之間的期望平方距離的一半。當我們根據大小為$ n $的樣本進行估算時,其中包括$ n $個自我對,構成了該對中的$ 1 / n $。在無窮大的總體中,該分數消失,而“其他對”分數$ {n-1} / n $趨於1。我沒有混淆總體和样本量,但確實假設總體方差適用於無限的人口。
@Zwets感謝您的澄清。不過,我仍然看不到無限人口的論點如何影響這個問題。
-1
Ben
2018-04-23 05:04:26 UTC
view on stackexchange narkive permalink

whuber的建議下,此答案已從另一個類似的問題複製而來。

在使用樣本方差作為真實方差的估計量時,採用貝塞爾校正來校正偏差。由於樣本均值比真實均值更接近觀測值的中間值,因此出現了未校正統計量的偏差,因此樣本均值周圍的平方偏差會系統地低估真實均值附近的平方偏差。

要以代數方式查看此現象,只需在不經過貝塞爾校正的情況下得出樣本方差的期望值,然後查看其外觀即可。讓$ S _ * ^ 2 $表示未校正的樣本方差(使用$ n $作為分母),我們有:

$$ \開始{equation} \ begin {aligned} S _ * ^ 2 & = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i-\ bar {X})^ 2 \\ [8pt] & = \ frac {1} {n} \ sum_ {i = 1} ^ n(X_i ^ 2-2 \ bar {X} X_i + \ bar {X} ^ 2)\\ [8pt] & = \ frac {1} {n} \ Bigg(\ sum_ {i = 1} ^ n X_i ^ 2-2 \ bar {X} \ sum_ {i = 1} ^ n X_i + n \ bar {X} ^ 2 \ Bigg)\\ [8pt] & = \ frac {1} {n} \ Bigg(\ sum_ {i = 1} ^ n X_i ^ 2-2 n \ bar {X} ^ 2 + n \ bar {X} ^ 2 \ Bigg)\\ [ 8pt] & = \ frac {1} {n} \ Bigg(\ sum_ {i = 1} ^ n X_i ^ 2-n \ bar {X} ^ 2 \ Bigg)\\ [8pt] & = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i ^ 2-\ bar {X} ^ 2。 \ end {aligned} \ end {equation} $$

取得預期收益:

$$ \開始{equation} \ begin {aligned} \ mathbb {E}(S _ * ^ 2) & = \ frac {1} {n} \ sum_ {i = 1} ^ n \ mathbb {E}(X_i ^ 2)-\ mathbb {E}(\ bar {X} ^ 2)\\ [8pt] & = \ frac {1} {n} \ sum_ {i = 1} ^ n(\ mu ^ 2 + \ sigma ^ 2)-(\ mu ^ 2 + \ frac {\ sigma ^ 2} {n})\ \ [8pt] & =(\ mu ^ 2 + \ sigma ^ 2)-(\ mu ^ 2 + \ frac {\ sigma ^ 2} {n})\\ [8pt] & = \ sigma ^ 2-\ frac {\ sigma ^ 2} {n} \\ [8pt] & = \ frac {n-1} {n} \ cdot \ sigma ^ 2 \\ [8pt] \ end {aligned} \ end {equation} $$

因此,您可以看到未校正的樣本方差統計量低估了真實方差$ \ sigma ^ 2 $。貝塞爾的更正將分母替換為$ n-1 $,這產生了一個無偏估計量。在回歸分析中,這擴展到更普遍的情況,即估計均值是多個預測變量的線性函數,而在後一種情況下,由於自由度的數量減少,分母進一步減少。

謝謝你的證明!
Laurent Duval
2016-09-03 01:49:54 UTC
view on stackexchange narkive permalink

假設您有一個隨機現象。再次假設您僅獲得一個$ N = 1 $樣本或實現$ x $。無需進一步假設,樣本平均值的“唯一”合理選擇是$ \ overline {m} = x $。如果您不從分母中減去$ 1 $,則(不正確的)樣本方差將為$$ V = \ frac {\ sum_N(x_n-\ overline {m})^ 2} {N} $$,或者:

$$ \ overline {V} = \ frac {(x- \ overline {m})^ 2} {1} = 0 \,.. $$

奇怪的是,方差會只有一個樣本為null。如果$ x \ neq y $,則擁有第二個樣本$ y $可能會增加方差。這是沒有道理的。直觀地講,無限方差將是一個更合理的結果,您只能通過“除以$ N-1 = 0 $”來恢復該結果。

估計均值是將階次為$ 0 $的多項式擬合為具有一個自由度(dof)的數據。 貝塞爾的校正也適用於更高自由度的模型:當然,您可以使用$ d $度多項式和$ d + 1 $自由度來完美擬合$ d + 1 $點。零平方誤差的錯覺只能通過除以點數減去自由度數來抵消。當處理非常小的實驗數據集時,此問題特別敏感。

尚不清楚為什麼“無窮大的方差將是一個更合理的結果”而不是零方差。確實,您似乎在使用方差* estimator *的意義上使用“樣本方差”,但這更加令人困惑。
我明白。為了回答兩個選項之間的直觀解釋,我試圖根據$ 0 <\ infty $的平凡規則,建議兩者之一在某種程度上是不可接受的。改寫確實是必要的,並且即將到來
Vivek
2016-01-15 23:18:56 UTC
view on stackexchange narkive permalink

樣本均值定義為$ \ bar {X} = \ frac {1} {n} \ sum_ {i = 1} ^ {n} X_i $,這非常直觀。但是樣本方差為$ S ^ 2 = \ frac {1} {n-1} \ sum_ {i = 1} ^ {n}(X_i-\ bar {X})^ 2 $。 $ n-1 $是從哪裡來的?

要回答這個問題,我們必須回到無偏估計量的定義。無偏估計量是指期望值趨於真實期望值的估計值。樣本均值是一個無偏估計量。要查看原因:

$$ E [\ bar {X}] = \ frac {1} {n} \ sum_ {i = 1} ^ {n} E [X_i] = \ frac {n } {n} \ mu = \ mu $$

讓我們看一下樣本方差的期望,

$$ S ^ 2 = \ frac {1} {n- 1} \ sum_ {i = 1} ^ {n}(X_i ^ 2)-n \ bar {X} ^ 2 $$

$$ E [S ^ 2] = \ frac {1} {n-1} \ left(n E [(X_i ^ 2)]-nE [\ bar {X} ^ 2] \ right)。 $$

請注意,$ \ bar {X} $是隨機變量而不是常量,因此期望$ E [\ bar {X} ^ 2] $起作用。 這是$ n-1 $後面的原因

$$ E [S ^ 2] = \ frac {1} {n-1} \ left(n( \ mu ^ 2 + \ sigma ^ 2)-n(\ mu ^ 2 + Var(\ bar {X}))\ right)。 $$$$ Var(\ bar {X})= Var(\ frac {1} {n} \ sum_ {i = 1} ^ {n} X_i)= \ sum_ {i = 1} ^ {n} \ frac {1} {n ^ 2} Var(X_i)= \ frac {\ sigma ^ 2} {n} $$

$$ E [S ^ 2] = \ frac {1} {n- 1} \ left(n(\ mu ^ 2 + \ sigma ^ 2)-n(\ mu ^ 2 + \ sigma ^ 2 / n)\ right)。 = \ frac {(n-1)\ sigma ^ 2} {n-1} = \ sigma ^ 2 \\ $$

如您所見,如果分母為$ n $ $ n-1 $,我們將得到方差的有偏估計!但是對於$ n-1 $,估計器$ S ^ 2 $是一個無偏估計器。

但是並不能因此得出$ S $是標準偏差的無偏估計量。
Sahil Chaudhary
2015-09-25 04:36:40 UTC
view on stackexchange narkive permalink

通常在分母中使用“ n”給出的值要小於我們要估算的總體方差。如果採集少量樣本,尤其會發生這種情況。用統計語言來說,我們說樣本方差提供了總體方差的“有偏”估計,需要“無偏”。

如果您要尋找直觀的解釋,則應讓您的學生通過實際採樣來了解自己的原因!觀看此內容,它可以準確回答您的問題。

https://www.youtube.com/watch?v=xslIhnquFoE

Neil G
2015-08-28 20:16:56 UTC
view on stackexchange narkive permalink

我認為值得指出與貝葉斯估計的聯繫。假設您假設數據是高斯的,那麼您測量了$ n $點樣本的均值$ \ mu $和方差$ \ sigma ^ 2 $。您想得出有關人口的結論。貝葉斯方法將評估樣本的後驗預測分佈,這是廣義的學生T分佈(T檢驗的起源)。此分佈的平均值為$ \ mu $,方差$$ \ sigma ^ 2 \ left(\ frac {n + 1} {n-1} \ right),$$

甚至比典型的校正。 (它具有$ 2n $的自由度。)

廣義Student的T分佈具有三個參數,並利用了您所有的三個統計量。如果您決定丟掉一些信息,則可以按照問題中的描述使用兩參數正態分佈來進一步近似數據。

從貝葉斯的角度來看,您可以想像到模型(均值和方差的分佈)導致後驗預測的方差大於總體方差。

user111282
2016-04-07 06:16:58 UTC
view on stackexchange narkive permalink

天哪,事情變得越來越複雜!我以為簡單的答案是...如果您擁有所有數據點,則可以使用“ n”,但是如果您有“樣本”,則假設它是一個隨機樣本,那麼您在標準偏差內就有更多的樣本點而不是外部(標準差的定義)。您只是外面沒有足夠的數據來確保您隨機獲得所需的所有數據點。 n-1有助於向“真實”標準偏差擴展。

這沒有道理。SD內部比外部更多的點?如果這意味著在均值的1 SD之內,而不是在均值的1 SD之內,那麼這是否正確與採樣無關。有關均值周圍區間內分數的必要約束,請參閱切比雪夫不等式。對於這裡的主要問題,“幫助擴展”根本不解釋$ n-1 $,因為即使授予您參數$ n-2 $可能還是更好,依此類推,因為這裡沒有代數,甚至是隱式的。不幸的是,除了混亂的想法,無論是正確的還是無關緊要的,這對其他答案沒有任何幫助。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...