題:
Intuitive reasoning behind biased maximum likelihood estimators
ssah
2014-03-05 04:52:00 UTC
view on stackexchange narkive permalink

我對有偏的最大似然(ML)估計量感到困惑。整個概念的數學知識對我來說很清楚,但我無法弄清楚其背後的直觀原因。

給定某個數據集,該數據集具有分佈中的樣本,而該分佈本身是我們要估計的參數的函數,則ML估計器會得出最有可能產生該數據集的參數值。

我不能從以下角度直觀地理解偏差ML估計量:參數的最可能值如何在偏向錯誤值的情況下預測參數的實際值?

可能與[外行術語中的最大似然估計(MLE)]重複(https://stats.stackexchange.com/questions/112451/maximum-likelihood-estimation-mle-in-layman-terms)
我認為這裡重點放在偏見上可以將這個問題與提議的重複項區分開,儘管它們肯定是密切相關的。
四 答案:
Glen_b
2014-03-05 04:57:34 UTC
view on stackexchange narkive permalink

ML估計量得出最可能出現在數據集中的參數值。

給出假設,ML估計量就是參數值

我無法直觀地理解偏向ML估計量,即“參數最可能的值如何預測參數的實值?偏向於錯誤的值?”

Bias是關於樣本分佈的期望。 “最有可能產生數據”與對採樣分佈的期望無關。為什麼會期望它們在一起?

令人驚訝的是,它們不一定對應於什麼基礎?

我建議您考慮一些簡單的MLE案例並考慮在這些特定情況下差異如何產生。

例如,考慮對 $(0,\ theta)$ span>上的製服的觀察。最大觀測值(不一定)不大於參數,因此參數只能採用至少與最大觀測值相同的值。

當考慮 $ \ theta $ span>,它(顯然)越大, $ \ theta $ span>距最大觀察值越近。因此,它在最大觀察值的情況下最大化了。顯然,這是對 $ \ theta $ span>的估計,它最大程度地提高了獲得樣本的機會:

enter image description here

但是另一方面,它必須有偏差,因為最大的觀察結果顯然(以概率1)小於 $ \ theta span>的真實值;樣本本身尚未排除的 $ \ theta $ span>的任何其他估計都必須大於該估計,並且(在這種情況下很明顯)不大可能產生樣本。

$ U(0,\ theta)$ span>對最大觀測值的期望是 $ \ frac {n } {n + 1} \ theta $ span>,因此消除偏見的通常方法是作為 $ \ theta $ span>的估計量: $ \ hat \ theta = \ frac {n + 1} {n} X _ {(n)} $ span>,其中 $ X _ {( n)} $ span>是最大的觀察值。

這位於MLE的右側,因此可能性較低。

感謝您的回答。關於第一部分,我錯誤地表達了自己。我基本上是說你的意思。根據您對第二部分的回答,我是否可以得出結論,給定從同一分佈中得出的另一組數據,ML估計量會導致不同的偏差嗎?既然您說過ML估算器是“最有可能”產生數據的估算器。如果我們更改數據,則其他估算器很可能會產生它。那是對的嗎?
如果人口分佈的形式不變,則估計量不變。其他一些*估計*會使用不同的樣本得出,其偏倚的量通常也會有所不同-偏倚通常與樣本量有關,即使總體相同。 ...(ctd)
(ctd)... $ \ quad $注意,在上面進行了一些編輯可能會有所幫助。在上面的示例中,使用不同的樣本(這次是$ m $而不是$ n $),ML * estimator *的形式仍然是“樣本中最大的觀測值”,但是*估計*會有所不同(即使使用相同的$ \ theta $),偏差也通常會有所不同(由於樣本量效應)。
很好地利用規範示例來了解無偏估計與ML估計之間的差異。
Dimitriy V. Masterov
2014-03-05 05:05:27 UTC
view on stackexchange narkive permalink

$ \ beta ^ {MLE} $不是$ \ beta $的最可能值。最可能的值是$ \ beta $本身。 $ \ beta ^ {MLE} $最大化了繪製我們實際得到的樣本的可能性。

MLE只是漸近無偏的,通常可以調整估計量以在有限樣本中表現更好。例如,隨機變量的方差的MLE是一個示例,乘以$ \ frac {N} {N-1} $即可對其進行變換。

對不起,第一部分的錯誤。我編輯並修復了它。但是關於您所說的MLE,為什麼在非漸近情況下首先偏向於MLE?
“更好”取決於您所看的內容;貝塞爾的校正使其無偏,但無偏本身並不會自動“變好”(例如,MSE會更糟;為什麼我更喜歡無偏而不是較小的MSE?)。 ceteris paribus *可能被認為比較公正,但是不幸的是* ceteris *不會是* paribus *。
我的理解是,通過MLE和Cramer-Rao下限之間的關係,可以證明無偏估計量是最佳無偏的。
有人告訴我@ssah,這是因為我們使用的是樣本均值,而不是公式中的真實均值。老實說,我從來沒有真正真正地理解過這種解釋,因為如果均值的MLE估計無偏,為什麼這會出錯?我通常會通過模擬來解決我的疑問。
Aksakal
2014-03-05 09:28:39 UTC
view on stackexchange narkive permalink

這是我的直覺。

Bias是對準確性的一種度量,但也有 precision 的概念。

enter image description here

在理想的世界中,我們可以獲得準確而準確的估算值,即總是能引起轟動。不幸的是,在我們不完美的世界中,我們必須在準確性和精度之間取得平衡。有時我們可能會覺得我們可以給出一些精度來獲得更高的精度:我們一直在權衡。因此,估計量有偏差的事實並不意味著它很糟糕:它可能更精確。

Thomas Lumley
2020-07-07 07:00:19 UTC
view on stackexchange narkive permalink

biased 的普通語言和技術含義是不同的。 @Glen_b的答案很好地說明了為什麼最大似然估計值在技術上很容易產生偏差。

最大似然估計器可能會在通常語言的意義上有所偏向,這是可能。必須出問題了。

不一致 MLE的標準示例涉及成對的數據。

假設 $ j的 $ X_ {ij} \ sim N(\ mu_i,\ sigma ^ 2)$ span> = 0,1 $ span>和 $ i = 1,2,3,\ dots,n $ span>。 $ \ mu_i $ span>的MLE為 $(X_ {i0} + X_ {i1})/ 2 $ span >。 $ \ hat \ sigma ^ 2 $ span>的MLE為 $$ \ hat \ sigma ^ 2 = \ frac {1} {2n} \ sum_ {i = 1} ^ n \ sum_ {j = 0} ^ 1(X_ {ij} -\ hat \ mu_i)^ 2 $$ span>

當您獲得更多數據時, $ \ hat \ sigma ^ 2 $ span>不會收斂到 $ \ sigma ^ 2 $ span>,但要 $ \ sigma ^ 2/2 $ span>。

對於二進制匹配對數據,生成模型為 $$ \ mathrm {logit} \,P [Y_ {ij} = 1] = \ alpha_i + \ beta \ timesj $ $ span> MLE $ \ hat \ beta $ span>收斂到 $ 2 \ beta $ span>而不是 $ \ beta $ span>。

在這兩種情況下,問題都是參數的數量隨著 $ n $ span>的增長而增加,解決方案是有條件的可能性消除了 $ n $ span>在估計您感興趣的參數之前先對其進行攔截。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...