我對有偏的最大似然(ML)估計量感到困惑。整個概念的數學知識對我來說很清楚,但我無法弄清楚其背後的直觀原因。
給定某個數據集,該數據集具有分佈中的樣本,而該分佈本身是我們要估計的參數的函數,則ML估計器會得出最有可能產生該數據集的參數值。
我不能從以下角度直觀地理解偏差ML估計量:參數的最可能值如何在偏向錯誤值的情況下預測參數的實際值?
我對有偏的最大似然(ML)估計量感到困惑。整個概念的數學知識對我來說很清楚,但我無法弄清楚其背後的直觀原因。
給定某個數據集,該數據集具有分佈中的樣本,而該分佈本身是我們要估計的參數的函數,則ML估計器會得出最有可能產生該數據集的參數值。
我不能從以下角度直觀地理解偏差ML估計量:參數的最可能值如何在偏向錯誤值的情況下預測參數的實際值?
ML估計量得出最可能出現在數據集中的參數值。
給出假設,ML估計量就是參數值
我無法直觀地理解偏向ML估計量,即“參數最可能的值如何預測參數的實值?偏向於錯誤的值?”
Bias是關於樣本分佈的期望。 “最有可能產生數據”與對採樣分佈的期望無關。為什麼會期望它們在一起?
令人驚訝的是,它們不一定對應於什麼基礎?
我建議您考慮一些簡單的MLE案例並考慮在這些特定情況下差異如何產生。
例如,考慮對 $(0,\ theta)$ span>上的製服的觀察。最大觀測值(不一定)不大於參數,因此參數只能採用至少與最大觀測值相同的值。
當考慮 $ \ theta $ span>,它(顯然)越大, $ \ theta $ span>距最大觀察值越近。因此,它在最大觀察值的情況下最大化了。顯然,這是對 $ \ theta $ span>的估計,它最大程度地提高了獲得樣本的機會:
但是另一方面,它必須有偏差,因為最大的觀察結果顯然(以概率1)小於 $ \ theta span>的真實值;樣本本身尚未排除的 $ \ theta $ span>的任何其他估計都必須大於該估計,並且(在這種情況下很明顯)不大可能產生樣本。
$ U(0,\ theta)$ span>對最大觀測值的期望是 $ \ frac {n } {n + 1} \ theta $ span>,因此消除偏見的通常方法是作為 $ \ theta $ span>的估計量: $ \ hat \ theta = \ frac {n + 1} {n} X _ {(n)} $ span>,其中 $ X _ {( n)} $ span>是最大的觀察值。
這位於MLE的右側,因此可能性較低。
$ \ beta ^ {MLE} $不是$ \ beta $的最可能值。最可能的值是$ \ beta $本身。 $ \ beta ^ {MLE} $最大化了繪製我們實際得到的樣本的可能性。
MLE只是漸近無偏的,通常可以調整估計量以在有限樣本中表現更好。例如,隨機變量的方差的MLE是一個示例,乘以$ \ frac {N} {N-1} $即可對其進行變換。
這是我的直覺。
Bias是對準確性的一種度量,但也有 precision 的概念。
在理想的世界中,我們可以獲得準確而準確的估算值,即總是能引起轟動。不幸的是,在我們不完美的世界中,我們必須在準確性和精度之間取得平衡。有時我們可能會覺得我們可以給出一些精度來獲得更高的精度:我們一直在權衡。因此,估計量有偏差的事實並不意味著它很糟糕:它可能更精確。
biased 的普通語言和技術含義是不同的。 @Glen_b的答案很好地說明了為什麼最大似然估計值在技術上很容易產生偏差。
最大似然估計器可能會在通常語言的意義上有所偏向,這是可能。必須出問題了。
不一致 MLE的標準示例涉及成對的數據。
假設 $ j的 $ X_ {ij} \ sim N(\ mu_i,\ sigma ^ 2)$ span> = 0,1 $ span>和 $ i = 1,2,3,\ dots,n $ span>。 $ \ mu_i $ span>的MLE為 $(X_ {i0} + X_ {i1})/ 2 $ span >。 $ \ hat \ sigma ^ 2 $ span>的MLE為 $$ \ hat \ sigma ^ 2 = \ frac {1} {2n} \ sum_ {i = 1} ^ n \ sum_ {j = 0} ^ 1(X_ {ij} -\ hat \ mu_i)^ 2 $$ span>
當您獲得更多數據時, $ \ hat \ sigma ^ 2 $ span>不會收斂到 $ \ sigma ^ 2 $ span>,但要 $ \ sigma ^ 2/2 $ span>。
對於二進制匹配對數據,生成模型為 $$ \ mathrm {logit} \,P [Y_ {ij} = 1] = \ alpha_i + \ beta \ timesj $ $ span> MLE $ \ hat \ beta $ span>收斂到 $ 2 \ beta $ span>而不是 $ \ beta $ span>。
在這兩種情況下,問題都是參數的數量隨著 $ n $ span>的增長而增加,解決方案是有條件的可能性消除了 $ n $ span>在估計您感興趣的參數之前先對其進行攔截。