我想知道統計中是否曾經使用過最大似然估計。我們了解了它的概念,但我想知道它何時實際使用。如果假設數據分佈,我們會找到兩個參數,一個用於平均值,一個用於方差,但是您實際在實際情況中使用它嗎?
有人可以告訴我一個簡單的例子嗎?
我想知道統計中是否曾經使用過最大似然估計。我們了解了它的概念,但我想知道它何時實際使用。如果假設數據分佈,我們會找到兩個參數,一個用於平均值,一個用於方差,但是您實際在實際情況中使用它嗎?
有人可以告訴我一個簡單的例子嗎?
我想知道統計中是否曾經使用過最大似然估計。
當然!實際上很多-但並非總是如此。
我們了解了它的概念,但我想知道它何時實際使用。
當人們擁有參數分佈模型時,他們通常會選擇使用最大似然估計。當模型正確時,存在最大似然估計器的許多方便屬性。
舉一個例子-廣義線性模型的使用非常普遍,在這種情況下,描述均值的參數由最大似然估計。
可能會發生某些參數是通過最大似然估計的,而另一些則不是。例如,考慮過度分散的Poisson GLM -不能通過最大似然來估計分散參數,因為在這種情況下MLE沒有用。
如果我們假設數據的分佈,我們會找到兩個參數
好吧,有時您可能有兩個,但是有時您只有一個參數,有時三個或四個或更多。
一個代表平均值,另一個代表方差,
您是否正在考慮某個特定模型?這並非總是如此。考慮估計指數分佈,泊松分佈或二項式分佈的參數。在每種情況下,都有一個參數,方差是描述平均值的參數的函數。
或者考慮具有三個參數的廣義伽馬分佈。或四個參數的beta分佈,它(可能不足為奇)具有四個參數。還請注意,(取決於特定的參數設置)平均值或方差或兩者均可能不是由單個參數表示,而是由多個參數表示。
例如,伽瑪分佈,其中三個參數化具有相當普遍的用途-其中的兩個最常見的具有均值和方差是兩個參數的函數。/ p>
通常在回歸模型,GLM或生存模型(在許多其他模型類型中)中,模型可能依賴於多個預測變量,在這種情況下,與該模型下每個觀察值相關的分佈可能具有其自己的一個與許多預測變量(“獨立變量”)相關的參數(甚至幾個參數)。
在給定數據分佈假設的情況下,儘管最大似然估計器看起來有些可疑,但經常使用準最大似然估計器。這個想法是從假設分佈開始並求解MLE,然後刪除顯式的分佈假設,而是查看估計器在更一般的條件下的性能。因此,準MLE只是成為獲得估算器的一種聰明方法,然後大部分工作便推導了估算器的屬性。由於刪除了分佈假設,因此準MLE通常沒有良好的效率屬性。
作為一個玩具示例,假設您有一個iid樣本$ x_1,x_2,...,x_n $,並且想要一個用於估計$ X $方差的估計器。您可以從假設$ X \ sim N(\ mu,\ sigma ^ 2)$開始,使用正常pdf書寫可能性,然後求解argmax以獲得$ \ hat \ sigma ^ 2 = n ^ {-1} \ sum(x_i-\ bar x)^ 2 $。然後我們可以問一些問題,例如在什麼條件下\\ hat \ sigma ^ 2 $是一個一致的估計量,它是無偏的(不是),它的根n是否一致,它的漸近分佈是什麼,等等。
機器學習中經常使用最大似然估計來訓練:
請注意,在某些情況下,您更喜歡添加一些正則化功能,有時這相當於最大後驗估計,例如為什麼套索罰分等於先驗雙指數(Laplace)?。
有人可以告訴我一個簡單的例子嗎?
一個非常典型的例子是邏輯回歸。邏輯回歸是機器學習中常用的一種對數據點進行分類的技術。例如,邏輯回歸可以用於對電子郵件是否為垃圾郵件進行分類或對某人是否患有疾病進行分類。
具體而言,邏輯回歸模型表示數據點$ x_i $處於類1中的概率如下: $ h_ \ theta(x_i)= P [y_i = 1] = \ frac {1} {1 + e ^ {-\ theta ^ T x_i}} $
通常使用MLE估算參數向量$ \ theta $。
具體來說,使用優化方法,我們找到估算器$ \ hat \ theta $,使得表達式$-\ sum_ {i = 1} ^ n y_i \ log(h_ \ hat \ theta(x_i))+(1-y_i)\ log(1-h _ {\ hat \ theta}(x_i))$已最小化。此表達式是負對數似然,因此將其最小化等效於使似然最大化。
我們一直在使用MLE,但我們可能會感覺不到。我將給出兩個簡單的示例。
示例1
如果我們觀察到硬幣翻轉的結果,在$ 10 $翻轉(假設來自Bernoulli的iid)中有$ 8 $的情況下,如何猜測硬幣的參數$ \ theta $(正面的概率)?我們可以使用“計數”來說$ \ theta = 0.8 $。
為什麼要使用計數?這實際上是在隱式使用MLE!問題出在哪裡
$$ \ underset \ theta {\ text {Maximize}} ~~~ \ theta ^ {8}(1- \ theta)^ {2} $$
要求解方程,我們需要進行一些演算,但結論很重要。
示例2
我們如何從數據中估計高斯分佈參數?我們將經驗均值用作估計均值,將經驗方差用作估計方差,這也來自MLE!。
在無線通信中使用某些最大可能性: