我們曾經使用最大似然估計嗎？

Glen_b

2017-03-14 20:10:38 UTC

view on stackexchange narkive permalink

我想知道統計中是否曾經使用過最大似然估計。

當然！實際上很多-但並非總是如此。

我們了解了它的概念，但我想知道它何時實際使用。

當人們擁有參數分佈模型時，他們通常會選擇使用最大似然估計。當模型正確時，存在最大似然估計器的許多方便屬性。

舉一個例子-廣義線性模型的使用非常普遍，在這種情況下，描述均值的參數由最大似然估計。

可能會發生某些參數是通過最大似然估計的，而另一些則不是。例如，考慮過度分散的Poisson GLM －不能通過最大似然來估計分散參數，因為在這種情況下MLE沒有用。

如果我們假設數據的分佈，我們會找到兩個參數

好吧，有時您可能有兩個，但是有時您只有一個參數，有時三個或四個或更多。

一個代表平均值，另一個代表方差，

您是否正在考慮某個特定模型？這並非總是如此。考慮估計指數分佈，泊松分佈或二項式分佈的參數。在每種情況下，都有一個參數，方差是描述平均值的參數的函數。

或者考慮具有三個參數的廣義伽馬分佈。或四個參數的beta分佈，它（可能不足為奇）具有四個參數。還請注意，（取決於特定的參數設置）平均值或方差或兩者均可能不是由單個參數表示，而是由多個參數表示。

例如，伽瑪分佈，其中三個參數化具有相當普遍的用途-其中的兩個最常見的具有均值和方差是兩個參數的函數。/ p>

通常在回歸模型，GLM或生存模型（在許多其他模型類型中）中，模型可能依賴於多個預測變量，在這種情況下，與該模型下每個觀察值相關的分佈可能具有其自己的一個與許多預測變量（“獨立變量”）相關的參數（甚至幾個參數）。

“當人們有一個參數分佈模型時。”不要忘記非參數最大似然估計，以包括經驗似然。

不過，@Mark相對較少。我會在回答中加一個字。

即使假設分佈是正態的，是否也可以使用最大似然估計？我認為我們不需要，但我們仍然可以使用它，對嗎？

@user122358 Glen和Mark已經回答了您。您可以假設是否分配。在大多數情況下，您會假設分佈並因此而似然函數。

@user122358在假設正態性時，對$ \ mu $的估算幾乎總是由MLE完成（您如何估算？）；有時，方差是通過最大似然來完成的，但通常是通過ML估計量的修改形式來完成的。您*沒有*對任何分佈模型使用最大似然法-有多種其他方法可以估算參數。我可以假設正態性，但可以使用分位數匹配來獲取參數估計值。或者，我可以假設伽瑪分佈，但可以通過使安德森-達林擬合優度統計值最小化來估計參數。等

“當人們有一個參數分佈模型時。”不要忘記半參數最大似然估計，以包括部分似然。;）

Igor

2017-03-14 20:43:31 UTC

view on stackexchange narkive permalink

在給定數據分佈假設的情況下，儘管最大似然估計器看起來有些可疑，但經常使用準最大似然估計器。這個想法是從假設分佈開始並求解MLE，然後刪除顯式的分佈假設，而是查看估計器在更一般的條件下的性能。因此，準MLE只是成為獲得估算器的一種聰明方法，然後大部分工作便推導了估算器的屬性。由於刪除了分佈假設，因此準MLE通常沒有良好的效率屬性。

作為一個玩具示例，假設您有一個iid樣本$ x_1，x_2，...，x_n $，並且想要一個用於估計$ X $方差的估計器。您可以從假設$ X \ sim N（\ mu，\ sigma ^ 2）$開始，使用正常pdf書寫可能性，然後求解argmax以獲得$ \ hat \ sigma ^ 2 = n ^ {-1} \ sum（x_i-\ bar x）^ 2 $。然後我們可以問一些問題，例如在什麼條件下\\ hat \ sigma ^ 2 $是一個一致的估計量，它是無偏的（不是），它的根n是否一致，它的漸近分佈是什麼，等等。

另外，您可以檢查有關準MLE背後的直覺的[this thread]（http://stats.stackexchange.com/questions/185154/idea-and-intuition-behind-quasi-maximum-likelihood-estimation-qmle）。

Franck Dernoncourt

2017-03-15 00:52:55 UTC

view on stackexchange narkive permalink

機器學習中經常使用最大似然估計來訓練：

我們可以使用MLE來估計神經網絡權重嗎？

為什麼不能使用相同的方法估算線性和邏輯回歸係數？

https://www.coursera.org/learn/probabilistic-graphical-models-3-learning/lecture/oKJ1x/maximum-likelihood-for-conditional-random-fields

https://en.wikipedia.org/w/index.php?title=Hidden_Markov_model&oldid=768811108#Learning

請注意，在某些情況下，您更喜歡添加一些正則化功能，有時這相當於最大後驗估計，例如為什麼套索罰分等於先驗雙指數（Laplace）？。

user35734

2017-03-15 00:32:20 UTC

view on stackexchange narkive permalink

有人可以告訴我一個簡單的例子嗎？

一個非常典型的例子是邏輯回歸。邏輯回歸是機器學習中常用的一種對數據點進行分類的技術。例如，邏輯回歸可以用於對電子郵件是否為垃圾郵件進行分類或對某人是否患有疾病進行分類。

具體而言，邏輯回歸模型表示數據點$ x_i $處於類1中的概率如下： $ h_ \ theta（x_i）= P [y_i = 1] = \ frac {1} {1 + e ^ {-\ theta ^ T x_i}} $

通常使用MLE估算參數向量$ \ theta $。

具體來說，使用優化方法，我們找到估算器$ \ hat \ theta $，使得表達式$-\ sum_ {i = 1} ^ n y_i \ log（h_ \ hat \ theta（x_i））+（1-y_i）\ log（1-h _ {\ hat \ theta}（x_i））$已最小化。此表達式是負對數似然，因此將其最小化等效於使似然最大化。

Haitao Du

2017-03-14 21:05:39 UTC

view on stackexchange narkive permalink

我們一直在使用MLE，但我們可能會感覺不到。我將給出兩個簡單的示例。

示例1

如果我們觀察到硬幣翻轉的結果，在$ 10 $翻轉（假設來自Bernoulli的iid）中有$ 8 $的情況下，如何猜測硬幣的參數$ \ theta $（正面的概率）？我們可以使用“計數”來說$ \ theta = 0.8 $。

為什麼要使用計數？這實際上是在隱式使用MLE！問題出在哪裡

$$ \ underset \ theta {\ text {Maximize}} ~~~ \ theta ^ {8}（1- \ theta）^ {2} $$

要求解方程，我們需要進行一些演算，但結論很重要。

示例2

我們如何從數據中估計高斯分佈參數？我們將經驗均值用作估計均值，將經驗方差用作估計方差，這也來自MLE！。

示例1也是貝葉斯解決方案和矩量法（MM）解決方案（可能也是使用其他過程的解決方案）。示例2是MM解決方案。令人信服的是，展示“專有” MLE的程序-否則，人們將永遠不需要MLE。

為什麼示例1成為貝葉斯解決方案而示例2成為MM解決方案？MM是什麼？

@user122358 MM是力矩法。參見此處，例如：https://en.wikipedia.org/wiki/Method_of_moments_(statistics）

GDumphart

2018-06-08 13:49:29 UTC

view on stackexchange narkive permalink

在無線通信中使用某些最大可能性：

從帶噪聲的接收信號中解碼數字數據，無論是否帶有冗餘代碼。
估計接收器中的時間，相位和頻率偏移。
估計（傳播參數）。
估計延遲，到達角和多普勒頻移（例如雷達）
估算移動位置（例如GPS）
估算時鐘偏移量以同步所有分佈式設置。
許多校準程序。