題:
有沒有理由比其他更喜歡AIC或BIC?
russellpierce
2010-07-24 01:49:12 UTC
view on stackexchange narkive permalink

AIC和BIC都是評估因估計參數數量而受到懲罰的模型擬合的方法。據我了解,與AIC相比,BIC對免費參數的懲罰更多。除了基於標準嚴格性的偏愛之外,是否還有其他原因更喜歡AIC而不是BIC?

我認為將這種討論稱為“特徵”選擇或“協變量”選擇更為合適。對我而言,模型選擇範圍更廣,涉及到誤差分佈的規範,鏈接函數的形式以及協變量的形式。當我們談論AIC / BIC時,通常會處於模型構建的所有方面都是固定的情況,除了協變量的選擇。
確定要包含在模型中的特定協變量通常是用模型選擇一詞來完成的,書名中有許多帶有模型選擇的書主要決定了模型中應包含哪些模型協變量/參數。
我不知道您的問題是否專門適用於系統發育(生物信息學),但如果是這樣,這項研究可以提供有關此方面的一些想法:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2925852/
[合併的問題還會詢問有關KIC的問題](https://stats.stackexchange.com/questions/15621/interpretation-of-aic-bic-and-kic?noredirect=1&lq=1),請更新問題文本並註明KIC的定義,帶有鏈接的首選項。
我拒絕了KIC編輯,因為它與現有問題不匹配,並使現有答案不完整。有關KIC的問題可以單獨打開,以將KIC與AIC或BIC進行對比。在執行此操作時,還請指定哪個KIC(因為有多個信息標準可回答該縮寫)。
@russellpierce:我不是那個OP,但是正如您所見,它已經被要求(沒有KIC的定義)並合併到其中。我什至搜索了KIC的定義,但找不到一個好的定義。您至少可以在這裡鏈接一些嗎?
@smci我添加了https://stats.stackexchange.com/questions/383923/what-is-the-most-common-kic-how-does-ites-it-work以使人們能夠深入研究與KIC相關的問題有興趣。
十二 答案:
Dave Kellen
2010-07-27 17:31:57 UTC
view on stackexchange narkive permalink

您的問題意味著AIC和BIC試圖回答同一問題,這是不正確的。 AIC試圖選擇最能充分描述未知的高維現實的模型。這意味著現實永遠不會在所考慮的候選模型集中。相反,BIC試圖在一組候選者中找到TRUE模型。我發現在研究人員沿途建立的模型之一中實例化了現實這一假設很奇怪。對於BIC來說,這是一個現實問題。這些模擬包括從模型A和B生成數據,然後用這兩個模型擬合兩個數據集。當錯誤的模型比生成的數據更適合數據時,就會發生過度擬合。這些模擬的重點是查看AIC和BIC對這些過擬合的校正程度。通常,結果表明AIC過於寬鬆,相對於更簡單,真實的模型,它仍然經常偏愛更複雜,錯誤的模型。乍一看,這些模擬似乎確實是一個很好的論據,但它們的問題在於它們對AIC沒有意義。正如我之前說過的,AIC並不認為正在測試的任何候選模型都是真實的。根據AIC的說法,所有模型都是逼近現實的,現實不應該具有較低的維數。至少低於某些候選模型。

我的建議是同時使用AIC和BIC。在大多數情況下,他們會就首選模型達成共識,否則,只需報告即可。

如果您對AIC和BIC都不滿意並且有空閒時間進行投資,請查找最小描述長度(MDL),這是一種完全不同的方法,可以克服AIC和BIC的局限性。來自MDL的度量有多個,例如歸一化最大似然或Fisher信息近似。 MDL的問題在於它的數學要求和/或計算量很大。

不過,如果您要堅持使用簡單的解決方案,那麼評估模型靈活性(尤其是在參數數量相等時,使AIC和BIC無效的一種很好的方法)就是執行參數引導程序,這很容易實施。 這是到紙上的鏈接

這裡有些人主張使用交叉驗證。我個人曾經使用過它,對此沒有任何反對意見,但是問題在於,在樣本削減規則(留一法,K折等)中進行選擇是一種無原則的做法。

純粹從數學的角度來看差異-BIC是log P(data)的漸近擴展,其中根據任意無處消失的真實模型參數進行採樣,AIC類似地以固定不變的真實參數得出
您說過:“有很多研究人員說,使用模型恢復模擬作為論點,BIC比AIC更好。這些模擬包括從模型A和B生成數據,然後將兩個數據集與這兩個模型擬合。”您是否願意指出一些參考。我對他們很好奇! :)
我不相信這篇文章中的聲明。
我並不完全同意Dave的觀點,尤其是關於目標不同。我認為這兩種方法都可以為模型找到一組良好的變量,並且在某種意義上是最優的。實際上,我們實際上從未假設我們可以構建“完美”的模型。我認為從純粹的概率意義上講,如果我們假設存在“正確的”模型,那麼BIC將是一致的,而AIC則不會。數學統計學家認為,隨著樣本數量的增加,BIC將發現其概率趨向於1。
我認為這就是為什麼有些人認為AIC沒有提供足夠強大的懲罰的原因。
(-1)很好的解釋,但是我想挑戰一個斷言。 @Dave Kellen能否請您參考BIC集合中必須包含TRUE模型的想法?我想對此進行調查,因為在[本書](http://books.google.es/books/about/Model_Selection_and_Multimodel_Inference.html?id=BQYR6js0CC8C&redir_esc=y)中,作者給出了令人信服的證據,證明這不是案件。
這些幻燈片http://myweb.uiowa.edu/cavaaugh/ms_lec_2_ho.pdf表示AIC假定生成模型在候選模型集中。
關於@gui11aume:的評論的討論http://stats.stackexchange.com/questions/205222/does-bic-try-to-find-a-true-model
當您通過AIC的證明工作時,對於懲罰項等於線性獨立參數的數目,必須具有真實模型。否則,它等於$ \ text {Trace}(J ^ {-1} I)$,其中$ J $是得分的方差,而$ I $是對數似然的hessian的期望,其中期望是在真相下評估的,但對數似然是來自錯誤指定的模型。我不確定為什麼有許多消息來源評論AIC獨立於事實。在我實際完成推導之前,我也有這種印象。
很好的答案,但我強烈不同意“現實永遠不應該具有低維度”的說法。這取決於您將yoru模型應用於什麼“科學”
John L. Taylor
2010-07-24 05:07:07 UTC
view on stackexchange narkive permalink

儘管AIC和BIC都是最大似然估計的驅動因素,並且為了打擊過度擬合而對自由參數進行了懲罰,但它們以導致明顯不同行為的方式進行。讓我們看一下一種常用的方法(結果形式規定了正態分佈的誤差和其他行為良好的假設):

  • AIC = -2 * ln(似然)+ 2 * k,

  • BIC = -2 * ln(似然性)+ ln(N)* k,

其中:

  • k =模型自由度
  • N =觀察數

在兩種情況下,組中最好的模型是使這些得分最小的模型。顯然,AIC並不直接取決於樣本量。而且,一般來講,AIC僅僅由於它們如何懲罰自由參數(AIC中的2 * k; BIC中的ln(N)* k)就提出了可能過度擬合的危險,而BIC提出了可能過度擬合的危險。隨著時間的流逝,隨著數據的引入和分數的重新計算,相對較低的N(小於等於7),BIC對自由參數的容忍度要高於AIC,但對於較高的N,則較不容忍(因為N的自然對數超過2)。 p>

此外,AIC的目的是為未知數據生成過程找到最佳的近似模型(通過最小化預期的 KL散度)。因此,它無法收斂到真實模型的概率(假設在評估的組中存在一個),而BIC確實會收斂,因為N趨於無窮大。

因此,在許多方法論問題中,首選的選擇取決於您要嘗試做的事情,可用的其他方法以及所概述的任何功能(收斂,對自由參數的相對公差,最小化預期的KL差異)是否符合您的目標。 >

好答案。 BIC表示,AIC和BIC的另一種可能選擇是,AIC認為隨著樣本量的增加,“虛假效應”變得不容易檢測到(或者我們不在乎是否有虛假效應進入模型)。可以從OLS的角度看到,如Raftery在1994年的論文中所示,如果AIC的t統計量大於$ | t |> \ sqrt {2} $,則其影響在AIC中大約為“顯著”(即,首選較大的模型),而如果其t統計量大於B,則效果為BIC統計信息大於$ | t |> \ sqrt {log(n)} $
不錯的答案,+ 1。我特別喜歡關於評估組中是否確實存在真實模型的警告。我認為“真正的模型”永遠不會存在。 (Box&Draper說“所有模型都是錯誤的,但有些模型是有用的”,Burnham&Anderson稱其為“漸縮效應大小”。)這就是為什麼我對BIC在不切實際的假設下的融合以及AIC的目標印像不深。在我們實際研究的模型中達到最佳近似。
Rob Hyndman
2010-07-24 08:58:58 UTC
view on stackexchange narkive permalink

我的快速解釋是

  • AIC最適合預測,因為它漸近等效於交叉驗證。
  • BIC最適合解釋,因為它允許一致的估計基礎數據生成過程。
AIC等效於K倍交叉驗證,BIC等效於留一法交叉驗證。儘管如此,兩個定理僅在線性回歸的情況下成立。
mbq,它是AIC / LOO(不是LKO或K折),我認為Stone 1977中的證明不依賴於線性模型。我不知道BIC結果的細節。
阿爾斯是正確的。它是AIC = LOO和BIC = K倍,其中K是樣本大小的複雜函數。
恭喜,你已經有了我;我當時急著寫這個,所以我犯了這個錯誤,顯然這是Rob寫的。沒關係,它來自Shao 1995,當時假設模型是線性的。我將對Stone進行分析,但我仍然認為您可能是對的,因為我所在領域的LOO與各種* IC一樣,聲譽也很差。
Wikipedia(http://en.wikipedia.org/wiki/Cross-validation_(statistics)#K-fold_cross-validation)上的描述使K折交叉驗證看起來像是重複的仿真,可以估算出參數的穩定性。我可以理解為什麼AIC會因LOO而保持穩定(因為LOO可以窮盡地進行),但我不明白為什麼除非K也窮舉,否則BIC會因K倍而穩定。 K值所基於的複數公式是否窮舉?還是正在發生其他事情?
BIC也等效於交叉驗證,但是是“學習”類型的交叉驗證。對於BIC,CV程序將使用無數據(僅先前信息)來預測第一個觀察結果。然後從第一個觀察結果“學習”,並預測第二個觀察結果。然後從第一個和第二個學習,並預測第三個,依此類推。由於表示形式$ p(D_1 \ dots D_n | MI)= p(D_1 | MI)\ prod_ {i = 2} ^ {n} p(D_i | D_1 \ dots D_ {i-1} MI) $
Frank Harrell
2011-04-30 07:01:02 UTC
view on stackexchange narkive permalink

根據我的經驗,當目標是最大程度地提高預測性歧視時,BIC會導致嚴重不合身的情況,而AIC通常表現良好。

超級延遲,但是由於它在Google上仍然排名很高,您介意詳細說明您在哪個領域工作?我只是好奇是否應該考慮域名的某些影響。
@verybadatthis:臨床生物統計學(只是Google“ Frank Harrell”,他有網站)
NRH
2011-04-30 10:49:45 UTC
view on stackexchange narkive permalink

布萊恩·里普利(Brian Ripley)提供的AIC和BIC的信息豐富且易於訪問的“派生”可以在以下位置找到: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley對數學結果背後的假設提供了一些說明。與其他答案所表明的相反,Ripley強調AIC是基於假設模型為真的。如果模型不正確,則一般計算將顯示“參數數量”必須替換為更複雜的數量。 Ripleys幻燈片中提供了一些參考。但是請注意,對於線性回歸(嚴格來說,具有已知方差),通常更複雜的數量簡化為等於參數的數量。

(+1)但是,Ripley說模型必須嵌套是錯誤的。對於Akaike的原始推導,或更確切地說,使用AIC作為Kullback-Leibler散度的估計量的推導,沒有這種約束。實際上,在我正在研究的論文中,我“憑經驗”表明AIC甚至可以用於協方差結構的模型選擇(不同數量的參數,顯然是非嵌套模型)。從我使用不同協方差結構運行的數千個時間序列模擬中,AIC都沒有一次出錯。
...如果“正確的”模型實際上在模型集上(但是,這也意味著對於我正在處理的模型,估計量的方差很小...但這只是技術上的詳情)。
@Néstor,我同意。關於嵌套模型的觀點很奇怪。
在選擇縱向數據的協方差結構時(混合效果模型或廣義最小二乘),如果候選結構超過3個,AIC可以輕鬆找到錯誤的結構。如果大於3,則必須使用自舉或其他方法來調整因使用AIC選擇結構而導致的模型不確定性。
user88
2010-07-24 02:23:18 UTC
view on stackexchange narkive permalink

實際上,唯一的區別是BIC是AIC擴展,以考慮對象(樣本)的數量。我要說的是,儘管兩者都很薄弱(與例如交叉驗證相比),但使用AIC更好,而不是更多的人熟悉該縮寫-的確,我從未見過BIC會在其中發表論文或程序的人被使用(我仍然承認我偏向於此類標準根本不起作用的問題)。

編輯:AIC和BIC等效於交叉驗證,提供了兩個重要的假設-定義,因此當模型是最大似然模型時,並且僅對訓練數據的模型性能感興趣時。如果將某些數據壓縮為某種共識,則完全可以。
如果為某些實際問題製造預測機,則第一個是錯誤的,因為您的訓練集僅代表有關該問題的信息的一部分您正在處理,因此您無法優化模型;第二個是錯誤的,因為您希望模型將處理新數據,而您甚至無法期望訓練集將具有代表性。為此,發明了簡歷。在面對獨立數據時模擬模型的行為。在選擇模型的情況下,CV不僅可以為您提供質量近似值,還可以為您提供質量近似值分佈,因此它具有很大的優勢,可以說“我不知道,無論新數據來了,它們中的任何一個都可以更好。”

這是否意味著對於某些樣本量,BIC可能不如AIC嚴格?
嚴格的詞在這裡並不是最好的詞,而是更能容忍參數。是的,是的,對於常見定義(自然對數),它發生在7個及以下的對像上。
AIC漸近等效於交叉驗證。
@Rob您可以提供參考嗎?我懷疑這很籠統。
-1
@mbq。我想到的是Shao 1995,實際上,它僅適用於線性模型。我不知道結果是否已擴展到其他模型。
@mbq-我看不到交叉驗證如何克服“非代表性”問題。如果您的訓練數據不能代表您將來會收到的數據,則可以交叉驗證您想要的所有信息,但是它不能代表您實際要面對的“一般化錯誤”(真”新數據不會由訓練數據的非建模部分錶示)。如果要做出正確的預測,獲取具有代表性的數據集至關重要。
@probabilityislogic當然可以;我在這裡試圖解釋*從CV角度看,基於IC的選擇可能會失效;當然,由於樣本選擇不當,簡歷可能同樣容易被破壞。但是,這將不利於選擇更好的模型。
@mbq-我的觀點是,您似乎基於無法解決問題的替代方案而“略微拒絕”基於IC的選擇。交叉驗證是好的(儘管計算值得嗎?),但是不能使用數據驅動的流程來處理非代表性數據。至少不可靠。您需要具有先驗信息,以告訴您它如何不具有代表性(或更一般地說,“不具有代表性”的數據與您將要觀察的實際未來數據之間存在哪些邏輯聯繫)。
@probabilityislogic好吧,我展示了IC輔助設備與CV的比較,因此CV輔助也只能使IC輔助更多。但是,您在回答中濫用了“代表”一詞是對的,我會盡力解決。實際上,我是模型選擇的一般拒絕者=)
@mbq-模型平均FTW!
Amanda
2010-07-24 04:38:20 UTC
view on stackexchange narkive permalink

正如您所提到的,AIC和BIC是對具有更多回歸變量的模型進行懲罰的方法。在這些方法中使用懲罰函數,該函數是模型中參數數量的函數。

  • 應用AIC時,懲罰函數為 z(p) = 2 p

  • 應用BIC時,懲罰函數為 z(p) = p ln( n ),其依據是將懲罰解釋為先驗信息(因此命名為貝葉斯信息準則)。

n 很大時,兩個模型將產生完全不同的結果。然後,BIC對複雜模型施加更大的懲罰,因此將導致比AIC更簡單的模型。但是,如 BIC上的維基百科中所述:

應注意的是,在許多應用中,BIC只是減少了最大似然選擇,因為參數數量等於感興趣的模型。

請注意,尺寸不變時,AIC也等同於ML。您的答案似乎只適用於BIC。
probabilityislogic
2011-05-13 19:06:44 UTC
view on stackexchange narkive permalink

據我所知,AIC和BIC之間沒有太大區別。為了有效地比較模型,它們在數學上都是方便的逼近。如果它們為您提供了不同的“最佳”模型,則可能意味著您具有很高的模型不確定性,這比您應該使用AIC還是BIC更為重要。我個人更喜歡BIC,因為它會詢問更多(更少)模型是否具有滿足其參數的更多(更少)數據-就像老師在學生擁有更多(更少)的情況下要求更高(更低)的性能標準一樣)時間來學習該主題。對我來說,這似乎是直覺的事情。但是,我可以肯定的是,鑑於AIC的簡單形式,它同樣也存在著直觀而引人注目的論點。對於AIC肯定可以看到這一點,其中存在許多“調整”(AICc)來說明使原始近似值變差的某些條件。對於BIC來說,這也是存在的,因為存在各種其他更精確(但仍然有效)的方法,例如對Zellner g先驗混合的完全拉普拉斯近似(BIC是對積分的拉普拉斯近似方法的近似)。

當您對任何給定模型中的參數有足夠的先驗信息時,它們都是廢話。與需要從數據中估計參數的模型相比,AIC和BIC不必要地懲罰了部分已知參數的模型。

我認為需要注意的一件事是BIC並不假設a)存在“真實”模型,或者b)包含在模型集中。 BIC只是積分似然$ P(D | M,A)$的近似值(D =數據,M =模型,A =假設)。只有乘以先驗概率然後進行歸一化,您才能得到$ P(M | D,A)$。 BIC僅表示如果符號$ M $所暗示的命題為真,則數據的可能性為多少。因此,從邏輯角度看,任何可能導致近似BIC的命題都得到數據的同等支持。因此,如果我聲明$ M $和$ A $為命題

$$ \ begin {array} {l | l} M_ {i}:\ text {第i個模型是對數據} \\ A:\ text {正在考慮的K個模型中,其中一個是最好的} \ end {array} $$

,然後繼續分配相同的概率模型(相同的參數,相同的數據,相同的近似值等),我將獲得相同的BIC值集。只有在邏輯字母“ M”上加上某種獨特的含義,人們才會被捲入與“真實模型”(“真實宗教”的迴聲)無關的問題。 “定義” M的唯一一件事是在計算中使用它的數學方程式-幾乎從來沒有一個和一個定義可以被選出來。我可以同樣地提出關於M的預測命題(“第ith個模型將提供最佳預測”)。我個人不知道這將如何改變任何可能性,以及因此而產生的BIC的好壞(對於該問題,AIC也是如此-儘管AIC基於不同的推導)

,語句出了什麼問題?如果我正在考慮的是真實模型,那麼它就是模型B 的可能性為57%。對我來說似乎足夠合理,或者您可以使用更“軟”的版本在所考慮的集合中,模型B的最佳可能性為57%

最後一條評論:我想您會發現對AIC / BIC的意見和了解的人一樣多。

user2875
2011-01-23 20:11:10 UTC
view on stackexchange narkive permalink

AIC應該很少使用,因為它實際上只是漸近有效的。最好總是使用AICc(對於有限的樣本量, c b>矯正的AIC)。 AIC趨於過於參數化:AICc大大減輕了這一問題。使用AICc的主要例外是,當基礎分佈嚴重瘦弱時。有關更多信息,請參閱Burnham & Anderson撰寫的《模型選擇》一書。

因此,您要說的是AIC不能充分懲罰模型的參數,因此將其用作標準可能會導致參數過多。您建議改為使用AICc。在我最初提出的問題中再說一遍,由於BIC已經比AIC更為嚴格,是否有理由在BIC上使用AICc?
AIC的意思是漸近有效。正如John Taylor所指出的,AIC是不一致的。我認為他給AIC和BIC的對比是最好的選擇。我看不到兩者與交叉驗證相同。它們都具有很好的屬性,通常在少於最大變量數的模型中達到峰值。但是他們都可以選擇不同的模型。
Peter Flom
2011-09-16 14:48:21 UTC
view on stackexchange narkive permalink

AIC和BIC是用於比較模型的信息標準。每種方法都試圖平衡模型的擬合度和簡約性,並且每種方法對參數數量的懲罰不同。

AIC是Akaike信息準則,公式是$$ \ text {AIC} = 2k-2 \ ln(L)$$其中$ k $是參數數量,$ L $是最大似然;用這個公式,越小越好。 (我記得有些程序輸出相反的$ 2 \ ln(L)-2k $,但我不記得詳細信息了。)

BIC是貝葉斯信息準則,公式是$$ \ text {BIC } = k \ ln(n)-2 \ ln(L)$$,它比AIC更支持簡約模型

我從沒聽說過KIC。

也沒有聽說過KIC,但對於AIC和BIC,請查看鏈接的問題或搜索AIC。 http://stats.stackexchange.com/q/577/442
(此答復是從一個重複的問題合併而成的,該問題也要求對“ KIC”進行解釋。)
這些模型不需要嵌套即可與AIC或BIC進行比較。
Tom Wenseleers
2019-06-25 15:22:21 UTC
view on stackexchange narkive permalink

非常簡短:

    AIC可使預測誤差最小化,並且漸近等效於遺忘一交叉驗證(LOOCV)(Stone 1977)。但是並不一致,這意味著即使有大量數據( $ n $ span>變為無窮大),並且如果真實模型在候選模型之中,根據AIC標準選擇真實模型的可能性不會接近1。相反,它將保留太多特徵。
  • BIC是積分邊際似然的近似值 $ P(D | M,A)(D =數據,M =模型,A =假設)$ span>,在統一的先驗條件下等同於尋求使 $ P(M | D,A)$ span>最大化的模型。它的優勢在於它是一致的,這意味著數據量非常大( $ n $ span>達到無窮大),並且真實模型是否在候選模型之中,則根據BIC標準選擇真實模型的可能性將接近1。儘管 $ n $ span>很小,但這對預測性能的影響很小。 BIC也等效於離開-交叉驗證(LKOCV),其中 $ k = n [1-1 /(log(n)-1)] $ span> ,樣本大小為 $ n = $ span>(Shao 1997)。 BIC有許多不同的版本,但它們歸因於對邊際可能性的近似估算或假設了不同的先驗。例如。 EBIC不是使用原始BIC中所有可能模型的先驗制服,而是使用了固定大小模型的先驗制服( Chen & Chen 2008),而 BICq使用的是Bernouilli分佈來指定每個參數的先驗概率

請注意,在L0罰分GLM的上下文中(您可以基於lambda *非零係數的nr來懲罰模型的對數似然,即模型係數的L0範數),您可以優化AIC或BIC目標直接為AIC,而 $ lambda = 2 $ span>,而 $ lambda = log(n)$ span> BIC,這是在 l0ara R程序包中完成的。對我來說,這比他們例如在 glmnet中進行LASSO或彈性淨回歸的情況下,需要先優化一個目標(LASSO或彈性淨回歸),然後再基於其他一些目標調整正則化參數(例如,最小化交叉驗證預測誤差(AIC或BIC)。

Syed(2011)第10頁指出:“我們還可以通過注意AIC最小化近似模型與真實模型之間的Kullback-Leibler差異,來嘗試直觀地了解漸近等價Kullback-Leibler散度不是分佈之間的距離度量,而是使用近似模型對地面現實進行建模時實際上是信息損失的度量,留一法交叉驗證使用的數據量最大,可以進行訓練為一個觀測值做出預測,即 $ n -1 $ span>觀測值是相對於代表“真實性”的單個觀測值的近似模型的替代。可以認為這是從估計損失中可以從數據中獲取的最大信息量。給定獨立且分佈均勻的觀察結果,可以在 $ n $ span>上執行此操作驗證集導致漸近地有偏見的估計。”

請注意,LOOCV誤差也可以根據帽子矩陣的殘差和對角線進行分析計算,而無需實際進行任何交叉驗證。作為LOOCV誤差的漸近近似值,這將始終是AIC的替代方法。

References

Stone M.(1977)通過交叉驗證和Akaike準則選擇模型的漸進等效性。皇家統計學會雜誌叢刊B. 39,44–7。

Shao J.(1997)線性模型選擇的漸近理論。統計學雜誌,221-242。

比這裡的許多其他帖子更好的理解。如果人們有興趣閱讀更多有關此內容(以及可能優於AIC / BIC的替代方法)的信息,建議您閱讀安德魯·蓋爾曼(Andrew Gelman)等人的這篇文章:http://www.stat.columbia.edu/~gelman/研究/已發表/waic_understand3.pdf
Saily_Shah
2020-03-19 14:26:11 UTC
view on stackexchange narkive permalink
    AIC和BIC都是懲罰可能性標準。它們通常以[-2logL + kp]的形式編寫,其中L是似然函數,p是模型中參數的數量,AIC的k為2,BIC的log(n)。 AIC是常數的估計值,再加上數據的未知真實似然函數與模型的擬合似然函數之間的相對距離,因此,較低的AIC表示模型被認為更接近真實情況。 BIC是在某些貝葉斯設置下模型為真的後驗概率的函數的估計,因此較低的BIC意味著模型被認為更可能是真實的模型。
  • 兩個標準都基於各種假設和漸近近似。
  • AIC總是有可能選擇太大的模型,而與n無關。如果n足夠大,BIC選擇太大模型的機會很小,但是對於任何給定的n,它比AIC選擇更大模型的機會更大。

參考文獻:

  1. https://www.youtube.com/watch?v=75BOMuXBSPI
  2. https://www.methodology.psu.edu/resources/AIC-vs-BIC/
  3. ol>


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...