題:
報告哪種邏輯$ R ^ 2 $度量用於邏輯回歸(Cox&Snell或Nagelkerke)?
Henrik
2010-10-13 21:12:58 UTC
view on stackexchange narkive permalink

對於邏輯回歸模型,我有 SPSS 輸出。輸出報告了兩個用於模型擬合的度量,即 Cox & Snell Nagelkerke

因此,根據經驗,這兩個$ R ^ ²您會報告適合模型的$個度量嗎?

或者,期刊中通常會報告哪些適合指數?


某些背景:回歸試圖從一些環境變量(例如陡度,植被覆蓋度等)中預測鳥類的存在或不存在。不幸的是,這隻鳥很少出現(35次擊中468次未擊中),因此回歸表現很差。 Cox & Snell是.09,Nagelkerke,.23。

主題是環境科學或生態學。

優秀的UCLA統計幫助網站上有[出色的頁面](http://statistics.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm)解釋了各種偽$ R ^ 2 $的&它們如何相互聯繫。
新的UCLA鏈接:https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-pseudo-r-squareds/
這裡有兩個鏈接討論了一種精確的非參數算法,該算法可最大化邏輯回歸模型的準確性。如果對數據使用此方法,則將其應用於樣本時將提高邏輯回歸模型的分類性能。範例1:http://onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/abstract範例2:http://epm.sagepub.com/content/54/1/73.abstract
七 答案:
whuber
2010-10-13 22:46:40 UTC
view on stackexchange narkive permalink

通常我不會報告$ R ^ 2 $。 Hosmer和Lemeshow在其教科書 應用邏輯回歸(第二版)中解釋了原因:

通常,[$ R ^ 2 $度量]是基於對擬合模型的預測值與[基礎模型],無數據或僅截距模型的預測值的各種比較而得出的,因此,不評估擬合優度。我們認為,擬合的真實度量是嚴格基於擬合模型中觀察值與預測值的比較的度量。

[在p。 164。]

關於$ R ^ 2 $的各種ML版本,即“偽$ R ^ 2 $”統計信息,他們提到它不“建議用於常規用途,因為它不那麼直觀易於解釋,”,但由於各種軟件包都報告,他們不得不描述它。

他們通過編寫

... low $ R ^結束了這一討論。邏輯回歸中的2 $值是常態,當向習慣於看到線性回歸值的受眾群體報告其值時,這會帶來問題。 ...因此,[通過參考文本中的運行示例進行爭論]我們不建議例行發布$ R ^ 2 $值與擬合邏輯模型的結果。但是,它們可以作為評估競爭模型的統計信息在模型構建狀態中有所幫助。

[At p。 167。]

我對某些大型邏輯模型(100k至300​​k記錄,100-300個解釋變量)的經驗與H & L所描述的完全相同。根據我的數據,我可以達到較高的$ R ^ 2 $,最高可達0.40。這些對應於3%到15%之間的分類錯誤率(假陰性和假陽性是平衡的,已使用50%保留數據集進行了確認)。正如H & L所暗示的那樣,我不得不花費大量時間使客戶(一位熟悉$ R ^ 2 $的老練顧問,他自己)對$ R ^ 2 $不感興趣,並使他專注於分析中的重要內容(分類錯誤率)。我可以熱烈建議在不參考$ R ^ 2 $的情況下描述您的分析結果,這很可能會誤導您。

(+1)我最初是想擴大自己的回答(那是在您的回答之後),但是您的回答肯定是自給自足的。
感謝您的幫助,這對我目前正在從事的項目也很有幫助-完全有道理。
@whuber:我也傾向於傾向於正確的分類。匯率,但我在教科書和網站上看到了許多參考資料,警告分析人員不要相信它們,並強調偽rsq儘管有其局限性,但卻是一個更公平的指標。在我自己的分析中,我經常讀到一些似乎可以證明的東西:在添加了給定的預測變量的情況下,偽rsq可能會增加(其他指標將表明從中受益),而正確的分類率卻無法做到;以及那不應該相信後者你有想過嗎?
@rolando2是的,我有。這就提出了一個問題:偽造的$ R ^ 2 $應該增加多少來證明變量的合理性。我懷疑您的“正確分類率”可能是指“樣本中”率,這當然是有偏差的。如果是正確的話,那麼您所閱讀的內容只會比較兩個劣等的統計數據。 “樣本外”利率比偽造的$ R ^ 2 $更有用。
我懂了。在交叉驗證中。好點,TX。
+1。另外,要擴展答案的細微部分,請提及_classification錯誤率_,它是複數形式,不應與_accuracy_混淆。混淆矩陣可以產生許多不同類型的計算-_accuracy _,_ false positive rate _,_ precision_等,而我們所關心的取決於應用程序。此外,您還對_out-of-sample_進行了區分,它與_crossvalidation_不同,但有時會與之混淆。
chl
2010-10-13 23:02:07 UTC
view on stackexchange narkive permalink

兩個指標都是關聯強度的度量(即,對於LR測試,是否有任何預測因子與結果相關聯),並且可以用來量化預測能力或模型性能。單個預測變量可能會對結果產生重大影響,但對於預測單個響應可能不一定有用,因此需要整體評估模型的性能(寫零模型)。如Srikant所說,Nagelkerke $ R ^ 2 $之所以有用,是因為其最大值為1.0。這只是根據似然比$ R ^ 2 _ {\ text {LR}} = 1- \ exp(-\ text {LR} / n)$計算得到的$ R ^ 2 $的規範化版本,根據Cox和Snell最初提出的整體關聯的Wald統計量,其他預測能力指標包括Brier得分,C指標(一致性概率或ROC面積)或Somers'D,後兩者提供了更好的預測指標

在邏輯回歸中唯一的假設是線性可加性(+獨立性)。儘管提出了許多全球擬合優度測試(例如Hosmer & Lemeshow $ \ chi ^ 2 $測試,但請參閱我對的評論),但它們通常缺乏功能。為了評估模型擬合度,最好依靠視覺標準(分層估計,非參數平滑),以幫助發現預測和觀察到的結果(例如非線性或相互作用)之間的局部或全局偏離,這在Harrell的 RMS講義。在相關主題(校準測試)上,Steyerberg( 臨床預測模型,2009)指出了評估觀察結果與預測概率之間一致性的相同方法:

校準與擬合優度相關,擬合優度與模型擬合給定數據集的能力有關。通常,沒有一個擬合優度檢驗具有 克服各種缺乏預測模型的能力。缺乏擬合的例子是線性預測器和結果之間缺少非線性,相互作用或不適當的鏈接函數。擬合優度可以使用$ \ chi ^ 2 $統計量進行測試。 (第274頁)

他還建議在視覺上或通過所謂的Harrell E統計量依靠平滑觀察到的結果與預測概率之間的絕對差。

更多詳細信息可以在Harrell的書《回歸建模策略》中找到(第203-205、230-244、247-249頁)。有關最新討論,另請參見

Steyerberg,EW,Vickers,AJ,Cook,NR,Gerds,T,Gonen,M,Obuchowski,N,Pencina,MJ和Kattan,MW(2010年) 。 評估預測模型的性能,這是傳統和新穎措施的框架流行病學 21(1),第128-138頁。

您能否詳細說明“擬合優度”與關聯強度或預測能力之間的區別?
-1
感謝您的更新,它確實闡明了區別。
probabilityislogic
2011-11-16 19:51:29 UTC
view on stackexchange narkive permalink

我會認為任何用於邏輯回歸的 $ R ^ 2 $ span>度量的主要問題是您要處理的模型具有已知的噪聲值。這與標準線性回歸不同,標準線性回歸通常將噪聲水平視為未知。因為我們可以將glm概率密度函數編寫為:

$$ f(y_i | \ mu_i,\ phi)= \ exp \ left(\ frac {y_ib (\ mu_i)-c(\ mu_i)} {\ phi} + d(y_i,\ phi)\ right)$$ span>

其中 $ b(。),\ c(。),\ d(。;。)$ span>是已知函數,並且 $ \ mu_i = g ^ {-1}( x_i ^ T \ beta)$ span>用於反向鏈接函數 $ g ^ {-1}(。)$ span>。如果我們將通常的GLM偏差殘差定義為

\ begin {align} d_i ^ 2 & = 2 \ phi \ left(\ log [f [y(i_i | \ mu_i = y_i,\ phi)]-\ log [f(y_i | \ mu_i = \ hat {\ mu} _i,\ phi)] \ right)\\ & = 2 \ phi \ left [y_ib(y_i)-y_ib (\ hat {\ mu} _i)-c(y_i)+ c(\ hat {\ mu} _i)\ right] \ end {align} span>我們(通過似然比卡方, $ \ chi ^ 2 = \ frac {1} {\ phi} \ sum_ {i = 1} ^ {N} d_i ^ 2 $ span>)

$$ E \ left(\ sum_ {i = 1} ^ {N} d_i ^ 2 \ right)= E(\ phi \ chi ^ 2)\ approx(Np)\ phi $$ span>

其中 $ p $ span>是 $ \ beta $ span>的尺寸。對於邏輯回歸,我們有 $ \ phi = 1 $ span>,這是已知的。因此,我們可以使用它來確定“可接受”或“合理”的確定殘差水平。對於OLS回歸,通常無法做到這一點(除非您事先具有有關噪聲的信息)。即,我們期望每個偏差殘差約為 $ 1 $ span>。 $ d_i ^ 2 \ gg1 $ span>太多,該模型可能缺少重要的影響(擬合不足); $ d_i ^ 2 \ ll1 $ span>太多,並且模型中可能存在多餘或虛假的影響(過度擬合)。 (這也可能意味著模型規格不正確)。

現在,這意味著偽 $ R ^ 2 $ span>的問題在於它無法考慮到二項式變化的水平是可預測的(前提是不質疑二項式誤差結構)。因此,即使Nagelkerke的範圍從 $ 0 $ span>到 $ 1 $ span>,它仍無法正確縮放。此外,如果它們與通常的不相等,為什麼看不到為什麼它們被稱為偽 $ R ^ 2 $ span> $ R ^ 2 $ span>當您為帶有身份鏈接和正常錯誤的“ GLM”安裝時。例如,正常錯誤的等效Cox嗅覺R平方(使用REML方差估計)由下式給出:

$$ R ^ 2_ {CS} = 1- \ exp \ left(-\ frac {Np} {N} \ cdot \ frac {R ^ 2_ {OLS}} {1-R ^ 2_ {OLS}} \ right)$$ span>

那看起來確實很奇怪。

我認為更好的“擬合優度”度量是偏差殘差的總和, $ \ chi ^ 2 $ span>。這主要是因為我們有一個目標。

+1 [Srikant的答案](http://stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r-squared-measure-is-the-一來報告cox / 3560#3560)。
鑑於二項式GLM將使用迭代加權的最小二乘法進行擬合,為什麼作為擬合質量的一種度量方法不能報告上一次與GLM擬合的IRLS迭代的加權最小二乘擬合的R2?如https://stats.stackexchange.com/questions/412580/why-is-r2-not-reported-for-glms-based-on-last-iteration-of-weighted-least-square一樣嗎?
Stephan Kolassa
2010-10-14 00:33:12 UTC
view on stackexchange narkive permalink

我找到了Tue Tjur的簡短文章“邏輯回歸模型中的確定係數-新提案:歧視係數”(2009年,《美國統計師》 )在邏輯模型中確定係數的建議非常有啟發性。他在突出優點和缺點方面做得很好-當然提供了新的定義。非常推薦(儘管我自己不喜歡)。

感謝您指出那篇論文;我莫名其妙地錯過了它(當我在一個大型邏輯回歸項目中時就出現了!)。
根據記錄,此新定義為$ D = \ bar {\ hat \ pi} _1-\ bar {\ hat \ pi} _0 $,這是$ 1 $響應的平均預測值減去該值的平均值。 $ 0 $個回复。範圍從$ 0 $到$ 1 $。 Tjur沒有否認Nagelkerke偽造$ R ^ 2 $,但表示它缺乏$ D $享有的“直覺上的吸引力”。
onestop
2010-10-14 01:08:12 UTC
view on stackexchange narkive permalink

我也要說“都不是”,所以我贊成胡布的回答。

除了批評R ^ 2,Hosmer & Lemeshow還提出了另一種衡量善良的方法。 -適合有時有用的邏輯回歸。這是基於通過按預測概率(或等效地,線性預測變量)排序將數據分為(例如)10個大小相等(或盡可能接近)的組,然後將觀察到的陽性反應與預期的每組陽性反應進行比較並執行卡方檢驗。大多數統計軟件包都實施了這種“ Hosmer-Lemeshow擬合優度檢驗”。

原始的HL $ \ chi ^ 2 $ GoF檢驗不是很有效,因為它取決於將連續預測變量的規模分為任意數量的組。 H&L建議考慮十分位數,但顯然這取決於樣本數量,在某些情況下(例如IRT模型),在規模的一端或兩端通常只有很少的人,因此分界線分佈不均。請參閱邏輯回歸模型的擬合優度檢驗比較Stat。中1997 16(9):965,http://j.mp/aV2W6I
謝謝chi,這是一個有用的參考,儘管您的j.mp鏈接將我帶到了BiblioInserm登錄提示符。這是一個基於doi的鏈接:http://dx.doi.org/10.1002/(SICI)1097-0258(19970515)16:9 <965 :: AID-SIM509> 3.0.CO; 2-O
抱歉,提供的鏈接不正確...我似乎還記得弗蘭克·哈雷爾(Frank Harrell)的“設計”包具有替代性的H&L 1 df測試功能。
user28
2010-10-13 21:36:53 UTC
view on stackexchange narkive permalink

我更喜歡Nagelkerke,因為當模型完全擬合時該模型擬合為1,從而使讀者感覺到您的模型離完美擬合還有多遠。 Cox &外殼無法達到1以獲得完美的模型擬合,因此解釋0.09的值會有點困難。有關偽RSquared的更多信息,請參見此URL,以獲取各種擬合的說明。

到目前為止,在任何現實的邏輯回歸中都無法實現“完美契合”,因此將其用作參考或標準似乎不公平。
@whuber是的,但是您可以使用該標準來比較兩個競爭模型的相對性能。您的答案中R ^ 2低的點及其含義是好的點,但是如果您*(例如,審閱者要求它)使用某種形式的R ^ 2,那麼Nagelkerke是更可取的。
@Skridant是的,仍然是想要在各處看到$ R ^ 2 $和Bonferroni更正的審稿人的問題...
-1
@chl當然有必要向審閱者/客戶提供回推,但有時我們也必須務實。如果讀者沒有將低R ^ 2誤解為缺乏足夠的模型性能,那麼@whuber提出的問題將在一定程度上得到緩解。
@Skridant預測性能的替代度量更有意義或更直觀(例如ROC區域,Somers D),並且可以與偽$ R ^ 2 $一起報告。
rolando2
2011-11-17 06:00:15 UTC
view on stackexchange narkive permalink

儘管有人反對使用偽R平方,但出於各種原因,有些人還是希望至少在某些時候繼續使用它們。我從閱讀中得出的結論(對不起,目前我無法提供引用)是

  • ,如果同時使用C&S和Nag。低於.5,則C&s會更好;如果兩者均高於.5,則Nag。將;和
    如果跨越0.5,則平底船。

此外,斯科特·梅納德(Scott Menard)在《應用邏輯回歸分析》(Sage)中提到,其結果通常介於兩者之間的公式是

  [-2LL0-(-2LL1)] /-2LL0。 

在下表中將其表示為“ L”。

enter image description here

該圖片顯示了什麼(水平軸代表什麼)?另外,最後一個公式(看起來像是按比例的似然比統計量)與Nagelkerke $ R ^ 2 $到底有何不同?
分析編號:我嘗試使用不同的數據集進行各種分析。暫無Nagelkerke公式,但是我敢打賭,它很容易獲得。
Paul Allison在http://www.statisticalhorizo​​ns.com/2013/02涵蓋了Nagelkerke公式,該公式是向上調整的Cox&Snell公式。在閱讀了該博客之後,通常是在大部分討論之後的2-3年中,我變得更加確信Cox&Snell的低估了解釋方差,並且我最好對C&S和Nagelkerke結果取平均值。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...