我會認為任何用於邏輯回歸的 $ R ^ 2 $ span>度量的主要問題是您要處理的模型具有已知的噪聲值。這與標準線性回歸不同,標準線性回歸通常將噪聲水平視為未知。因為我們可以將glm概率密度函數編寫為:
$$ f(y_i | \ mu_i,\ phi)= \ exp \ left(\ frac {y_ib (\ mu_i)-c(\ mu_i)} {\ phi} + d(y_i,\ phi)\ right)$$ span>
其中 $ b(。),\ c(。),\ d(。;。)$ span>是已知函數,並且 $ \ mu_i = g ^ {-1}( x_i ^ T \ beta)$ span>用於反向鏈接函數 $ g ^ {-1}(。)$ span>。如果我們將通常的GLM偏差殘差定義為
\ begin {align} d_i ^ 2 & = 2 \ phi \ left(\ log [f [y(i_i | \ mu_i = y_i,\ phi)]-\ log [f(y_i | \ mu_i = \ hat {\ mu} _i,\ phi)] \ right)\\ & = 2 \ phi \ left [y_ib(y_i)-y_ib (\ hat {\ mu} _i)-c(y_i)+ c(\ hat {\ mu} _i)\ right] \ end {align} span>我們(通過似然比卡方, $ \ chi ^ 2 = \ frac {1} {\ phi} \ sum_ {i = 1} ^ {N} d_i ^ 2 $ span>)
$$ E \ left(\ sum_ {i = 1} ^ {N} d_i ^ 2 \ right)= E(\ phi \ chi ^ 2)\ approx(Np)\ phi $$ span>
其中 $ p $ span>是 $ \ beta $ span>的尺寸。對於邏輯回歸,我們有 $ \ phi = 1 $ span>,這是已知的。因此,我們可以使用它來確定“可接受”或“合理”的確定殘差水平。對於OLS回歸,通常無法做到這一點(除非您事先具有有關噪聲的信息)。即,我們期望每個偏差殘差約為 $ 1 $ span>。 $ d_i ^ 2 \ gg1 $ span>太多,該模型可能缺少重要的影響(擬合不足); $ d_i ^ 2 \ ll1 $ span>太多,並且模型中可能存在多餘或虛假的影響(過度擬合)。 (這也可能意味著模型規格不正確)。
現在,這意味著偽 $ R ^ 2 $ span>的問題在於它無法考慮到二項式變化的水平是可預測的(前提是不質疑二項式誤差結構)。因此,即使Nagelkerke的範圍從 $ 0 $ span>到 $ 1 $ span>,它仍無法正確縮放。此外,如果它們與通常的不相等,為什麼看不到為什麼它們被稱為偽 $ R ^ 2 $ span> $ R ^ 2 $ span>當您為帶有身份鏈接和正常錯誤的“ GLM”安裝時。例如,正常錯誤的等效Cox嗅覺R平方(使用REML方差估計)由下式給出:
$$ R ^ 2_ {CS} = 1- \ exp \ left(-\ frac {Np} {N} \ cdot \ frac {R ^ 2_ {OLS}} {1-R ^ 2_ {OLS}} \ right)$$ span>
那看起來確實很奇怪。
我認為更好的“擬合優度”度量是偏差殘差的總和, $ \ chi ^ 2 $ span>。這主要是因為我們有一個目標。