題:
如何使用family = Gamma解釋GLM中的參數
Cajira
2014-04-29 23:51:53 UTC
view on stackexchange narkive permalink

我對帶有伽馬分佈因變量的GLM的參數解釋有疑問。這是R通過日誌鏈接返回我的GLM的結果:

  Call:glm(公式=收入〜身高+年齡+ educat +已婚+性別+語言+高中,家庭= Gamma(鏈接殘差:最小值1Q中位數3Q最大值-1.47399 -0.31490 -0.05961 0.18374 1.94176係數:估計標準誤差t值Pr(> | t |)(攔截)6.2202325 0.2182771 28.497 < 2e-16 ***高度0.0082530 0.0011930 6.918 5.58e-12 *** age 0.0001786 0.0009345 0.191 0.848 educat 0.0119425 0.0009816 12.166 < 2e-16 ***已婚-0.0178813 0.0173453 -1.031 0.303性別-0.3179608 0.0216168 -14.709 < 2e-16 ***語言0.0050755 0.0279452 0.182 0.856高中0.3466434 0.0167621 20.680 < 2e-16 *** --- Signif。代碼:0'***'0.001'**'0.01'*'0.05'。'0.1''1(Gamma族的色散參數取為0.1747557)零偏差:2999自由度上為757.46殘餘偏差:2992上為502.50自由度AIC:49184  

如何解釋參數?如果我計算模型的 exp(coef()),則截距約為500。現在我相信,如果所有其他變量都保持不變,這並不意味著預期收入嗎?由於平均或平均(年齡)約為2000。因此,我不知道如何解釋協變量係數的方向和值。

如果所有其他變量都精確地為“零”(不僅僅是常數),則500接近預期收入-就像回歸中一樣。
@Glen_b為什麼在解釋變量發生變化的情況下,係數的指數成對收入的乘數效應時會產生預期收入?
討論中的情況是所有解釋變量均為0時的條件均值。
二 答案:
Dimitriy V. Masterov
2014-12-02 04:56:14 UTC
view on stackexchange narkive permalink

對數鏈接的伽馬GLM規範與指數回歸相同:

$$ E [y \ vert x,z] = \ exp \ left(\ alpha + \ beta \ cdot x + \ gamma \ cdot z \ right)= \ hat y $$

這意味著$ E [y \ vert x = 0,z = 0] = \ exp(\ alpha)$。那不是一個非常有意義的值(除非您事先將變量的中心設為零均值)。

至少有三種方法可以解釋模型。一種是取給定$ x $相對於$ x $的$ y $期望值的導數:

$$ \ frac {\ partial E [y \ vert x,z]} {\部分x} = \ exp \ left(\ alpha + \ beta \ cdot x + \ gamma \ cdot z \ right)\ cdot \ beta = \ hat y \ cdot \ beta $$

此數量取決於在$ x $和$ z $上,因此您可以以$ x $和$ z $的均值/中位數/模態值或代表值對此進行評估,或者取$ \ hat y \ cdot \ beta $的平均值樣品。這些都稱為邊際效應。這些導數僅對連續變量(如高度)有意義,並告訴您$ x $的小變化對$ y $的累加效果。

如果$ x $是二進制的(如性別),則可以考慮計算有限差分:$$ E [y \ vert z,x = 1] -E [y \ vert z,x = 0 ] = \ exp \ left(\ alpha + \ beta + \ gamma \ cdot z \ right)-\ exp \ left(\ alpha + \ gamma \ cdot z \ right)= \ exp \ left(\ alpha + \ gamma \ cdot z \ right)\ cdot \ left(\ exp(\ beta)-1 \ right)$$

這很有道理,因為很難想像性別的微小變化。當然,您也可以使用連續變量來執行此操作。這些是$ x $單位變化而不是微小變化的加性效果。

第三種方法是對係數求冪。請注意:

$$ \ begin {array} _E [y \ vert z,x + 1] & = \ exp \ left(\ alpha + \ beta \ cdot(x + 1)+ \ gamma \ cdot z \ right)\\ & = \ exp \ left(\ alpha + \ beta \ cdot x + \ beta + \ gamma \ cdot z \ right)\\ & = \ exp \ left(\ alpha + \ beta \ cdot x + \ gamma \ cdot z \ right)\ cdot \ exp(\ beta)\\ & = E [y \ vert z,x] \ cdot \ exp(\ beta)\ end {array} $$

這意味著您可以乘積而不是加法地解釋指數係數。當$ x $改變1時,它們會為您提供期望值的乘數。

您能舉例說明第二種解釋嗎?
@tatami我修復了二進制情況下的一個錯誤。現在更有意義了嗎?
Emre
2014-04-30 00:02:13 UTC
view on stackexchange narkive permalink

首先,我將看一下殘差以了解模型的擬合程度。如果可以,我將嘗試使用其他鏈接函數,除非我有理由相信它確實來自伽瑪分佈。如果伽瑪看起來仍然令人信服,我可以得出結論,統計學上有意義的術語是攔截,身高,學歷,性別和高中(標有三顆星的那些)。除非標準化(範圍相同),否則他們之間不能說更多。

回應評論:我現在更好地理解了你的問題。您絕對可以做到!單位高度的增加會導致exp(0.0082530)-1〜= 0.0082530(使用exp x = 1 + x近似表示小x)相對收入的變化。很容易解釋,不是嗎?

所以我實際上無法解釋參數,例如如果高度增加1,收入增加xy?
我相信現在我必須對它進行乘法解釋:exp(Intercept)* exp(height)將是高度增加1個單位的收入。不過,謝謝! :)


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...