題:
在線性回歸中,什麼時候使用自變量的對數代替實際值合適?
d_2
2010-07-20 18:11:50 UTC
view on stackexchange narkive permalink

我是要為有問題的自變量尋找更好的行為分佈,還是為了減少離群值的影響?

您是否在問如何減少離群值的影響或何時使用某些變量的對數?
我認為OP在說“我聽說有人使用輸入變量登錄:他們為什麼這樣做?”
為什麼只是日誌?這個問題不應該適用於任何可用於最小化與mx + b相關的殘差的數據轉換技術嗎?
@AsymLabs-該日誌在回歸中可能是特殊的,因為它是將乘積轉換為求和的唯一函數。
對讀者的警告:該問題詢問有關轉換IV的問題,但一些答案似乎是在談論轉換DV的原因。不要誤以為這些都是改變IV的原因-有些可以,有些當然不是。特別是,IV的分佈通常不相關(實際上,DV的邊際分佈也不是)。
八 答案:
whuber
2010-10-12 23:59:34 UTC
view on stackexchange narkive permalink

我總是很猶豫地跳入一個具有如此多出色響應的線程,但令我驚訝的是,幾乎沒有答案提供任何理由比其他“擠壓”數據的轉換更喜歡對數,例如根

在此之前,讓我們以更一般的方式概括現有答案中的智慧。當以下任一情況適用時,將指示因變量的 Some 非線性重新表達:

  • 殘差具有偏斜分佈。變換的目的是獲得近似對稱分佈的殘差(當然約為零)。

  • 殘差的分佈隨因變量的值而係統地變化(“異方差”)。轉換的目的是消除傳播中的系統變化,以達到近似的“均方差”。

  • 使關係線性化。

  • 當科學理論表明時。例如,化學方法通常建議將濃度表示為對數(給定活性,甚至是眾所周知的pH)。

  • 當更模糊的統計理論表明殘差反映“隨機誤差”時不會累加。

  • 為簡化模型。例如,有時對數可以簡化“交互”項的數量和復雜性。

(這些指示可能會相互衝突;在這種情況下,需要進行判斷。 )

那麼,什麼時候特別指出了對數 而不是其他轉換形式?

  • 殘差具有“強烈”的正偏分佈。 John Tukey在其有關EDA的書中提供了基於殘差的秩統計量來估計轉換(在Box-Cox族或冪轉換之內)的定量方法。確實可以歸結為以下事實:如果採用對數對稱使殘差對稱,那可能是正確的重新表達形式;

  • 當殘差的SD與擬合值成正比(而不與擬合值的某些冪成正比)時。

  • / p>
  • 當關係接近指數時。

  • 當殘差被認為反映了乘法累積誤差時。

  • 您真的想要一個模型,其中解釋變量的邊際變化根據因變量的乘性(百分比)變化來解釋。

最後,一些 non -使用重新表達的原因

  • 使異常值看起來不像異常值。離群值是不適合數據的某些簡約,相對簡單描述的數據。更改描述以使異常值看起來更好通常是對優先級的不正確逆轉:首先獲得對數據的科學有效,統計學上良好的描述,然後探索任何異常值。不要讓偶然的異常值決定如何描述其餘數據!

  • 因為該軟件會自動執行此操作。 (足夠說了!)

  • 因為所有數據都是正數。 (正數通常意味著正偏度,但不一定如此。此外,其他轉換可以更好地工作。例如,根通常對計數的數據最有效。)

  • To使“不良”數據(也許質量較低)表現良好。

  • 為了能夠繪製數據。 (如果需要進行變換才能繪製數據,則可能出於已經提到的一個或多個良好原因而需要進行變換。如果真正地進行變換的唯一原因是進行繪製,請繼續進行操作,但僅 繪製數據。將數據保持不變以進行分析。)

諸如某個地區的人口密度,每個學區的兒童教師比例或人口中每千人中的兇殺人數之類的變量又如何呢?我已經看到教授把這些變量記入日誌。我不清楚為什麼。例如,兇殺率已經不是一個百分比嗎?日誌會改變百分比的比率嗎?為什麼首選兒童教師比例的對數?當沒有關於真實函數形式的基礎理論時,是否應該對每個連續變量進行對數變換?
@J G小比率往往具有偏斜的分佈;對數和根可能會使它們更加對稱。我不理解您與百分比有關的問題:也許您正在混淆百分比的不同用法(一種表示整體的比例,另一種表示相對變化)?我不相信我寫過任何提倡始終使用對數的東西-遠非如此!因此,我不了解您最後一個問題的依據。
“當殘差被認為反映了乘積誤差時。”我在解釋這句話時遇到了麻煩。可以用另外一兩個句子充實一下嗎?您指的是什麼積累?
@user1690130用於比率和密度,通常應將其作為計數的泊松族分佈進行擬合,並應抵消暴露量。例如。人數是計數,偏移量是該區域的面積。請參閱此問題以獲取良好的解釋-https://stats.stackexchange.com/questions/11182/when-to-use-an-offset-in-a-poisson-regression
@Hatshepsut乘以累加誤差的簡單示例是將體積作為因變量,以及每個線性尺寸的測量誤差。
請注意,此答案證明對解釋變量進行轉換以使統計模型有效(殘差分佈更好)是合理的,但請記住,這些轉換將影響您正在使用該模型測試的假設:例如,測試對數轉換的效果預測變量對響應的影響與測試其對響應的非轉換線性效應不同。
Graham Cookson
2010-07-23 19:43:14 UTC
view on stackexchange narkive permalink

我總是告訴學生,採用自然對數來轉換變量的三個原因。記錄變量的原因將決定您是要記錄獨立變量還是因變量或兩者。為了清楚起見,我正在談論採用自然對數。

首先,如其他海報所述,以提高模型擬合度。例如,如果您的殘差不是正態分佈的,則採用偏斜變量的對數可以通過更改比例並使變量更“呈正態”分佈來改善擬合。例如,收入被截斷為零,並且經常表現出正偏斜。如果變量具有負偏斜,則可以先取變量,然後再取對數。我在這里特別考慮的是作為連續變量輸入的李克特量表。雖然這通常適用於因變量,但您有時會遇到因自變量引起的殘差(例如異方差)問題,有時可以通過取該變量的對數來進行校正。例如,當運行一個模型來解釋一組講師的講師評估並與班級進行協變量時,變量“班級規模”(即講課的學生人數)的異常值會導致異方差,因為講師評估中的方差較小,而較大隊列比較小的隊列。記錄學生變量將有所幫助,儘管在此示例中,計算魯棒標準誤差或使用加權最小二乘可能使解釋更容易。

在模型中記錄一個或多個變量的第二個原因是為了解釋。我稱此為便利原因。如果同時記錄因變量(Y)和自變量(X),則回歸係數($ \ beta $)將具有彈性,解釋將如下所示:X增加1%將導致 ceteris paribus Y(平均)增長了\\ beta $%。僅記錄回歸“方程式”的一側將導致如下所示的其他解釋:

Y和X-X的單位增加將導致Y \ beta $的增加/減少

對數Y和對數X-X增長1%將導致Y的$ \ beta $%增減

對數Y和X-一個單位X的增加會導致Y和log X的$ \ beta * 100 $%的增加/減少– X的增加1%會導致$ \ beta / 100 $的增加/ Y的減小

最後,這樣做可能有理論上的原因。例如,我們要估計的一些模型是可乘的,因此是非線性的。採用對數可以通過線性回歸估計這些模型。很好的例子包括經濟學中的Cobb-Douglas生產函數和教育中的Mincer方程。 Cobb-Douglas生產函數解釋瞭如何將輸入轉換為輸出:

$$ Y = AL ^ \ alpha K ^ \ beta $$

其中

$ Y $是某個實體的總生產或產出,例如公司,農場等。

$ L $是總要素生產率(不是由投入(例如技術變化或天氣)引起的產出變化)。勞動力輸入

$ K $是資本輸入

$ \ alpha $ & $ \ beta $是輸出彈性。

取對數使函數可以使用OLS線性回歸輕鬆估算:

$$ \ log(Y)= \ log(A)+ \ alpha \ log(L)+ \ beta \ log(K)$$ >

“ Log Y和X-X的單位增加將導致Y的β* 100%的增加/減少”:我認為這僅在β較小時適用,即exp(β)≈1 +β
很清楚,謝謝!一個問題,您如何解釋對數Y和X情況下的截距?通常我對如何報告對數轉換的回歸感到煩惱...
我很想得到包含經濟學示例的答案[“您在'** Cobb-Douglas生產函數**'中擁有我”]...。到log(A)**以使其與第一個方程式保持一致。
確實是@Ida。對於有興趣的讀者,我的帖子[here](https://stats.stackexchange.com/a/320815/8013)描述了為什麼對於記錄為“ y”的分析師,分析師應該設置$ 100 \ times(e ^ \ beta-1)$作為百分比變化。
onestop
2010-10-13 01:26:53 UTC
view on stackexchange narkive permalink

更多關於whuber的觀點,關於對數而不是諸如根或倒數之類的其他變換的原因,但著重於由對數變換所得到的回歸係數與之相比的獨特的可解釋性其他轉換,請參見:

Oliver N. Keene。日誌轉換很特殊。 《醫學統計》,1995年; 14(8):811-819。 DOI: 10.1002 / sim.4780140810。 (可疑合法性PDF可以在 http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf中找到)。 / p>

如果將獨立變量 x 記錄到以 b 為基礎,則可以將回歸係數(和CI)解釋為每 b 的因變量 y 的變化- x 的增加倍。 (因此,以2為底的對數通常很有用,因為它們對應於 x 每加倍的 y 的變化,或者如果是 x 則以10為底的對數變化幅度很大,這很罕見)。其他轉換(例如平方根)沒有這種簡單的解釋。

如果您記錄了從屬變量 y (不是原始問題,而是一個前面的幾個答案已經解決了),然後我發現蒂姆·科爾(Tim Cole)的“符號”(Sympercents)概念對於呈現結果很有吸引力(我什至在一篇論文中都使用過它們),儘管它們似乎並未引起廣泛關注: / p>

Tim J Cole。對稱百分數:100 log(e)刻度上的對稱百分數差異簡化了對數轉換數據的表示。 醫學統計學 2000; 19(22):3109-3125。 DOI: 10.1002 / 1097-0258(20001130)19:22<3109 :: AID-SIM558> 3.0.CO; 2-F [我很高興 Stat Med 停止使用 SICIs作為DOI ...]

感謝您的參考和非常好的意見。感興趣的問題是此問題是否適用於所有轉換,而不僅是日誌。對我們來說,統計數據/概率是有用的,因為它可以進行有效的性能預測或有效的標準/指導。多年以來,我們一直在使用冪變換(另一個名字的對數),多項式變換和其他變換(甚至是分段變換)來嘗試減少殘差,收緊置信區間並通常根據給定的數據集提高預測能力。現在我們說這是不正確的嗎?
@AsymLabs, Breiman的兩種文化(大致為預測者和建模者)有何區別? cf. [兩種文化]-引起爭議。
Shane
2010-07-20 18:16:29 UTC
view on stackexchange narkive permalink

通常使用輸入變量的對數來縮放它並更改分佈(例如,使其呈正態分佈)。但是,不能盲目地做到這一點。您在進行任何縮放時都必須小心,以確保結果仍然可以解釋。

大多數介紹性統計文本中都對此進行了討論。您也可以閱讀安德魯·蓋爾曼(Andrew Gelman)關於“用兩個標準差除以比例回歸輸入”的論文進行討論。在“使用回歸和多層次/層次模型進行數據分析”的開始處,他也對此進行了很好的討論。

獲取日誌不是處理該問題的適當方法。錯誤的數據/異常值。

csgillespie
2010-07-20 18:22:40 UTC
view on stackexchange narkive permalink

當殘差出現問題時,您傾向於記錄數據日誌。例如,如果您針對特定協變量繪製殘差並觀察到增加/減少的模式(漏斗形狀),則進行轉換可能是合適的。非隨機殘差通常表明您的模型假設是錯誤的,即非正態數據。

某些數據類型會自動進行對數轉換。例如,在處理濃度或年齡時,我通常會記錄日誌。

儘管轉換並不是主要用於處理離群值,但由於獲取日誌會擠壓數據,因此它們確實有幫助。

但是,仍然使用對數更改模型-對於線性回歸,它是y〜a * x + b,對於線性回歸而言,它是y〜y0 * exp(x / x0)。
我同意-以log更改您的模型。但是,如果您必須轉換數據,則意味著您的模型最初並不適合。
@cgillespie:濃度,是的;但是年齡?真奇怪
@whuber:我想這是非常依賴數據的,但是我使用的數據集,您會看到10到18歲之間有很大的差異,而20到28歲之間有很小的差異。即使對於幼兒,0-1歲之間的差異也與1-2歲之間的差異並不相同。
是的,這將取決於數據:您進行深入而有效的分析的能力是此問題的最終仲裁者,而不是我的先入之見。我只是在嘗試設想這樣一種情況,即年齡作為一個*獨立*變量值得進行如此強有力的轉變。新生兒也會發生一些奇怪的事情;-)。
“ @whuber”非隨機殘差通常表示您的模型假設是錯誤的,即非正態數據。在該站點的其他地方,我被理解為OLS不會對基礎數據施加任何分佈假設,但是當您進行正則理論推斷時,只會將這些條件施加於殘差上。因此,我是否誤解了以上內容,還是措辭不佳?
@landroni簡短地說。我不會說它很差,除非它可能是“例如”旨在代替“即”我理解“獨立”和“分佈相同”的意義上的“隨機”的使用,這確實是OLS假定的最普遍的假設。在某些情況下,人們還認為該基本分佈是正態的,但在實踐或理論上並不是嚴格必須的:所有必要的是相關統計數據的採樣分佈接近正態。
Frank Harrell
2015-10-19 16:37:38 UTC
view on stackexchange narkive permalink

自變量$ X $的轉換是一種可以憑經驗進行而不會扭曲推論的情況,只要人們對遊戲的自由度保持誠實。一種方法是將回歸樣條用於未知的線性$ X $。對我來說,這不是對數與原始比例的問題;這是$ X $的哪種轉換適合數據的問題。殘差的正態性不是這裡的標準。

當$ X $極度傾斜時,根據三次樣條函數的需要對$ X $進行求值會導致極值,有時可能會導致數值問題。我通過在$ \ sqrt [3] {X} $上擬合三次樣條函數來解決此問題。 R rms 包將最裡面的變量視為預測變量,因此繪製預測值將在$ x $軸上具有$ X $。示例:

  require(rms)dd <- datadist(mydata); options(datadist ='dd')cr <-函數(x)x ^(1/3)f <ols(y〜rcs(cr(X),5),data = mydata)ggplot(Predict(f)) #將cr(X)的樣條曲線相對於X  

進行繪製,這使$ \ sqrt [3] {X} $中的受限三次樣條曲線在默認分位數位置具有5個結。 $ X $適合度為4 d.f. (一個線性項,三個非線性項)。置信帶和關聯測試尊重這4 d.f.,充分認識到“轉換不確定性”。

(+1)如果$ E [Y | X] = f(X)$的函數形式存在歧義,只要有足夠的數據,分析人員應使用樣條曲線或局部回歸之類的平滑程序,而不要“盯著”最適合”。為了進行推斷,對數趨勢和線性趨勢通常在關聯的方向和大小上是一致的。對數變換的主要好處是解釋。
Sannita
2015-10-19 16:24:59 UTC
view on stackexchange narkive permalink

我想回答user1690130的問題,該問題留給12年10月26日第一個答案的註釋,內容如下:“關於某個區域的人口密度或孩子與老師比例之類的變量呢?對於每個學區或每千人口中的兇殺案數量?我已經看到教授採用這些變量的對數。我不清楚為什麼,例如,兇殺率已經不是一個百分比嗎?比率的百分比變化?為什麼偏愛兒童教師比率的對數?”

我一直在尋找類似的問題,並希望分享我以前的統計課程( Jeffrey Wooldridge。2006年。《計量經濟學-現代方法》,第4版,第6章多元回歸分析:更多問題,第191頁)對此進行了闡述。 Wooldridge建議:

以比例或百分比形式顯示的變量,例如失業率,退休金計劃的參與率,通過標準化考試的學生百分比和逮捕率關於已舉報的犯罪-可以以原始形式或對數形式出現,儘管有將其以等級形式使用的趨勢。這是因為任何涉及原始變量(無論是因變量還是自變量)的回歸係數都將具有百分比變化解釋。如果我們在回歸中使用log( unem ),其中 unem 是失業人口的百分比,我們必須非常謹慎地區分百分點變化和百分比變化。請記住,如果 unem 從8升至9,這將增加一個百分點,但比初始失業水平增加12.5%。使用對數意味著我們正在查看失業率的百分比變化:log(9)-log(8)= 0.118或11.8%,這是實際增長12.5%的對數近似值。

基於此並wh積Whuber先前對user1690130的問題的評論,我將避免使用密度或百分比變量的對數以使解釋保持簡單,除非使用對數形式產生重大折衷,例如減少密度或速率變量的偏度。

通常針對百分比(即(0,1)上的比例)使用logit變換。這是因為比例數據經常違反殘差正態性的假設,從而導致log變換無法糾正。
russellpierce
2010-07-20 19:13:50 UTC
view on stackexchange narkive permalink

Shane認為採用日誌來處理不良數據是正確的。正如科林(Colin)關於正態殘差的重要性一樣。在實踐中,我發現如果輸入和輸出變量也相對正常,則通常可以得到正常殘差。實際上,這意味著關注轉換後的和未轉換的數據集的分佈,並確保自己變得更加正常和/或進行正態性檢驗(例如Shapiro-Wilk或Kolmogorov-Smirnov檢驗)並確定結果是否更正常。相互影響和傳統也很重要。例如,在認知心理學中,通常使用反應時間的對數變換,但是至少對我而言,對對數RT的解釋尚不清楚。此外,使用對數轉換後的值時應謹慎,因為規模的變化可能將一種主要效應變成一種相互作用,反之亦然。

答案將根據投票進行重新排序,因此請盡量不要參考其他答案。
正常性測試通常過於嚴格。通常它足以獲得對稱分佈的殘差。 (實際上,殘差傾向於具有強烈的峰值分佈,部分原因是我懷疑是估計的假象,因此,無論人們如何重新表達數據,殘差都將被測試為“顯著”非正態。)
@whuber:同意。這就是為什麼我指定“變得更加正常”。目的應該是關注測試統計數據的變化,而不是基於測試的p值的接受/拒絕決定。
應該總是酌情參考其他答案!
@abalter?我不懂
抱歉,我指的是@VebjornLjosa's評論。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...