我很好奇,對於那些與其他研究人員合作有豐富經驗的人,您遇到的關於線性回歸的最常見誤解是什麼?
我認為這是一個有用的練習,可以提前考慮常見的誤解,以便
預測人們的錯誤並能夠成功表達為什麼一些誤解是不正確的
- ol>
請注意,如果我自己懷有一些誤解!
我能想到的幾個基本的變量:
必須對自變量/因變量進行正態分佈
必須對變量進行標準化才能準確解釋
還有其他人嗎?
歡迎所有回复。
我很好奇,對於那些與其他研究人員合作有豐富經驗的人,您遇到的關於線性回歸的最常見誤解是什麼?
我認為這是一個有用的練習,可以提前考慮常見的誤解,以便
預測人們的錯誤並能夠成功表達為什麼一些誤解是不正確的
- ol>
請注意,如果我自己懷有一些誤解!
我能想到的幾個基本的變量:
必須對自變量/因變量進行正態分佈
必須對變量進行標準化才能準確解釋
還有其他人嗎?
歡迎所有回复。
錯誤的前提: $ \ boldsymbol {\ hat {\ beta} \ approx 0} $ span>表示DV和IV之間沒有牢固的關係。非線性函數關係比比皆是,但是,如果假設關係必須是線性的,甚至近似線性的,則許多由這種關係產生的數據通常會產生接近零的斜率。
相關地,在另一個錯誤的前提下,研究人員經常假設(可能是因為許多入門性回歸教科書都講授了)通過將DV的回歸建立到多項式的多項式展開上來“檢驗非線性”。 IV (例如, $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ varepsilon $ span>,後跟 $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ beta_ {X ^ {2}} X ^ {2} + \ varepsilon $ span>,後跟 $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ beta_ {X ^ {2}} X ^ {2} + \ beta_ {X ^ {3}} X ^ {3} + \ varepsilon $ span>等)。正如直線不能很好地表示DV和IV之間的非線性功能關係一樣,拋物線也不能很好地表示無限數量的非線性關係(例如,正弦曲線,擺線,階躍函數,飽和效應,s曲線等)。 em> ad infinitum )。可以改用一種不採用任何特定功能形式(例如運行線平滑器,GAM等)的回歸方法。
第三個錯誤前提是,增加估計的參數的數量必然會導致統計功效的損失。並需要多個參數進行估算(例如,“斷棍”功能不僅需要直線的 intercept 和 slope 項,還需要在坡度變化和估算值有多少坡度):錯誤指定的模型(例如直線)的殘差可能會變得非常大(相對於正確指定的功能關係)導致較低的拒絕概率,並具有更大的置信區間和預測區間(除了估計值有偏差)。
非常普遍的假設是只有$ y $數據會受到測量誤差的影響(或者至少是我們將要考慮的唯一誤差)。但這忽略了$ x $測量結果中錯誤的可能性和後果。在$ x $變量不受實驗控制的觀察性研究中,這可能尤其嚴重。
回歸稀釋 或回歸衰減是Spearman(1904)認識到的現象,其中由於獨立變量中存在測量誤差,因此簡單線性回歸中的估計回歸斜率偏向零。假設真實的斜率是正的-抖動點的$ x $坐標(可能最容易可視化為“水平”塞點)的效果是使回歸線不那麼陡峭。憑直覺,由於正的測量誤差,具有較大$ x $的點現在更有可能出現,而$ y $的值更有可能反映$ x $的真實(無錯誤)值,因此更低
在更複雜的模型中,$ x $變量的測量誤差可能會對參數估計值產生更複雜的影響。變量模型中存在 個錯誤 ,這些錯誤已考慮在內。 Spearman建議使用校正因子來減弱雙變量相關係數,而針對更複雜的情況,還開發了其他校正因子。但是,這樣的校正可能很困難-尤其是在多變量情況下,並且在混雜因素的情況下-校正是否是真正的改進可能會引起爭議,例如參見史密斯和菲利普斯(1996)。
所以我想這是對一個價格的兩個誤解—一方面,認為我們寫$ y = X \ beta + \ varepsilon $的方式意味著“所有錯誤都在於$ y $”,而忽略了自變量中非常實際的測量誤差可能性。另一方面,在諸如膝跳反應的所有情況下,不建議對測量誤差盲目應用“校正”(儘管首先採取措施減少測量誤差可能是一個好主意) 。
(我可能還應該以越來越普遍的順序鏈接到其他一些常見的變量誤差模型:正交回歸,戴明回歸和最小二乘法。)
參考文獻
Smith,GD,& Phillips,AN(1996年) )。 “ 流行病學中的通貨膨脹:'兩物之間聯繫的證明和度量'”。 《英國醫學雜誌》 , 312 (7047),1659–1661。
Spearman,C.(1904)。 “證明和衡量兩件事之間的聯繫。” 美國心理學雜誌 15 :72-101。
在此上下文以及其他統計上下文中,存在一些標準的誤解:例如,$ p $值的含義,錯誤地推斷因果關係等。
我對一些誤解認為特定於多元回歸的有:
我想說的是,您列出的第一個可能是最普遍的-也許是最廣泛的教導-在明顯被認為是錯誤的事情中,但是這裡有其他一些在某些情況下(無論它們是否真的適用)尚不清楚,但可能會影響更多的分析,甚至可能會更加嚴重。當引入回歸主題時,通常通常根本就不會提到這些。
將其作為來自感興趣的觀察數據集中的隨機樣本進行處理,可能無法接近代表值(更不用說隨機採樣)。 [相反,有些研究可以看作是更方便的樣本]
有了觀測數據,只是忽略了忽略過程的重要驅動因素而造成的結果,這些驅動因素肯定會使估計值產生偏差包含變量的係數(在許多情況下,甚至可能改變其符號),而沒有嘗試考慮處理它們的方法(無論是出於對問題的無知還是只是不知道任何事情都可以做)。 [某些研究領域比其他研究領域更多地遇到了這個問題,無論是由於所收集的數據的種類,還是因為某些應用領域的人們更可能被教導有關該問題的信息。]
虛假回歸(主要是隨時間收集的數據)。 [即使人們知道它發生了,也存在另一個普遍的誤解,認為僅與假定的平穩性相差就足以完全避免該問題。]
還有很多其他人可以提到當然(例如,處理幾乎可以肯定是串行相關或什至是整合的獨立數據可能差不多一樣普遍)。
您可能會注意到,隨時間推移收集的數據的觀察性研究可能會同時受到所有這些的影響……但是,這種研究在許多將回歸作為標準工具的研究領域中非常普遍。在沒有一個審閱者或編輯者不了解其中至少一個並且結論中至少需要一定程度的免責聲明的情況下,如何才能發表論文仍令我感到擔憂。
在處理相當謹慎地控制的實驗時(與可能不是那麼謹慎地控制的分析相結合),統計數據充滿了無法再現的問題,因此,一旦超出那些界限,可再現性就必須惡化得多情況如何?
我可能不會稱這些誤解,但可能是混淆/掛斷的共同點,在某些情況下還可能是研究人員可能不知道的問題。
在誤解方面事物:
根據我的經驗,學生經常認為平方誤差(或OLS回歸)本質上是適當,準確和整體上可以使用的好東西,甚至是不可替代的。它“對更多極端/越軌的觀察給予更大的重視”,並且在大多數情況下,至少暗示這是一種理想的特性。當引入離群值和穩健方法時,可以稍後修改此概念,但此時已造成損害。可以說,從歷史上看,平方誤差的廣泛使用與其數學上的便利有關,而不是與現實世界中一些實際的誤差成本自然定律有關。錯誤函數有些武斷。理想地,算法內懲罰的任何選擇均應以與潛在錯誤相關的相應的實際成本函數為指導(即使用決策框架)。為什麼不先建立這個原則,然後看看我們能做得如何?
另一個常見的誤解是誤差項(或計量經濟學術語中的干擾)和殘差是同一件事。
誤差項是 true模型 em中的隨機變量>或數據生成過程,通常被認為遵循一定的分佈,而殘差是觀測數據與擬合模型的偏差。這樣,殘差可以被認為是誤差的估計。
我遇到的最常見的誤解是線性回歸假設誤差的正態性。沒有。正態性與線性回歸的某些方面有關,例如小樣本屬性,例如係數的置信極限。即使對於這些東西,非正態分佈也有漸近值。
第二常見的是關於內生性的一堆混亂,例如對反饋循環不小心。如果存在從Y到X的反饋迴路,那就是一個問題。
在實踐中,我經常看到的是對線性回歸在某些用例中的適用性的誤解。
例如,讓我們說我們感興趣的變量是某物(例如:網站上的訪問者)或某物的比率(例如:轉化率)。在這種情況下,可以通過使用泊松(計數),貝塔(比率)等鏈接函數更好地對變量進行建模。因此,使用具有更合適鏈接函數的廣義模型更為合適。但是僅僅因為變量不是分類變量,所以我已經看到人們從簡單的線性回歸(鏈接函數=身份)開始。即使我們不考慮準確性的影響,這裡的建模假設也是一個問題。
我犯的一個錯誤是假設OLS中X和Y對稱。 例如,如果我假設一個線性關係 $$ Y = a \,X + b $$ 我的軟件使用OLS給出a和b,那麼我相信假設X為Y的函數將使用OLS給出係數: $$ X = \ frac {1} {a} \,Y-\ frac {b} {a} $$ 那是錯誤的。
也許這也與OLS和總最小二乘或第一主成分之間的差異有關。
以下是我認為經常被研究人員忽略的一個變量:
另一個常見的誤解是,估算值(擬合值)並非不變,例如
$$ f(\ hat {y} _i)\ neq \ widehat {f(y_i)} $$通常,其中$ \ hat {y} _i = \ vec {x} _i ^ T \ hat {\beta} $,根據您估計的回歸係數擬合的回歸值。
如果這是單調函數$ f(\ cdot)$所需要的,而不一定是線性的,那麼您所需要的就是分位數回歸。
上面的等式在線性函數的線性回歸中成立,但非線性函數(例如$ log(\ cdot)$)將不成立。但是,這適用於分位數回歸中的任何單調函數。
當您對數據進行對數轉換,擬合線性回歸,然後對擬合值求冪並被人們視為回歸時,就會一直出現這種情況。這不是平均值,而是中位數(如果事物確實以對數正態分佈的話)。