題:
關於線性回歸最常見的誤解是什麼?
ST21
2016-06-10 00:10:43 UTC
view on stackexchange narkive permalink

我很好奇,對於那些與其他研究人員合作有豐富經驗的人,您遇到的關於線性回歸的最常見誤解是什麼?

我認為這是一個有用的練習,可以提前考慮常見的誤解,以便

  1. 預測人們的錯誤並能夠成功表達為什麼一些誤解是不正確的

  2. 請注意,如果我自己懷有一些誤解!

  3. ol>

我能想到的幾個基本的變量:

必須對自變量/因變量進行正態分佈

必須對變量進行標準化才能準確解釋

還有其他人嗎?

歡迎所有回复。

我認識的許多人仍然堅持對數據執行線性化處理,即使這樣,即使他們使用的計算環境為非線性回歸提供了良好的支持也是如此。(線性化當然可以作為非線性擬合的起點,但是這些人甚至都沒有意識到這一點。)
答案很好,但大多數人認為“其他研究人員”是指經過統計學培訓的人員。我與之合作的許多研究人員都來自其他學科,也許有一個基本的統計學課程。他們的誤解更為根本。像:關聯表示因果關係,從結果推論出與源數據相距甚遠的值將是準確的。
如果神使世界線性化,就不會有非線性回歸。
十二 答案:
Alexis
2016-06-10 00:40:15 UTC
view on stackexchange narkive permalink

錯誤的前提: $ \ boldsymbol {\ hat {\ beta} \ approx 0} $ span>表示DV和IV之間沒有牢固的關係。非線性函數關係比比皆是,但是,如果假設關係必須是線性的,甚至近似線性的,則許多由這種關係產生的數據通常會產生接近零的斜率。

相關地,在另一個錯誤的前提下,研究人員經常假設(可能是因為許多入門性回歸教科書都講授了)通過將DV的回歸建立到多項式的多項式展開上來“檢驗非線性”。 IV (例如, $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ varepsilon $ span>,後跟 $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ beta_ {X ^ {2}} X ^ {2} + \ varepsilon $ span>,後跟 $ Y \ sim \ beta_ {0} + \ beta_ {X} X + \ beta_ {X ^ {2}} X ^ {2} + \ beta_ {X ^ {3}} X ^ {3} + \ varepsilon $ span>等)。正如直線不能很好地表示DV和IV之間的非線性功能關係一樣,拋物線也不能很好地表示無限數量的非線性關係(例如,正弦曲線,擺線,階躍函數,飽和效應,s曲線等)。 em> ad infinitum )。可以改用一種不採用任何特定功能形式(例如運行線平滑器,GAM等)的回歸方法。

第三個錯誤前提是,增加估計的參數的數量必然會導致統計功效的損失。並需要多個參數進行估算(例如,“斷棍”功能不僅需要直線的 intercept slope 項,還需要在坡度變化和估算值有多少坡度):錯誤指定的模型(例如直線)的殘差可能會變得非常大(相對於正確指定的功能關係)導致較低的拒絕概率,並具有更大的置信區間和預測區間(除了估計值有偏差)。

(+1)小問題:(1)我什至不認為介紹性文字也暗示所有曲線都是多項式函數,而是可以通過多項式函數在給定範圍內將它們充分近似。因此,它們屬於“不採用任何特定函數形式的回歸方法”類別,由“擺動性”的“超參數”控制:黃土的跨度,否。以樣條曲線為基礎進行回歸的結,以多項式為基礎進行回歸的程度。(我並沒有為多項式揮舞旗幟-眾所周知,多項式趨向於比我們想要的更多-,...
...只是給他們應得的東西。)(2)正弦曲線可能很適合線性模型框架;使用非線性模型(例如,矩形雙曲線)的飽和效果;&C。當然,您沒有說別的,但是值得指出的是,如果您知道存在一個週期或一個漸近線,則在模型中應用這些約束將很有幫助。
-1
@Alexis嘗試通過多項式逼近Conway的以13為底的函數。:)
或$ \ chi _ {\ mathbb {Q}} $ ...
@Solomonoff'sSecret我想我應該說“任何*連續*功能”。:)
我為“非線性”測試感到困惑。擬議的多項式非線性測試似乎並未測試$ \ hat {\ beta} $中任何形式的非線性,而似乎僅測試了回歸變量$ x $中的多項式非線性。?
準確地是@user5965026。因此,***錯誤的前提。
Silverfish
2016-06-10 07:32:10 UTC
view on stackexchange narkive permalink

非常普遍的假設是只有$ y $數據會受到測量誤差的影響(或者至少是我們將要考慮的唯一誤差)。但這忽略了$ x $測量結果中錯誤的可能性和後果。在$ x $變量不受實驗控制的觀察性研究中,這可能尤其嚴重。

回歸稀釋 回歸衰減是Spearman(1904)認識到的現象,其中由於獨立變量中存在測量誤差,因此簡單線性回歸中的估計回歸斜率偏向零。假設真實的斜率是正的-抖動點的$ x $坐標(可能最容易可視化為“水平”塞點)的效果是使回歸線不那麼陡峭。憑直覺,由於正的測量誤差,具有較大$ x $的點現在更有可能出現,而$ y $的值更有可能反映$ x $的真實(無錯誤)值,因此更低

在更複雜的模型中,$ x $變量的測量誤差可能會對參數估計值產生更複雜的影響。變量模型中存在 個錯誤 ,這些錯誤已考慮在內。 Spearman建議使用校正因子來減弱雙變量相關係數,而針對更複雜的情況,還開發了其他校正因子。但是,這樣的校正可能很困難-尤其是在多變量情況下,並且在混雜因素的情況下-校正是否是真正的改進可能會引起爭議,例如參見史密斯和菲利普斯(1996)。

所以我想這是對一個價格的兩個誤解—一方面,認為我們寫$ y = X \ beta + \ varepsilon $的方式意味著“所有錯誤都在於$ y $”,而忽略了自變量中非常實際的測量誤差可能性。另一方面,在諸如膝跳反應的所有情況下,不建議對測量誤差盲目應用“校正”(儘管首先採取措施減少測量誤差可能是一個好主意) 。

(我可能還應該以越來越普遍的順序鏈接到其他一些常見的變量誤差模型:正交回歸戴明回歸最小二乘法。)

參考文獻

需要注意的是:這是使用被稱為“最小二乘法”或“正交回歸”(取決於您正在閱讀的參考文獻)的技術的原因之一;它比普通的最小二乘法要復雜得多,但是如果所有點都被錯誤污染,則值得這樣做。
@J.M。謝謝-是的,事實上,我原本打算插入TLS的鏈接,但是卻對Smith和Phillips的文章分心!
+1這個主題非常棒。我在工作中經常考慮EIV模型。但是,除了它們的複雜性或依賴於“錯誤率”的知識外,還有一個更概念上的問題需要考慮:許多回歸,尤其是在有監督的學習或預測中,都希望將*觀察到的*預測變量與*觀察到的*成果相關聯。另一方面,EIV模型試圖確定* mean *預測變量和* mean *響應之間的潛在關係...一個稍有不同的問題。
因此,(在科學環境中)所謂的“真實”回歸的“稀釋”將被稱為“缺乏預測效用”或類似的東西。
gung - Reinstate Monica
2016-06-10 01:01:00 UTC
view on stackexchange narkive permalink

在此上下文以及其他統計上下文中,存在一些標準的誤解:例如,$ p $值的含義,錯誤地推斷因果關係等。

我對一些誤解認為特定於多元回歸的有:

  1. 認為具有較大的估計係數和/或較低的$ p $值的變量“更重要”。
  2. 認為向模型添加更多變量可以使您“更接近真相”。例如,簡單地從$ X $上的$ Y $回歸得到的斜率可能不是$ X $和$ Y $之間的真正直接關係,但是如果我添加變量$ Z_1,\ ldots,Z_5 $,該係數可以更好地表示真實的關係,如果我加上$ Z_6,\ ldots,Z_ {20} $,它會比這更好。
  3. ol>
好東西。如果它解釋了為什麼兩個錯誤以及應該怎麼做,這個答案可能會更加有用。
Glen_b
2016-06-10 04:30:24 UTC
view on stackexchange narkive permalink

我想說的是,您列出的第一個可能是最普遍的-也許是最廣泛的教導-在明顯被認為是錯誤的事情中,但是這裡有其他一些在某些情況下(無論它們是否真的適用)尚不清楚,但可能會影響更多的分析,甚至可能會更加嚴重。當引入回歸主題時,通常通常根本就不會提到這些。

  • 將其作為來自感興趣的觀察數據集中的隨機樣本進行處理,可能無法接近代表值(更不用說隨機採樣)。 [相反,有些研究可以看作是更方便的樣本]

  • 有了觀測數據,只是忽略了忽略過程的重要驅動因素而造成的結果,這些驅動因素肯定會使估計值產生偏差包含變量的係數(在許多情況下,甚至可能改變其符號),而沒有嘗試考慮處理它們的方法(無論是出於對問題的無知還是只是不知道任何事情都可以做)。 [某些研究領域比其他研究領域更多地遇到了這個問題,無論是由於所收集的數據的種類,還是因為某些應用領域的人們更可能被教導有關該問題的信息。]

  • 虛假回歸(主要是隨時間收集的數據)。 [即使人們知道它發生了,也存在另一個普遍的誤解,認為僅與假定的平穩性相差就足以完全避免該問題。]

還有很多其他人可以提到當然(例如,處理幾乎可以肯定是串行相關或什至是整合的獨立數據可能差不多一樣普遍)。

您可能會注意到,隨時間推移收集的數據的觀察性研究可能會同時受到所有這些的影響……但是,這種研究在許多將回歸作為標準工具的研究領域中非常普遍。在沒有一個審閱者或編輯者不了解其中至少一個並且結論中至少需要一定程度的免責聲明的情況下,如何才能發表論文仍令我感到擔憂。

在處理相當謹慎地控制的實驗時(與可能不是那麼謹慎地控制的分析相結合),統計數據充滿了無法再現的問題,因此,一旦超出那些界限,可再現性就必須惡化得多情況如何?

與您的某些觀點密切相關的想法可能是“只有$ y $數據會出現測量誤差”(或者至少,“這是我們將考慮的唯一誤差”)。不確定在這裡是否值得一試,但是忽略$ x $變量中的隨機錯誤的可能性和後果當然很普遍。
-1
@Silverfish是CW,因此您應該像這樣適當地添加內容,以進行額外的編輯。
@Silverfish當您提到它時,我還沒有自己添加它是有原因的。
user20160
2016-06-10 01:13:20 UTC
view on stackexchange narkive permalink

我可能不會稱這些誤解,但可能是混淆/掛斷的共同點,在某些情況下還可能是研究人員可能不知道的問題。

  • 多重共線性(包括變量多於數據點的情況)
  • 異方差
  • 自變量的值是否受噪聲影響
  • 縮放(或不縮放)如何影響解釋係數
  • 如何處理來自多個對象的數據
  • 如何處理序列相關性(例如時間序列)

在誤解方面事物:

  • 線性是什麼意思(例如$ y = ax ^ 2 + bx + c $是wrt $ x $的非線性變量,而權重是線性的)。
  • “回歸”是指普通最小二乘或線性回歸
  • 低/高權重必然意味著與因變量的弱/強關係
  • 因變量和自變量之間的依存關係必定減少成對依賴
  • 訓練集的高度擬合優度暗示著一個好的模型(即忽略過度擬合)
如果權重為零,則表示IV和DV之間沒有線性關係?如果權重很小,那麼我認為這與線性關係無關。
Benedict M.J.G.
2016-06-10 18:20:23 UTC
view on stackexchange narkive permalink

根據我的經驗,學生經常認為平方誤差(或OLS回歸)本質上是適當,準確和整體上可以使用的好東西,甚至是不可替代的。它“對更多極端/越軌的觀察給予更大的重視”,並且在大多數情況下,至少暗示這是一種理想的特性。當引入離群值和穩健方法時,可以稍後修改此概念,但此時已造成損害。可以說,從歷史上看,平方誤差的廣泛使用與其數學上的便利有關,而不是與現實世界中一些實際的誤差成本自然定律有關。錯誤函數有些武斷。理想地,算法內懲罰的任何選擇均應以與潛在錯誤相關的相應的實際成本函數為指導(即使用決策框架)。為什麼不先建立這個原則,然後看看我們能做得如何?

該選擇還取決於應用程序。OLS對於代數y軸擬合非常有用,但對於幾何應用則不太有用,在幾何應用中,總最小二乘法(或其他基於正交距離的成本函數)更有意義。
Robert Long
2016-06-15 15:56:37 UTC
view on stackexchange narkive permalink

另一個常見的誤解是誤差項(或計量經濟學術語中的干擾)和殘差是同一件事。

誤差項是 true模型 em中的隨機變量>或數據生成過程,通常被認為遵循一定的分佈,而殘差是觀測數據與擬合模型的偏差。這樣,殘差可以被認為是誤差的估計。

我敢打賭,人們會對為什麼這很重要或在哪種情況下的解釋感興趣。
Aksakal
2016-06-15 00:31:16 UTC
view on stackexchange narkive permalink

我遇到的最常見的誤解是線性回歸假設誤差的正態性。沒有。正態性與線性回歸的某些方面有關,例如小樣本屬性,例如係數的置信極限。即使對於這些東西,非正態分佈也有漸近值。

第二常見的是關於內生性的一堆混亂,例如對反饋循環不小心。如果存在從Y到X的反饋迴路,那就是一個問題。

hssay
2016-06-22 14:07:16 UTC
view on stackexchange narkive permalink

在實踐中,我經常看到的是對線性回歸在某些用例中的適用性的誤解。

例如,讓我們說我們感興趣的變量是某物(例如:網站上的訪問者)或某物的比率(例如:轉化率)。在這種情況下,可以通過使用泊松(計數),貝塔(比率)等鏈接函數更好地對變量進行建模。因此,使用具有更合適鏈接函數的廣義模型更為合適。但是僅僅因為變量不是分類變量,所以我已經看到人們從簡單的線性回歸(鏈接函數=身份)開始。即使我們不考慮準確性的影響,這裡的建模假設也是一個問題。

我認為更準確地闡明“更合適”的含義將有所幫助。例如,假設我對一組頁面的訪問者進行了實驗,並估計了帶有二進制X的泊松模型,然後運行OLS。在兩個模型中,平均邊際效應將是相同的(對於完全飽和的模型通常是正確的)。泊松還對均值-方差關係做出了一些強有力的假設,這些假設通常是限制性的。這也使得處理交互和麵板數據模型更加複雜。
Jf Parmentier
2018-03-28 01:03:12 UTC
view on stackexchange narkive permalink

我犯的一個錯誤是假設OLS中X和Y對稱。 例如,如果我假設一個線性關係 $$ Y = a \,X + b $$ 我的軟件使用OLS給出a和b,那麼我相信假設X為Y的函數將使用OLS給出係數: $$ X = \ frac {1} {a} \,Y-\ frac {b} {a} $$ 那是錯誤的。

也許這也與OLS和總最小二乘或第一主成分之間的差異有關。

user4534898
2016-06-15 00:15:14 UTC
view on stackexchange narkive permalink

以下是我認為經常被研究人員忽略的一個變量:

  • 可變交互作用:研究人員經常查看各個預測變量的孤立beta,甚至不指定交互作用項。但是在現實世界中,事物相互作用。如果沒有正確說明所有可能的交互作用術語,您將不知道您的“預測變量”如何共同形成結果。而且,如果您要努力工作並指定所有互動,則預測變量的數量將會激增。根據我的計算,您只能研究4個變量及其與100個主題的相互作用。如果再添加一個變量,則很容易過擬合。
Lucas Roberts
2018-03-28 21:55:40 UTC
view on stackexchange narkive permalink

另一個常見的誤解是,估算值(擬合值)並非不變,例如

$$ f(\ hat {y} _i)\ neq \ widehat {f(y_i)} $$通常,其中$ \ hat {y} _i = \ vec {x} _i ^ T \ hat {\beta} $,根據您估計的回歸係數擬合的回歸值。

如果這是單調函數$ f(\ cdot)$所需要的,而不一定是線性的,那麼您所需要的就是分位數回歸。

上面的等式在線性函數的線性回歸中成立,但非線性函數(例如$ log(\ cdot)$)將不成立。但是,這適用於分位數回歸中的任何單調函數。

當您對數據進行對數轉換,擬合線性回歸,然後對擬合值求冪並被人們視為回歸時,就會一直出現這種情況。這不是平均值,而是中位數(如果事物確實以對數正態分佈的話)。

指數預測在技術上是幾何平均值,與對數正態數據中的中值一致。但這很少是人們這樣做時要記住的意思。
@DimitriyV.Masterov是的,您要說的是(我的答案的)要點之一-如果要在單調變換下保持不變,最好使用分位數回歸。畢竟,問題在於常見的誤解。
我非常喜歡您的回答(今天才在工作中處理)。我只是想補充一點,它是“均值”(與分佈無關),而不是“(算術)均值”。
@DimitriyV.Masterov可以肯定地說,我對“ the”的使用有點用詞不當。當我寫“均值”時,我在考慮算術均值。如果您認為可以澄清問題,可以在帖子中添加,但您的評論出於相同的目的。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...