題:
為什麼與線性回歸相比,將ANOVA當作一種不同的研究方法來教授/使用?
user28
2010-07-23 20:17:57 UTC
view on stackexchange narkive permalink

使用適當的虛擬變量,ANOVA等效於線性回歸。無論使用ANOVA還是線性回歸,結論都相同。

鑑於它們的等效性,是否有任何理由使用ANOVA而不是線性回歸?

注意:我對了解使用ANOVA而不是線性回歸的技術原因特別感興趣。

編輯

這裡是使用單向方差分析的一個示例。假設您想知道男性和女性的平均身高是否相同。為了檢驗您的假設,您需要從男性和女性的隨機樣本(每個樣本30個)中收集數據,並進行ANOVA分析(即,性別和錯誤的平方和)來確定效應是否存在。

您還可以使用線性回歸對此進行測試,如下所示:

定義:如果受訪者是男性,則$ \ text {Gender} = 1 $,否則為$ 0 $。$$ \ text {Height} = \ text {攔截} + \ beta * \ text {性別} + \ text {error} $$其中:$ \ text {error} \ sim \ mathcal N(0,\ sigma ^ 2)$

然後檢驗$ \ beta = 0 $是否等效於您的假設。

如果我沒記錯的話,線性回歸是對係數的估計,該係數定義了從X到Y的良好線性映射。ANOVA是一項測試,用於了解當Y取兩個不同值時X中是否存在顯著差異。您能解釋一下為什麼您認為它們相同嗎?
對於線性回歸模型的一個特殊子組,ANOVA可以看作是“語法糖”。不是統計學家的研究人員經常通過訓練使用ANOVA。現在它們已“制度化”,很難將它們轉換回使用更一般的表示形式;-)
反對您的評論,但如果這對他們來說是語法糖,那麼實驗家甚至比我想的還要瘋狂!哪個版本更直觀...。$ \ beta $的ANOVA假設檢驗:解釋方差與無法解釋方差的比率是否足夠高?對回歸模型的$ \ beta $項進行T檢驗:$ \ beta $的影響是否充分不同於零?而且,使用後一種公式,您還將獲得變化的方向。而且,如果必須轉換數據,則可以將參數估計值反轉換為物理上有意義的數量。不像SS。
另請參閱https://stats.stackexchange.com/questions/268006/whats-the-difference-between-regression-and-analysis-of-variance
五 答案:
Graham Cookson
2010-07-23 20:35:56 UTC
view on stackexchange narkive permalink

作為一名經濟學家,通常講授與線性回歸有關的方差分析(ANOVA)(例如,在Arthur Goldberger的計量經濟學課程中)。經濟學家/計量經濟學家通常將方差分析視為無趣的方法,而是傾向於直接轉向回歸模型。從線性(或什至廣義線性)模型的角度來看,ANOVA將係數分配到批次中,每個批次對應於ANOVA術語中的“變異源”。

通常,您可以復制獲得的推論從ANOVA使用回歸分析,但不總是使用OLS回歸。需要多層模型來分析分層數據結構,例如“分割圖設計”,其中將組間影響與組級誤差進行比較,並將組內影響與數據級誤差進行比較。 Gelman的論文 [1]對此問題進行了詳盡的論述,並有效地指出,ANOVA是一個重要的統計工具,出於自身原因,仍應繼續學習。 ANOVA是理解和構建多層模型的一種方式。因此,方差分析不是回歸的替代方法,而是作為匯總複雜的高維推論和進行探索性數據分析的工具。

Gelman是一位受人尊敬的統計學家,他的觀點應有信譽。但是,線性回歸幾乎可以很好地滿足我所做的所有經驗工作,因此我堅決認為將其視為毫無意義的陣營。某些具有復雜研究設計(例如心理學)的學科可能會發現ANOVA有用。

[1] Gelman,A.(2005)。方差分析:為什麼它比以往任何時候都重要(有討論)。 統計年鑑 33,1–53。 doi:10.1214 / 009053604000001048

感謝Gelman參考。我會讀他的論文。但是,我們不能使用經典的最大似然分析多級模型嗎?我同意OLS對於多層模型效率低下/不合適。
@Srikant-有許多方法可以處理多層數據,而Gelman是該領域的“王者”。他的觀點是,ANOVA是捕獲複雜和分層數據結構或研究設計的關鍵特徵的簡單/清晰方法,而ANOVA是表示關鍵結果的簡單/清晰方法。從這個意義上講,它的作用是互補的或探索性的。
+1是一個清晰明確的答案。第3段本質上是我作為一名生物學本科生所學的課程,重點是在ANOVA框架中結合連續和分類自變量的簡易性。
ars
2010-07-23 23:42:05 UTC
view on stackexchange narkive permalink

我認為格雷厄姆的第二段是問題的核心。我懷疑這不是歷史上的技術問題,可能是由於“ 研究人員的統計方法”的影響,以及在涉及離散因素的實驗分析中易於教學/應用非統計人員的工具,而不是深入研究模型構建和相關工具。在統計中,通常將ANOVA視為回歸的特殊情況。 (我認為這類似於為什么生物統計學充滿了無數的同名“測試”而不是強調模型構建的原因。)

Michael R. Chernick
2012-08-18 20:29:37 UTC
view on stackexchange narkive permalink

我應該說,當您應該使用一般線性模型時,有些人正在使用術語回歸。我認為回歸是涉及連續協變量的一瞥。當連續協變量與偽變量組合時,應稱為協方差分析。如果僅使用偽變量,我們將glm的這種特殊形式稱為方差分析。我認為方差分析具有明顯的第二個含義,它是使用方差分解為模型項分量和誤差項分量的方法來測試glm中的重要係數的過程。

(+1)在整個討論中,我還立即註意到模棱兩可的術語“回歸”。
(+1)GLM可能是區分不同含義的最佳方法。還應注意,在ANOVA的歷史中,使用的計算程序模糊了OLS和ANOVA之間的關係。因此,命名可能會因歷史原因而合理。
Ηλίας
2010-10-13 13:53:32 UTC
view on stackexchange narkive permalink

ANOVA可以與採用超過2個值(級別)的分類解釋變量(因子)一起使用,並給出基本測試,即每個值的平均響應均相同。這避免了在這些級別之間進行多個成對t檢驗時的回歸問題:

  • 在固定的5%顯著性水平上進行多個t檢驗,會使大約5%的結果產生錯誤。
  • 這些測試不是相互獨立的。比較A的水平與B的水平與將A的水平與C的水平相聯繫,因為兩種測試都使用A的數據。

最好將 contrasts用於不同的組合您要測試的因子水平。

您可能希望澄清這個答案;如所寫,我看到3個問題。前兩個有點挑剔,但仍應進行編輯,在本討論中,第三個是實質性的。 (1)方差分析只能用於兩個組(儘管那時大多數人只是進行t檢驗)。 (2)帶有$ \ alpha = .05 $的多個t檢驗將漸漸產生I型錯誤,誤差為5%,其中*不存在實際差異*;將會發生多少錯誤取決於有多少個空值是正確的。
(3)您的答案暗示多重比較的問題適用於OLS回歸,但如果正確進行,則不適用於OLS回歸。在回歸上下文中測試因子的正確方法是測試嵌套模型,其中將所有因子假人丟棄,而對包含所有因子假人的完整模型進行測試。該測試與ANOVA進行的測試相同。的確,您不應使用單個虛擬變量的測試(我懷疑這是您要在此處描述的內容)。
Jamal
2013-10-19 21:30:46 UTC
view on stackexchange narkive permalink

方差分析,假設您要比較兩個以上的總體平均值,您正在測試總體平均值之間是否存在顯著差異,然後您將使用F檢驗。

在回歸分析中,您將在自變量和因變量之間建立模型。如果您有一個具有四個級別的自變量,則可以使用三個虛擬變量並運行回歸模型。用於檢驗回歸模型的重要性的回歸模型的F檢驗與檢驗總體均值之間的差異時得到的F相同。如果運行逐步回歸,則可能會從模型中刪除一些虛擬變量,並且您的F值將與執行ANOVA測試時的F值不同。

這使方差分析成為測試過程,而回歸則成為建模過程,您可以在其中進行測試。但是,ANOVA也有一個基礎模型,無論是否在所有入門治療中都強調了這一模型。因此,此答案不能捕捉到它們之間的任何區別。這個問題也沒有得到解決,這就是為什麼無論有多麼相似,它們都被區別對待。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...