題:
如何解釋I型,II型和III型ANOVA和MANOVA?
djhocking
2012-01-02 00:28:11 UTC
view on stackexchange narkive permalink

我的主要問題是進行I型(順序)方差分析時如何解釋輸出(係數,F,P)?

我的具體研究問題要復雜一些,因此我將把例子分成幾部分。首先,如果我對蜘蛛密度(X1)對植物生長(Y1)的影響感興趣,並且我在圍牆內種植了幼苗並控制了蜘蛛密度,那麼我可以使用簡單的ANOVA或線性回歸分析數據。然後,對於ANOVA使用I,II或III平方和(SS)都沒關係。就我而言,我有5個密度級別的4個副本,因此我可以將密度用作因子或連續變量。在這種情況下,我更喜歡將其解釋為連續的獨立(預測變量)變量。在RI中可以運行以下命令:

  lm1 <- lm(y1〜density,data = Ena)summary(lm1)anova(lm1) 

正在運行方差分析功能有望在以後進行比較,所以在這裡請忽略它的奇怪之處。輸出為:

 響應:y1 Df Sum Sq平均Sq F值Pr(>F)密度1 0.48357 0.48357 3.4279 0.08058。殘差18 2.53920 0.14107  

現在,讓我懷疑我無法控制的土壤中無機氮的起始水平可能也顯著影響了植物的生長。我對這種效果並不特別感興趣,但是想潛在地解釋它引起的變化。的確,我的主要興趣是蜘蛛密度的影響(假設:蜘蛛密度增加會導致植物生長加快-大概是通過減少草食性昆蟲引起的,但我只測試這種作用而不是機理)。我可以在分析中添加無機氮的影響。

就我的問題而言,讓我們假設我測試了相互作用密度* inorganicN,並且它並不重要,因此我將其從分析中刪除並運行以下主要效果:

  > lm2 <- lm(y1〜密度+無機N,數據= Ena)> anova(lm2)方差表分析響應:y1 Df Sum Sq平均Sq F值Pr(>F3密度0.4 0.4357 .inorganicN 1 0.12936 0.12936 0.9126 0.35282殘留物17 2.40983 0.14175  

現在,無論我使用I型還是II型SS都不同(我知道有人反對I型& II等等,但考慮到SAS的普及,這很容易實現。 R anova {stats}默認使用類型I。我可以通過反轉主要效果的順序來計算II型SS,F和P的密度,也可以使用John Fox博士的“汽車”套裝(與應用回歸結合使用)。我更喜歡後一種方法,因為它更容易解決更複雜的問題。

 庫(汽車)Anova(lm2)總和Sq Df F值Pr(>F)密度0.58425 1 4.1216 0.05829 .inorganicN 0.12936 1 0.9126 0.35282殘差2.40983 17  

我的理解是,II類假設為:“鑑於(保持常數?)x2的影響,x1對y1沒有線性影響”給定x1的x2。我想這就是我感到困惑的地方。 與使用II型方法的假設相比,上述ANOVA使用序貫I方法測試的假設是什麼?

實際上,我的數據有點更為複雜,因為我測量了許多植物生長,養分動態和凋落物分解的指標。我的實際分析是這樣的:

  Y <- cbind(y1 + y2 + y3 + y4 + y5)#類型IImlm1 <- lm(Y〜密度+硝酸鹽+ Npred,數據= Ena Manova(mlm1)II型MANOVA測試:Pillai測試統計Df測試統計大約F num Df den Df Pr(>F)密度1 0.34397 1 5 12 0.34269硝酸鹽1 0.99994 40337 5 12 < 2e-16 ***
Npred 1 0.65582 5 5 12 0.01445 *#類型Imaov1 <-manova(Y〜密度+硝酸鹽+ Npred,數據= Ena)摘要(maov1)Df Pillai約F num Df den Df Pr(>F)密度1 0.99950 4762 5 12 < 2e-16 ***硝酸鹽1 0.99995 46248 5 12 < 2e-16 *** Npred 1 0.65582 5 5 12 0.01445 *殘留物16  
一 回答:
gung - Reinstate Monica
2012-01-02 02:54:47 UTC
view on stackexchange narkive permalink

您所說的II型SS,我稱III型SS。假設只有兩個因素A和B(我們稍後將進行A * B交互以區分II型SS)。進一步,假設在四個單元中有不同的$ n $ s(例如,$ n_ {11} $ = 11,$ n_ {12} $ = 9,$ n_ {21} $ = 9和$ n_ { 22} $ = 11)。現在,您的兩個因素相互關聯。 (自己嘗試一下,用1和0組成2列,並將它們關聯起來,$ r = .1 $; n.b。$ r $是否“重要”並​​不重要,這就是您關心的全部人口)。與您的因素相關的問題是, A和B都存在平方和。在計算方差分析(或任何其他線性回歸)時,我們要劃分平方和。分區將所有平方和分別放入個和幾個子集中的一個。 (例如,我們可能希望將SS分為A,B和錯誤。)但是,由於您的因子(此處仍然只有A和B)不是正交的,因此這些SS沒有唯一的分區。實際上,可以有很多分區,並且如果您願意將SS切成碎片(例如,“我將0.5放入此bin,將0.5放入該bin”),則存在無限的分區。可視化此方法的一種方式是想像萬事達卡(MasterCard)符號:矩形代表總SS,每個圓圈代表可歸因於該因素的SS,但請注意中心圓圈之間的重疊,可以給定這些SS到任一圈。

enter image description here

問題是:我們如何從所有這些可能性中選擇“正確的”分區?讓我們重新進行互動並討論一些可能性:

類型I SS:

  • SS(A)
  • SS(B | A)
  • SS(A * B | A,B)

II型SS:

  • SS(A | B)
  • SS(B | A)
  • SS(A * B | A,B)

III型SS:

  • SS(A | B,A * B)
  • SS(B | A,A * B)
  • SS(A * B | A,B)

請注意這些不同可能性的工作方式。只有I型SS實際上在MasterCard符號中圓圈之間的重疊部分中使用了那些SS。也就是說,當您使用類型I SS時,實際上可以歸因於A或B的SS, 實際上歸因於其中一個(特別是您首先輸入模型的那個)。在其他兩種方法中,根本沒有使用重疊的SS。因此,類型I SS給A歸因於A的所有SS(包括那些也可以歸因於其他地方的SS),然後給B歸因於B的所有剩餘 SS,然後給出歸因於A * B的所有剩餘 SS都歸因於A * B交互作用,並且將無法歸因於錯誤項的剩餘部分留給了錯誤項。

III型SS僅給出A屬於唯一的那些SS,同樣,它僅給出B和唯一那些SS的相互作用。歸因於他們。錯誤項只能獲取那些不能歸因於任何因素的SS。因此,沒有使用那些可歸因於2種或更多可能性的“模棱兩可”的SS。如果在ANOVA表中對III型SS求和,您會發現它們不等於總SS。換句話說,這種分析必須是錯誤的,但會以一種認識論上的保守方式出錯。許多統計學家認為這種方法過於嚴格,但是政府資助機構(我相信是FDA)要求使用這種方法。

II型方法旨在捕獲III型概念背後可能有價值的內容,但要避免其過大之處。具體而言,它僅調整A和B的SS,而不調整交互。但是,實際上,實際上從未使用過II型SS。您將需要了解所有這些信息,並且對您的軟件足夠了解,以獲取這些估計,並且通常認為這是多餘的分析師。

SS的類型更多(我相信IV和V)。他們在60年代後期被建議處理某些情況,但後來證明他們沒有按照自己的想法行事。因此,在這一點上,它們只是一個歷史腳註。

關於這些問題的答案,您基本上已經在您的問題中有了正確的答案:

  • 使用類型I SS的估計告訴您Y的可變性可以達到多少用A來解釋,用B可以解釋多少剩餘變異性,可以通過交互來解釋多少剩餘殘餘變異性,依此類推,依次為
  • 基於III型SS的估計值告訴您,在考慮了所有其他因素之後,A 可以解決Y中多少剩餘變異性,以及多少剩餘變異性在Y中的B也可以由B 解釋,之後還要考慮其他所有情況,依此類推。 (請注意,兩者都同時進行;如果這對您有意義,並且可以準確反映您的研究問題,請使用III型SS。)
感謝您的幫助。我感到困惑的另一個方面是,如果“使用類型I SS的估計告訴您Y的多少可變性可以由A解釋,剩餘的可變性可以由B解釋,還有多少剩餘的剩餘性?可變性可以通過交互作用來解釋,依此類推,依次類推。”那麼,當添加其他變量時,為什麼統計信息與A關聯?是因為測試基於SS(A)/ SS(error),並且誤差是模型中所有項的函數?我是否正確地考慮了這一點?
我將“與A相關的統計信息”解釋為是指A的主要影響的F和p值。A的F值是A的均方根(即SSA / dfA)與A的均方之比。 MS錯誤。隨著您添加更多因素,SS從誤差項中獲取並賦予這些因素。通常,這意味著MS誤差下降,因此比率上升。結果,A的F值變大而p值變小。因為自由度也會改變,所以它可能比這更複雜,但這就是要點。
糟糕,我確實表示F統計數據的MS(A)/ MSE。無論如何,您的答案是完美的,再次感謝您的所有幫助!
我對使用I型時解釋的細節感到好奇。就我而言,密度是我唯一感興趣的變量,也是我實驗上操縱的唯一變量。但是不幸的是,單獨計算密度還是無關緊要的,在考慮了我所關注的其他兩個變量(Npredators,II型或III型無機N)之後。但是,因為當我將其添加為第3個變量時,anotherN顯然可以解釋某些因變量的大部分變化,因此它使其他2個變量具有很高的意義。因此,密度真的對Y有重大影響嗎?這合理嗎?
您想避免釣魚,除非您認為這是一項試點研究,可以用來有效地計劃一項確認性研究。但是,是的,如果您打算確定在控制了其他特定因素之後是否有影響,那麼這是合理的。另一方面,如果答案是您要尋找的答案,則可以通過單擊對勾接受它。
非常感謝您提供的所有幫助,這對於我的分析和學習經驗非常有用!
很高興能為您服務...
對類型1 SOS的另一評論/問題。在萬事達卡符號中:如果A佔據了A的全部,而B佔據了沒有中間的rigthside。交互還剩下什麼?
萬事達卡的@JonBonJovi,類比只有兩個因素。如果您想要2個因素加一個相互作用,那麼您將需要3個彼此重疊的區域。當然可以繪製一個具有3個區域的歐拉圖,但是為了簡化起見,我僅使用萬事達卡符號。對於互動,請想像第三個圓圈與前兩個圓圈重疊(例如,它可以從右到左居中,但大多位於其他圓圈的上方);那麼A圈(SS)的*所有*都將進入A,B *中所有不重疊的A *都將進入B,而A * B中所有不重疊的*將* A *或* B去互動。
這是對Gung的另一個問題:那麼,如果給定A和B,如果我使用A * B進行類型1的SOS,我會發現交互作用所解釋的所有內容都沒有主要影響嗎?這到底是什麼意思?它不會解釋一切嗎?簡而言之,SS(A * B | A,B)是什麼意思?在圖中,A1-B1大於還是小於A2-B2?
@gung-ReinstateMonica-我喜歡這個答案,就像我通常做您其他的答案一樣。我被困在`SS( | )`表示法上。看起來像條件,但我不確定我如何應用平方和。我猜如果知道它的意思,這是一個非常好的速記。介意解釋嗎?
@abalter,我沒有看到“東西”。你指的是什麼?
例如:** SS(A | B,A * B)**
@abalter,,是在考慮了** B **和** A * B **相互作用之後,由於** A **引起的平方和。這是一種標準的編寫方式-您可以在ANOVA的任何教科書中找到它。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...