我在統計諮詢工作中經常聽到這個問題,以為我會在這裡發布。我有一個答案,發佈在下面,但我很想听聽其他人怎麼說。
問題:如果您有兩個非正態分佈的變量,您使用Spearman的rho進行關聯?
我在統計諮詢工作中經常聽到這個問題,以為我會在這裡發布。我有一個答案,發佈在下面,但我很想听聽其他人怎麼說。
問題:如果您有兩個非正態分佈的變量,您使用Spearman的rho進行關聯?
斯皮爾曼相關性適用於等級,因此提供了兩個連續隨機變量之間單調關係的度量。它也可用於序數數據,並且對異常值具有魯棒性(與Pearson的相關性不同)。
兩個相關係數的分佈都取決於基礎分佈,儘管由於中心極限定理,它們兩者都呈漸近正態。
別忘了肯德爾的牛頭羊!羅傑·紐森(Roger Newson)認為,肯德爾(Kendall)的τ a sub> 在Spearman的相關性(em> r S sub> )中優於基於等級的度量全文可在網上免費獲得的相關性的相關信息:
NewsonR。“非參數”統計量背後的參數:肯德爾的tau,索默斯D和中位數差異。 Stata Journal 2002; 2(1):45-64。
他(第p47頁)引用了Kendall & Gibbons(1990)的觀點,認為“ ...對Spearman的 r S sub > 的可信度和可信度不及肯德爾τ參數的置信區間,但樣本Spearman的 r S sub> 要多得多無需計算機即可輕鬆進行計算”(當然,這已不再重要)。不幸的是,我無法輕鬆獲得他們的書的副本:
Kendall,M。G.和J. D. Gibbons。 1990。等級相關方法。第五版。倫敦:格里芬。
從應用的角度來看,我更關心選擇一種方法來總結兩個變量之間的關係,以符合我的研究問題。我認為,確定一種用於獲取準確的標準誤差和p值的方法應該是第二個問題。即使您選擇不依賴漸近線,也總是可以選擇引導或更改分佈假設。
通常,我更喜歡皮爾遜相關性,因為(a)它通常更符合我的理論興趣; (b)它可以使研究之間的結果具有更直接的可比性,因為我所在地區的大多數研究都報告了皮爾森的相關性; (c)在許多情況下,Pearson和Spearman相關係數之間的差異很小。
但是,在某些情況下,我認為Pearson與原始變量的相關性具有誤導性。
在以上兩種情況下,我都建議研究人員在應用Pearson的相關性之前考慮調整策略(例如,變換,離群值移除/調整)或使用Spearman的rho。
已更新
該問題要求我們在對正態性進行質疑時,在Pearson方法和Spearman方法之間進行選擇。出於這種考慮,我認為以下論文應該為任何人的決定提供依據:
它非常好,並且提供了有關該主題數十年的大量文獻的調查-從Pearson的“殘缺不全的曲面”和$分佈的魯棒性開始r $。 “事實”的矛盾性質至少有一部分是,這項工作大部分是在計算能力出現之前完成的,這使事情變得複雜,因為必須考慮非正態性的類型,並且如果不進行模擬就很難對其進行檢驗。
Kowalski的分析得出的結論是,在存在非正態性的情況下,$ r $的分佈不是 穩健的,因此建議採用替代程序。整篇文章內容豐富,值得推薦閱讀,但請跳過本文結尾處的簡短結論以進行總結。
如果要求在違反正常性的情況下在Spearman和Pearson中選擇一個,值得一提的是免費發行的替代方法,即Spearman的方法。
以前 ..
斯皮爾曼相關性是一種基於等級的相關性度量;它是非參數的,並不基於正態性的假設。
Pearson相關性的採樣分佈確實具有正態性;特別是,這意味著儘管可以計算,但基於重要性檢驗的結論可能並不合理。
正如Rob在評論中指出的那樣,對於大樣本來說,這不是問題。但是,對於較小的樣本,在違反正態性的情況下,應優先使用Spearman的相關性。
更新考慮評論和答案,在我看來,這可以歸結為通常的非參數測試與參數測試的爭論。許多文獻,例如在生物統計學中,不處理大樣本。我通常不依賴於漸進療法。在這種情況下,也許這是合理的,但對我而言,這並不容易。
我認為這些數據(具有總體誤差敏感性和漸近方差)以及下面的論文引述會使我們變得很清楚:
“與Spearman的排名相關性相比,Kendall相關性度量方法更健壯,效率更高,從兩個角度來看,它都是首選的估計器。”
來源: Croux,C。和Dehon,C。(2010)。Spearman和Kendall相關度量的影響函數。統計方法與應用,第19卷,第497-515頁。