題:
皮爾遜或斯皮爾曼與非正態數據的相關性
Jeromy Anglim
2010-10-19 06:14:17 UTC
view on stackexchange narkive permalink

我在統計諮詢工作中經常聽到這個問題,以為我會在這裡發布。我有一個答案,發佈在下面,但我很想听聽其他人怎麼說。

問題:如果您有兩個非正態分佈的變量,您使用Spearman的rho進行關聯?

為什麼不同時計算並報告**(皮爾遜的r和斯皮爾曼的ρ)?它們的差異(或缺乏差異)將提供其他信息。
當我們比較簡單回歸係數β的顯著性和檢驗Pearson相關係數(與β的數值成正比)時,比較分配假設的問題http://stats.stackexchange.com/q/181043/3277。
皮爾遜的相關性是線性的,斯皮爾曼的相關性是單調的,因此它們通常不是出於相同的目的。皮爾遜係數不需要您假設正態性。有一個針對它的測試,它假定了正常性,但是您沒有唯一的選擇。
五 答案:
Rob Hyndman
2010-10-19 06:53:20 UTC
view on stackexchange narkive permalink
皮爾遜相關性是兩個連續隨機變量之間線性關係的量度。儘管確實假設有有限的方差和有限的協方差,但它沒有假設正態性。當變量是雙變量正態時,皮爾森相關性提供了對該關聯的完整描述。

斯皮爾曼相關性適用於等級,因此提供了兩個連續隨機變量之間單調關係的度量。它也可用於序數數據,並且對異常值具有魯棒性(與Pearson的相關性不同)。

兩個相關係數的分佈都取決於基礎分佈,儘管由於中心極限定理,它們兩者都呈漸近正態。

皮爾遜(Pearson)的$ \ rho $不假定正態性,但是如果聯合分佈為多元正態,則僅是一種詳盡的關聯度量。考慮到這種區別引起的困惑,您可能需要將其添加到答案中。
@kwak。好點子。我將更新答案。
是否有可以引用上述來源的資料(Person的r不具有正常性)?目前,我們部門有同樣的爭論。
@RobHyndman在金融時間序列領域(例如,當嘗試了解股票收益之間的相關性時),您會建議採用Pearson相關性還是基於排名的相關性?維基百科強烈反對皮爾遜,但其來源令人懷疑。
*“當變量為雙變量正態時,皮爾遜相關性提供了對該關聯的完整描述。” *並且,當變量不是雙變量正態時,皮爾森相關性有什麼用?
在這裡:http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/他們說:“對於Pearson r相關性,兩個變量都應呈正態分佈。其他假設包括線性和均方差”
這個答案似乎是間接的。“當變量是雙變量正態時...”而何時不?這種解釋就是為什麼我從來沒有得到統計數據。“羅布,你覺得我的新衣服怎麼樣?”“深色強調您的淺色皮膚。”“當然,羅布,但是你*喜歡*它如何強調我的皮膚?”“淺膚色在許多文化中被認為是美麗的。”“我知道,羅布,但是*你*喜歡嗎?”“我認為這衣服很漂亮。”“我也這樣認為,羅布,但是*對我*美麗嗎?”“親愛的,你對我總是很漂亮。”*嘆*
如果您在此之前閱讀了兩個句子,將會找到答案。
儘管相關性的漸近分佈是正態分佈,但那些正態分佈的方差取決於未知的總體參數。從推斷的意義上講,我們確實需要Pearson相關性的二元正態性。
不,我們不。至少可以通過四種不同的方式在不假設雙變量正態性的情況下推斷皮爾遜相關性。(i)使用漸近結果-上面已經提到;(ii)做出其他一些參數分佈假設,並推導或模擬檢驗統計量的零分佈;(iii)使用排列檢驗;(iv)使用自舉測試。可能還有其他方法
這些答案都表明當今的統計教育有什麼問題。CLT不保證您的數據將收斂到正常水平。實際上,幾乎在所有情況下都不會。這裡的每個答案都是循環的,因為它假設正常性是現實數據趨向於某種東西,而事實並非如此。大多數現實世界的數據都是虛構的,這意味著它們的瞬間定義非常不明確,或者不存在。收斂緩慢或不存在。使用Pearson的相關性不是出於方便,不是因為它是一種可靠的度量標準,而並非如此。
onestop
2010-10-19 12:07:17 UTC
view on stackexchange narkive permalink

別忘了肯德爾的牛頭羊!羅傑·紐森(Roger Newson)認為,肯德爾(Kendall)的τ a sub> 在Spearman的相關性(em> r S sub> )中優於基於等級的度量全文可在網上免費獲得的相關性的相關信息:

NewsonR。“非參數”統計量背後的參數:肯德爾的tau,索默斯D和中位數差異 Stata Journal 2002; 2(1):45-64。

他(第p47頁)引用了Kendall & Gibbons(1990)的觀點,認為“ ...對Spearman的 r S sub > 的可信度和可信度不及肯德爾τ參數的置信區間,但樣本Spearman的 r S sub> 要多得多無需計算機即可輕鬆進行計算”(當然,這已不再重要)。不幸的是,我無法輕鬆獲得他們的書的副本:

Kendall,M。G.和J. D. Gibbons。 1990。等級相關方法。第五版。倫敦:格里芬。

我也是肯德爾牛頭犬的忠實粉絲。皮爾森對我的品味影響點/異常值過於敏感,儘管斯皮爾曼沒有受到這個問題的困擾,但我個人認為肯德爾比斯皮爾曼更容易理解,解釋和解釋。當然,您的里程可能會有所不同。
我從經驗中的回憶是,肯德爾的tau的運行速度(比R慢)仍然比Spearman的慢。如果數據集很大,這可能很重要。
Jeromy Anglim
2010-10-19 11:08:07 UTC
view on stackexchange narkive permalink

從應用的角度來看,我更關心選擇一種方法來總結兩個變量之間的關係,以符合我的研究問題。我認為,確定一種用於獲取準確的標準誤差和p值的方法應該是第二個問題。即使您選擇不依賴漸近線,也總是可以選擇引導或更改分佈假設。

通常,我更喜歡皮爾遜相關性,因為(a)它通常更符合我的理論興趣; (b)它可以使研究之間的結果具有更直接的可比性,因為我所在地區的大多數研究都報告了皮爾森的相關性; (c)在許多情況下,Pearson和Spearman相關係數之間的差異很小。

但是,在某些情況下,我認為Pearson與原始變量的相關性具有誤導性。

  • 離群值:離群值可以對Pearson的相關性產生很大的影響。應用設置中的許多異常值反映了模型模型不打算推廣到的測量失敗或其他因素。一種選擇是刪除此類異常值。 Spearman的rho不存在單變量離群值,因為一切都轉換為等級。因此,Spearman更加強大。
  • 高度偏斜的變量:在關聯偏斜的變量(尤其是高度偏斜的變量)時,對數或其他變換通常會使兩個變量之間的潛在關係更加清晰(例如,動物的體重)。在這種設置下,原始指標可能不是最有意義的指標。通過將兩個變量都轉換為秩,Spearman的rho與轉換具有相似的效果。從這個角度來看,Spearman的rho可以看作是一種快速而骯髒的方法(或者更積極的是,它不太主觀),因此您不必考慮最佳轉換。

在以上兩種情況下,我都建議研究人員在應用Pearson的相關性之前考慮調整策略(例如,變換,離群值移除/調整)或使用Spearman的rho。

轉換的問題是,通常它還會轉換與每個點相關的誤差,從而轉換權重。它並不能解決離群值的問題。
先前的評論令人費解。轉換通常會馴服異常值。此外,對錯誤的思考方式取決於您選擇進行分析的範圍。例如,如果對數標度有意義,那麼該標度上的加法誤差通常也很有意義。
ars
2010-10-19 06:27:48 UTC
view on stackexchange narkive permalink

已更新

該問題要求我們在對正態性進行質疑時,在Pearson方法和Spearman方法之間進行選擇。出於這種考慮,我認為以下論文應該為任何人的決定提供依據:

它非常好,並且提供了有關該主題數十年的大量文獻的調查-從Pearson的“殘缺不全的曲面”和$分佈的魯棒性開始r $。 “事實”的矛盾性質至少有一部分是,這項工作大部分是在計算能力出現之前完成的,這使事情變得複雜,因為必須考慮非正態性的類型,並且如果不進行模擬就很難對其進行檢驗。

Kowalski的分析得出的結論是,在存在非正態性的情況下,$ r $的分佈不是 穩健的,因此建議採用替代程序。整篇文章內容豐富,值得推薦閱讀,但請跳過本文結尾處的簡短結論以進行總結。

如果要求在違反正常性的情況下在Spearman和Pearson中選擇一個,值得一提的是免費發行的替代方法,即Spearman的方法。


以前 ..

斯皮爾曼相關性是一種基於等級的相關性度量;它是非參數的,並不基於正態性的假設。

Pearson相關性的採樣分佈確實具有正態性;特別是,這意味著儘管可以計算,但基於重要性檢驗的結論可能並不合理。

正如Rob在評論中指出的那樣,對於大樣本來說,這不是問題。但是,對於較小的樣本,在違反正態性的情況下,應優先使用Spearman的相關性。

更新考慮評論和答案,在我看來,這可以歸結為通常的非參數測試與參數測試的爭論。許多文獻,例如在生物統計學中,不處理大樣本。我通常不依賴於漸進療法。在這種情況下,也許這是合理的,但對我而言,這並不容易。

不會。Pearson的相關性不具有正態性。它是對任意兩個連續隨機變量之間相關性的估計,並且是在相對一般的條件下的一致估計。如果樣本由於CLT而足夠大,則即使基於Pearson相關性的測試也不需要正態性。
我的印像是,只要基礎分佈具有有限的方差和協方差,就可以定義Pearson。因此,*不需要*正常。如果基礎分佈不是正態分佈,則檢驗統計量可能具有不同的分佈,但這是次要問題,與當前問題無關。不是嗎
-1
@Srikant:我不確定這是“次要問題”。畢竟,您可以計算任何東西-重要的是推理。 @Rob:您的“如果”限定詞在這裡很關鍵-在我看來,這個問題至關重要。我們可以通過漸近的手揮舞來證明很多。異常很重要。
@ars,@Srikant。即使樣本量很小,您仍可以對相關性進行推斷,但不能使用漸近正態性結果。
@Rob:當然可以,但是看來這是應該倡導Spearman的方法優於Pearson的方法的地方。例如,假設一些小樣本的X是正常的,而Y卻不是-您可以使用Spearman的排名方法將這兩個數進行偶數比較。使用Pearson's需要做更多的工作,例如,找到合適的轉換。
@ars。您可以只使用Monte Carlo方法或引導程序。在那方面沒有太多的工作,只是計算。
@Rob:是的,我們始終可以提出解決方法,以使工作原理大致相同。只是避免使用Spearman的方法-大多數非統計人員都可以使用標準命令來處理。我想我的建議仍然是將Spearman方法用於正態性值得懷疑的小樣本。不知道這裡是否有爭議。
@ars。如果我對單調關聯而不是線性關聯感興趣,或者如果存在離群值或高度偏斜,我將使用Spearman的。如果沒有異常值,我將使用Pearson線性關係。我認為樣本量與做出選擇無關。
@Rob:好,謝謝您的討論。我同意第一部分,但我懷疑最後一部分,並且會認為該大小只起作用,因為正常的漸進不適。例如,科瓦爾斯基(Kowalski 1972)對這方面的歷史進行了很好的考察,並得出結論,皮爾遜的相關性不如人們想像的強。請參閱:http://www.jstor.org/pss/2346598
Krishna
2020-02-24 09:49:59 UTC
view on stackexchange narkive permalink

我認為這些數據(具有總體誤差敏感性和漸近方差)以及下面的論文引述會使我們變得很清楚:

enter image description here

enter image description here

“與Spearman的排名相關性相比,Kendall相關性度量方法更健壯,效率更高,從兩個角度來看,它都是首選的估計器。”

來源: Croux,C。和Dehon,C。(2010)。Spearman和Kendall相關度量的影響函數。統計方法與應用,第19卷,第497-515頁。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...