題:
如何在Pearson和Spearman相關之間進行選擇?
user3636
2011-03-09 17:28:53 UTC
view on stackexchange narkive permalink

我如何知道何時在Spearman的$ \ rho $和Pearson的$ r $之間進行選擇?我的變量包括滿意度,並且使用分數總和來解釋分數。但是,這些分數也可以排名。

對於非正常數據,另請參見關於pearson與spearman的問題http://stats.stackexchange.com/questions/3730/pearsons-or-spearmans-correlation-with-non-normal-data
如果數據正常,請產生皮爾森。如果數據不正常,請產生矛兵。
五 答案:
Bonoboticians
2011-08-30 14:11:43 UTC
view on stackexchange narkive permalink

如果要瀏覽數據,則最好同時計算兩者,因為Spearman(S)和Pearson(P)相關性之間的關係會提供一些信息。簡而言之,S是按秩計算的,因此描述了單調關係,而P表示的是真值,並且描述了線性關係。

例如,如果設置:

  x = (1:100); y = exp(x);然後%,corr(x,y,'type','Spearman'); %等於1,corr(x,y,'type','Pearson'); %大約等於0.25  

這是因為$ y $與$ x $單調增加,因此Spearman相關性是完美的,但不是線性的,因此Pearson相關性是不完美的。

  corr(x,log(y),'type','Pearson'); %等於1  

兩者都很有趣,因為如果您有S> P,則意味著您具有單調但不是線性的相關性。由於統計數據具有線性關係(這很容易),因此您可以嘗試對$ y $進行轉換(例如對數)。

我希望這有助於使類型之間的差異相關性更容易理解。

我想這是您已經說過的,但是我只是想確認S
@JonathanThiele完全有可能使S
@atomicules感謝您提供的信息。我剛剛在Anscombe的四重奏中檢查了相關性,您的鏈接很有幫助。
您如何在一個Corrgram演示中包括Pearson和Spearson相關性?--我在這裡是http://stackoverflow.com/a/40523080/54964的問題-我有一個多因素問題,所以我認為Spearson可以包括在內,我不能只和Pearson一起去。
這是我通常採用的方法,因為它具有繞過一項測試與另一項測試的辯解的額外好處,尤其是在測試多個變量之間的相關性時。無需檢查每個變量以查看是否滿足Pearson或Spearman相關性的假設,只需對所有內容都運行即可。在許多實際應用中,它們將給出相似的關聯度度量,因此您只需要更深入地研究其結果差異很大的相對較少的實例,無論如何這些都是有趣的案例,可以進一步了解更多信息。
我不在乎是否不允許我說謝謝。這個簡單的答案讓我大吃一驚,並且比閱讀Wikipedia文章的最後3個小時更能使我了解Spearman。
user88
2011-03-09 19:16:04 UTC
view on stackexchange narkive permalink

最短且最正確的答案是:

皮爾遜基準線性關係,斯皮爾曼基準單調關係(很少有無窮比更一般的情況,但是對於某些

因此,如果您假設/認為該關係是線性的(或者,作為特殊情況,它們是同一事物的兩個量度,那麼該關係為$ y = 1 \ cdot x + 0 $)並且情況不太奇怪(請查看其他答案以獲取詳細信息),請與Pearson一起使用。否則,請使用Spearman。

charles.y.zheng
2011-03-09 17:34:52 UTC
view on stackexchange narkive permalink

這種情況經常在統計數據中發生:您可以根據情況採用多種方法,但您不知道該選擇哪種方法。您應該根據您所考慮的方法的優缺點以及問題的具體情況來做出決定,但是即使如此,該決定通常也是主觀的,沒有商定的“正確”答案。通常,嘗試盡可能多的合理方法是一個好主意,並且您的耐心將允許並查看最終哪些方法可以為您帶來最佳效果。

Pearson相關性與Spearman之間的差異相關性在於,Pearson最適合從 interval 量表進行的測量,而Spearman更適合於從 ordinal 量表進行的測量。間隔刻度的示例包括“溫度單位為華氏度”和“長度單位為英寸”,其中各個單位(1華氏度,1英寸)是有意義的。諸如“滿意度得分”之類的東西往往是序數類型的,因為雖然很顯然“ 5個幸福”比“ 3個幸福”更快樂,但是不清楚您是否可以對“ 1個幸福單位”做出有意義的解釋。但是,當您累加許多序數類型的度量(這就是您的情況)時,最終得到的度量實際上既不是序數也不是間隔,並且很難解釋。

我建議您將滿意度分數轉換為分位數分數,然後對這些分數求和,因為這將為您提供更易於理解的數據。但是即使在這種情況下,也不清楚Pearson還是Spearman是否更合適。

例如...交流恐懼感如何?高憂慮與高憂慮沒有確定的區別,對嗎?但是我已經看到,使用Pearson的r,該變量已與其他變量相關聯。這樣可以嗎謝謝!
Contango
2013-03-28 19:06:32 UTC
view on stackexchange narkive permalink

我今天遇到了一個有趣的極端案例。

如果我們查看的樣本數量很少,則Spearman和Pearson之間的差異可能會很大。

在以下情況下,這兩種方法都報告了完全相反的相關性。

enter image description here

一些快速的經驗法則來決定Spearman與Pearson的關係:

  • 皮爾遜(Pearsons)的假設是恆定方差和線性(或與之近似的線性假設),如果不滿足這些假設,則值得Spearmans嘗試。
  • 上面的示例是僅在有少量(<5)數據點時才會彈出的特殊情況。如果有100個以上的數據點,並且數據是線性的或接近線性的,則Pearson將與Spearman非常相似。
  • 如果您認為線性回歸是分析數據的合適方法,則Pearsons的輸出將與線性回歸斜率的正負號和大小匹配(如果變量已標準化)。
  • 如果您的數據包含一些線性回歸不會拾取的非線性成分,那麼首先嘗試通過應用變換將數據整理為線性形式(可能是log e)。如果這不起作用,那麼Spearman可能是合適的。
  • 我總是首先嘗試Pearson的方法,如果那不起作用,那麼我嘗試Spearman。
  • 可以添加任何內容嗎?更多經驗法則還是糾正我剛剛推論的法則?我已將此問題設為社區Wiki,因此您可以這樣做。

p.s。以下是用於重現上圖的R代碼:

 #腳本,該腳本顯示在某些極端情況下,所報告的spearman相關性可能與#earson相關。在這種情況下,斯皮爾曼為+0.4,皮爾遜為-0.4。y = c(+ 2.5,-0.5,-0.8,-1)x = c(+ 0.2,-3,-2.5,+ 0.6)地塊(y〜 x,xlim = c(-6,+ 6),ylim = c(-1,+ 2.5))title(“ Correlation:Spearman與Pearson的角案例\ n請注意,它們彼此相對(-0.4與。 +0.4)“)abline(v = 0)abline(h = 0)lm1 = lm(y〜x)abline(lm1,col =” red“)
spearman = cor(y,x,method =“ spearman”)pearson = cor(y,x,method =“ pearson”)legend(“ topleft”,c(“紅線:回歸。”,sprintf(“ Spearman:% .5f“,spearman),sprintf(” Pearson:+%。5f“,pearson))) 
richiemorrisroe
2011-03-09 17:54:46 UTC
view on stackexchange narkive permalink

在同意查爾斯答案的同時,我建議(在嚴格的實踐水平上)您應該計算兩個係數並查看差異。在許多情況下,它們將完全相同,因此您無需擔心。

但是,如果它們不同,則需要查看是否滿足皮爾遜假設(常數)。方差和線性),如果不滿足這些條件,則最好使用Spearmans。

作為機器學習者,我當然不是關於統計正確性的聖人,但是在進行測試之後檢查假設對我來說似乎是異端。
@steffen我認為很好。回歸的一種假設是殘差呈正態分佈。在運行回歸之前,您將如何檢查?
@Glen:在這種情況下,我不能。但是,當我比較不同模型的質量時,我通常更喜歡在執行測試之前檢查假設(例如近似正態分佈),以減少放寬假設以支持某些測試結果的趨勢。稱其為“預防腦筋急轉彎”。我想那隻是我;)。
@ steffen:您對異端是正確的,但是如果這兩個過程給出的結果相同,則使用哪種方法是一個問題,但如果不這樣做,則檢查假設和失敗之處通常可以對數據提供有用的見解。就個人而言,我會盡可能使用Spearman,但這在我的領域並不常見。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...