我如何知道何時在Spearman的$ \ rho $和Pearson的$ r $之間進行選擇?我的變量包括滿意度,並且使用分數總和來解釋分數。但是,這些分數也可以排名。
我如何知道何時在Spearman的$ \ rho $和Pearson的$ r $之間進行選擇?我的變量包括滿意度,並且使用分數總和來解釋分數。但是,這些分數也可以排名。
如果要瀏覽數據,則最好同時計算兩者,因為Spearman(S)和Pearson(P)相關性之間的關係會提供一些信息。簡而言之,S是按秩計算的,因此描述了單調關係,而P表示的是真值,並且描述了線性關係。
例如,如果設置:
x = (1:100); y = exp(x);然後%,corr(x,y,'type','Spearman'); %等於1,corr(x,y,'type','Pearson'); %大約等於0.25
這是因為$ y $與$ x $單調增加,因此Spearman相關性是完美的,但不是線性的,因此Pearson相關性是不完美的。
corr(x,log(y),'type','Pearson'); %等於1
兩者都很有趣,因為如果您有S> P,則意味著您具有單調但不是線性的相關性。由於統計數據具有線性關係(這很容易),因此您可以嘗試對$ y $進行轉換(例如對數)。
我希望這有助於使類型之間的差異相關性更容易理解。
最短且最正確的答案是:
皮爾遜基準線性關係,斯皮爾曼基準單調關係(很少有無窮比更一般的情況,但是對於某些
因此,如果您假設/認為該關係是線性的(或者,作為特殊情況,它們是同一事物的兩個量度,那麼該關係為$ y = 1 \ cdot x + 0 $)並且情況不太奇怪(請查看其他答案以獲取詳細信息),請與Pearson一起使用。否則,請使用Spearman。
這種情況經常在統計數據中發生:您可以根據情況採用多種方法,但您不知道該選擇哪種方法。您應該根據您所考慮的方法的優缺點以及問題的具體情況來做出決定,但是即使如此,該決定通常也是主觀的,沒有商定的“正確”答案。通常,嘗試盡可能多的合理方法是一個好主意,並且您的耐心將允許並查看最終哪些方法可以為您帶來最佳效果。
Pearson相關性與Spearman之間的差異相關性在於,Pearson最適合從 interval 量表進行的測量,而Spearman更適合於從 ordinal 量表進行的測量。間隔刻度的示例包括“溫度單位為華氏度”和“長度單位為英寸”,其中各個單位(1華氏度,1英寸)是有意義的。諸如“滿意度得分”之類的東西往往是序數類型的,因為雖然很顯然“ 5個幸福”比“ 3個幸福”更快樂,但是不清楚您是否可以對“ 1個幸福單位”做出有意義的解釋。但是,當您累加許多序數類型的度量(這就是您的情況)時,最終得到的度量實際上既不是序數也不是間隔,並且很難解釋。
我建議您將滿意度分數轉換為分位數分數,然後對這些分數求和,因為這將為您提供更易於理解的數據。但是即使在這種情況下,也不清楚Pearson還是Spearman是否更合適。
我今天遇到了一個有趣的極端案例。
如果我們查看的樣本數量很少,則Spearman和Pearson之間的差異可能會很大。
在以下情況下,這兩種方法都報告了完全相反的相關性。
一些快速的經驗法則來決定Spearman與Pearson的關係:
p.s。以下是用於重現上圖的R代碼:
#腳本,該腳本顯示在某些極端情況下,所報告的spearman相關性可能與#earson相關。在這種情況下,斯皮爾曼為+0.4,皮爾遜為-0.4。y = c(+ 2.5,-0.5,-0.8,-1)x = c(+ 0.2,-3,-2.5,+ 0.6)地塊(y〜 x,xlim = c(-6,+ 6),ylim = c(-1,+ 2.5))title(“ Correlation:Spearman與Pearson的角案例\ n請注意,它們彼此相對(-0.4與。 +0.4)“)abline(v = 0)abline(h = 0)lm1 = lm(y〜x)abline(lm1,col =” red“)
spearman = cor(y,x,method =“ spearman”)pearson = cor(y,x,method =“ pearson”)legend(“ topleft”,c(“紅線:回歸。”,sprintf(“ Spearman:% .5f“,spearman),sprintf(” Pearson:+%。5f“,pearson)))
在同意查爾斯答案的同時,我建議(在嚴格的實踐水平上)您應該計算兩個係數並查看差異。在許多情況下,它們將完全相同,因此您無需擔心。
但是,如果它們不同,則需要查看是否滿足皮爾遜假設(常數)。方差和線性),如果不滿足這些條件,則最好使用Spearmans。