我特別指的是皮爾遜積矩相關係數。
我特別指的是皮爾遜積矩相關係數。
$ X $和$ Y $之間的相關性與根據$ X $預測$ Y $的線性回歸之間有什麼區別?
首先,有一些相似性:
第二,有些差異:
相關性和線性回歸併不相同。請考慮以下差異:
在線性回歸的單個預測變量情況下,標準斜率與相關係數具有相同的值。線性回歸的優勢在於,可以以一種方式描述關係,以便您可以基於兩個變量之間的關係來預測給定預測變量的任何特定值時,預測變量的得分。尤其是線性回歸可以為您提供一條信息,即相關係數不是截距,即預測變量為0時預測變量的值。
簡而言之-它們在計算上產生相同的結果,但是還有更多可以在簡單線性回歸中解釋的元素。如果您只想簡單地描述兩個變量之間的關係的大小,請使用相關性-如果您希望根據特定值來預測或解釋結果,則可能需要回歸。
到目前為止,所有給出的答案都提供了重要的見解,但不應忘記,您可以將一個參數轉換為另一個參數。
回歸:$ y = mx + b $
回歸參數與相關性,協方差,方差,標準差和均值之間的聯繫: $$ m = \ frac {Cov(y,x)} {Var(x)} = \ frac {Cor(y,x)\ cdot Sd(y)} {Sd(x)} $$ $$ b = \ bar {y} -m \ bar {x} $$
因此,您可以通過縮放和移動它們的參數來相互轉換。
R中的示例:
y <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
x <- c(4.81、4.17、4.41、3.59、5.87、3.83、6.03、4.89、4.32、4.69)
lm(y〜x)
##
##致電:
## lm(公式= y〜x)
##
##係數:
##(攔截)x
## 6.5992 -0.3362
(m <- cov(y,x)/ var(x))#回歸斜率
## [1] -0.3362361
cor(y,x)* sd(y)/ sd(x)#具有相關性相同
## [1] -0.3362361
均值(y)-m *均值(x)#截距
## [1] 6.599196
關聯分析僅量化兩個變量之間的關係,而忽略哪個是因變量和哪個是獨立變量。但是在應用回歸之前,您必須校準要檢查哪個變量對另一個變量的影響。
根據相關性,我們只能得到一個描述兩個變量之間線性關係的索引。在回歸中,我們可以預測兩個以上變量之間的關係,並可以使用它來識別哪些變量 x 可以預測結果變量 y 。
引用Altman DG,“醫學研究的實用統計學”,Chapman & Hall,1991年,第321頁:“相關將一組數據簡化為與實際數據沒有直接關係的單個數字。回歸更為有用。方法,其結果與獲得的測量結果明顯相關。這種關係的強度是明確的,並且可以從置信區間或預測區間清楚地看到不確定性。
回歸分析是研究兩個變量之間關係的成因的技術。而關聯分析是研究量化兩個變量之間的關係的技術。
Correlation is an index (just one number) of the strength of a relationship. Regression is an analysis (estimation of parameters of a model and statistical test of their significance) of the adequacy of a particular functional relationship. The size of the correlation is related to how accurate the predictions of the regression will be.
Correlation是統計數據中的一個術語,它確定兩個之間是否存在關聯,然後確定關聯的程度。範圍是-1至+1。而回歸意味著回到平均水平。從回歸中,我們通過保持一個變量與另一個變量的獨立性來預測值,但應闡明我們要預測哪個變量的值。