相關和簡單線性回歸之間有什麼區別？

題:

相關和簡單線性回歸之間有什麼區別？

Neil McGuigan

2010-08-26 04:53:00 UTC

view on stackexchange narkive permalink

我特別指的是皮爾遜積矩相關係數。

請注意，可以從我的答案中辨別出回歸與相關之間的關係的一種觀點：[對帶有x的y與帶有y的x進行線性回歸有什麼區別？]（http://stats.stackexchange.com/questions / 22718 // 22721＃22721）。

十答案:

Jeromy Anglim

2010-08-26 07:48:15 UTC

view on stackexchange narkive permalink

$ X $和$ Y $之間的相關性與根據$ X $預測$ Y $的線性回歸之間有什麼區別？

首先，有一些相似性：

標準回歸係數與Pearson相關係數相同
在簡單線性回歸中，Pearson相關係數的平方與$ R ^ 2 $相同
簡單的線性回歸和相關性都不能直接回答因果關係問題。這一點很重要，因為我遇到過一些人，他們認為簡單的回歸可以神奇地推斷出$ X $會導致$ Y $。

第二，有些差異：

回歸方程（即$ a + bX $）可用於基於$ X $的值對$ Y $進行預測
相關通常是指線性關係，它可以涉及其他形式的依存關係，例如多項式或真正的非線性關係
雖然相關通常是指Pearson的相關係數，但還有其他類型的相關，例如Spearman的

您好Jeromy，謝謝您的解釋，但是我在這裡還有一個問題：如果我不需要進行預測，只想知道兩個變量的接近程度以及在哪個方向/強度，該怎麼辦？使用這兩種技術還有什麼不同嗎？

@yue86231然後聽起來像相關性的度量將更合適。

（+1）對於相似性，增加假設“ correlation = 0”或等效地，“ slope = 0”（對於任一順序的回歸）的標準檢驗，例如由“ lm”執行和`R`中的`cor.test`將產生相同的p值。

我同意應該添加@whuber的建議，但在非常基本的水平上，我認為值得指出的是，回歸斜率的*符號*和相關係數相等。這可能是大多數人了解相關性與“最佳擬合線”之間的關係的第一件事（即使他們還不稱其為“回歸”），但我認為這是值得注意的。對於差異，您可能需要提及以下事實：您的答案相關性X與Y相同，反之亦然，但是X上Y的回歸與Y上X的回歸不同。

Harvey Motulsky

2010-08-26 08:21:46 UTC

view on stackexchange narkive permalink

這是我在graphpad.com網站上發布的答案：

相關性和線性回歸併不相同。請考慮以下差異：

相關性可量化兩個變量相關的程度。相關不適合數據中的任何一條線。
有了相關性，您不必考慮因果關係。您只需量化兩個變量之間相互關聯的程度即可。對於回歸，您確實需要考慮因果關係，因為確定回歸線是從X預測Y的最佳方法。
對於相關性，調用兩個變量中的哪一個都不重要“ X”，您稱其為“ Y”。如果將兩者交換，則將獲得相同的相關係數。對於線性回歸，決定將哪個變量稱為“ X”以及將哪個變量稱為“ Y”非常重要，因為如果將二者互換，則會得到不同的最佳擬合線。從X最好地預測Y的線與從Y最好地預測X的線（除非您擁有完美的數據且沒有散亂。）
在測量兩個變量時，幾乎總是使用相關性。當一個變量是您通過實驗操作的東西時，它很少是合適的。通過線性回歸，通常可以通過實驗操作X變量（時間，濃度...），而可以測量Y變量。

“從X預測Y的最佳方法”與因果無關：X可能是Y的原因，反之亦然。可以從因果推論（演繹）或從因果推論（綁架）。

“如果將兩者交換，就會得到一條不同的最佳擬合線”，這有點誤導；兩種情況下的標準斜率將相同。

russellpierce

2010-08-26 11:37:23 UTC

view on stackexchange narkive permalink

在線性回歸的單個預測變量情況下，標準斜率與相關係數具有相同的值。線性回歸的優勢在於，可以以一種方式描述關係，以便您可以基於兩個變量之間的關係來預測給定預測變量的任何特定值時，預測變量的得分。尤其是線性回歸可以為您提供一條信息，即相關係數不是截距，即預測變量為0時預測變量的值。

簡而言之-它們在計算上產生相同的結果，但是還有更多可以在簡單線性回歸中解釋的元素。如果您只想簡單地描述兩個變量之間的關係的大小，請使用相關性-如果您希望根據特定值來預測或解釋結果，則可能需要回歸。

“特別是線性回歸給您的一條信息是相關性不是截距”……相差很大！

好吧，回顧一下，回歸確實提供了一個截距，這是真的，因為它是許多統計數據包默認的截距。無需攔截即可輕鬆計算出回歸。

是的，可以很容易地計算出沒有截距的回歸，但這很少有意義：https://stats.stackexchange.com/questions/102709/when-forcing-intercept-of-0-in-linear-regression-is-可接受的建議/ 102712＃102712

@kjetilbhalvorsen除了我在安裝標準坡度時所述的情況外。標準回歸方程中的截距項始終為0。為什麼？因為IV和DV均已標準化為單位分數-結果截距定義為0。這正是您在答案中描述的情況。（相當於標準化IV和DV）。當IV和DV都標準化為0時，截距定義為0。

vonjd

2018-05-05 16:05:26 UTC

view on stackexchange narkive permalink

到目前為止，所有給出的答案都提供了重要的見解，但不應忘記，您可以將一個參數轉換為另一個參數。

回歸：$ y = mx + b $

回歸參數與相關性，協方差，方差，標準差和均值之間的聯繫： $$ m = \ frac {Cov（y，x）} {Var（x）} = \ frac {Cor（y，x）\ cdot Sd（y）} {Sd（x）} $$ $$ b = \ bar {y} -m \ bar {x} $$

因此，您可以通過縮放和移動它們的參數來相互轉換。

R中的示例：

  y <- c（4.17，5.58，5.18，6.11，4.50，4.61，5.17，4.53，5.33，5.14）
x <- c（4.81、4.17、4.41、3.59、5.87、3.83、6.03、4.89、4.32、4.69）
lm（y〜x）
##
##致電：
## lm（公式= y〜x）
##
##係數：
##（攔截）x
## 6.5992 -0.3362
（m <- cov（y，x）/ var（x））＃回歸斜率
## [1] -0.3362361
cor（y，x）* sd（y）/ sd（x）＃具有相關性相同
## [1] -0.3362361
均值（y）-m *均值（x）＃截距
## [1] 6.599196

syeda maryium fatima

2010-10-22 14:17:26 UTC

view on stackexchange narkive permalink

關聯分析僅量化兩個變量之間的關係，而忽略哪個是因變量和哪個是獨立變量。但是在應用回歸之前，您必須校準要檢查哪個變量對另一個變量的影響。

radia

2012-09-21 00:18:40 UTC

view on stackexchange narkive permalink

根據相關性，我們只能得到一個描述兩個變量之間線性關係的索引。在回歸中，我們可以預測兩個以上變量之間的關係，並可以使用它來識別哪些變量 x 可以預測結果變量 y 。

Carlo Lazzaro

2013-12-11 17:31:42 UTC

view on stackexchange narkive permalink

引用Altman DG，“醫學研究的實用統計學”，Chapman & Hall，1991年，第321頁：“相關將一組數據簡化為與實際數據沒有直接關係的單個數字。回歸更為有用。方法，其結果與獲得的測量結果明顯相關。這種關係的強度是明確的，並且可以從置信區間或預測區間清楚地看到不確定性。

儘管我很同情奧特曼（Altman），在許多情況下，回歸方法通常比關聯性更合適，但這種引用正在引起人們的爭論。在OLS回歸中，所產生的信息等效於相關計算中所提供的信息（所有第一和第二個雙變量矩及其標準誤差），並且相關係數提供的信息與回歸斜率相同。兩種方法在假定的基礎數據模型和解釋上有所不同，但在Altman要求的方式上並沒有什麼不同。

Kanon Das Zinku

2014-10-22 21:57:46 UTC

view on stackexchange narkive permalink

回歸分析是研究兩個變量之間關係的成因的技術。而關聯分析是研究量化兩個變量之間的關係的技術。

歡迎來到簡歷！鑑於這個問題已經有很多答案了，您是否想看看它們並查看您的內容是否有新增？如果您還有更多話要說，可以對其進行編輯。

Jdub

2012-06-20 00:51:58 UTC

view on stackexchange narkive permalink

Correlation is an index (just one number) of the strength of a relationship. Regression is an analysis (estimation of parameters of a model and statistical test of their significance) of the adequacy of a particular functional relationship. The size of the correlation is related to how accurate the predictions of the regression will be.

不，這不對。相關性為我們提供了有限的關係，但與預測的精確度無關。R2給出了。

shakir sabir

2014-08-14 13:28:47 UTC

view on stackexchange narkive permalink

Correlation是統計數據中的一個術語，它確定兩個之間是否存在關聯，然後確定關聯的程度。範圍是-1至+1。而回歸意味著回到平均水平。從回歸中，我們通過保持一個變量與另一個變量的獨立性來預測值，但應闡明我們要預測哪個變量的值。

您好，@shakir,，歡迎來到交叉驗證！您可能已經註意到，這是一個古老的問題（從2010年開始），並且已經給出了七個（！）答案。確保您的新答案為討論增加了一些以前沒有涉及的重要內容，這將是一個好主意。目前，我不確定情況是否如此。

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 2.0許可。

关于 - 法律