題:
您如何解釋相關性和協方差之間的區別?
pmgjones
2011-11-08 22:52:04 UTC
view on stackexchange narkive permalink

在此問題之後,您將如何向僅理解均值的人解釋協方差?,它解決了向外行人解釋協方差的問題,在我心中提出了類似的問題

一個新人如何解釋統計協方差相關之間的差異?似乎兩者都涉及到鏈接到另一個變量的一個變量的變化。

類似於所提到的問題,最好不使用公式。

六 答案:
Nick Sabbe
2011-11-09 01:20:53 UTC
view on stackexchange narkive permalink

協方差的問題在於它們很難比較:當您計算一組身高和體重的協方差時(分別以米和千克表示),您將獲得與在其中進行協方差時不同的協方差。其他單位(無論使用公制還是不使用公制,這已經給做相同事情的人們帶來了麻煩!),而且,很難說(例如)身高和體重是否比“長度”更長腳趾和手指,僅僅是因為計算協方差的“標度”是不同的。

解決方案是“標準化”協方差:將協方差除以代表多樣性和標度的東西這兩個協變量,最後得到的值肯定在-1和1之間:相關性。無論原始變量位於什麼單位,您都將始終獲得相同的結果,這還將確保您可以在一定程度上比較兩個變量是否比兩個變量“相關”更多。

注意:以上假設讀者已經了解協方差的概念。

+1您的意思是在最後一句中寫“ correlation”而不是“ covariance”嗎?
您確定無法比較不同單位的協方差嗎?單位乘以協方差乘以-如果X在`cm`中,而Y在`s`中,則$ cov(X,Y)= z \ cm \ cdot s $。然後,您可以將結果乘以單位換算係數。在R中嘗試一下:`cov(cars $ speed,cars $ dist)== cov(cars $ speed / 5,cars $ dist / 7)*(7 * 5)`
@naught101我懷疑問題的關鍵在於,如果我告訴您$ \ mbox {Cov}(X,Y)= 10 ^ 10 $,除此之外,您將不知道$ X $是否可以高度預測$ Y $或不會,但是如果我告訴您$ \ mbox {Cor}(X,Y)= .9 $,您會得到一些解釋。
@guy:那將是*沒有*單位的協方差:P我認為重要的是,您不能輕易地比較來自具有不同方差的兩個數據集的協方差。例如,如果您具有關係B = 2 * A,並且有兩個數據集{A1,B1}和{A2,B2},其中A1的方差為0.5,A2的方差為2,則$ cov(即使關係完全相同,A2,B2)$也將比$ cov(A1,B1)$大得多。
因此,簡單而言,“核心化”>“協方差”
那麼相關性是歸一化協方差嗎?
什麼是協方差用例?
Andy W
2011-11-09 02:22:26 UTC
view on stackexchange narkive permalink

這些問題的要求讓我有些奇怪。這是一個數學概念/公式,但是我想在完全沒有數學符號的情況下談論它。我還認為應該指出,我認為應該在大多數人接受高等教育之前將理解公式的實際代數教授給大多數人(不需要了解矩陣代數,只需簡單的代數就可以了。)

因此,首先,不是完全忽略公式並以一些神奇和啟發式的類推方式來談論它,而是讓我們看一下公式並嘗試逐步解釋各個組成部分。當查看公式時,協方差和相關性方面的差異應該變得清楚。儘管從類推和啟發式的角度講,我懷疑這會掩蓋兩個相對簡單的概念及其在許多情況下的差異。

因此,讓我們從樣本協方差(我剛剛從維基百科獲取和採用的)公式開始;

$ \ frac {1} {n-1} \ sum_ {i = 1} ^ {n}(x_i- \ bar {x})(y_i- \ bar {y})$

為了讓每個人都快起來明確定義公式中的所有元素和運算。

  • $ x_i $和$ y_i $分別是同一觀察值的兩個獨立屬性的度量
  • $ \ bar { x} $和$ \ bar {y} $是每個屬性的均值(或平均值)
  • 對於$ \ frac {1} {n-1} $,只需說這意味著我們將$ {n-1} $的最終結果。
  • $ \ sum_ {i = 1} ^ {n} $對於某些人來說可能是外來符號,因此對這一操作進行解釋可能很有用。它只是所有$ i $個單獨觀測值的總和,而$ n $代表觀測值的總數。

在這一點上,我可能會介紹一個簡單的示例,以便可以說一下元素和操作。因此,例如,讓我們組成一個表格,其中每一行對應一個觀察值(並且$ x $和$ y $被適當地標記)。可能會使這些示例更具體(例如,$ x $代表年齡,$ y $代表體重),但對於我們在此處的討論沒有關係。

  x y --- 2 54 89 35 60 8  

這時,如果您覺得公式中的求和運算可能尚未完全理解,則可以在更簡單的上下文中再次引入。只需說出$ \ sum_ {i = 1} ^ {n}(x_i)$與本示例中的說法相同;

  x-2 4 9 5+ 0- 20  

現在應該清除混亂,我們可以將其用於公式的第二部分,$(x_i- \ bar {x})(y_i- \ bar { y})$。現在,假設人們已經知道$ \ bar {x} $和$ \ bar {y} $代表的意思,並且我想說,對文章中我自己的評論持虛偽態度,則可以僅提及表示簡單啟發式(例如分佈的中間)。這樣一來,您就可以一次只執行一次此過程。語句$ {x_i- \ bar {x})$僅檢查每個觀察值之間的偏差/距離,以及該特定屬性的所有觀察值的平均值。因此,當觀察值離平均值較遠時,此操作將被賦予較高的值。然後可以參考給定的示例表,並簡單地演示對觀測值的$ x $向量的操作。

  x x_bar(x-x_bar)2 4 -24 4 09 4 55 4 10 4 -4  

對於$ y $向量,該操作相同,但僅出於增強目的,您也可以對該操作進行演示。

  y y_bar(y-y_bar)5 6 -18 6 23 6 -36 6 08 6 2  

現在,術語$(x_i- \ bar {x})$和$(y_i- \ bar {y})$不應模棱兩可,我們可以繼續下一步,將這些結果相乘,即$ (x_i- \ bar {x})\ cdot(y_i- \ bar {y})$。正如gung在評論中所指出的那樣,這通常被稱為叉積(如果是為統計引入基本矩陣代數的人,這可能是一個有用的例子)。

請注意乘法時會發生什麼,如果兩個觀測值均在均值上方較大距離處,則所得觀測值將具有甚至更大的正值(如果兩個觀測值均在均值以下較大距離處,則同樣如此,因為兩個負數相乘等於正數)。還要注意,如果一個觀察值高於平均值,而另一個觀察值低於平均值,則結果值將很大(以絕對值表示)而為負(正數乘以負數等於負數)。最後請注意,當一個值非常接近任一觀察值的均值時,將兩個值相乘將得出較小的數字。再次,我們可以在表格中顯示此操作。

 (x-x_bar)(y-y_bar)(x-x_bar)*(y-y_bar)-2 -1 2 0 2 0 5 -3 -15 1 0 0-4 2 -8  

現在,如果房間裡有統計學家,他們應該在預料之中沸騰。我們可以看到協方差是什麼以及如何進行計算的所有獨立元素。現在我們要做的就是將上表中的最終結果相加,除以$ n-1 $和 voila ,協方差不再是神秘的(所有方差僅定義一個希臘符號)

 (x-x_bar)*(y-y_bar)----------------------- 2 0 -15 0 + -8 ----- -21-21 /(5-1)= -5.25  

在這一點上,您可能想加強5的來源,但這應該很簡單,就像回到表中併計算觀察值的數量一樣(再次讓樣本和總體之間的差異留給其他時間)

現在,協方差本身並不能告訴我們太多(它可以告訴我們,但是在這一點上,不必訴諸任何有趣的示例,而無需訴諸於魔術師,未定義的對觀眾的引用)。在一個好的情況下,您實際上並不需要出售為什麼我們應該關注協方差是什麼,在其他情況下,您可能只希望希望您的聽眾被俘虜並信守諾言。但是,繼續開發協方差和相關性之間的差異,我們可以參考相關公式。為防止希臘語符號恐懼症,可能只是說$ \ rho $是用於表示相關性的常用符號。

$ \ rho = \ frac {Cov(x,y)} {\ sqrt {Var(x)再次重申一下,前面公式中的分子只是我們剛剛定義的協方差,分母是乘積的平方根每個系列的差異。如果您需要定義方差本身,則可以說方差與序列與其自身的協方差是同一件事(即$ Cov(x,x)= Var(x)$)。並且您採用了協方差引入的所有相同概念都適用(即,如果一個序列中的許多值與均值相差很遠,那麼其方差就很大)。也許在這裡需要注意,一個序列也不能具有負方差(從邏輯上講,應該遵循前面介紹的數學方法)。

因此,我們引入的唯一新組件是分母$ Var(x)Var(y)$。因此,我們將剛剛計算出的協方差除以每個序列方差的乘積。有人可能會討論為什麼用$ \ sqrt {Var(x)Var(y)} $除以總是得到一個介於-1和1之間的值,但是我懷疑應該忽略Cauchy-Schwarz不等式。討論的議程。再次,我是一個偽君子,訴諸於某些事物,信守諾言,但是在這一點上,我們可以介紹使用相關係數的所有原因。然後,人們可以將這些數學課程與其他陳述中給出的啟發式方法聯繫起來,例如 Peter Flom對另一個問題的回答。儘管因因果關係陳述引入這一概念而受到批評,但該課程也應在某個時刻提上議事日程。

我了解在某些情況下這種水平的治療是不合適的。 參議院需要執行摘要。在這種情況下,您可以回顧一下人們在其他示例中一直在使用的簡單啟發式方法,但是羅馬並不是一天之內就建立起來的。對於要求執行摘要的參議院來說,如果您有那麼少的時間,也許您應該相信我的話,而不必進行類比和要點的形式。

我完全同意這個問題超出了本論壇目的的觀點。協方差的定義為$$ \ text {cov}(X,Y)= \ mathbb {E} [(X- \ mathbb {E} [X])(Y- \ mathbb {E} [Y])] $ $是一個可以提出的最清晰的解釋。它僅使用期望的概念。避免使用該公式將導致版本不完整且可能會產生誤導。並且這不能為讀者提供在新情況下計算協方差/相關性的人。這不是對抗數字能力的最佳方法。
+1,這是相當不錯的。但是,我不會對概念性介紹這麼批評。我已經與足夠多的人一起工作,而且數學上的焦慮程度很高,以至於顯示一個公式可能會使他們迷失方向。通常,我會按照第1步的直覺來加快它們的速度,然後簡單而又徹底地進行數學運算(就像您在此處所做的那樣)*之後*。這樣,他們只是在學習數學如何表示他們已經知道的東西,並且,如果他們確實在智力上輟學,他們仍然會學到大創意。作為切線點,我通過Excel中的數學進行工作,為此我發現它非常有用。
幾次挑剔(對不起):在最上面的等式中,用$ N $除以,然後(正確地)在相關的項目符號中討論用$ N-1 $除以;我可能會注意到$(x_i- \ bar {x})(y_i- \ bar {y})$被稱為“叉積”;由於您一直在討論* sample *協方差,因此在進行相關時,我可能會跳過關於$ \ rho $的內容,而只使用$ r $;最後,通過相對於* SDs *而不是方差對協方差進行縮放,從協方差計算出相關性,例如,參見[here](http://mathworld.wolfram.com/Covariance.html)。
謝謝@gung,,我在第一個公式中更改了錯字,然後為了進行相關運算,我求了乘方差的平方根(而不是定義標準差)。在使用rho與另一個符號時,我都不覺得太強烈。如果我正在教書並有一本教科書,我可能只想與課本保持一致。希望再有一個希臘符號不會引起混亂!
我同意我不應該這麼挑剔(我本來寫這本書的時候覺得我心情很不好)。雖然,我想說,這樣的捷徑要求除了表面上的理解外,實際上並沒有其他要求。當然,這是一個困難的平衡。我也同意手工(或擅長)進行數學學習是一種有用的工具,至少對於我不是數學家而言。
我不會擔心的,您對情緒不佳的人很有幫助。我不確定是否會笑著讀這個答案。如果我能夠記住這樣的解釋對於很多人來說是必要的,那對我來說可能會更好。
如果我能贊成你的答案一百次,我會。多麼清晰的解釋!
為什麼要使用兩個不同的符號$ N $和$ n $來表示相同的內容?
是的,您說得對,Alex,它們應該是同一符號。
`(x-x_bar)*(y-y_bar)`是點積。
實際上,這個答案沒有解釋什麼是協方差,當我應該選擇協方差而不是相關性時,協方差與相關性之間的區別是什麼?它只是顯示公式並解釋如何計算。
D Dawg
2015-11-15 06:59:04 UTC
view on stackexchange narkive permalink

相關性(r)是您的變量(x & y)的協方差(cov)除以(或用其調整)每個標準偏差($ \ sqrt {Var [x] Var [y] } $)。

也就是說,相關性只是協方差的一種表示,因此結果必須介於-1(完全反相關)和+1(完全正相關)之間,並指出接近零的值表示兩個變量是不相關的。

協方差不受限制,與其他協方差相比缺少上下文。通過將協方差歸一化/調整/標準化,可以更輕鬆地比較數據集。

您可以想像,可以使用多種方法對統計量(例如協方差)進行歸一化/標準化。相關和協方差之間的關係的數學公式僅反映了統計學家使用的約定(即,根據其標準偏差進行調整):

$$ r = \ frac {cov(x,y)} {\ sqrt {Var [x] Var [y]}} $$

user31180
2013-12-20 05:26:45 UTC
view on stackexchange narkive permalink

如果您熟悉居中和標準化的思想,則x-xbar會將x居中。 y也一樣。因此協方差只是將數據居中。但是,相關不僅可以使數據居中,還可以使用標準偏差(標準化)進行縮放。乘法和求和是這兩個向量的點積,它表明這兩個向量彼此之間的平行程度(一個向量在另一個向量上的投影)。 (n-1)的除法或採用期望值將根據觀察數進行縮放。有想法嗎?

Karl Morrison
2015-07-30 02:49:08 UTC
view on stackexchange narkive permalink

據我了解。關聯是協方差的“歸一化”版本。

正如[許多帖子證明](http://stats.stackexchange.com/search?q=normalize)一樣,“ normalize”具有許多不同的含義。您正在使用哪一個?
Nagaraj
2012-03-26 21:42:06 UTC
view on stackexchange narkive permalink

根據存在正相關還是負相關,將相關性縮放到-1和+1之間,並且是無量綱的。但是,協方差的範圍是從兩個獨立變量的零到Var(X)(如果兩組數據相等)。 COV(X,Y)的單位是X的單位乘以Y的單位。

協方差可以是負的,因此它不以0為界。我也不清楚您的最後一句話是什麼意思:“ COV(X,Y)的單位是X的單位乘以Y的單位。” ,想詳細說明嗎?
-1
@naught101,單位通過了嗎?我對Nagaraj的最初評論是要進一步澄清,因為模棱兩可的陳述(例如我要斷言的那種陳述)對任何人都沒有幫助。因此,為什麼不能將協方差解釋為“ x的單位乘以y的單位”,因為那不是事實。 (對於樣本協方差)可能更正確的陳述是它是“ *均值偏差**的乘積平均值”。繼續...
現在,均值偏差肯定與原始單位不同,並且協方差的最終統計數據不僅僅取決於原始屬性的均值和方差。不知道原始屬性的方差,協方差本身並不能告訴您任何信息。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...