在此問題之後,您將如何向僅理解均值的人解釋協方差?,它解決了向外行人解釋協方差的問題,在我心中提出了類似的問題
一個新人如何解釋統計協方差和相關之間的差異?似乎兩者都涉及到鏈接到另一個變量的一個變量的變化。
類似於所提到的問題,最好不使用公式。
在此問題之後,您將如何向僅理解均值的人解釋協方差?,它解決了向外行人解釋協方差的問題,在我心中提出了類似的問題
一個新人如何解釋統計協方差和相關之間的差異?似乎兩者都涉及到鏈接到另一個變量的一個變量的變化。
類似於所提到的問題,最好不使用公式。
協方差的問題在於它們很難比較:當您計算一組身高和體重的協方差時(分別以米和千克表示),您將獲得與在其中進行協方差時不同的協方差。其他單位(無論使用公制還是不使用公制,這已經給做相同事情的人們帶來了麻煩!),而且,很難說(例如)身高和體重是否比“長度”更長腳趾和手指,僅僅是因為計算協方差的“標度”是不同的。
解決方案是“標準化”協方差:將協方差除以代表多樣性和標度的東西這兩個協變量,最後得到的值肯定在-1和1之間:相關性。無論原始變量位於什麼單位,您都將始終獲得相同的結果,這還將確保您可以在一定程度上比較兩個變量是否比兩個變量“相關”更多。
注意:以上假設讀者已經了解協方差的概念。
這些問題的要求讓我有些奇怪。這是一個數學概念/公式,但是我想在完全沒有數學符號的情況下談論它。我還認為應該指出,我認為應該在大多數人接受高等教育之前將理解公式的實際代數教授給大多數人(不需要了解矩陣代數,只需簡單的代數就可以了。)
因此,首先,不是完全忽略公式並以一些神奇和啟發式的類推方式來談論它,而是讓我們看一下公式並嘗試逐步解釋各個組成部分。當查看公式時,協方差和相關性方面的差異應該變得清楚。儘管從類推和啟發式的角度講,我懷疑這會掩蓋兩個相對簡單的概念及其在許多情況下的差異。
因此,讓我們從樣本協方差(我剛剛從維基百科獲取和採用的)公式開始;
$ \ frac {1} {n-1} \ sum_ {i = 1} ^ {n}(x_i- \ bar {x})(y_i- \ bar {y})$
為了讓每個人都快起來明確定義公式中的所有元素和運算。
在這一點上,我可能會介紹一個簡單的示例,以便可以說一下元素和操作。因此,例如,讓我們組成一個表格,其中每一行對應一個觀察值(並且$ x $和$ y $被適當地標記)。可能會使這些示例更具體(例如,$ x $代表年齡,$ y $代表體重),但對於我們在此處的討論沒有關係。
x y --- 2 54 89 35 60 8
這時,如果您覺得公式中的求和運算可能尚未完全理解,則可以在更簡單的上下文中再次引入。只需說出$ \ sum_ {i = 1} ^ {n}(x_i)$與本示例中的說法相同;
x-2 4 9 5+ 0- 20
現在應該清除混亂,我們可以將其用於公式的第二部分,$(x_i- \ bar {x})(y_i- \ bar { y})$。現在,假設人們已經知道$ \ bar {x} $和$ \ bar {y} $代表的意思,並且我想說,對文章中我自己的評論持虛偽態度,則可以僅提及表示簡單啟發式(例如分佈的中間)。這樣一來,您就可以一次只執行一次此過程。語句$ {x_i- \ bar {x})$僅檢查每個觀察值之間的偏差/距離,以及該特定屬性的所有觀察值的平均值。因此,當觀察值離平均值較遠時,此操作將被賦予較高的值。然後可以參考給定的示例表,並簡單地演示對觀測值的$ x $向量的操作。
x x_bar(x-x_bar)2 4 -24 4 09 4 55 4 10 4 -4
對於$ y $向量,該操作相同,但僅出於增強目的,您也可以對該操作進行演示。
y y_bar(y-y_bar)5 6 -18 6 23 6 -36 6 08 6 2
現在,術語$(x_i- \ bar {x})$和$(y_i- \ bar {y})$不應模棱兩可,我們可以繼續下一步,將這些結果相乘,即$ (x_i- \ bar {x})\ cdot(y_i- \ bar {y})$。正如gung在評論中所指出的那樣,這通常被稱為叉積(如果是為統計引入基本矩陣代數的人,這可能是一個有用的例子)。
請注意乘法時會發生什麼,如果兩個觀測值均在均值上方較大距離處,則所得觀測值將具有甚至更大的正值(如果兩個觀測值均在均值以下較大距離處,則同樣如此,因為兩個負數相乘等於正數)。還要注意,如果一個觀察值高於平均值,而另一個觀察值低於平均值,則結果值將很大(以絕對值表示)而為負(正數乘以負數等於負數)。最後請注意,當一個值非常接近任一觀察值的均值時,將兩個值相乘將得出較小的數字。再次,我們可以在表格中顯示此操作。
(x-x_bar)(y-y_bar)(x-x_bar)*(y-y_bar)-2 -1 2 0 2 0 5 -3 -15 1 0 0-4 2 -8
現在,如果房間裡有統計學家,他們應該在預料之中沸騰。我們可以看到協方差是什麼以及如何進行計算的所有獨立元素。現在我們要做的就是將上表中的最終結果相加,除以$ n-1 $和 voila ,協方差不再是神秘的(所有方差僅定義一個希臘符號)
(x-x_bar)*(y-y_bar)----------------------- 2 0 -15 0 + -8 ----- -21-21 /(5-1)= -5.25
在這一點上,您可能想加強5的來源,但這應該很簡單,就像回到表中併計算觀察值的數量一樣(再次讓樣本和總體之間的差異留給其他時間)
現在,協方差本身並不能告訴我們太多(它可以告訴我們,但是在這一點上,不必訴諸任何有趣的示例,而無需訴諸於魔術師,未定義的對觀眾的引用)。在一個好的情況下,您實際上並不需要出售為什麼我們應該關注協方差是什麼,在其他情況下,您可能只希望希望您的聽眾被俘虜並信守諾言。但是,繼續開發協方差和相關性之間的差異,我們可以參考相關公式。為防止希臘語符號恐懼症,可能只是說$ \ rho $是用於表示相關性的常用符號。
$ \ rho = \ frac {Cov(x,y)} {\ sqrt {Var(x)再次重申一下,前面公式中的分子只是我們剛剛定義的協方差,分母是乘積的平方根每個系列的差異。如果您需要定義方差本身,則可以說方差與序列與其自身的協方差是同一件事(即$ Cov(x,x)= Var(x)$)。並且您採用了協方差引入的所有相同概念都適用(即,如果一個序列中的許多值與均值相差很遠,那麼其方差就很大)。也許在這裡需要注意,一個序列也不能具有負方差(從邏輯上講,應該遵循前面介紹的數學方法)。
因此,我們引入的唯一新組件是分母$ Var(x)Var(y)$。因此,我們將剛剛計算出的協方差除以每個序列方差的乘積。有人可能會討論為什麼用$ \ sqrt {Var(x)Var(y)} $除以總是得到一個介於-1和1之間的值,但是我懷疑應該忽略Cauchy-Schwarz不等式。討論的議程。再次,我是一個偽君子,訴諸於某些事物,信守諾言,但是在這一點上,我們可以介紹使用相關係數的所有原因。然後,人們可以將這些數學課程與其他陳述中給出的啟發式方法聯繫起來,例如 Peter Flom對另一個問題的回答。儘管因因果關係陳述引入這一概念而受到批評,但該課程也應在某個時刻提上議事日程。
我了解在某些情況下這種水平的治療是不合適的。 參議院需要執行摘要。在這種情況下,您可以回顧一下人們在其他示例中一直在使用的簡單啟發式方法,但是羅馬並不是一天之內就建立起來的。對於要求執行摘要的參議院來說,如果您有那麼少的時間,也許您應該相信我的話,而不必進行類比和要點的形式。
相關性(r)是您的變量(x & y)的協方差(cov)除以(或用其調整)每個標準偏差($ \ sqrt {Var [x] Var [y] } $)。
也就是說,相關性只是協方差的一種表示,因此結果必須介於-1(完全反相關)和+1(完全正相關)之間,並指出接近零的值表示兩個變量是不相關的。
協方差不受限制,與其他協方差相比缺少上下文。通過將協方差歸一化/調整/標準化,可以更輕鬆地比較數據集。
您可以想像,可以使用多種方法對統計量(例如協方差)進行歸一化/標準化。相關和協方差之間的關係的數學公式僅反映了統計學家使用的約定(即,根據其標準偏差進行調整):
$$ r = \ frac {cov(x,y)} {\ sqrt {Var [x] Var [y]}} $$
如果您熟悉居中和標準化的思想,則x-xbar會將x居中。 y也一樣。因此協方差只是將數據居中。但是,相關不僅可以使數據居中,還可以使用標準偏差(標準化)進行縮放。乘法和求和是這兩個向量的點積,它表明這兩個向量彼此之間的平行程度(一個向量在另一個向量上的投影)。 (n-1)的除法或採用期望值將根據觀察數進行縮放。有想法嗎?
據我了解。關聯是協方差的“歸一化”版本。
根據存在正相關還是負相關,將相關性縮放到-1和+1之間,並且是無量綱的。但是,協方差的範圍是從兩個獨立變量的零到Var(X)(如果兩組數據相等)。 COV(X,Y)的單位是X的單位乘以Y的單位。