題:
什麼是主成分分數?
vrish88
2010-07-20 10:37:47 UTC
view on stackexchange narkive permalink

什麼是主要成分分數(PC分數,PCA分數)?

埃爾廚師在這裡有一個簡短的答案-> http://stats.stackexchange.com/questions/146/pca-scores-in-multiple-regression。高溫超導
[PC分數/因子分數是通過加載計算得出的標準](http://stats.stackexchange.com/q/126885/3277)。
[PC分數和PC負載僅作為Biplot上的行和列坐標](http://stats.stackexchange.com/q/141754/3277)。
(標準化)[PC分數(和幾種因子分數)](http://stats.stackexchange.com/q/126885/3277)。
七 答案:
Tony Breyal
2010-07-20 17:02:27 UTC
view on stackexchange narkive permalink

首先,讓我們定義一個分數。

John,Mike和Kate在數學,科學,英語和音樂考試中獲得以下百分比:

 數學科學英語音樂約翰80 85 60 55邁克90 85 70 45凱特95 80 40 50  

在這種情況下,總共有12分。每個分數代表特定學科中每個人的考試結果。因此,在這種情況下,分數只是表示行和列相交的位置。

現在讓我們非正式地定義一個主成分。

在表中上面,您可以輕鬆地在2D圖形中繪製數據嗎?不,因為有四個主題(這意味著四個變量:數學,科學,英語和音樂),即:

  • 您可以用與$ x完全相同的方式繪製兩個主題$和$ y $在2D圖形中的坐標。
  • 您甚至可以以與在3D圖形中繪製$ x $,$ y $和$ z $相同的方式繪製三個主題(儘管這通常是不好的做法,因為在3D數據的2D表示)。

但是您將如何繪製4個主題?

目前,我們有四個變量,每個變量僅代表一個主題。因此,解決此問題的方法可能是將主題以某種方式組合到可能僅是兩個新變量中,然後我們可以對其進行繪製。這就是多維縮放

主成分分析是多維縮放的一種形式。這是變量到較低維空間的線性轉換,該維保留了有關變量的最大信息量。例如,這意味著我們可以查看每個學生可能更適合的學科類型。

因此,主要成分是線性變換後的原始變量的組合。在R中,這是:

  DF<-data.frame(Maths = c(80,90,95),Science = c(85,85,80),English = c(60, 70,40),Music = c(55,45,50))prcomp(DF,scale = FALSE) 

這會給你這樣的東西(前兩個主要成分只是為了簡單性):

  PC1 PC2Maths 0.27795606 0.76772853 Science -0.17428077 -0.08162874英語-0.94200929 0.19632732音樂0.07060547 -0.60447104  

此處的第一列顯示了線性係數組合定義了主要成分#1,第二列顯示了主要成分#2的係數。

那麼什麼是主要成分得分?

R的上述輸出意味著我們現在可以按如下所示在二維圖中繪製每個人在所有主題上的得分。首先,我們需要將減數列表示的原始變量居中:

 數學科學英語音樂約翰-8.33 1.66 3.33 5邁克1.66 1.66 13.33 -5凱特6.66 -3.33 -16.66 0  

然後形成線性組合以獲得PC1和PC2 得分

  x yJohn -0.28 * 8.33 + -0.17 * 1.66 +- 0.94 * 3.33 + 0.07 * 5 -0.77 * 8.33 + -0.08 * 1.66 + 0.19 * 3.33 + -0.60 * 5 Mike 0.28 * 1.66 + -0.17 * 1.66 + -0.94 * 13.33 + -0.07 * 5 0.77 * 1.66 + -0.08 * 1.66 + 0.19 * 13.33 + -0.60 * 5凱特0.28 * 6.66 + 0.17 * 3.33 + 0.94 * 16.66 + 0.07 * 0 0.77 * 6.66 + 0.08 * 3.33 + -0.19 * 16.66 + -0.60 * 0  
>

簡化為:

  x yJohn -5.39 -8.90邁克-12.74 6.78凱特18.13 2.12  

有六個主要組成部分得分。現在,您可以在2D圖形中繪製分數,以了解每個學生也許更適合的學科類型。

通過輸入 prcomp(DF,scale = FALSE)$ x ,可以在R中獲得相同的輸出。

編輯1:嗯,我可能想到了更好的例子,它比我在這裡提出的要多,但我希望您能想到。

編輯2:@drpaulbrewer完全感謝他對改善此答案的評論。

>

值得稱讚的努力-但是-PC1和PC2都不告訴您誰在所有學科上都表現最好。為此,PC學科的係數​​都必須是積極的。 PC1在數學和音樂方面的權重為正,而在科學和英語方面的權重為負。 PC2在數學和英語方面的權重為正,而在科學和音樂方面的權重為負。 PC告訴您的是數據集中最大的差異所在。因此,通過用PC1中的係數對科目進行加權,然後使用該分數對學生進行評分,您將獲得最大的方差或學生行為分佈。它可以分類類型,但不能分類性能。
+1好評論,歡呼。您當然是正確的,我應該寫得更好一些,現在我編輯了有問題的內容以使我希望清楚。
您可以標準化var,從而計算總和,以便查看誰是最好的,或者如果願意,可以在R中使用:apply(dtf,1,function(x)sum(scale(x)))`
“現在我們有四個僅代表一個學科的變量”這一行不應該讀為“目前我們有三個僅代表一個學科的變量”嗎?
@JohnPrior四個變量(列)是數學,科學,英語和音樂,並且行代表個人。“主題”一詞有時會變得模棱兩可,因為五年前我選擇了一個糟糕的例子作為答案。
@Tony,在計算分數之前,我繼續編輯了您的答案以使變量居中。現在,計算出的分數適合“ prcomp”的輸出。之前沒有。
您所謂的“主要成分”實際上不是特徵向量($ W $)嗎?您所謂的“主成分分數”實際上是沒有任何“分數”的“主成分”($ PC $)?因此,$ PC = XW $。為什麼將事情與談論“分數”,“因素”,“負載”等混淆?
seancarmody
2010-07-20 11:23:22 UTC
view on stackexchange narkive permalink

主成分分析(PCA)是處理多元數據時分析方差的一種流行方法。您擁有隨機變量X1,X2,... Xn,它們都以不同程度(正或負)相關,並且您想更好地了解正在發生的事情。 PCA可以提供幫助。

PCA給您的是將變量更改為Y1,Y2,...,Yn(即變量數相同),它們是X的線性組合。例如,您可能具有Y1 = 2.1 X1-1.76 X2 + 0.2 X3 ...

Ys是一個很好的屬性,它們每個之間的相關性為零。更好的是,您可以按遞減的順序獲得它們。因此,Y1“解釋”了原始變量方差的很大一部分,Y2則少了很多,依此類推。通常在前幾個Y之後,變量會變得毫無意義。任何Xi的PCA分數就是它在每個Y中的係數。在我之前的示例中,第一個主成分(Y1)中X2的得分為1.76。

PCA實現此魔術的方法是通過計算協方差矩陣的特徵向量。

To舉一個具體的例子,假設X1,... X10是在一定時期內1年,2年,...,10年國債收益率的變化。當您計算PCA時,通常會發現第一個成分具有相同符號和大約相同符號的每個鍵的分數。這告訴您,債券收益率的大部分差異來自所有以相同方式移動的東西:“平行移動”向上或向下。第二個部分通常顯示曲線的“變陡”和“變平”,並且X1和X10具有相反的符號。

較高的Y值如何“解釋”較大的方差? PCA是如何計算的?如果是這樣,我想我還有一個問題要發表;)
沒錯-如果PC的方差為3.5,則PC會“解釋”初始集合中3.5個變量的變異性。由於PC是可加的,因此PC1> PC2> ...> PCn,並且它們的方差之和等於初始變量集的方差之和,因為PCA是在協方差矩陣上計算的,即變量是標準化的( SD = 1,VAR = 1)。
probabilityislogic
2011-08-28 05:03:40 UTC
view on stackexchange narkive permalink

我喜歡認為主成分分數“基本上沒有意義”,直到您實際賦予它們一定的意義為止。用“真實性”來解釋PC分數是一件棘手的事情-確實沒有唯一的方法可以做到這一點。這取決於您對進入PCA的特定變量的了解,以及它們在解釋方面的相互關係。

就數學而言,我喜歡將PC分數解釋為每個點相對於主成分軸的坐標。因此,在原始變量中,您有$ \ bf {} x_i $ $ =(x_ {1i},x_ {2i},\ dots,x_ {pi})$,它是p維空間中的“點”。在這些坐標中,這意味著沿著$ x_ {1} $軸,點是距原點的距離$ x_ {1i} $。現在,PCA基本上是描述此“點”的另一種方式-相對於其主成分軸,而不是“原始變量”軸。因此,我們有$ \ bf {} z_i $ $ =(z_ {1i},z_ {2i},\ dots,z_ {pi})= \ bf {} A(x_i- \ overline {x})$,其中$ \ bf {} A $是主分量權重的$ p \ timesp $矩陣(即每一行的特徵向量),$ \ bf {} \ overline {x} $是數據的“質心”(或均值)數據點的向量)。

因此,您可以將特徵向量視為描述PC的“直線”所在的位置。然後,主成分評分描述相對於數據的“中心”,每個數據點在每個直線上的位置。您還可以將PC分數與權重/特徵向量結合起來,作為每個原始數據點的一系列等級1預測,其形式為:

$$ \ hat {x} _ {ji} ^ {(k)} = \ overline {x} _j + z_ {ki} A_ {kj} $$

其中$ \ hat {x} _ {ji} ^ {{k) } $是使用$ k $ th PC對$ i $ th觀測值的預測,對於$ i $ th觀測值。

Jonas
2010-07-20 11:47:14 UTC
view on stackexchange narkive permalink

假設您有3個點(例如3D)中的N個點雲(可以以100x3陣列列出)。然後,主成分分析(PCA)將任意定向的橢球擬合到數據中。主成分分數是橢球直徑的長度。

在直徑較大的方向上,數據變化很大,而在直徑較小的方向上,數據變化很小。如果要將N-d數據投影到2-d散點圖中,請沿著兩個最大的主分量進行繪製,因為使用這種方法,您可以顯示數據中的大部分方差。

會不會有任何好處,或者您可以將其繪製在3-d散點圖上?
Roman Luštrik
2010-07-20 11:24:33 UTC
view on stackexchange narkive permalink

讓$ i = 1,\ dots,N $索引行,而$ j = 1,\ dots,M $索引列。假設您線性化變量(列)的組合:

$$ Z_ {i,1} = c_ {i,1} \ cdot Y_ {i,1} + c_ {i,2} \ cdot Y_ {i,2} + ... + c_ {i,M} \ cdot Y_ {i,M} $$

上面的公式基本上表示將具有特定值$ c $的行元素相乘(加載),然後按列對它們求和。結果值($ Y $值乘以負載)是分數。

主成分(PC)是線性組合$ Z_1 =(Z_ {1,1},...,Z_ {N, 1} $)(按列的值稱為得分)。本質上,PC應該呈現出變量(列)的最重要特徵。因此,您可以提取與變量數量相同(或更少)的PC。

PCA上 R的輸出(一個偽示例)如下所示。 PC1,PC2 ...是主要組件1、2 ...下面的示例僅顯示前8個主要組件(共17個)。

 組件的重要性:PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8標準偏差1.0889 1.0642 1.0550 1.0475 1.0475 1.0387 1.0277 1.0169 1.0105方差比例0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601累積比例0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129  
抱歉,什麼是荷載(公式中的c),如何確定它們?
@vrish88我相信c是特徵向量的“負載”。我的理解是,這些實質上只是您要賦予每個變量的權重。蒂姆在回答中很好地解釋了這一點。
Tim
2010-07-27 00:58:28 UTC
view on stackexchange narkive permalink

數據矩陣的主要組成部分是其方差-協方差矩陣的特徵向量-特徵值對。本質上,它們是方差的與去相關的部分。每個變量都是用於觀察的變量的線性組合-假設您對一堆對象分別測量w,x,y,z。您的第一台PC可能會像這樣

0.5w + 4x + 5y-1.5z

此處的載荷(特徵向量)為(0.5,4,5,-1.5) 。每個觀察值的分數(特徵值)是當您替換觀察值(w,x,y,z)併計算總和時的結果值。

當您將事物投影到其原理上時,這很方便成分(例如,離群值檢測),因為您只需像對待任何其他數據一樣繪製每個分數即可。如果大部分差異是相關的(前幾台PC中==),這可以揭示很多數據。

只是為了清楚起見,當您說“假設您在一堆主題中分別測量w,x,y,z”時,您不是在指上面@TonyBreyal的答案中的“主題”嗎?您使用的“主題”一詞與“觀測” /“記錄” /“數據行”同義嗎?
russellpierce
2010-07-20 13:20:36 UTC
view on stackexchange narkive permalink

主成分分數是通過主成分分析(PCA)獲得的一組分數。在PCA中,分析了一組分數之間的關係,從而創建了相等數量的新“虛構”變量(又稱主成分)。這些新的虛數變量中的第一個與所有原始變量組最大相關。下一個的相關性較低,以此類推,直到您使用所有主成分得分來預測初始組中的任何給定變量,您都可以解釋其所有方差。 PCA進行的方式很複雜,並且有一定的限制。其中的限制是任何兩個主分量(即虛數變量)之間的相關性為零;因此,嘗試與另一個主成分預測是沒有意義的。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...