我有一個既包含連續數據又包含分類數據的數據集。我正在使用PCA進行分析,並且想知道是否可以將分類變量作為分析的一部分。我的理解是PCA只能應用於連續變量。那是對的嗎?如果不能將其用於分類數據,則可以使用哪些替代方法進行分析?
我有一個既包含連續數據又包含分類數據的數據集。我正在使用PCA進行分析,並且想知道是否可以將分類變量作為分析的一部分。我的理解是PCA只能應用於連續變量。那是對的嗎?如果不能將其用於分類數據,則可以使用哪些替代方法進行分析?
儘管將PCA應用於二進制數據所產生的結果與通過多重對應分析獲得的結果相當(因子得分和特徵值呈線性關係),但還有更合適的技術來處理混合數據類型,即 FactoMineR R軟件包( AFDM()
)中提供的混合數據的多因素分析。如果您可以將變量視為描述性屬性的結構化子集,那麼多因素分析( MFA()
)也是一種選擇。
挑戰使用分類變量的方法是找到一種合適的方式來表示階乘空間中變量類別與個體之間的距離。為了克服這個問題,您可以尋找具有最佳縮放比例的每個變量(無論是標稱,有序,多項式還是數值)的非線性變換。 用於R中的最佳縮放的Gifi方法:軟件包homals中對此進行了很好的解釋,並且相應的R軟件包 homals中提供了一種實現。
Google搜索“ pca離散變量”給出了S. Kolenikov(@StasK)和G. Angeles的很好的概述。要補充到chl答案,PC分析實際上是對協方差矩陣的特徵向量的分析。因此,問題在於如何計算“正確的”協方差矩陣。一種方法是使用多選相關。
我建議看看Linting & Kooij,2012年“ 使用CATPCA進行非線性主成分分析:教程”,人格評估雜誌; 94 (1)。
摘要
本文設置為非線性主成分分析的教程(NLPCA),系統地指導讀者完成通過羅夏墨跡測驗(Rorschach Inkblot Test)分析人格評估的實際數據的過程。 NLPCA是線性PCA的一種更靈活的替代方案,可以處理具有不同類型的測量級別的可能與非線性相關的變量的分析。該方法特別適合於分析可能與數字數據結合的名義(定性)和有序(例如李克特型)數據。分析中使用了SPSS中Categories模塊的程序CATPCA,但該方法的描述可以輕鬆地推廣到其他軟件包。
我尚未獲得對某人的評論發表評論的特權,因此我將評論添加為單獨的答案,因此請耐心等待。
繼續@Martin F的評論,最近我遇到了非線性PCA。當數據變稀疏時,當連續變量接近序數變量的分佈時,我正在研究非線性PCA(可能是另一種選擇)(遺傳學中很多次該變量的次要等位基因頻率越來越低而您又離開了計數非常少,您不能真正證明連續變量的分佈是正確的,因此必須通過使它成為有序變量或分類變量來放鬆分佈假設。)非線性PCA可以處理這兩種情況,但在與遺傳學系的統計專家討論時,共識呼籲是非線性PCA的使用不多,並且這些PCA的行為尚未得到廣泛的測試(可能是他們僅指遺傳學領域,因此請以鹽)。確實,這是一個有趣的選擇。我希望我在討論中添加了2美分(很重要)。
最近有一種解決此類問題的方法:廣義低秩模型。
使用這種技術的論文之一甚至被稱為數據框架上的PCA。
PCA可以這樣擺姿勢:
對於$ n $ x $ m $矩陣$ M $
找到$ n $ x $ k $矩陣$ \ hat {X} $和$ k $ x $ m $矩陣$ \ hat {Y} $(隱式編碼等級$ k $ e約束),使得>
$ \ hat {X},\ hat {Y} $ = $ \ underset {X,Y} {argmin} \ |M-XY \ | _F ^ 2 $。
GLRM中的“通用”代表更改$ \ |\ cdot \ | _F ^ 2 $並添加正則項。