是否可以將主成分分析應用於包含連續變量和分類變量的數據集？

題:

Nikolina Icitovic

2010-12-28 09:47:52 UTC

view on stackexchange narkive permalink

我有一個既包含連續數據又包含分類數據的數據集。我正在使用PCA進行分析，並且想知道是否可以將分類變量作為分析的一部分。我的理解是PCA只能應用於連續變量。那是對的嗎？如果不能將其用於分類數據，則可以使用哪些替代方法進行分析？

請參閱相關問題[是否有因子分析或PCA用於序數或二進制數據？]（http://stats.stackexchange.com/q/215404/3277）。

關於ResearchGate的討論：https://www.researchgate.net/post/Should_I_use_PCA_with_categorical_data

六答案:

chl

2010-12-28 13:09:52 UTC

view on stackexchange narkive permalink

儘管將PCA應用於二進制數據所產生的結果與通過多重對應分析獲得的結果相當（因子得分和特徵值呈線性關係），但還有更合適的技術來處理混合數據類型，即 FactoMineR R軟件包（ AFDM（））中提供的混合數據的多因素分析。如果您可以將變量視為描述性屬性的結構化子集，那麼多因素分析（ MFA（））也是一種選擇。

挑戰使用分類變量的方法是找到一種合適的方式來表示階乘空間中變量類別與個體之間的距離。為了克服這個問題，您可以尋找具有最佳縮放比例的每個變量（無論是標稱，有序，多項式還是數值）的非線性變換。用於R中的最佳縮放的Gifi方法：軟件包homals中對此進行了很好的解釋，並且相應的R軟件包 homals中提供了一種實現。

chl，感謝您指向FADM的指針。但是我在想：將FADM應用於數據集（obj <-FADM（x））之後，我可以通過obj \ $ ind \ $ coord輕鬆訪問轉換後的數據集。但是，如果我想將_same_轉換應用於另一個數據集，該怎麼做？（例如，這是必要的，如果我有一個訓練集，然後從該訓練集中找到“主要組成部分”，然後想通過這些“主要組成部分”查看測試集）。文檔對此並不清楚，該函數所基於的論文為法文。

關於：儘管將PCA應用於二進制數據所產生的結果可與從多重對應分析獲得的結果相媲美，但我們是否不能將名義分類變量（例如N基數）轉換為（N-1）個偽二進製文件的集合然後對這些數據執行PCA？（我知道還有更多合適的技術）

mpiktas

2010-12-28 13:41:44 UTC

view on stackexchange narkive permalink

Google搜索“ pca離散變量”給出了S. Kolenikov（@StasK）和G. Angeles的很好的概述。要補充到chl答案，PC分析實際上是對協方差矩陣的特徵向量的分析。因此，問題在於如何計算“正確的”協方差矩陣。一種方法是使用多選相關。

（+1）感謝您提供的鏈接。也可以考慮使用異構相關矩陣（例如，參見[polycor]（http://cran.r-project.org/web/packages/中的`hetcor（）` polycor / index.html）包）。如果VC矩陣是SDP，則它應該完成工作-主要是出於因子分析的精神。標稱變量可能是偽編碼。

@StasK,非常感謝:)似乎不僅我覺得這篇演講很有用，否則它不會在gooogle搜索中排在首位。這個問題會時不時地彈出，所以也許您想為我們的社區博客撰寫有關此問題的博客文章？

-1

@mpiktas,，謝謝。有一篇針對這項工作的經濟學家的真實文章：http://dx.doi.org/10.1111/j.1475-4991.2008.00309.x，儘管編輯要求我們切掉很多，我建議閱讀該工作文件以供參考，並引用已發表的文件。

ccandido

2013-02-17 05:24:14 UTC

view on stackexchange narkive permalink

我建議看看Linting & Kooij，2012年“ 使用CATPCA進行非線性主成分分析：教程”，人格評估雜誌； 94 （1）。

摘要

本文設置為非線性主成分分析的教程（NLPCA），系統地指導讀者完成通過羅夏墨跡測驗（Rorschach Inkblot Test）分析人格評估的實際數據的過程。 NLPCA是線性PCA的一種更靈活的替代方案，可以處理具有不同類型的測量級別的可能與非線性相關的變量的分析。該方法特別適合於分析可能與數字數據結合的名義（定性）和有序（例如李克特型）數據。分析中使用了SPSS中Categories模塊的程序CATPCA，但該方法的描述可以輕鬆地推廣到其他軟件包。

Mandar

2015-12-13 20:17:18 UTC

view on stackexchange narkive permalink

我尚未獲得對某人的評論發表評論的特權，因此我將評論添加為單獨的答案，因此請耐心等待。

繼續@Martin F的評論，最近我遇到了非線性PCA。當數據變稀疏時，當連續變量接近序數變量的分佈時，我正在研究非線性PCA（可能是另一種選擇）（遺傳學中很多次該變量的次要等位基因頻率越來越低而您又離開了計數非常少，您不能真正證明連續變量的分佈是正確的，因此必須通過使它成為有序變量或分類變量來放鬆分佈假設。）非線性PCA可以處理這兩種情況，但在與遺傳學系的統計專家討論時，共識呼籲是非線性PCA的使用不多，並且這些PCA的行為尚未得到廣泛的測試（可能是他們僅指遺傳學領域，因此請以鹽）。確實，這是一個有趣的選擇。我希望我在討論中添加了2美分（很重要）。

歡迎您的回答，Mandar。您是通過CATPCA方法還是另一種非線性PCA（然後是什麼方法）來指代非線性PCA。還請注意，對於_binary_變量，CATPAA是無用的或微不足道的，因為除……之外，無法量化二分法的規模！

想念您@ttnphns。我同意您關於二進制變量的觀點，就二進制變量而言，任何假設都沒有關係。否則，我實際上是指“非線性PCA簡介” [鏈接]（https://openaccess.leidenuniv.nl/bitstream/handle/1887/12386/Chapter2.pdf?sequence=10）中的一章。它主要指CATPCA和SAS的PRINQUAL軟件包。

Jakub Bartczuk

2017-09-06 15:29:55 UTC

view on stackexchange narkive permalink

最近有一種解決此類問題的方法：廣義低秩模型。

使用這種技術的論文之一甚至被稱為數據框架上的PCA。

PCA可以這樣擺姿勢：

對於$ n $ x $ m $矩陣$ M $

找到$ n $ x $ k $矩陣$ \ hat {X} $和$ k $ x $ m $矩陣$ \ hat {Y} $（隱式編碼等級$ k $ e約束），使得>

$ \ hat {X}，\ hat {Y} $ = $ \ underset {X，Y} {argmin} \ |M-XY \ | _F ^ 2 $。

GLRM中的“通用”代表更改$ \ |\ cdot \ | _F ^ 2 $並添加正則項。

這聽起來更像是重塑，而不是新主意。搜索gifi！

您說的不對，似乎GLRM是一種概括（實際上，我鏈接的論文引用了gifi軟件包）。

radek

2019-02-27 06:51:08 UTC

view on stackexchange narkive permalink

PCAmixdata #Rstats package：

對定量和定性變量的混合物進行主成分分析，正交旋轉和多因素分析。

插圖的示例顯示了連續和分類輸出的結果

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 2.0許可。

关于 - 法律