我有一個包含很多觀察值和多個變量的數據框。其中一些是分類的(無序的),其他是數字的。
我正在尋找這些變量之間的關聯。我已經能夠計算數值變量的相關性(斯皮爾曼相關性),但是:
- 我不知道如何測量無序分類變量之間的相關性。
- 我不知道不知道如何測量無序分類變量和數值變量之間的相關性。
有人知道如何做到這一點嗎?如果是這樣,是否有R函數實現這些方法?
我有一個包含很多觀察值和多個變量的數據框。其中一些是分類的(無序的),其他是數字的。
我正在尋找這些變量之間的關聯。我已經能夠計算數值變量的相關性(斯皮爾曼相關性),但是:
有人知道如何做到這一點嗎?如果是這樣,是否有R函數實現這些方法?
這取決於您想要哪種相關感。當您運行典型的皮爾遜乘積矩相關性時,您會得到關聯強度的度量,並且會測試該關聯的重要性。但是,更典型地,重要性檢驗和效應量的量度是不同的。
顯著性測試:
效果大小(關聯強度):
如果需要分類變量的相關矩陣,則可以使用以下包裝函數(需要'vcd'程序包):
catcorrm <- function(vars,dat)sapply(vars,function(y)sapply(vars,function(x)assocstats(table(dat [,x],dat [,y]))$ cramer))
其中:
vars
是要關聯的分類變量的字符串向量
dat
是包含變量的data.frame
結果是Cramer V的矩陣。
取決於您要實現的目標。假設$ X $為連續的數字變量,$ K $為(無序)分類變量。然後,一種可能的方法是將數字分數$ t_i $分配給$ K $,$ i = 1,\ dots,p $的每個可能值。一種可能的標準是最大化$ X $和分數$ t_i $之間的相關性。僅使用一個連續變量和一個分類變量,這可能不是很有用,因為最大相關將始終為1(為了證明並找到一些這樣的分數,這是使用拉格朗日乘數的一種練習!對於多個變量,我們嘗試使用找出分類變量的折衷分數,也許試圖最大化多重相關性$ R ^ 2 $,那麼各個相關性將不會等於(除非是非常特殊的情況!)等於一個。
這樣的分析是R的實現是在 homals
包中(在CRAN上),它被看作是多種對應關係分析的概括,並且以許多名稱而聞名,例如規範相關性分析,同質性分析等。谷歌搜索其中的一些名稱將提供大量信息,有一本完整的書:Albert Gifi,“非線性多元分析”。祝您好運!
我有一個類似的問題,我按照建議嘗試了卡方檢驗,但是在針對NULL假設評估P值時感到非常困惑。
我將解釋如何解釋分類變量。我不確定這與您的情況是否相關。我有響應變量Y和兩個預測變量X1和X2,其中X2是具有兩個級別的分類變量,分別為1和2。我試圖擬合線性模型
ols = lm(Y〜 X1 + X2,data = mydata)
但是我想了解不同級別的X2如何滿足上述等式。我碰到一個R函數by()
by(mydata,X2,function(x)summary(lm(Y〜X1,data = x)))
此代碼的作用是,它試圖將線性模型適合X2的每個級別。這給了我所有P值和R平方,我理解並可以解釋的殘差標準誤差。
同樣,我不確定這是否是您想要的。我比較了X2在預測Y時的不同值。
要測量兩個類別變量之間的鏈接強度,我寧願建議使用帶有卡方統計量的交叉表
來測量數值變量和類別變量之間的鏈接強度,您可以使用均值比較一下,看看它是否從一個類別顯著改變到另一個類別