我有一個包含約30個獨立變量的數據集,並希望構建一個廣義線性模型(GLM)來探索它們與因變量之間的關係。
我知道我所使用的方法對於這種情況,逐步回歸現在被認為是統計上的罪惡。
在這種情況下應使用哪種現代模型選擇方法?
我有一個包含約30個獨立變量的數據集,並希望構建一個廣義線性模型(GLM)來探索它們與因變量之間的關係。
我知道我所使用的方法對於這種情況,逐步回歸現在被認為是統計上的罪惡。
在這種情況下應使用哪種現代模型選擇方法?
逐步回歸有多種選擇。我見過的最常用的是:
PLS回歸和 LASSO 都在
PLS strong等R包中實現>: http://cran.r-project.org/web/packages/pls/和
LARS : http:/ /cran.r-project.org/web/packages/lars/index.html
如果您只想探索,您的因變量與自變量(例如,您不需要統計顯著性檢驗),我還建議使用機器學習方法,例如隨機森林或分類/回歸樹。 隨機森林還可以近似估算因變量和自變量之間的複雜非線性關係,而線性技術可能無法揭示這些複雜非線性關係(例如 Linear Regression )。
機器學習的一個很好的起點可能是CRAN上的機器學習任務視圖:
機器學習任務視圖: http://cran.r-project.org/web/views/MachineLearning.html
模型平均是一種可行的方法(一種信息理論方法)。 R包glmulti可以對預測變量的每種組合執行線性模型,並對這些結果執行模型平均。
請參見 http://sites.google.com/site/mcgillbgsa/workshops/glmulti
不要忘記先研究預測變量之間的共線性雖然。方差通貨膨脹因子(在R包“ car”中提供)在這裡很有用。
@johannes提供了一個很好的答案。如果您是SAS用戶,那麼可以通過PROC GLMSELECT獲得LASSO,並且可以通過PROC PLS獲得部分最小二乘。組。 在這裡
有趣的討論。將逐步回歸標記為統計罪是一種宗教性的陳述-只要人們知道他們在做什麼並且該練習的目標是明確的,這絕對是一種具有自己的假設的好方法,並且肯定是有偏見,並且不能保證最優等。但是,我們所做的許多其他事情也可以這樣說。我沒有看到CCA提到過,它解決了協變量空間中相關結構的更基本問題,確實保證了最優性,已經存在了很多時間,並且具有一定的學習曲線。它在包括R在內的各種平台上實現。