題:
什麼是逐步回歸的現代易用替代方法?
fmark
2011-08-01 04:45:58 UTC
view on stackexchange narkive permalink

我有一個包含約30個獨立變量的數據集,並希望構建一個廣義線性模型(GLM)來探索它們與因變量之間的關係。

我知道我所使用的方法對於這種情況,逐步回歸現在被認為是統計上的罪惡

在這種情況下應使用哪種現代模型選擇方法?

其他人提到統計程序可能會有所幫助,但我首先會問您是否對變量之間關係的強度和形狀有任何理論。您的樣本量是多少?您是否有理由避免使用複雜的模型?
有沒有人考慮將模型平均作為解決預測試偏差問題和遺漏規範問題的替代方法?粗略地說,所有變量都是潛在的預測因素,您可以估計它們有用的可能性。因此,組合估計器不僅可以提高預測性能,而且可以針對“作用域”下的變量參數產生良好的屬性估計。
收縮率。沒人希望逐步使用
五 答案:
Johannes
2011-08-01 10:20:08 UTC
view on stackexchange narkive permalink

逐步回歸有多種選擇。我見過的最常用的是:

  • 專家意見,以確定要在模型中包括哪些變量。
  • 偏最小二乘回歸。本質上,您將獲得潛在變量並對其進行回歸。您也可以自己進行 PCA ,然後使用主要變量。
  • 最小絕對收縮和選擇算子(LASSO)。

PLS回歸 LASSO 都在

PLS strong等R包中實現>: http://cran.r-project.org/web/packages/pls/

LARS http:/ /cran.r-project.org/web/packages/lars/index.html

如果您只想探索,您的因變量與自變量(例如,您不需要統計顯著性檢驗),我還建議使用機器學習方法,例如隨機森林分類/回歸樹隨機森林還可以近似估算因變量和自變量之間的複雜非線性關係,而線性技術可能無法揭示這些複雜非線性關係(例如 Linear Regression )。

機器學習的一個很好的起點可能是CRAN上的機器學習任務視圖:

機器學習任務視圖 http://cran.r-project.org/web/views/MachineLearning.html

glmnet軟件包也是套索的非常快速的實現
我要警告的是,在潛在變量社區中,PLSers形成了自己的非常孤立的集團,並且從未能夠深入研究嚴肅的文學作品(例如,我的意思是說,Michael作品中的最小二乘估計量的漸近理論Browne,Peter Bentler,Albert Satorra和Alex Shapiro,以及Ken Bollen的工具變量建模(僅舉幾個最重要的模型)。但是奇怪的是,PLS在統計界似乎是一種可以接受的方法,與潛在變量建模社區相比,PLS通常堅持更高的嚴格標準。
[統計學習的要素](http://www-stat.stanford.edu/~tibs/ElemStatLearn/)比較了差異變量選擇和收縮方法:(OLS)最佳子集,嶺,套索,PLS, PCR。
Zach
2011-08-01 17:32:00 UTC
view on stackexchange narkive permalink

您可能會考慮的另一種選擇變量和規則化選項是彈性網。它是通過 glmnet包在R中實現的。

OliP
2012-04-23 18:15:09 UTC
view on stackexchange narkive permalink

模型平均是一種可行的方法(一種信息理論方法)。 R包glmulti可以對預測變量的每種組合執行線性模型,並對這些結果執行模型平均。

請參見 http://sites.google.com/site/mcgillbgsa/workshops/glmulti

不要忘記先研究預測變量之間的共線性雖然。方差通貨膨脹因子(在R包“ car”中提供)在這裡很有用。

謝謝。它真的適合所有可能的模型嗎?即使沒有交互,在這種情況下也大約有十億個模型。
可以使用AFAIK,但是有一個遺傳算法選項可以大大減少評估所有模型所需的時間。參見www.jstatsoft.org/v34/i12/paper
還有`MuMIn`,`AICcmodavg`軟件包,儘管`glmulti`對於大型模型集比較聰明。
Peter Flom
2011-08-01 17:31:44 UTC
view on stackexchange narkive permalink

@johannes提供了一個很好的答案。如果您是SAS用戶,那麼可以通過PROC GLMSELECT獲得LASSO,並且可以通過PROC PLS獲得部分最小二乘。組。 在這裡

gillesc
2013-12-15 00:00:12 UTC
view on stackexchange narkive permalink

有趣的討論。將逐步回歸標記為統計罪是一種宗教性的陳述-只要人們知道他們在做什麼並且該練習的目標是明確的,這絕對是一種具有自己的假設的好方法,並且肯定是有偏見,並且不能保證最優等。但是,我們所做的許多其他事情也可以這樣說。我沒有看到CCA提到過,它解決了協變量空間中相關結構的更基本問題,確實保證了最優性,已經存在了很多時間,並且具有一定的學習曲線。它在包括R在內的各種平台上實現。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...