題:
自動模型選擇算法
S4M
2012-01-10 00:22:24 UTC
view on stackexchange narkive permalink

我想實現一種用於自動模型選擇的算法。我正在考慮進行逐步回歸,但是任何事情都會做(儘管它必須基於線性回歸)。

我的問題是我無法找到一種方法論或開源實現(我正在用Java喚醒)。我想到的方法將是:

  1. 計算所有因素的相關矩陣
  2. 選擇彼此之間相關性較低的因素
  3. >
  4. 刪除t-stat較低的因素
  5. 添加其他因素(仍基於2中找到的低相關係數)。
  6. 重複幾次,直到出現一些標準(例如AIC)超過某個閾值,或者不能或者我們找不到更大的值。
  7. ol>

    我意識到有一個R實現(stepAIC),代碼很難理解。而且我也找不到能夠描述逐步回歸的文章。

坦率地說,我認為這是一個“災難性”的想法,幾乎肯定會導致許多錯誤的結論。
-1
*所有*選型過程均受我在下面的回答中討論的問題的約束。此外,您要搜索的可能因素越多,這些問題就變得越極端,並且增加不是線性的。儘管有一些更好的方法(由@Zach討論),應與交叉驗證(由@JackTanner討論)結合使用,但基於t,r和AIC的選擇不在其中。此外,由於有數百個因素,所需的數據量很容易達到數百萬。不幸的是,擺在您面前的任務非常艱鉅。
選擇模型的目的是什麼?是用於預測/預測模型還是在尋找重要變量?另外,您使用的數據集有多大-多少觀測值和多少變量?
我總是說要提防自動算法。始終包含主題知識總是有幫助的。分步過程有問題。我願意付錢給您閱讀有關型號選擇的眾多書籍之一。
R中的bootStepAIC包呢?
這裡有趣的觀點,但我認為對算法模型選擇程序的否定觀點有些過時。例如,David Hendry最近在計量經濟學領域的工作,特別是他在PcGive軟件和飽和度方法方面的工作。可以在[here](https://www.youtube.com/watch?v=2zzI2fN1ebc)上找到概述其方法的講座。正如@MichaelChernick指出的那樣(亨德利也會這樣做!),(非常)重要的是知識。這就是主題專家具有價值的原因-讓算法獨自行動是錯誤的。
九 答案:
gung - Reinstate Monica
2012-01-10 09:43:02 UTC
view on stackexchange narkive permalink

我認為這種方法是錯誤的,但是如果我解釋原因,也許會更有幫助。想要了解有關大量變量的一些信息的最佳模型是可以理解的。而且,在這種情況下,人們似乎經常發現自己。此外,許多有關回歸的教科書(和課程)涵蓋逐步選擇方法,這意味著它們必須合法。然而不幸的是,事實並非如此,而這種情況和目標的配對很難成功地解決。以下是自動逐步模型選擇過程的問題列表(歸因於Frank Harrell,並從此處複製):

  1. 它產生R平方
  2. 打印輸出上每個變量旁邊引用的F和卡方檢驗不具有所要求的分佈。
  3. 該方法產生置信區間錯誤地縮小了效果和預測值;參見Altman and Andersen(1989)。
  4. 產生的p值含義不正確,對其進行正確的校正是一個困難的問題。
  5. 給出有偏回歸需要收縮的係數(剩餘變量的係數太大;請參見Tibshirani [1996])。
  6. 在存在共線性的情況下存在嚴重問題。
  7. 基於方法(例如,用於嵌套模型的F檢驗),旨在用於檢驗預先設定的假設。
  8. 增加樣本數量並沒有太大幫助;參見Derksen和Keselman(1992)。
  9. 它使我們不必考慮問題。
  10. 它使用大量紙張。
  11. ol>

問題是,這些程序有什麼不好?為什麼會出現這些問題?大多數參加了基礎回歸課程的人都熟悉均值回歸的概念,因此這就是我用來解釋這些問題的方法。 (儘管乍一看這似乎是題外話,但是請允許我,我保證它是相關的。)

想像一下,在試訓的第一天,一名高中田徑教練。三十個孩子出現了。這些孩子具有某種內在能力的內在能力,教練和其他任何人都無法直接使用這些內在能力。結果,教練唯一能做的就是讓他們全部跑100m。時間大概是衡量其內在能力的標準,因此被認為是時間。但是,它們是概率性的。某人的表現有多大比例取決於他們的實際能力,而有多少是隨機的。想像一下真實情況如下:

  set.seed(59)intrinsic_ability = runif(30,min = 9,max = 10)time = 31-2 * intrinsic_ability + rmrm(30 ,均值= 0,標準偏差= .5) 

下圖顯示了第一場比賽的結果以及教練對孩子的評論。

first race

請注意,按照比賽時間對孩子進行劃分會使他們的內在能力重疊-這個事實至關重要。在讚美一些並大喊大叫之後(教練傾向於這樣做),他讓他們再次跑步。以下是第二場比賽的結果,教練的反應(從上述相同模型模擬而來):

second race

請注意,它們的內在能力是相同的,但是時間相對於第一種族反彈。從教練的角度來看,他大喊大叫的人趨於改善,而他稱讚的人則趨於惡化(我從Wiki頁面上列出的Kahneman引用中改編了這個具體示例),儘管實際上回歸均值是一個簡單的數學運算教練基於部分隨機的度量為團隊選擇運動員這一事實的結果。

現在,這與自動(例如逐步)模型選擇技術有什麼關係?基於同一數據集開發和確認模型有時稱為數據挖掘。儘管變量之間存在一些潛在的關係,並且期望更強的關係會產生更強的得分(例如,更高的t統計量),但這些是隨機變量,並且實現的值包含誤差。因此,當您基於具有較高(或較低)的實現值來選擇變量時,由於其潛在的真實值,錯誤或兩者兼而有之,它們可能是這樣。如果您以這種方式前進,那麼您會像教練在第二場比賽后一樣感到驚訝。無論您是基於具有高t統計量還是具有低相關性來選擇變量,這都是正確的。的確,使用AIC比使用p值更好,因為它會懲罰模型的複雜性,但是AIC本身是一個隨機變量(如果多次運行研究並擬合同一模型,AIC會像其他)。不幸的是,這只是現實本身的認知本質所固有的問題。

我希望這會有所幫助。

數據挖掘的現象解釋。
這是一個經過深思熟慮的答案,儘管我完全不同意在線性模型選擇的背景下aic是對p值(或bic或類似值)的改進。任何形式為$ -2L + kp $的懲罰(如aic)都等於將p值設置為$ Pr(\ chi ^ 2_1> k)$(進入和退出)。 aic基本上告訴您如何選擇p值。
@probabilityislogic,感謝您的評論!不過,恐怕我不會完全關注您。 1,您不同意AIC>(p或BIC),還是(AIC或BIC)> p?第二,我想到的是基於AIC選擇整體模型要好於根據$ \ beta $ / SE計算的單個p值來選擇單個協變量以包含在內(即,等同於類型III SS)<.05(即典型的軟件輸出),因為此方法是人們通常使用的方法。您還會不同意嗎?
我認為它有2個優點:整體交易/與$ P(\ chi ^ 2> k)$等效不是靜態的任意值-使1個模型中的AIC最小的p是在另一個模型中不一定是相同的p。換句話說,在每種情況下都有一個理由使p比<.05 =好!,>。05 =壞!
我的評論是關於將aic用於逐步算法或類似算法。我的評論也太簡短了。注意$ p $是變量數,$ k $是罰分($ 2 $表示aic $ \ log N $表示bic),$-2L $負值是最大對數似然的兩倍。在進行“子集”樣式選擇且不縮小非零係數的情況下,Aic和bic在概念上與p值不同,但在操作上沒有區別。
@probabilityislogic,有助於澄清,我同意所有這些觀點。我並不是要暗示基於AIC的逐步選擇是好的,只是它比使用p值更“糟糕”。我理解您的意思是說AIC可以幫助您選擇p-vlaue,但這與擁有不考慮模型複雜性的任意,固定的$ \ alpha $一樣(並且稍差一點)嗎?您是否建議*什麼都沒有*?
@gung-如果您使用兩個參數之間的差異使用一個參數不同,則會得到$(-2L_1 + 2p_0 + 2)-(-2L_0 + 2p_0)=-2(L_1-L_0)+ 2 $。現在,第一項是p值所基於的似然比統計量。因此,如果似然比統計量大於某個臨界值,我們將添加額外的參數。這與p值方法所做的相同。這裡只有概念上的差異
有關AIC無法解決問題的說明,請參見:Mundry,R.(2011)。基於信息論的統計推斷中的問題-從常客的角度進行評論。行為生態與社會生物學,65(1),57-68。
那麼,省略預測變量意味著什麼?減少預測變量通常會增加其他預測變量的重要性。當一個在很大程度上不顯著的預測變量改善並在移除一個不顯著的預測變量之後變得顯著的含義是什麼?這意味著第二個隱藏了第一個。我對這個話題很困惑,我喜歡你的例子!您介意看看我的另一個問題嗎? http://stats.stackexchange.com/questions/102834/to-step-or-not-to-step-for-model-selection-in-regression
除其他事項外,如果刪除第二個變量且第一個變量變得重要,則意味著第一個p值現在由於數據挖掘而無效。很高興這對您有所幫助。我稍後再看你的問題。如果合適,您可以對其進行編輯以反映您在這裡學到的知識以及您仍然需要知道的知識,以便其他Q不會重複。
我想為這個答案找到一個很好的明確問題:何時應該省略預測變量。我不明白的是,如果單步執行變量會使模型陷入混亂,那麼每個模型都會陷入混亂,並且從一開始就考慮到無窮大變量就容易發生類型1錯誤!另一方面,要包含越來越多的變量,您需要越來越多的觀察才能獲得顯著的結果並避免其他問題,例如邏輯物流。因此,唯一好的模型就是在考慮所有可能變量的情況下對整個種群做出的模型!
請將該信息(如果適用)編輯到您的其他Q中,而不是在此處進行評論。此外,如果此答案對您有幫助,您可以考慮對其進行投票。不幸的是,我現在沒有時間解決這個問題,但這是一個合理的問題。稍後我會嘗試為您整理一些東西。
雖然我知道套索會收縮(在正交情況下只是軟閾值),但是為什麼模型搜索會誇大係數呢?
@Benjamin,您只是在選擇最大的係數(絕對值)。已實現的值將圍繞其真實值隨機反彈;通過僅選擇要保留的最大值,就可以選擇太高的值。
@Gung,感謝您的快速回复! 哦,我懂了!這是由於分步過程的性質所致,通常不是模型搜索的功能。謝謝!我誤會了這可能是導致套索收縮的另一種原因(除了偏差+方差折衷)。 實際上,現在,我看不到套索和這些逐步過程之間的任何联系。套索不會收縮通過逐步過程選擇的模型-所選變量可能不同。(儘管我知道它與通過LARS進行的階段化相關。)為什麼引用套索?
@Benjamin, LASSO不會像逐步選擇那樣“選擇”變量。它只是將估計值縮小為0。在lambda值為某個值時,某些beta可能實際上為0,但是所有beta都將以這種方式縮小。所選變量可能相似,但它們的beta不會相似。如果您有先驗的λ,就這樣。或者,您可以使用交叉驗證來搜索可能優化lambda的值,以優化樣本外預測準確性。兩者都不等同於逐步選擇。
如果這是天真的提出的,請原諒我,但如果擔心的是疏散訓練數據...您能否將假設從訓練中剔除,並在隨後的數據分區中進行驗證/測試以排除疏edge?
@thistleknot,肯定。您始終可以使用此(或任何其他方式)生成假設,然後在新的數據集中對其進行檢驗。同樣,您可以先對數據集進行分區,在一組中探索並生成假設,然後在第二組中進行測試。但是,您仍然需要提防,為自己的工作一無所獲的風險相當大,因為逐步將您送往追趕鵝。
我在富勒頓(Fullerton)攻讀數據科學,所以我對將問題的根源用於將來的編碼非常感興趣。數據挖掘不是過度擬合嗎,不是過度擬合是否解決了數據分區問題?k折驗證如何?我很困惑如何不在驗證/測試數據中消除這些問題。我有一章介紹了使用提升圖和傾向來評估模型性能。所有的擬合問題都與訓練數據有關,這是我們首先對數據進行分區的全部原因。DSS樹具有評估準確性和雜質以進行驗證的方法
@thistleknot,數據挖掘有許多不良影響(請參見頂部列表),而不僅僅是過度擬合(儘管我的回答集中在過度擬合上)。例如,假設檢驗無效。不過,您可以在新樣本中做任何您想做的事情。那可以進行另一項研究,或者您可以首先對數據進行分區,在1個分區中逐步運行(或執行任何操作),然後將您確定的模型放入保留集中。如何進行k / k倍交叉驗證更複雜。簡歷上應該有現有的線程。但是,您永遠不會獲得有效的p值。
p值直到經過驗證才有意義。整個線程有很多人認為逐步是不好的,但是問題的構架方式似乎是OP試圖弄清楚如何對訓練數據(實際上未指定)以及類似所有這些問題進行逐步操作似乎是在處理未分區的數據...這意味著如果按照研究生課程的指導將其應用於分區設置中,則逐步操作沒有什麼問題;)〜
@thistleknot,我不知道“ p值在驗證之前沒有任何意義”是什麼意思。完整答案(與往常一樣)更加細微,但是對於第一個近似值,*逐步是不好的*。有大量已發表的文獻表明這一點(請參見[此處](https://stats.stackexchange.com/a/115850/))。我教研究生水平的課程,我教我的學生*不要*分步使用,所以我不知道“按分區設置”可以使您實現此目的。我無法說出您是否對此最感興趣,但是如果您想進一步了解某個方面,可以提出一個新的問題。
“ p值直到經過驗證才意味著什麼”表示不相信p值直到經過驗證才有意義(相對於驗證數據)
我已經讀到逐步,向前和向後都有問題,但是在這個問題的背景下卻沒有,它似乎描述了過度擬合(?)[當在分區方案中“正確”完成時],這就是這個答案專注在。我正在嘗試找出正確的方法。我也在讀研究生水平的課程,發現有些溝通不暢很奇怪。我已經請我們的部門負責人調查這個帖子
長話短說,RSS(僅線性),RMSE(傑克·坦納的答案)是我所追求的目標。
我正在閱讀“ Wiley進行業務分析的數據挖掘”,其中有一章涉及多變量線性回歸(第6章)中的變量選擇,該方法因缺乏基於組的選擇而受到批評。但是,此問題中提出的問題似乎都可以通過數據分區解決,這是本書中提出的方法。我不支持其他方法,但是我看不到這些問題與分區設置中的逐步操作有何關係。
您是在暗示“逐步模型選擇”和“將訓練集用作測試集”是同一概念嗎?在我看來,教練的例子只是在攻擊後者。
@nalzok,作為逐步模型選擇通常已完成,沒有訓練/測試/驗證集,只有原始數據集。如果將其嵌套在CV中或將最終模型擬合到保留集上,則不一定會遇到相同的問題。
-1
@nalzok,不完全是。逐步是一種主導策略。基本上總會有更好的選擇。此外,減輕其問題的方法還需要一定程度的成熟度,才能使更好的方法可行。但是,如果您絕對必須使用較差的方法,則可以採取一些措施來減少這種情況的發生,但是究竟要執行什麼操作將取決於您的情況,數據和目標。
@gung我真的希望您通過示例詳細闡述逐步選擇模型的問題。實際上,您已經通過引用弗蘭克·哈雷爾(Frank Harrell)列出了問題,但是更詳細地解釋最嚴重的問題將使您的答案更好。當然,它已經太好了,我不能再要求更多了:-)
Zach
2012-01-10 19:18:58 UTC
view on stackexchange narkive permalink

檢查R中的插入符軟件包。它將幫助您交叉驗證逐步回歸模型(使用 method ='lmStepAIC' method ='glmStepAIC'),並且可以幫助您了解這類模型的預測性能如何趨於下降。此外,您可以在插入符號中使用 findCorrelation 函數來識別和消除共線變量,而在插入符號中使用 rfe 函數來消除t統計量較低的變量(請使用 rfeControl = rfeControl(functions = lmFuncs))。

但是,如前面的答案所述,這些變量選擇方法可能會給您帶來麻煩,特別是如果您反復進行操作。絕對要確保您在完整的測試集上評估性能。直到對算法滿意後,再看看測試集!

最後,使用具有“內置”特徵選擇的預測模型(例如ridge)可能會更好(更簡單)回歸,套索或彈性網。具體來說,請嘗試使用 method = glmnet 參數作為插入符號,並將該模型的交叉驗證的準確性與 method = lmStepAIC 參數進行比較。我的猜測是,前者將為您提供更高的樣本外準確性,並且您不必擔心實現和驗證自定義變量選擇算法。

從統計的角度來看,像double pareto這樣的懲罰比ridge和lasso更好,因為它們不會縮小明顯為非零的係數。但是不幸的是,它們總是導致非凸罰分,因此從計算角度看,它們會更糟。我認為基於Cauchy分佈的懲罰應該是$ \ log(\ lambda ^ 2 + \ beta ^ 2)$。
@probabilityislogic您是否知道使用“ r”或“ python”之類的雙倍罰分懲罰的任何良好實現?我很想嘗試一下。
據我了解,通過AIC進行模型選擇和留一法交叉驗證本質上是同一件事(漸進等效,請參閱[Stone,1977)](http://www.jstor.org/stable/2984877),因此AIC和某些類型的交叉驗證可能會導致非常相似的結果。但是,我還沒有使用插入符號包,並且從方法調用看來,在某些情況下確實確實使用了AIC。
Jack Tanner
2012-01-10 12:34:01 UTC
view on stackexchange narkive permalink

我完全同意@gung概述的問題。也就是說,實際上,模型選擇是一個需要實際解決方案的實際問題。這是我將在實踐中使用的一些東西。

  1. 將您的數據分為訓練,驗證和測試集。
  2. 訓練集上的訓練模型。
  3. 使用諸如預測均方根誤差(RMSE)之類的指標在驗證集上測量模型性能,並選擇預測誤差最低的模型。
  4. 根據需要設計新模型,重複步驟2-3。
  5. 報告該模型在測試集上的表現。
  6. ol>

    以在現實世界中使用此方法為例,我相信它曾在Netflix獎競賽中使用。

除非$ n> 20000 $,否則數據拆分是不可靠的。
@Frank:為什麼您認為N必須這麼高?
由於精度差。如果再次拆分,您將獲得不同的結果。這就是為什麼人們重複10次交叉驗證或自舉的100次重複。
-1
我測試拆分數據的設置的類型為n = 17000,其中有一個事件的比例為0.3,並且已將約50個參數檢查或擬合為二進制邏輯模型。我使用了1:1隨機分配。當我重新分割數據並重新開始時,測試樣本中經過驗證的ROC區域發生了實質性變化。在http://biostat.mc.vanderbilt.edu/rms中的“文本中使用的方法研究”下查找有關模擬研究和提供更多信息的相關論文。
您是否還有關於Netflix競爭的更多詳細信息,以及解決方案如何使用這種方法?
可能為什麼頂峰課程想要超過20k條記錄
heran_xp
2015-03-17 21:12:52 UTC
view on stackexchange narkive permalink

要回答這個問題,有幾種選擇:

  1. 由AIC / BIC組成的所有子集

  2. 由p逐步生成值

  3. 通過AIC / BIC逐步進行

  4. 正則化(例如LASSO)(可以基於AIC / BIC或CV )

  5. 遺傳算法(GA)

  6. 其他?

  7. 使用非自動的,面向理論(“學科知識”)的選擇

  8. ol>

    下一個問題是方法更好。該論文(doi:10.1016 / j.amc.2013.05.016)指出,“所有可能的回歸”都對他們提出的新方法給出了相同的結果,而逐步方法則更糟。他們之間有一個簡單的GA。本文(DOI:10.1080 / 10618600.1998.10474784)將懲罰回歸(橋樑,套索等)與“跳越界線”(似乎是窮舉搜索算法,但速度更快)進行了比較,還發現“橋樑模型與來自通過跳躍方法選擇子集”。該論文(doi:10.1186 / 1471-2105-15-88)表明GA優於LASSO。本文(DOI:10.1198 / jcgs.2009.06164)提出了一種方法-本質上是全子集(基於BIC)方法,但巧妙地減少了計算時間。他們證明此方法比LASSO更好。有趣的是,這篇論文(DOI:10.1111 / j.1461-0248.2009.01361.x)顯示了方法(1)-(3)產生了相似的性能。

    因此,總體而言,結果是喜憂參半

    對於第7步,使用面向對象的非自動理論(“主題知識”)進行選擇。這是耗時的,並且不一定比自動方法更好。實際上,在時間序列文獻中,可以確定的是,自動化方法(尤其是商業軟件)在很大程度上“優於”人類專家(doi:10.1016 / S0169-2070(01)00119-4,第561頁),例如選擇各種指數平滑法和ARIMA模型。

請注意,通過更改數據生成過程以支持(即使不是有意地)特定例程,可以在不同選擇算法的仿真研究中獲得不同的性能。哪種方法更快或更慢的問題很明顯,但可能仍然很重要。
實際上,Tibshirani的[關於LASSO的原始論文](http://statweb.stanford.edu/~tibs/lasso.html)中的示例很好地說明了@gung's點。對於真實數據的不同方法的比較研究也是如此。順便說一句,您最近的參考是對的嗎?Clements&Hendry與您提供的DOI的論文並沒有聲稱自動化方法的性能要優於人類專家,或者根本沒有使用“大幅度提高”一詞。(如果您提供完整的參考文獻,那就太好了。)
發現它:Goodrich(2001),“ M3競爭中的商業軟件”,國際。J. Forecast。,第17頁,第560-565頁。它與Clements&Hendry論文位於同一本“ M3競賽評論”上,這就是為什麼谷歌搜索DOI將我發送到那裡的原因。
無論如何,尚不清楚Goodrich的評論與* subject-matter *專業知識有關。
-1
JenSCDC
2014-06-24 21:49:31 UTC
view on stackexchange narkive permalink

這是左字段之外的答案-使用回歸樹(rpart包)代替線性回歸。這適合自動模型選擇,因為您只需做一些工作就可以自動選擇cp(用於避免過度擬合的參數)。

marshmallow
2015-03-14 21:39:41 UTC
view on stackexchange narkive permalink
可以通過選擇最有價值的獨立變量的方式實施遺傳算法來優化線性模型。變量在算法中表示為基因,然後在交叉,變異等運算符之後選擇最佳染色體(基因集)。它基於自然選擇-最佳“世代”可以生存,換句話說,該算法可以優化取決於特定模型的估計函數。
這將在* data *中選擇“最佳”變量,而不必在數據生成過程/填充中選擇最佳變量,因為它只能訪問數據。與OP想要的逐步方法並沒有什麼不同。
Praveen
2017-12-18 00:32:57 UTC
view on stackexchange narkive permalink

我們在R基本統計數據包中確實有一個名為step()的函數,該函數根據最低的AIC進行模型的前進,後退或逐步選擇。這也適用於因子變量。這不是目的嗎?。

kjetil b halvorsen
2020-05-14 14:14:27 UTC
view on stackexchange narkive permalink

這裡的答案建議不要選擇變量,但是問題是真實的……並且仍然存在。正如在自然論文盲目的分析:隱藏結果以求真相中討論的那樣,盲分析是在實踐中應更多嘗試的想法。。

此想法在該站點的另一篇文章多重比較和輔助研究中已提及。盲目的數據或引入額外的模擬噪聲變量的想法肯定已經在模擬研究中用於逐步顯示問題,但是這裡的想法是在實際數據分析中盲目的使用它。

S4M
2012-02-11 16:46:35 UTC
view on stackexchange narkive permalink

我看到我的問題引起了很多興趣,並且引起了關於自動模型選擇方法有效性的有趣辯論。我同意將自動選擇的結果視為理所當然是有風險的,但可以將其用作起點。因此,這是我針對特定問題的實現方法,即找到最佳n個因子來解釋給定變量

  1. 對所有回歸變量與各個因素進行對比
  2. 按給定的標準對回歸進行排序(例如AIC)
  3. 刪除t統計量較低的因素:按2中給出的順序,它們對解釋變量
  4. 沒有用。 ,請嘗試將這些因素一一添加到模型中,並在它們改善我們的標準時予以保留。同樣,要反复考慮所有因素。
  5. ol>

    這很粗糙,可能有方法可以改進方法,但這是我的出發點。我正在發布此答案,希望它對其他人有用。歡迎發表評論!

(1)在該線程中,我還沒有看到任何“辯論”:所有回復和評論都呈現相同的基本信息。 (2)您的實現似乎是[逐步回歸](http://en.wikipedia.org/wiki/Stepwise_regression)的臨時版本。我同意它可以作為起點,但前提是它本身不會自動被接受為終點。
您確實接受了自己的答案,這與社區提出的每個論點背道而馳。在這裡看到負面消息並不奇怪...
我相信這是我第一次看到這麼多的讚成票。 @SAM為什麼您不只是接受其他一些出色的答案並刪除您的“答案”?
這是SE有史以來最不推薦的答案嗎?
您似乎通過說出目標“找到最佳n個因子來解釋給定變量”來回答了@probabilityislogic的重要問題。與預測模型相比,解釋(理解因果關係)的模型構建需要更加有意識地進行,並且通常要更加深入。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...