題:
機器學習的“熱門算法”是什麼?
J. Velazquez-Muriel
2011-10-19 02:24:40 UTC
view on stackexchange narkive permalink

這是一個開始學習機器學習的人的幼稚問題。這些天,我正在閱讀Marsland的著作《機器學習:算法的觀點》。我覺得它作為入門書籍很有用,但是現在我想進入高級算法,那些算法目前效果最好。我最感興趣的是生物信息學:生物網絡的聚類和生物序列中的模式發現,尤其是應用於單核苷酸多態性(SNP)分析。您能為我推荐一些評論或書籍嗎?

八 答案:
bayerj
2011-11-15 02:26:28 UTC
view on stackexchange narkive permalink

深度學習自2006年以來就成為焦點,這基本上是一種訓練深度神經網絡的方法,並且在非常困難的數據集(如文檔聚類或對象識別)上產生了令人印象深刻的結果。有人在談論第二次神經網絡復興(例如,在Schmidhuber的此Google演講中)。

如果您想給您留下深刻的印象,請閱讀此《科學》論文通過神經網絡降低數據的維度, Hinton & Salakhutdinov。

(該領域目前正在進行大量工作,因此我只知道兩本書即將出版對待它:大型機器學習,Langford等人和機器學習:概率的觀點(凱文·墨菲著)。)

如果您想了解更多,查看主要的深度學習小組在做什麼:斯坦福蒙特利爾,最重要的是多倫多#1多倫多#2

tdc
2011-11-14 16:49:21 UTC
view on stackexchange narkive permalink

到目前為止,給出的大多數答案都涉及“監督學習”(即您在其中具有數據集一部分的標籤,可用於訓練算法)。這個問題專門提到了聚類,這是一種“無監督”方法(即事先沒有標籤)。在這種情況下,建議您查看:

  • k均值和核k均值
  • 聚集聚類
  • 非負矩陣分解
  • 潛在Dirichlet分配
  • Dirichlet進程和分層Dirichlet進程

但實際上,您可能會發現相似性/距離度量比

如果您有一些標記數據,那麼“半監督學習”方法將變得越來越流行,並且功能非常強大。 LapSVM(拉普拉斯支持向量機)是SSL的一個很好的起點。

Simone
2011-10-19 03:07:03 UTC
view on stackexchange narkive permalink

這些書可能會有所幫助:

  • 數據挖掘簡介,由彭邦寧,Michael Steinbach和Vipin Kumar撰寫。這是我在大學的數據挖掘課程中推薦的書。我喜歡它的佈局和理論方法;
  • 數據挖掘:實用的機器學習工具和技術,作者:Ian H. Witten,Eibe Frank,Mark A. Hall。一本非常有趣的書。本書還介紹了Thomas Mitchell的數據挖掘框架 WEKA;
  • 機器學習所實現的許多技術。這是一本有點古老的書,但它可能有用。

然後請記住,您可以參加斯坦福大學剛剛開始的免費機器學習課程: www.ml-class.com

對於您的特殊問題,即SNP分析,我建議看一下帕多瓦大學的 Di Camillo研究小組

John Colby
2011-10-19 03:14:55 UTC
view on stackexchange narkive permalink

這是一本很棒的文章和書,解釋了大多數最受歡迎的方法的原理,理論和應用:

數據挖掘中的十大算法

它特別整潔,因為它是該領域民意測驗專家選擇的“前十名”。

此外,對於一般的基因數據,由於具有許多特徵,特徵選擇也非常重要。例如,SVM遞歸特徵消除(SVM-RFE)及其相關方法非常流行,並且正在基因數據的背景下得到積極開發和應用。

Patrick McCann
2011-10-19 03:01:13 UTC
view on stackexchange narkive permalink

壯大的樹木和某種形式的svm贏得了很多比賽,但這總是取決於具體情況。歧管正則化也處於最前沿。

user31264
2013-10-13 00:39:44 UTC
view on stackexchange narkive permalink

我推薦Hastie,Tibshirani和Friedman撰寫的“統計學習的要素”。不要只是閱讀它,而是使用它們描述的某些算法(大多數算法是用R實現的,或者您甚至可以自己實現一些算法),並了解它們的弱點和長處。

Dikran Marsupial
2011-11-14 18:45:55 UTC
view on stackexchange narkive permalink
Rasmussen和Williams(麻省理工學院出版社)的

機器學習的高斯過程是必須的。高斯過程是機器學習的熱門算法之一,現在可以使用期望傳播和變分推理算法。這本書寫得很好,有一個免費的MATLAB工具箱(很好的工具包),並且可以免費下載該書。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...