這是一個開始學習機器學習的人的幼稚問題。這些天,我正在閱讀Marsland的著作《機器學習:算法的觀點》。我覺得它作為入門書籍很有用,但是現在我想進入高級算法,那些算法目前效果最好。我最感興趣的是生物信息學:生物網絡的聚類和生物序列中的模式發現,尤其是應用於單核苷酸多態性(SNP)分析。您能為我推荐一些評論或書籍嗎?
這是一個開始學習機器學習的人的幼稚問題。這些天,我正在閱讀Marsland的著作《機器學習:算法的觀點》。我覺得它作為入門書籍很有用,但是現在我想進入高級算法,那些算法目前效果最好。我最感興趣的是生物信息學:生物網絡的聚類和生物序列中的模式發現,尤其是應用於單核苷酸多態性(SNP)分析。您能為我推荐一些評論或書籍嗎?
深度學習自2006年以來就成為焦點,這基本上是一種訓練深度神經網絡的方法,並且在非常困難的數據集(如文檔聚類或對象識別)上產生了令人印象深刻的結果。有人在談論第二次神經網絡復興(例如,在Schmidhuber的此Google演講中)。
如果您想給您留下深刻的印象,請閱讀此《科學》論文通過神經網絡降低數據的維度, Hinton & Salakhutdinov。
(該領域目前正在進行大量工作,因此我只知道兩本書即將出版對待它:大型機器學習,Langford等人和機器學習:概率的觀點(凱文·墨菲著)。)
到目前為止,給出的大多數答案都涉及“監督學習”(即您在其中具有數據集一部分的標籤,可用於訓練算法)。這個問題專門提到了聚類,這是一種“無監督”方法(即事先沒有標籤)。在這種情況下,建議您查看:
但實際上,您可能會發現相似性/距離度量比
如果您有一些標記數據,那麼“半監督學習”方法將變得越來越流行,並且功能非常強大。 LapSVM(拉普拉斯支持向量機)是SSL的一個很好的起點。
這些書可能會有所幫助:
然後請記住,您可以參加斯坦福大學剛剛開始的免費機器學習課程: www.ml-class.com。
對於您的特殊問題,即SNP分析,我建議看一下帕多瓦大學的 Di Camillo研究小組。
這是一本很棒的文章和書,解釋了大多數最受歡迎的方法的原理,理論和應用:
它特別整潔,因為它是該領域民意測驗專家選擇的“前十名”。
此外,對於一般的基因數據,由於具有許多特徵,特徵選擇也非常重要。例如,SVM遞歸特徵消除(SVM-RFE)及其相關方法非常流行,並且正在基因數據的背景下得到積極開發和應用。
壯大的樹木和某種形式的svm贏得了很多比賽,但這總是取決於具體情況。歧管正則化也處於最前沿。
我推薦Hastie,Tibshirani和Friedman撰寫的“統計學習的要素”。不要只是閱讀它,而是使用它們描述的某些算法(大多數算法是用R實現的,或者您甚至可以自己實現一些算法),並了解它們的弱點和長處。
機器學習的高斯過程是必須的。高斯過程是機器學習的熱門算法之一,現在可以使用期望傳播和變分推理算法。這本書寫得很好,有一個免費的MATLAB工具箱(很好的工具包),並且可以免費下載該書。