我對功能選擇和機器學習感到有些困惑,我想知道您是否可以幫助我。我有一個微陣列數據集,該數據集分為兩組並具有1000多個特徵。我的目標是獲得簽名中的少量基因(我的特徵)(10-20個),從理論上講,我將能夠將其應用於其他數據集以對這些樣本進行最佳分類。因為我沒有那麼多樣本(<100),所以我沒有使用測試和訓練集,而是使用了留一法交叉驗證來確定穩健性。我已經讀過,應該為每個樣本樣本執行特徵選擇,即
- 選擇一個樣本作為測試集
- 在其餘樣本上執行特徵選擇
- 使用所選功能將機器學習算法應用於其餘樣本
- 測試測試集是否正確分類
- 轉到1。 ol>
我所說的最優是指任何進一步研究都應使用的基因集合。例如,假設我有一個癌症/正常數據集,我想找到根據SVM對腫瘤類型進行分類的前10個基因。我想知道可以在進一步實驗中使用的基因集和SVM參數,以查看它是否可以用作診斷測試。