題:
在機器學習者中很難找到技能?
Jack Twain
2014-06-24 12:11:36 UTC
view on stackexchange narkive permalink

似乎數據挖掘和機器學習變得如此流行,以至於現在幾乎每個CS學生都知道分類器,聚類,統計NLP等。因此,如今尋找數據挖掘者似乎並不困難。

我的問題是:數據挖掘者可以學習哪些技能,從而使其與眾不同?讓他成為一個不太容易找到像他這樣的人。

儘管它是對另一個問題的回答,但是[我的舊答案](http://stats.stackexchange.com/a/25725/2970)中的幾點要點可以在這裡繼續。阿薩德在下面的回答中也做了類似的評論。
九 答案:
iliasfl
2014-06-24 12:44:09 UTC
view on stackexchange narkive permalink

我已經多次看到開發人員使用ML技術。這是通常的模式:

  1. 下載帶有奇特名稱的庫;
  2. 花10分鐘閱讀使用方法(跳過任何統計信息,數學等);
  3. 給它提供數據(無需預處理);
  4. 測量性能(例如,即使類完全不平衡,也可以保證準確性),並以99%的準確性告訴每個人有多棒;
  5. 部署具有史詩般失敗的結果;
  6. 發現某個人知道正在發生什麼,以幫助他們,因為指導手冊根本沒有道理。
  7. ol>

    一個簡單的答案是,(大多數)軟件工程師在統計數據和數學上非常虛弱。這是任何想要與他們競爭的人的優勢。當然,如果人們需要編寫生產代碼,那麼他們就不在他們的舒適範圍內。真正變得罕見的角色是數據科學家。有人可以編寫代碼來訪問和使用海量數據,並在其中找到價值。

大聲笑“告訴大家99%的準確率真是太棒了”
+1我完全同意。 “ [...]數據科學家。可以編寫代碼以訪問和處理大量數據並在其中找到價值的人。”在我看來,它應該自然而然地保留下來,因為對於大多數凡人來說,解決複雜的統計和基礎問題以及將某些東西轉化為生產代碼似乎是不可行的。這也解釋了為什麼我們有心血管外科醫生,麻醉師,神經科醫生,護士,醫院管理人員等,或者是土木,航空,採礦,化學,機械工程師等。
對我而言,這實際上並不是對某人需要成為傑出的ML候選人的描述-更像是ML狂歡。聽起來您正在描述某個人,他們甚至在確定問題是什麼之前就過於關注“答案”。基本上,您的“典型ML”人員是計劃能力較差的人,是在努力前進並返回“答案”之前不與“客戶”討論他們打算做什麼的人。擁有良好的數學/統計數據並不能幫助這—它需要良好的溝通能力。
Assad Ebrahim
2014-06-24 12:23:01 UTC
view on stackexchange narkive permalink

它的意義

僅了解技術就類似於了解動物園中的動物-您可以命名它們,描述它們的特性,或者在野外識別它們

了解何時使用它們,在應用程序區域內製定,構建,測試和部署有效的數學模型,同時避免陷阱–我認為,這些是與眾不同的技能。

>

重點應放在科學上,將系統,科學的方法應用於商業,工業和商業問題。但這需要比數據挖掘&機器學習更廣泛的技能,正如Robin Bloor在“ A Data Science Rant”中說服的那樣。

那該怎麼辦?

應用領域:了解與您或您的雇主接近的各種應用領域。與了解模型的構建方式以及如何使用模型為該領域增加價值相比,該領域通常沒有那麼重要。在一個領域中成功的模型通常可以移植並應用於以類似方式工作的不同領域。

競爭:嘗試數據挖掘競爭網站 Kaggle,最好加入其他團隊。 (Kaggle:預測模型競賽的平台。公司,政府和研究人員展示了數據集和問題,世界上最好的數據科學家競爭以提供最好的解決方案。)

基礎知識:有四個:(1)紮實的統計基礎;(2)相當好的編程技巧;(3)了解如何構造複雜的數據查詢;(4)建立數據模型。如果有任何弱點,那麼這是一個重要的起點。


一些引號

``我很早就知道了知道某物的名稱和知道某物之間的區別。您可以用世界上所有的語言知道鳥的名字,但是當您完成後,對鳥完全一無所知……所以讓我們看一下鳥,看看它在做什麼-那就是重要的事情。”-理查德·費曼(Richard Feynman),“科學家的造“”,第14頁,《你在乎別人的想法》,1988年。 blockquote>

``開展這些商業科學 [數據科學]項目所需的技能組合很少有人居住。的確,某人確實可能在三重領域中獲得了廣泛的知識:(i)業務活動,(ii)如何使用統計信息以及(iii)如何管理數據和數據流。他或她確實可以聲稱自己是給定部門的商業科學家(又名“數據科學家”)。但是這樣的人幾乎和母雞的牙齒一樣稀少。''-羅賓·布洛爾(Robin Bloor),數據科學雜誌,2013年8月,《內部分析》 / p>

``地圖不是領土''。-Alfred Korzybski,1933年,《科學》雜誌& Sanity。完全來自``地圖''。為了用數學模型進行實際操作,人們必須樂於接受細節,細微之處和例外情況。沒有什麼可以代替第一手了解該領土的。


+1。開箱即用的解決方案很少能解決組織中的特定業務問題。您需要進行調整和改進,為此,您需要了解內幕。
@Zhubarb-我認為這僅部分正確。“開箱即用”的解決方案不僅可以一直使用,而且通常不能用於從頭到尾完成任務,因此效果很好。訣竅在於知道何時可以使用“即用型解決方案”,以及何時需要更定制的方法。
Frank Harrell
2014-06-24 16:29:22 UTC
view on stackexchange narkive permalink

我同意所說的一切。對我而言突出的是:

  1. 有多少機器學習“專家”對他們想要應用機器學習的主題真正感興趣
  2. 有多少人真正理解了預測準確性和正確的評分規則
  3. 很少有人了解驗證原理
  4. 很少有人知道何時使用黑盒與傳統回歸模型
  5. 如何都不知道“專家”似乎曾經研究過貝葉斯的最佳決策或損失/效用/成本函數[幾乎在任何時候有人使用分類而不是預測風險的情況下,這種理解的缺乏就顯示出來了]
您介意4嗎?我不太明白你的意思
我本以為那個項目是最容易理解的。這是一個例子:在特定的研究領域中,假設我們以前的經驗是,大多數變量加法運算。擬合不假定預測變量線性運行的加性回歸模型(例如,使用回歸樣條)將提供可解釋且有用的統計模型。另一方面,使用svm或隨機森林將很難解釋,不會產生任何可分離的效果,並且不會比非線性加性模型更好地進行預測。
是的,確實是主題的淺薄。即使在機器學習世界中,我也經常看到這種將原始數據鏟入魔術盒並彈出奇妙洞察力的趨勢。這些人正在尋找的是人造大腦。
尤其是項目1的+1。對領域缺乏興趣的證據是,應用領域知識將需要知道如何“打開”黑匣子並進行修改。對於黑盒,我的意思是對於大多數入門級ML來說,即使基本的統計建模技術也位於該黑盒中。如果沒有興趣/能力,那麼應用領域知識就困難得多。
-1
您介意解釋#5的重要性嗎?
在我看來,#5非常重要。如果您不了解最佳決策所需的信息,則可能會創建錯誤的分析輸出。決策理論向我們表明,永遠不要將預測因子二等分,也不應該在實際決策點之前將預測二等分(例如將概率轉換為分類),除非事先具有效用/損失/成本函數。最佳決策的主要輸入是預測風險和效用函數。
Robert Dodier
2014-06-25 03:43:31 UTC
view on stackexchange narkive permalink

以下幾點使您在人群中脫穎而出:

  • 了解一個或多個應用程序域。也就是說,業務環境或其他上下文。
  • 了解全局。這個非常重要!學習機器學習的人常常迷失在細節上。考慮一下您的ML模型將適合的總體情況。 ML部分通常只是大型系統的一小部分。了解整個系統。
  • 研究效用和決策理論以及貝葉斯推理,不僅限於現在被視為“通常的” ML模型的任何事物。貝葉斯推理只是形式化使所有上下文信息都涉及問題的概念的一種方法。效用和決策理論就是將價值帶入畫面。 >
Jason Moore
2014-06-25 11:55:23 UTC
view on stackexchange narkive permalink

使一個數據挖掘者與眾不同的技能是解釋機器學習模型的能力。大多數情況下會構建一台計算機,報告錯誤,然後停止。功能之間的數學關係是什麼?效果是加性的還是非加性的,或兩者兼而有之?是否有任何不相關的功能?機器是否可以在零假設下期望數據中只有機會模式?該模型是否泛化為獨立數據?這些模式對正在研究的問題意味著什麼?有什麼推斷?有什麼見解?為什麼領域專家會感到興奮?機器會導致領域專家提出新問題並設計新實驗嗎?數據挖掘者能否有效地傳達模型及其對世界的影響?

+1同意-儘管您所描述的稱為統計。
arielf
2014-06-27 02:53:35 UTC
view on stackexchange narkive permalink

能夠很好地概括

這是一個好的模型的本質。這就是使機器學習領域的最佳實踐者脫穎而出的本質。

理解目標是優化未見數據的性能,而不是最大程度地減少訓練損失。知道如何避免過度擬合和過度擬合。提出不太複雜但描述問題不太簡單的模型。提取訓練集的要點,而不是提取最大的可能。

令人驚訝的是,即使是經驗豐富的機器學習從業者,也經常不遵循這一原理。原因之一是人類未能欣賞兩個巨大的 the-vs-practice -幅度差異:

  • 所有可能的示例 (即使培訓數據非常大)。
  • 完整的“假設空間” :與實際的“解決方案空間”相比,問題的可能模型數量:您能想到的一切以及您的軟件/工具能夠代表的一切。

第二個特別難以理解,因為即使對於最簡單的$ N $輸入和二進制結果的問題,也有$ 2 ^ N $個可能的輸入示例,而指數級數更大2 $ 2 ^ N $個可能的模型。

以上大多數答案也以更具體和具體的方式說了這句話。概括地說,很好地概括是我能想到的最短的方法。

probabilityislogic
2014-08-30 17:54:06 UTC
view on stackexchange narkive permalink

我會提出“軟技能”的概念。

  • 認識到誰是方法X的“專家”,並且能夠利用他們的知識(您可以應該不應該或不應該了解有關造假的一切)。與他人合作的能力和意願。

  • 使用ML中使用的數學來翻譯或表示“現實世界”的能力。

  • 能夠以不同的方式向不同的受眾解釋您的方法的能力-知道何時專注於細節以及何時退後一步並查看更廣泛的上下文。思考,能夠看到您的角色如何影響業務的其他領域,以及這些領域如何影響您的工作。

  • 對不確定性的欣賞和理解,以及一些結構化的方法來處理它。能夠清楚地說出您的假設。

Chitrasen
2014-06-25 12:41:36 UTC
view on stackexchange narkive permalink

在實踐中處理機器學習時,我看到有兩個部分

  1. 工程(涵蓋所有算法,學習不同的軟件包,編程)。

  2. 好奇心/理性(能夠對數據提出更好的問題)。

  3. ol>

    我認為“好奇心/推理”是一種使別人與眾不同的技能,例如,如果您看到kaggle完井的排行榜,可能是很多人使用常見(相似)算法的不同之處在於,如何從邏輯上質疑數據並將其公式化。

Match Maker EE
2020-07-15 02:10:25 UTC
view on stackexchange narkive permalink

已經在機器學習/統計模式識別領域進行了17年的科學研究-我可以提出一些技能,使一名通緝的數據科學家脫穎而出。

機器學習是關於:

  • 獲得學習算法的算法知識,並獲得將這些學習算法成功應用於實際ML問題的技巧,
  • 獲得概率理論(從貝葉斯規則開始),參數統計非參數統計所需的知識水平,以進行評估和比較不同類型的可學習模型,模型性能,置信區間,抽樣理論和ML估計。不要低估成為熟練技術人員所需的統計知識水平(例如,通過中心極限定理的證明,並了解何時該定理不適用)。 >)
  • 深入理解數學逼近理論,以便您了解為什麼前饋神經網絡(具有2個或更多隱藏層)是通用逼近器-Komolgorov定理的後代,
  • 從學習分類器的許多不同訓練集上獲得實踐經驗,並驗證其在獨立測試集上的表現,
  • 了解最佳的功能選擇模型選擇需要了解算法和統計信息如何相互融合-以分支選擇技術為例。認識到特徵選擇和模型選擇總會涉及偏差-偏差的權衡(在性能偏差和最佳模型擬合之間),
  • 仔細研究一下Richard & Lippmann(1991)的推導,為什麼神經網絡分類器會估計貝葉斯後驗概率,
  • 了解過去八十年在統計和算法預測模型開發方面的重大科學突破,從線性判別分析(統計分類器)開始,
  • 接受這樣一個事實,即對於幾乎“各種問題”,沒有一種機器學習方案是最佳的。所以-神經網絡並不比所有其他模型都要好,因此支持向量機或隨機森林也不是-所有這些都取決於基礎域的統計信息。實用的機器學習仍然是一門實驗科學,但是多年來,許多相關理論結果已在文獻中發表。

要跨越算法學,統計學和數學近似理論,這是一項艱鉅的工作。我做了博士學位從事機器學習的人,經過十多年的工作,首先真正成為一名專業人士。

最後一點是,不一定總是要成為程序員才能應用機器學習算法。像 Weka這樣的ML套件或 insight分類器等可用的分類器服務使數據科學家無需使用Python或R等程序就可以應用不同的ML算法。

這是一門偉大的學科-機器學習。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...