似乎數據挖掘和機器學習變得如此流行,以至於現在幾乎每個CS學生都知道分類器,聚類,統計NLP等。因此,如今尋找數據挖掘者似乎並不困難。
我的問題是:數據挖掘者可以學習哪些技能,從而使其與眾不同?讓他成為一個不太容易找到像他這樣的人。
似乎數據挖掘和機器學習變得如此流行,以至於現在幾乎每個CS學生都知道分類器,聚類,統計NLP等。因此,如今尋找數據挖掘者似乎並不困難。
我的問題是:數據挖掘者可以學習哪些技能,從而使其與眾不同?讓他成為一個不太容易找到像他這樣的人。
我已經多次看到開發人員使用ML技術。這是通常的模式:
一個簡單的答案是,(大多數)軟件工程師在統計數據和數學上非常虛弱。這是任何想要與他們競爭的人的優勢。當然,如果人們需要編寫生產代碼,那麼他們就不在他們的舒適範圍內。真正變得罕見的角色是數據科學家。有人可以編寫代碼來訪問和使用海量數據,並在其中找到價值。
它的意義
僅了解技術就類似於了解動物園中的動物-您可以命名它們,描述它們的特性,或者在野外識別它們
了解何時使用它們,在應用程序區域內製定,構建,測試和部署有效的數學模型,同時避免陷阱–我認為,這些是與眾不同的技能。
>重點應放在科學上,將系統,科學的方法應用於商業,工業和商業問題。但這需要比數據挖掘&機器學習更廣泛的技能,正如Robin Bloor在“ A Data Science Rant”中說服的那樣。
那該怎麼辦?
應用領域:了解與您或您的雇主接近的各種應用領域。與了解模型的構建方式以及如何使用模型為該領域增加價值相比,該領域通常沒有那麼重要。在一個領域中成功的模型通常可以移植並應用於以類似方式工作的不同領域。
競爭:嘗試數據挖掘競爭網站 Kaggle,最好加入其他團隊。 (Kaggle:預測模型競賽的平台。公司,政府和研究人員展示了數據集和問題,世界上最好的數據科學家競爭以提供最好的解決方案。)
基礎知識:有四個:(1)紮實的統計基礎;(2)相當好的編程技巧;(3)了解如何構造複雜的數據查詢;(4)建立數據模型。如果有任何弱點,那麼這是一個重要的起點。
一些引號:
``我很早就知道了知道某物的名稱和知道某物之間的區別。您可以用世界上所有的語言知道鳥的名字,但是當您完成後,對鳥完全一無所知……所以讓我們看一下鳥,看看它在做什麼-那就是重要的事情。”-理查德·費曼(Richard Feynman),“科學家的造“”,第14頁,《你在乎別人的想法》,1988年。 blockquote>
``開展這些商業科學 [數據科學]項目所需的技能組合很少有人居住。的確,某人確實可能在三重領域中獲得了廣泛的知識:(i)業務活動,(ii)如何使用統計信息以及(iii)如何管理數據和數據流。他或她確實可以聲稱自己是給定部門的商業科學家(又名“數據科學家”)。但是這樣的人幾乎和母雞的牙齒一樣稀少。''-羅賓·布洛爾(Robin Bloor),數據科學雜誌,2013年8月,《內部分析》 / p>
``地圖不是領土''。-Alfred Korzybski,1933年,《科學》雜誌& Sanity。完全來自``地圖''。為了用數學模型進行實際操作,人們必須樂於接受細節,細微之處和例外情況。沒有什麼可以代替第一手了解該領土的。
我同意所說的一切。對我而言突出的是:
以下幾點使您在人群中脫穎而出:
使一個數據挖掘者與眾不同的技能是解釋機器學習模型的能力。大多數情況下會構建一台計算機,報告錯誤,然後停止。功能之間的數學關係是什麼?效果是加性的還是非加性的,或兩者兼而有之?是否有任何不相關的功能?機器是否可以在零假設下期望數據中只有機會模式?該模型是否泛化為獨立數據?這些模式對正在研究的問題意味著什麼?有什麼推斷?有什麼見解?為什麼領域專家會感到興奮?機器會導致領域專家提出新問題並設計新實驗嗎?數據挖掘者能否有效地傳達模型及其對世界的影響?
能夠很好地概括
這是一個好的模型的本質。這就是使機器學習領域的最佳實踐者脫穎而出的本質。
理解目標是優化未見數據的性能,而不是最大程度地減少訓練損失。知道如何避免過度擬合和過度擬合。提出不太複雜但描述問題不太簡單的模型。提取訓練集的要點,而不是提取最大的可能。
令人驚訝的是,即使是經驗豐富的機器學習從業者,也經常不遵循這一原理。原因之一是人類未能欣賞兩個巨大的 the-vs-practice -幅度差異:
第二個特別難以理解,因為即使對於最簡單的$ N $輸入和二進制結果的問題,也有$ 2 ^ N $個可能的輸入示例,而指數級數更大2 $ 2 ^ N $個可能的模型。
以上大多數答案也以更具體和具體的方式說了這句話。概括地說,很好地概括是我能想到的最短的方法。
我會提出“軟技能”的概念。
認識到誰是方法X的“專家”,並且能夠利用他們的知識(您可以應該不應該或不應該了解有關造假的一切)。與他人合作的能力和意願。
使用ML中使用的數學來翻譯或表示“現實世界”的能力。
能夠以不同的方式向不同的受眾解釋您的方法的能力-知道何時專注於細節以及何時退後一步並查看更廣泛的上下文。思考,能夠看到您的角色如何影響業務的其他領域,以及這些領域如何影響您的工作。
對不確定性的欣賞和理解,以及一些結構化的方法來處理它。能夠清楚地說出您的假設。
在實踐中處理機器學習時,我看到有兩個部分
工程(涵蓋所有算法,學習不同的軟件包,編程)。
好奇心/理性(能夠對數據提出更好的問題)。
我認為“好奇心/推理”是一種使別人與眾不同的技能,例如,如果您看到kaggle完井的排行榜,可能是很多人使用常見(相似)算法的不同之處在於,如何從邏輯上質疑數據並將其公式化。
已經在機器學習/統計模式識別領域進行了17年的科學研究-我可以提出一些技能,使一名通緝的數據科學家脫穎而出。
機器學習是關於:
要跨越算法學,統計學和數學近似理論,這是一項艱鉅的工作。我做了博士學位從事機器學習的人,經過十多年的工作,首先真正成為一名專業人士。
最後一點是,不一定總是要成為程序員才能應用機器學習算法。像 Weka這樣的ML套件或 insight分類器等可用的分類器服務使數據科學家無需使用Python或R等程序就可以應用不同的ML算法。
這是一門偉大的學科-機器學習。