題:
神經網絡與支持向量機:第二種絕對優越嗎?
stackovergio
2012-06-08 07:59:40 UTC
view on stackexchange narkive permalink

許多我讀過的論文的作者都肯定了SVM是解決他們的回歸/分類問題的上乘技術,因為他們意識到通過NN無法獲得相似的結果。比較經常表明,

支持向量機而不是神經網絡,

  • 具有強大的基礎理論
  • 由於二次規劃而達到了全局最優值
  • 選擇適當數量的參數沒有問題
  • 不太適合過度擬合
  • 需要較少的內存來存儲預測模型
  • Yield更具可讀性的結果和幾何解釋

這真的是一個被廣泛接受的想法嗎?不要引用免費午餐定理或類似的陳述,我的問題是關於那些技術的實際使用。 >

我認為這個問題可能有點廣泛。但是在實踐中,NN似乎可以通過選擇NN結構進行調整,而SVM具有較少的參數。有兩個問題,如果為解決問題而最佳地設置了神經網絡,與SVM相比情況如何?在普通實踐者的手中,SVM與NN相比如何?
@PatrickCaldon我理解您的觀點,但是,如果您不知道如何以合適的方式配置它們,那麼處理更多的參數並不總是意味著更好的工具。即使可能,也可能需要進行長時間的研究;或者,對於您的應用而言,您可能不需要如此廣泛的可調性
這就是我的意思。在理想情況下,該工具在特定問題上如何工作?還是大多數時間該工具如何對大多數人有效?我認為這裡最大的組成部分是人。因此,我認為相關因素通常是:每個工具的學習難度如何?是否有周圍的專家知道如何使用它?等等。這可以解釋很多“我從X獲得了不錯的表現”
據我所知,多層前饋神經網絡或多或少是通用逼近器,與激活函數無關。我不知道SVM的類似結果,這更多地取決於我所使用的內核功能。
那當然應該讀多層。
在實際使用中,由於訓練時間的緣故,我發現NN更加實用。非線性SVM不能很好地處理大N。兩種算法都可能過擬合,並且都需要強正則化。
如果內核和損失函數經過精心設計,它將勝過大多數NN。
許多交易者使用SVM進行交易,是因為它們提供了全局最優,而NN往往會提供更好的局部最優。從循環數據進行預測時,NN往往勝過SVM,例如從外匯市場的每分鐘數據中看到的重複波動。
五 答案:
Jessica Collins
2012-06-09 01:02:01 UTC
view on stackexchange narkive permalink

這是一個權衡的問題。現在,SVM位於 in 中,而NN曾經是 in 。您會發現越來越多的論文聲稱 in中出現了隨機森林,概率圖形模型或非參數貝葉斯方法。有人應在《不可能研究年刊》中發布預測模型。關於什麼模型將被視為髖關節。


NN的優點:

  • 它們在支持的數據類型方面非常靈活。 NN基本上可以從任何數據結構中學習重要特徵,而無需手動導出特徵。
  • NN仍然受益於特徵工程,例如如果您有長度和寬度,則應該具有區域特徵。在相同的計算工作量下,該模型的性能會更好。

  • 大多數有監督的機器學習都要求您將數據按特徵矩陣以觀察值的形式進行結構化,並將標籤作為矢量長度的觀察。 NN不需要此限制。結構化SVM有出色的工作,但它不可能像NN一樣靈活。


SVM的優點:

  • 更少的超參數。通常,SVM需要較少的網格搜索來獲得合理準確的模型。帶有RBF內核的SVM通常表現良好。

  • 保證全局最優。


NN和缺點SVM:

  • 在大多數情況下,它們都是黑匣子。有一些關於解釋SVM的研究,但我懷疑它會像GLM一樣直觀。在某些問題域中,這是一個嚴重的問題。
  • 如果您要接受黑匣子,那麼通常可以通過打包/堆疊/提升許多具有不同權衡的模型來提高準確性。

    • 隨機森林之所以具有吸引力,是因為它們可以毫不費力地進行袋外預測(留一法則預測),它們是可以解釋的,並且具有良好的偏差方差折衷(對於套袋模型),並且它們對選擇偏向相對穩健。

    • 概率圖形模型非常有吸引力,因為它們可以將特定領域的知識直接合併到模型中,並且在這方面可以解釋。

    • p>
  • 非參數(或實際上非常參數化)的貝葉斯方法很有吸引力,因為它們直接產生置信區間。它們在小樣本量時表現很好,在大樣本量時表現很好。編寫線性代數實現的簡單簡單。

我想說,隨著近來深度學習的興起,NN被認為比SVM更具“內在性”。
SVM如何保證全局最優?
Dikran Marsupial
2012-06-09 00:14:12 UTC
view on stackexchange narkive permalink

根據我的經驗,您的問題的答案是“否”,SVM並非絕對出色,哪種效果最好取決於手頭數據集的性質以及操作員使用每套工具的相對技能。通常,SVM很好,因為訓練算法高效且具有正則化參數,這迫使您考慮正則化和過度擬合。但是,在某些數據集中,MLP的性能要比SVM好得多(因為允許它們決定自己的內部表示,而不是由內核功能預先指定)。良好的MLP實現(例如NETLAB)以及正則化,早期停止或架構選擇(或者更好的是全部三個)通常可以產生非常好的結果,並且可重複(至少在性能方面)。

模型選擇是SVM的主要問題,如果對模型選擇標准進行了過度優化,那麼選擇內核以及優化內核和正則化參數通常會導致嚴重的過度擬合。雖然支持SVM的理論是一種安慰,但它大部分僅適用於固定內核,因此,一旦嘗試優化內核參數,它就不再適用(例如,在調整內核時要解決的優化問題)通常是非凸的,並且可能具有局部最小值。

我完全同意這一點。我目前正在訓練有關腦機接口數據的SVM和ANN,有些數據集的SVM更好,而有些數據集的ANN更好。有趣的是:當我平均使用的所有數據集的性能時,SVM和ANN達到完全相同的性能。當然,這不是證明。這只是一個軼事。 :)
Dmitry Laptev
2012-06-08 17:47:07 UTC
view on stackexchange narkive permalink

我將盡力解釋大多數朋友似乎都認同的觀點。對於神經網絡,我有以下擔憂,而與SVM根本無關。

  1. 在經典的NN中,參數數量非常高。假設您要將長度為100的向量分類為兩類。一個與​​輸入層大小相同的隱藏層將導致您獲得超過100000個自由參數。試想一下,您會過度擬合的嚴重程度(在這樣的空間內下降到局部最小值有多容易),以及需要多少訓練點來防止這種情況發生(以及接下來需要訓練多少時間)。
  2. 通常,您必須是真正的專家才能一目了然地選擇拓撲。這意味著,如果要獲得良好的結果,則應進行大量實驗。這就是為什麼使用SVM並告訴您使用NN無法獲得類似結果的原因。
  3. 通常NN的結果是不可重現的。即使您進行了兩次NN訓練,由於學習算法的隨機性,您也可能會得到不同的結果。
  4. 通常,您根本無法完全理解結果。這是個小問題,但是無論如何。
  5. ol>

    這並不意味著您不應該使用NN,而應該仔細使用它。例如,卷積神經網絡可以非常好地用於圖像處理,其他深度神經網絡也可以解決其他問題。

    希望它會有所幫助。

為了使ANN結果可再現,請為隨機函數設定種子。
@Franck這不是真正的可重複性。
bayerj
2012-06-09 00:54:15 UTC
view on stackexchange narkive permalink

我正在使用神經網絡解決大多數問題。關鍵是,在大多數情況下,更多的是用戶體驗而不是模型。這就是為什麼我喜歡NN的一些原因。

  1. 它們很靈活。我可以向他們扔任何我想要的損失:鉸鏈損失,平方,交叉熵,隨便你怎麼說。只要它是可微的,我什至可以設計出完全符合我的需求的損失。
  2. 可以概率地對待它們:貝葉斯神經網絡,變分貝葉斯,MLE / MAP,一切都在那裡。 (但在某些情況下更困難。)
  3. 它們很快。大多數MLP將是兩次矩陣乘法,並且在兩者之間逐個應用非線性。用SVM擊敗它。
  4. ol>

    我將逐步介紹您的其他觀點。

    有很強的創建理論

    我想說,在這種情況下,神經網絡同樣強大:因為您是在概率框架中訓練它們的。這樣就可以使用先驗和貝葉斯處理(例如,使用變分技術或近似方法)。

    由於二次編程而達到了全局最優值

    對於一組超參數。但是,搜索良好的hp是非凸的,並且您將不知道是否也找到了全局最優值。

    選擇適當數量的參數沒有問題

    對於SVM,還必須選擇超級參數。

    存儲預測模型所需的內存更少

    您需要存儲支持向量。通常,支持SVM存儲MLP並不便宜,這要視情況而定。

    更具可讀性的結果和幾何解釋

    在分類的情況下,MLP是邏輯回歸。因此,存在幾何解釋(超平面分離)和概率解釋。

為什麼需要存儲支持向量?存儲SVM的超平面/功能還不夠嗎?
這是因為超平面是通過支持向量表示的。要計算新點到新點的距離,您將迭代這些點。
Paul
2019-07-19 01:25:50 UTC
view on stackexchange narkive permalink

在某些方面,這兩種廣泛的機器學習技術是相關的。儘管不夠完美,但我發現以下兩篇有助於說明這些技術的相似性的論文

Ronan Collobert和Samy Bengio。2004。感知器,MLP之間的鏈接 和SVM。在第二十一屆國際會議錄中 關於機器學習(ICML '04)。美國紐約州紐約市ACM,23-。DOI: https://doi.org/10.1145/1015330.1015415

安德拉斯,彼得。(2002)。支持向量機的等價性與 正則化神經網絡。神經處理字母。15. 97-104。 10.1023 / A:1015292818897。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...