2歲的人類兒童需要大約5輛汽車才能以合理的準確性識別汽車,而不論其顏色,製造等如何。我兒子2歲時,即使有電車和火車,他仍然能夠識別他只看了幾個。由於他通常會彼此混淆,因此顯然他的神經網絡還沒有足夠的訓練,但是仍然可以訓練。
缺少人工神經網絡是什麼使它們無法更快地學習呢?轉學是答案嗎?
2歲的人類兒童需要大約5輛汽車才能以合理的準確性識別汽車,而不論其顏色,製造等如何。我兒子2歲時,即使有電車和火車,他仍然能夠識別他只看了幾個。由於他通常會彼此混淆,因此顯然他的神經網絡還沒有足夠的訓練,但是仍然可以訓練。
缺少人工神經網絡是什麼使它們無法更快地學習呢?轉學是答案嗎?
我告誡不要期望生物學和人工神經網絡之間的強烈相似之處。我認為“神經網絡”這個名稱有點危險,因為它使人們期望神經系統過程和機器學習應該相同。生物神經網絡和人工神經網絡之間的差異大於相似性。
作為如何解決該問題的示例,您還可以將推理放在原始帖子的頭上。您可以訓練一個神經網絡來學習在下午識別汽車,前提是您擁有一台相當快的計算機和一些訓練數據。您可以將其設置為二元任務(汽車/非汽車)或多類任務(汽車/電車/自行車/飛機/船),但仍然對成功有信心。
相比之下,我不希望孩子能夠在汽車誕生的第二天甚至是一周內挑選一輛汽車,即使它已經見過“這麼多的訓練實例”。兩歲大的嬰兒與嬰兒之間的明顯差異是造成學習能力差異的原因,而香草圖像分類神經網絡完全有能力在“出生後”立即 進行分類。 ”我認為有兩個重要的區別:(1)可用的培訓數據的相對數量;(2)由於豐富的培訓數據,隨著時間的推移而形成的自我學習機制。
原始帖子暴露了兩個問題。問題的標題和正文問為什麼神經網絡需要“這麼多的例子”。相對於孩子的經歷,使用通用圖像基準訓練的神經網絡數據相對較少。
我將標題中的問題改寫為
為便於比較,我將考慮CIFAR-10數據,因為它是常見的圖像基準。標記部分由10類圖像組成,每類6000張圖像。每個圖像為32x32像素。如果您以某種方式堆疊來自CIFAR-10的帶標籤的圖像並製作標準的48 fps視頻,則將有大約20分鐘的鏡頭。
一個2歲的孩子每天觀察世界12小時,可以直接觀察到世界大約263000分鐘(超過4000小時),包括來自成年人的反饋(標籤)。 (這些只是球場上的數字-我不知道典型的兩歲孩子花了多少分鐘來觀察世界。)此外,孩子將接觸到超過10種CIFAR類別的物體, 10。
因此,有一些事情在起作用。一個是,與CIFAR-10模型相比,孩子擁有更多的總體數據和更多樣化的數據來源。通常,眾所周知,數據多樣性和數據量是構建健壯模型的先決條件。從這個角度來看,在這個任務上神經網絡比孩子更糟似乎並不令人驚訝,因為與兩歲大的孩子相比,在CIFAR-10上訓練的神經網絡對於訓練數據肯定感到飢餓。兒童可獲得的圖像分辨率優於32x32 CIFAR-10圖像,因此兒童可以了解有關物體精細細節的信息。
將CIFAR-10與兩歲兒童進行比較並不完美,因為CIFAR-10模型很可能會在同一靜態圖像上經過多次通過訓練,而孩子會使用雙目視覺看到物體的排列方式在三維世界中,同時在同一物體上移動並具有不同的照明條件和視角。
關於OP的孩子的軼事暗示著第二個問題
一個孩子被賦予了一些自學才華,因此隨著時間的推移可以添加新類別的對象,而不必從頭開始。
OP關於轉移學習的評論指出了一種機器學習上下文中的模型自適應。
在評論中,其他用戶指出,一次學習和幾次學習*是另一個機器學習研究領域。
此外,強化學習從不同的角度處理自我教學模型,從根本上允許機器人進行反複試驗以找到解決特定問題(例如游戲)的最佳策略。象棋)。
這三個機器學習範例都與改善機器適應新的計算機視覺任務的方式密切相關。快速使機器學習模型適應新任務是研究的活躍領域。但是,由於這些項目的實際目標(識別惡意軟件的新實例,識別護照照片中的冒名頂替者,為互聯網建立索引)和成功標準與兒童了解世界的目標不同,並且事實證明,一台使用數學的計算機,另一台是使用化學方法在有機材料中完成的,兩者之間的直接比較仍然很麻煩。
*我們目前沒有用於一次性學習或一次性學習的標籤。
首先,在兩歲的時候,一個孩子對世界了解很多,並積極運用這一知識。通過將這些知識應用於新概念,孩子可以進行很多“轉移學習”。
第二,在看到這五個帶有“標籤”的汽車實例之前,一個孩子在街上,電視,玩具車等上看到很多汽車,因此也預先發生了許多“無監督學習”。>
最後,神經網絡與人腦幾乎沒有什麼共同之處,因此比較它們沒有多大意義。還要注意,有一種用於一次性學習的算法,目前對此進行了大量研究。
我在當前答案中沒有看到的一個主要方面是evolution。
孩子的大腦不能從頭開始學習。這類似於詢問鹿和長頸鹿嬰兒在出生後幾分鐘後如何走路。因為他們天生就已經為完成這項任務而絞盡腦汁。當然需要進行一些微調,但是小鹿並沒有學會從“隨機初始化”中走出來。
類似地,存在巨大的運動物體並對其保持跟踪很重要的事實是我們與生俱來的。
所以我認為這個問題的前提完全是錯誤的。人類的神經網絡有機會看到大量的-也許不是汽車,而是-移動,旋轉具有困難的紋理和形狀的3D對象,但是這種情況發生了很多代,並且學習是通過進化算法進行的,即那些大腦能夠更好地完成這項任務,可以活出更高的繁殖機會,從一開始就為下一代提供了更好的大腦連接。
我對神經網絡了解不多,但是我對嬰兒了解得很多。
許多2歲的孩子在一般用詞上應該有很多問題。例如,在那個年齡,孩子在任何四足動物身上使用“狗”是很普遍的。比起“汽車”,這是一個更困難的區分-例如,想一想貴賓犬與一隻偉大的丹麥人有何不同,但它們都是狗,而貓卻不是。
2歲的孩子見過5個以上的“汽車”實例。每當家人開車兜風時,孩子都會看到數十甚至數百輛汽車。而且很多父母都會對“看車”發表評論超過5次。但是孩子們也可以以他們沒有被告知的方式思考。例如,在大街上,孩子會看到很多東西在排隊。他父親說(其中一個)“看著那輛閃亮的汽車!”孩子認為“也許其他所有排隊的東西也是汽車嗎?”
這是一個令人著迷的問題,我也想了很多,可以提出一些解釋。
2歲的人類兒童需要大約5輛汽車才能不管顏色,品牌等如何以合理的準確性對其進行識別。
“實例”的概念容易混淆。儘管一個孩子可能看過5個獨特的汽車實例,但實際上他們在許多不同的環境中都看到了成千上萬個幀。他們可能在其他情況下也看到過汽車。他們還對自己一生中所發展的物理世界有一種直覺-這裡可能發生一些遷移學習。但是,我們將所有內容打包為“ 5個實例”。
同時,您傳遞給CNN的每個幀/圖像都被視為“示例”。如果您使用一致的定義,則這兩個系統實際上都在利用大量相似的訓練數據。
此外,我想指出的是,卷積神經網絡(CNN)在計算機視覺中比ANN更為有用,並且實際上在諸如圖像分類等任務中具有人類表現。深度學習(不是)不是萬能藥,但它在這一領域確實表現出色。
做到這一點的一種方法是所謂的轉移學習。一個經過其他標籤訓練的網絡通常可以非常有效地適應新標籤,因為艱苦的工作正在以明智的方式分解圖像的低級部分。
但是我們實際上並不需要這樣的標記數據來執行這樣的任務;就像嬰兒不需要像您正在考慮的神經網絡一樣需要標記的數據。
例如,我在其他情況下也成功應用的一種無監督方法是拍攝一組未標記的圖像,隨機旋轉它們,並訓練網絡以預測圖像的哪一側“朝上”。在不知道可見對像是什麼或它們叫什麼的情況下,這迫使網絡學習有關圖像的大量結構。這可以為後續數據學習效率更高的數據打下良好基礎。
雖然的確,人工網絡與真實網絡在可能有意義的方式上有很大不同,例如沒有明顯的反向傳播類似物,但真實的神經網絡很可能確實利用了相同的技巧,學習一些簡單先驗所隱含的數據結構。
另一個可以肯定地在動物中起作用並且在理解視頻方面也顯示出巨大希望的例子是,假設未來應該可以從過去中預測出來。僅僅從這個假設開始,您就可以全面學習神經網絡。或者在哲學層面上,我傾向於相信這一假設幾乎構成了我們認為是“知識”的一切。
我不是在這裡說什麼新的東西。但是從某種意義上來說,這是一個相對較新的事物,這些可能性還太年輕,以至於尚未發現許多應用程序,並且還沒有滲透到教科書中對“ ANN可以做什麼”的理解。因此,要回答OP的問題;人工神經網絡已經彌合了您描述的大部分鴻溝。
訓練深度神經網絡的一種方法是將其視為自動編碼器(受限玻爾茲曼機器)的堆棧。
理論上,自動編碼器以無監督的方式學習:它接受任意,未標記的輸入數據並對其進行處理以生成輸出數據。然後,它將獲取該輸出數據,並嘗試重新生成其輸入數據。它調整其節點的參數,直到可以接近其數據往返。如果您考慮一下,則自動編碼器正在編寫自己的自動化單元測試。實際上,它正在將其“未標記的輸入數據”轉換為labelled數據:原始數據用作往返數據的標籤。
在對自動編碼器的各層進行訓練之後,使用標記的數據對神經網絡進行微調,以執行其預期功能。實際上,這些是功能測試。
原始海報詢問為什麼訓練人工神經網絡需要大量數據,並將其與兩歲的人所稱的少量訓練數據進行比較。最初的發布者正在比較蘋果到橙色:人工神經網絡的總體訓練過程,以及針對兩歲兒童的帶有標籤的微調。
但是實際上,這名兩歲孩子已經對自動編碼器的隨機自標記數據進行了兩年多的培訓。嬰兒在子宮內時會做夢。 (小貓也是。)研究人員將這些夢想描述為涉及視覺處理中心中的隨機神經元放電。
一個小孩子學習如何看待物體的過程需要很長時間,並且有很多例子。此後,孩子可以通過僅舉幾個例子來學習識別特定類型的對象。如果您將一個兩歲的孩子與一個從字面上是空白的學習系統進行比較,那就是蘋果和橘子的比較。在那個年齡的孩子已經看了數千個小時的“錄像”。
以類似的方式,需要人工神經網絡使用許多示例來學習“如何看待”,但是之後可以將這些知識轉移到新的示例中。轉移學習是機器學習的整個領域,並且可能會發生“一次學習”之類的事情-您可以構建ANN,這些ANN將學習識別單個示例中以前從未見過的新型對象,或者識別某人從一張臉的單張照片。但是,做好最初的“學習觀察”部分需要大量數據。
此外,有證據表明,並非所有訓練數據都相等,即,您在學習時“選擇”的數據比單純提供給您的數據更有效。例如。舉行了& Hein雙胞胎小貓實驗。 https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf
到目前為止,我尚未在答案中看到的一件事是這樣的事實,即人類孩子看到的現實世界對象的一個“實例”與NN訓練上下文中的實例並不對應。
假設您正和一個5歲的孩子站在鐵路交叉路口,並且觀看10分鐘內有5列火車通過。現在,您可以說“我的孩子只看了5列火車,而當NN需要數千幅圖像時,它可以可靠地識別其他火車!”。儘管這可能是對的,但您完全忽略了一個事實,即您的孩子看到的每列火車都包含比火車的單個圖像更多的信息。實際上,您的孩子的大腦每秒通過火車時會處理數十幅圖像,每幅圖像的角度略有不同,陰影不同,等等,而單個圖像將為NN提供非常有限的信息。 在這種情況下,您的孩子甚至擁有NN無法獲得的信息,例如火車的速度或火車發出的聲音。
此外,您的孩子可以說話和詢問問題! “火車很長,對嗎?” “是的。”,“它們也很大,對嗎?” “是。”。只需兩個簡單的問題,您的孩子就會在不到一分鐘的時間內學習到兩個非常重要的功能!
另一個重要點是對象檢測。您的孩子能夠立即識別出需要關注的對象,即圖像的哪一部分,而NN必須先學會檢測相關對象,然後才能對其進行分類。
我認為性能並沒有您期望的那麼大,但是您提出了一個很大的問題(請參閱最後一段)。
正如您提到的轉移學習:要比較一個蘋果與一個蘋果,我們必須查看一幅人類/神經網絡“看到”的總共多少張圖片以及感興趣類別的多少張圖片。
1。人們看幾張照片?
人類的眼動大約需要200毫秒。可以看作是一種“生物照片”。請參閱計算機視覺專家李飛飛的演講: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785。
她補充道:
因此,到3歲時,一個孩子將已經看過數億張照片。
在領先的物體檢測數據庫ImageNet中,約有1400萬張帶有標籤的圖片。因此,在ImageNet上接受訓練的神經網絡將看到多達14000000/5/60/60/24 * 2〜64天大的嬰兒的圖片,因此,兩個月大(假設嬰兒清醒了一半的生命)。 公平地說,很難說出其中有多少張圖片被標記了。而且,嬰兒看到的圖片並不像ImageNet那樣多樣化。 (可能是嬰兒看到她母親的時間,...;)。 但是,我認為您的兒子將看過數億張照片(然後應用轉移學習)很公平。
So我們需要學習多少張圖片才能獲得一個新類別,前提是可以從(學習)到相關圖片的堅實基礎?
我發現的第一篇博客文章是: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html。每個類使用1000個示例。我可以想像2.5年後甚至需要更少的東西。 但是,在3.3分鐘內,人類在1000/5/60中可以看到1000張照片。
您寫道:
2歲的人類兒童需要大約5輛汽車才能 不論顏色,品牌等如何,都以合理的準確性對其進行識別。
每個實例相當於40秒(該對象具有各種角度以使其具有可比性)。
總結: 正如我提到的,我必須做一些假設。但是我認為,可以看到性能並沒有人們期望的那麼大。
但是,我相信您提出了一個很好的問題,這就是為什麼:
2。如果神經網絡更像大腦一樣工作,神經網絡的性能會更好/有所不同嗎? (Geoffrey Hinton說是)。
在2018年末的一次採訪 https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/中,他比較了當前大腦神經網絡的實現。他提到,就重量而言,人工神經網絡比大腦小10.000倍。因此,大腦需要更少的訓練迭代來學習。為了使人工神經網絡能夠更像我們的大腦工作,他遵循了硬件的另一趨勢,這是一家位於英國的初創公司Graphcore。它通過存儲神經網絡權重的智能方式減少了計算時間。因此,可以使用更多的權重,並且可以減少人工神經網絡的訓練時間。
我是這方面的專家。我是人類,我是嬰兒,我有車,我做AI。
嬰兒舉起例子有限的原因是直覺。人腦已經具有處理3D旋轉的結構。另外,有兩隻眼睛為深度映射提供視差,這確實有幫助。您可以在汽車和汽車圖片之間進行切換,因為圖片沒有實際的深度。Hinton(AI研究人員)提出了Capsule Networks的想法,該想法將能夠更直觀地處理事物。不幸的是,對於計算機而言,訓練數據通常是2D圖像,即平面像素陣列。為了不過度擬合,需要大量數據,因此圖像中的汽車方向已被概括。嬰兒的大腦已經可以做到這一點,並且可以在任何方向識別汽車。