和 Geoffery Hinton 面對面聊聊

在今年的谷歌 IO 2019 大會上有個環(huán)節(jié),邀請了「深度學習教父」、也是 2018 年圖靈獎獲獎?wù)咧坏?Geoffery Hinton 聊一聊學術(shù)、非學術(shù)的各類話題。整個過程很輕松,就是聊聊各種話題,不過 Hinton 老爺子一如既往地學術(shù)風氣十足。雷鋒網(wǎng) AI 科技評論根據(jù)視頻回放把訪談內(nèi)容聽譯整理如下。有小部分刪節(jié)。

主持人:大家好,我是 Nicholas Thompson,Wired 記者。今天我們要和 Geoffery Hinton 面對面聊一聊。說起 Hinton 他身上有兩件事讓我很敬佩,第一件當然是他很能堅持,即便所有別的人都說他的想法很糟糕,他也堅持相信自己,堅持一直做下去。別的「有很糟糕的想法」的人很受到他的鼓勵,包括我自己。第二件就是,我做了大半輩子管理者,可以說收集了各種各樣的職位頭銜,而當我看到 Hinton 的簡介的時候,他的頭銜簡直不能更加平庸 —— 就是谷歌工程 Fellow(Google Engineering Fellow)而已。讓我們邀請他上臺。

Hinton:謝謝,很高興來到這里。

和 Geoffery Hinton 面對面聊聊

為什么要堅持神經(jīng)網(wǎng)絡(luò)

主持人:那我們開始吧。我記得大概是 20 年前,你開始寫一些最早的產(chǎn)生影響力的論文,別人看了以后覺得「唔,挺聰明的想法,但是我們沒辦法設(shè)計這樣的電腦」。跟大家談?wù)勀銥槭裁茨芤恢眻猿帧槭裁茨敲聪嘈抛约赫业搅撕苤匾臇|西?

Hinton:首先糾正你一下那是 40 年前。在我看來,大腦沒辦法以別的方式運轉(zhuǎn),它只能是學習連接的強弱。那么,如果你想要制造一個能做智能的事情的機器,你面前有兩個選擇,給它編程,或者讓它學習。顯然我們?nèi)祟惖闹腔鄄皇潜粍e人編寫出來的,所以就只能是「學習」。只有這一種可能。

主持人:那你能再給大家解釋一下「神經(jīng)網(wǎng)絡(luò)」這個概念嗎?在場的多數(shù)人應(yīng)該都是知道的,不過我們還是想聽聽你最初的想法,以及它是如何發(fā)展的。

和 Geoffery Hinton 面對面聊聊

Hinton:首先你有一些非常簡單的處理單元,可以看做是神經(jīng)元的簡單形式。它們能接受傳入的信號,每個信號都有權(quán)重,這些權(quán)重可以變化,這就是學習的過程。然后神經(jīng)元做的事情就是先把傳入的信號值乘上權(quán)重,再把它們?nèi)技悠饋淼玫揭粋€和,最后再決定是否要把這個和傳送出去;比如這個值足夠大,就傳送出去,不夠大或者是負數(shù),就不傳送。就這么簡單。你只需要把成千上萬個這樣的單元互相連接起來,里面有成千上萬的成千上萬倍的權(quán)重,然后學習到這些權(quán)重,那你就可以做到任何事了。難點只在于如何學習權(quán)重。

主持人:你是在什么時候開始覺得,這種做法和人類大腦的運轉(zhuǎn)方式差不多的?

Hinton:神經(jīng)網(wǎng)絡(luò)一開始就是仿照人類大腦的樣子設(shè)計的。

主持人:比如在你人生中的某個時候你開始意識到了人類大腦是怎么工作的,可能是在 12 歲的時候,也可能是在 25 歲的時候,那么你是在什么時候開始、以及如何決定了你要仿照人類大腦的樣子設(shè)計神經(jīng)網(wǎng)絡(luò)的?

Hinton:差不多一知道人類大腦是這么工作的就決定了吧。做這個研究的整個思路就是模仿人類的大腦的連接,然后試著學習這些連接權(quán)重。我其實不是這個思路的創(chuàng)始人,圖靈就有過同樣的思路。雖然圖靈為標準計算機科學的發(fā)展做出了很大貢獻,但是他就認為人類大腦是一個沒有什么明確結(jié)構(gòu)、連接權(quán)重也都是隨機值的設(shè)備,然后只需要用強化學習的方式改變這些權(quán)重,它就可以學到任何東西。他覺得「智慧」的最好的模式就是這樣的。還有很多別的人也都有差不多的想法。

主持人:上世紀 80 年代的時候你在這方面的研究讓你變得小有名氣,但后來,從什么時候開始其它的研究者就開始放棄這個方向了呢?只有你一個人堅持下來了。

Hinton:(停頓了一下)總有那么一小撥人是堅持相信、堅持到了今天的,尤其是心理學領(lǐng)域里。不過計算機科學這邊能堅持的就少一點,因為上世紀 90 年代的時候,領(lǐng)域內(nèi)的數(shù)據(jù)集很小、計算機也沒有那么快,這時候還有其它類型的方法出現(xiàn),比如支持向量機(SVM),它們在那樣的條件下效果更好,受到噪聲的影響也沒那么嚴重。這就開始讓人感覺到沮喪了,雖然我們在 80 年代開發(fā)了反向傳播,我們也相信它能解決任何問題,但那時候我們搞不清它「為什么沒能解決任何問題」。后來我們知道了讓神經(jīng)網(wǎng)絡(luò)發(fā)揮實力需要數(shù)據(jù)和計算力都有很大的規(guī)模,但當時沒人知道。

主持人:你們當時以為它效果不好的原因是什么?

Hinton:我們以為是算法不好、目標函數(shù)不好等等各種原因。我自己很長時間內(nèi)都有一個想法,覺得是因為我們在做監(jiān)督學習,需要標注很多數(shù)據(jù);那么我們應(yīng)該做的是無監(jiān)督學習,從沒有標簽的數(shù)據(jù)中學習。但最后我們發(fā)現(xiàn)主要原因還是在規(guī)模上。

主持人:聽起來很有趣,其實只是數(shù)據(jù)量不足,但是你們當時以為數(shù)據(jù)量夠了,但是標注得不好 —— 你們找錯了問題了對嗎?

和 Geoffery Hinton 面對面聊聊

Hinton:我當時覺得「用有標注的數(shù)據(jù)」就是不對的,人類的大多數(shù)學習過程都沒有用到任何標簽,就只是在建模數(shù)據(jù)中的結(jié)構(gòu)。其實我現(xiàn)在也還相信這個,我覺得隨著計算機變得越來越快,給定一個足夠大的數(shù)據(jù)集以后就應(yīng)該先做無監(jiān)督學習;無監(jiān)督學習做完以后,就可以用更少的標注數(shù)據(jù)學習。

主持人:到了九十年代,你還繼續(xù)在學術(shù)界做研究,還在發(fā)表論文,但是沒能繼續(xù)解決越來越多的問題。你當時有沒有想過,覺得我受夠了、我要做點別的去?還是就是很堅定地要一直做下去?

Hinton:就是要堅定做下去,這是一定能行的。你看,人類大腦就是通過改變這些連接來學習的,我們?nèi)パ芯俊⑷ツ7戮秃昧恕W習這些連接的強弱可能會有很多種不同的方式,大腦用了某一種,但是其他的方法也有可能是可行的。不過你總是需要找到一種學習連接權(quán)重的方法。這一點我從來沒有懷疑過。

看到希望

主持人:大概在什么時候看起來好像行得通了?

Hinton:八十年代的時候其實有件事讓大家很頭疼,就是如果你設(shè)計了一個有很多隱層(中間層)的神經(jīng)網(wǎng)絡(luò),你沒辦法訓(xùn)練它們。有一些很簡單的任務(wù)里的神經(jīng)網(wǎng)絡(luò)是可以訓(xùn)練的,比如識別手寫字體,但是對于大多數(shù)比較深的神經(jīng)網(wǎng)絡(luò),我們都不知道要怎么訓(xùn)練。到了大約 2005 年,我想到了一些對深度神經(jīng)網(wǎng)絡(luò)做無監(jiān)督訓(xùn)練的點子。具體來說是,從你的輸入,比如說是一些像素,學習一些特征檢測器,學習過之后它們就可以很好地解釋為什么這些像素是這樣的。然后你把這些特征檢測器作為數(shù)據(jù),把它們作為輸入再學習另一批特征檢測器,就可以解釋那些特征檢測器之間為什么會有關(guān)聯(lián)性。那么就這樣一層又一層地學。很有趣的是,你可以通過數(shù)學證明,當你學的層數(shù)越來越多的時候,你不一定得到了更好的數(shù)據(jù)模型,但是你會知道你當前的模型的比較結(jié)果。每當你增加一個新的層,你就會得到更好比較結(jié)果。

主持人:能多解釋一下嗎?

Hinton:當你得到一個模型以后,你會問「這個模型和數(shù)據(jù)的相符程度如何?」你可以給模型輸入一些數(shù)據(jù),然后問它「你認為這些數(shù)據(jù)和你的想法相符嗎?還是說你感到很意外?」你可以對這個程度做出一些測量。我們想要的效果是,得到一個好的模型,它看到這些數(shù)據(jù)以后會說「嗯,嗯,都是我很熟悉的」。準確地計算模型對數(shù)據(jù)有多熟悉一般來說是很難的,但是你可以計算一個模型和模型之間的相對高低,就是比較結(jié)果。那么我們就證明了,當你增加的額外的特征檢測器層越多,新模型對數(shù)據(jù)的熟悉程度就會越高。(雷鋒網(wǎng) AI 科技評論注:這部分的具體技術(shù)細節(jié)可以參見 Hinton 在 NIPS 2007 上介紹深度信念網(wǎng)絡(luò)的教學講座 http://www.cs.toronto.edu/~hinton/nipstutorial/nipstut3.pdf )

主持人:在 2005 年有這樣的建模想法挺好的,那你的模型開始有好的輸出大概是在什么時候?你又是在什么數(shù)據(jù)上做的實驗?

Hinton:就是手寫數(shù)字數(shù)據(jù)集,非常簡單。差不多也就是那個時候,GPU(圖形計算單元)開始快速發(fā)展,做神經(jīng)網(wǎng)絡(luò)的人大概從 2007 年開始使用 GPU。我當時有一個很優(yōu)秀的學生,他借助 GPU 在航拍圖像里找到公路,他當時寫的代碼有一些后來被其它學生用在語音的音位檢測里,也是借助 GPU。他們當時做的事情是預(yù)訓(xùn)練,做完預(yù)訓(xùn)練之后把標簽加上去,然后做反向傳播。這種做法不僅確實做出來了很深的、經(jīng)過了預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),再做了反向傳播之后還能有不錯的輸出,它在當時的語音識別測試中打敗了不少別的模型,數(shù)據(jù)集是 TIMIT,很小,我們的模型比當時學術(shù)界的最好的成果好一點點,也比 IBM 的好一些。這是一開始,提升不算多。

然后其他人很快就意識到,這種方法再繼續(xù)改進一點就能取得很好的成果,畢竟它當時打敗的那些標準的模型都是花了 30 年時間才做到這種效果的。我的學生畢業(yè)以后去了微軟、IBM、谷歌,然后谷歌最快把這個技術(shù)發(fā)展成了一個生產(chǎn)級別的語音識別系統(tǒng)。2009 年有了最初的成果,2012 年已經(jīng)來到了安卓系統(tǒng)上,安卓系統(tǒng)也就在語音識別方面遙遙領(lǐng)先。

主持人:那時候你有這個想法都 30 年了,終于做出大眾認可的成果,而且也比其他的研究人員效果更好,你的感覺如何?

Hinton:感覺真的很開心,終于發(fā)展到了解決實際問題的階段了。

主持人:那么,當你發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)能很好地解決語音識別問題以后,你是什么時候開始嘗試用它解決其他的問題的?

Hinton:嗯這之后我們就開始在各種問題上嘗試這個方法。最早用神經(jīng)網(wǎng)絡(luò)做語音識別的是 George Dahl,他又開始用神經(jīng)網(wǎng)絡(luò)預(yù)測一個分子是否會連接到某些東西上面然后起到治療的作用。當時有一個做這個的競賽,他就直接把用于語音識別的標準方法用來預(yù)測藥物分子的活性,然后就這么贏了競賽。這是一個很積極的信號,神經(jīng)網(wǎng)絡(luò)的方法似乎有很高的通用性。這時候我有一個學生說,「Geoff,我感覺用這個方法去做圖像識別也會效果很好,李飛飛也已經(jīng)創(chuàng)建了一個合適的數(shù)據(jù)集,還有一個公開的競賽,我們一定要去試試」。我們就參加了,得到的結(jié)果比標準計算機視覺方法好很多。(AlexNet 在 2012 年的 ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽 ILSVRC 中以遠好于第二名的成績?nèi)〉玫谝唬聢D中 SuperVision 團隊)

和 Geoffery Hinton 面對面聊聊

主持人:說了不少的成功案例,對化學分子建模啊、語音啊圖像啊什么的,有沒有什么失敗的案例?

Hinton:失敗都只是暫時的,你能明白嗎?

主持人:那么,有沒有哪些領(lǐng)域特別快就成功,有的領(lǐng)域里就慢一些?我的感覺好像是視覺信號處理、語音信號處理這些人類的感知器官的核心任務(wù)是最先攻克的,是這樣嗎?

Hinton:不完全對,感知的確實攻克了,但還有運動控制之類的事情沒有那么大的進步。人類的運動控制能力非常高,也非常輕松,很顯然我們的大腦就是為運動控制設(shè)計的。一直發(fā)展到今天,神經(jīng)網(wǎng)絡(luò)在運動控制方面的表現(xiàn)才開始追趕上此前就有的技術(shù)。神經(jīng)網(wǎng)絡(luò)最終會趕超的,但現(xiàn)在才剛剛出現(xiàn)小的勝利。我覺得,推理、抽象推導(dǎo)這些人類也最后才學會做的事情,也將會是神經(jīng)網(wǎng)絡(luò)最難學會的事情。

主持人:你們總說神經(jīng)網(wǎng)絡(luò)最后能搞定所有的事情?(笑)

Hinton:這個嘛,我們?nèi)祟惥褪巧窠?jīng)網(wǎng)絡(luò)啊。所有我們能做的,神經(jīng)網(wǎng)絡(luò)就能做。

主持人:沒錯,不過人類大腦也不見得就一定是世界上最高效的計算機器。有沒有哪種機器比人類大腦的效率更高的?

Hinton:哲學上來講,我并不反對「存在一種完全不同的方式來達成這一切」這樣的觀點。比如有可能你從邏輯開始,你就會嘗試研究自動邏輯,會研究出什么特別厲害的自動定理證明機器;如果你從推理開始,然后你要通過推理做視覺感知,可能這個方法也可行。不過最后這些方法沒做出好的效果。我從哲學角度上并不反對其它的方式也能達成這些。只是目前來看,我們知道大腦、也就是神經(jīng)網(wǎng)絡(luò),是確實可以做出這些的。

我們理解神經(jīng)網(wǎng)絡(luò)嗎?理解我們的大腦嗎?

主持人:下面我想問另一個角度的問題,那就是,目前我們并不完全清楚神經(jīng)網(wǎng)絡(luò)是如何工作的,對嗎?

Hinton:對,我們不太清楚神經(jīng)網(wǎng)絡(luò)是如何工作的。

和 Geoffery Hinton 面對面聊聊

主持人:我們很難從結(jié)果推理出神經(jīng)網(wǎng)絡(luò)的工作方式,這是我們對神經(jīng)網(wǎng)絡(luò)的不理解的關(guān)鍵之處對吧?詳細談?wù)劙伞R约帮@然我還有緊接著的下一個問題:如果我們不知道他們是如何工作的,那么我們把它們造出來以后是如何得到好的效果的?

Hinton:如果你觀察一下當前的計算機視覺系統(tǒng)的話,它們大多數(shù)都只有前向傳播,沒有反饋連接。當前的計算機視覺系統(tǒng)還有一個特點,就是他們對于對抗性錯誤非常敏感,比如你有一張熊貓的圖像,輕微修改了其中幾個像素以后,在我們看起來仍然是熊貓,但計算機視覺系統(tǒng)就會一下子認為圖中是火雞。顯然,這個修改像素的方式是需要經(jīng)過精密的設(shè)計的,是對計算機視覺系統(tǒng)的誤導(dǎo)或者欺騙。但重點是,在人類看來它仍然是熊貓,不受影響。

所以一開始我們以為基于神經(jīng)網(wǎng)絡(luò)的計算機視覺系統(tǒng)工作得挺不錯的,但是后來當我們發(fā)現(xiàn)這樣的對抗性修改(攻擊)可以起到這樣的作用以后,大家都會開始有點擔心。我覺得這個問題有一部分原因是因為網(wǎng)絡(luò)并沒能從高級別的表征進行重建。現(xiàn)在有研究者開始嘗試做判別式學習,就是學習很多層的特征檢測器,然后最終目標是改變不同特征檢測器的權(quán)重,更好地得到正確的結(jié)果。最近我們團隊在多倫多也有一些發(fā)現(xiàn),Nick Frost 發(fā)現(xiàn),如果你引入了重建過程,它能讓網(wǎng)絡(luò)面對對抗性攻擊的時候更穩(wěn)定。所以我覺得人類視覺系統(tǒng)中,學習的過程就帶有重建。而且我們?nèi)祟惓艘曈X之外,很多的學習過程都是帶有重建的,所以我們面對對抗性攻擊的時候要穩(wěn)定得多。

主持人:就是說,你覺得神經(jīng)網(wǎng)絡(luò)中從后往前的連接可以幫你測試數(shù)據(jù)的重建的過程?

Hinton:對,我覺得這非常重要。

主持人:那么腦科學家也持有同樣的觀點嗎?

Hinton:腦科學家們?nèi)纪膺@個觀點,就是如果感知信號通路要經(jīng)過大腦皮層的兩個不同區(qū)域,那一定會有反向連接。他們只是還沒有在這個連接的作用上達成一致。它的作用有可能是注意力、有可能是為了學習、也有可能是為了重建,甚至有可能三者都是。

和 Geoffery Hinton 面對面聊聊

主持人:所以我們還不完全理解反向連接的作用。那現(xiàn)在你就希望在網(wǎng)絡(luò)中構(gòu)建起到重建作用的反向連接,這么做合理嗎?雖然你說要仿照大腦,但是你不確定大腦到底是不是這樣的。

Hinton:我完全沒有這方面的擔心。畢竟我做的不是計算神經(jīng)科學,也不是要為人類大腦的運轉(zhuǎn)方式提出一個多么好的模型。我所做的僅僅是觀察大腦,然后說「既然它能很好地發(fā)揮作用,那我們想讓別的東西也發(fā)揮好的作用的時候,就可以從這里尋找一些靈感」。所以我們從神經(jīng)科學、腦科學中獲得靈感,但并不是為腦神經(jīng)建模。我們的整個神經(jīng)網(wǎng)絡(luò)模型、我們的模型中用的神經(jīng)元,就是來自于人腦中的神經(jīng)的啟發(fā):神經(jīng)元有很多的連接,而且這些連接可以改變權(quán)重。

主持人:聽起來很有趣。所以如果我也做計算機科學,我也研究神經(jīng)網(wǎng)絡(luò),然后我想要比 Hinton 做得更好的話,有一種選擇是根據(jù)腦科學里的其它一些模型構(gòu)建從后向前的連接,這次我可以選擇讓它發(fā)揮學習的作用。

Hinton:如果這樣能得到更好的模型,那你真的有可能會成功的。

主持人:下一個話題,既然我們說神經(jīng)網(wǎng)絡(luò)可以解決各種問題,那有沒有可能讓神經(jīng)網(wǎng)絡(luò)捕捉重現(xiàn)人類的大腦,比如感情呀……

Hinton:(直接打斷)不可能的。

主持人:那能用神經(jīng)網(wǎng)絡(luò)重建愛情、重建意識嗎?

Hinton:這個可以,只要你弄明白了這些東西的含義到底是什么。畢竟我們?nèi)祟愐彩巧窠?jīng)網(wǎng)絡(luò)。意識是我現(xiàn)在特別感興趣的一件事,不過很多人說到這個詞的時候都不太清楚自己到底在說什么。這東西有很多不同的定義,在我眼中它應(yīng)當是一個科學詞匯。100 年以前如果你問別人「生命」是什么,他們可能會說「活著的東西就有一種積極的生命力,當他們死去的時候,這種生命力就跟著一起走了。所以活著和死了的區(qū)別就是有沒有那種生命力」。現(xiàn)在我們已經(jīng)不談生命力這種東西了,我們認為這是偽科學概念。甚至當你學習了生物化學和分子生物學之后,你就會開始痛斥生命力的說法,因為你已經(jīng)明白生命具體是怎么回事了。我覺得我們對于「意識」的理解也會經(jīng)過同樣的過程。以前提出這個詞是為了解釋我們覺得有重要含義的精神現(xiàn)象。但一旦我們真正明白了意識是怎么一回事,這個「重要含義」的內(nèi)容就不再重要了,我們能夠清楚地解釋做哪些事會讓別人覺得一個人「有意識」,而且這又是為什么,也能夠解釋這個詞的所有不同含義。

主持人:那么,沒有什么感情是不能被創(chuàng)造的,沒有什么思維是不能被創(chuàng)造的,只要我們完全理解了大腦是如何工作的,理論上就沒有什么人類大腦能做的事情是不能被工作良好的神經(jīng)網(wǎng)絡(luò)重現(xiàn)的?

Hinton:你知道嗎,你剛才說的這幾句,讓我想起  John Lennon 的一首歌,詞句很像。

主持人:你對這些有 100% 的信心嗎?

Hinton:不,不是 100%。我是一個貝葉斯主義者,我有 99.9% 是有信心的。

主持人:好吧,那另外那 0.1% 呢?

Hinton:就是有可能我們整個世界都是一個很大的模擬器,這一切都不是真的。

主持人:也不是沒可能。那么,通過你在計算機方面的研究,我們有沒有什么關(guān)于大腦的新發(fā)現(xiàn)?

Hinton:我覺得,在過去的十年中我們學到的是,如果你有一個系統(tǒng)有數(shù)以億計的參數(shù)和一個目標函數(shù),比如做好完形填空,它能達到的表現(xiàn)要比直接看上去的好得多。

和 Geoffery Hinton 面對面聊聊

做傳統(tǒng) AI 的人大多數(shù)會覺得,或者一個普通人也會覺得,對于一個有幾十億參數(shù)的系統(tǒng),要從所有參數(shù)都是隨機值的初始狀態(tài)開始,計算目標函數(shù)的梯度,然后挨個更改這幾十億參數(shù),讓目標函數(shù)的值向著更好的方向去那么一點點,而且要做一輪一輪又一輪,這件事工作量太大了,沒什么希望完成,很有可能在半路上就卡死了。但實際上這是一種很好的算法,各方面的規(guī)模越大,它的效果就越好。這完全是從我們的經(jīng)驗中總結(jié)出來的。現(xiàn)在既然我們已經(jīng)發(fā)現(xiàn)了這樣的規(guī)律,那么認為人類大腦也是在計算某些目標函數(shù)的梯度、然后依據(jù)梯度更新神經(jīng)電信號傳播時候的強弱,就顯得容易接受多了。我們只需要弄明白這個過程是如何分解成一步步的,以及這個目標函數(shù)是什么。

主持人:但我們對大腦的理解還沒有到那一步?我們還不理解這個改變權(quán)重的過程?

Hinton:這是一種理論。挺久以前人們認為是有這個可能的,不過也總會有一些傳統(tǒng)的計算機科學家堅持說「聽起來很美,但是你說你有幾十億個隨機初始值的參數(shù),然后全部通過梯度下降去學習,這是辦不到的,你必須在里面固定一些知識進去。」現(xiàn)在我們能證明他們的觀點是錯誤的,你只需要從隨機的參數(shù)開始,然后學到一切。

主持人:我們再拓展一點。假設(shè)我們根據(jù)我們認為的大腦工作方式設(shè)計了模型,然后對它們做大規(guī)模測試,我們就很有可能了解到越來越多的關(guān)于大腦事實上如何運轉(zhuǎn)的知識。會不會有一天到了某個地步,我們可以動手改造自己的大腦,讓它們成為更高效、最高效的計算機器?

Hinton:如果我們真的能弄明白的話,我們就可以把教育之類的事情做得更好。我相信這是會發(fā)生的。如果你能弄明白自己的大腦中在發(fā)生什么,但是卻不能夠調(diào)節(jié)它、讓它更好地適應(yīng)你所在的環(huán)境的話,這反倒是一件奇怪的事情。

機器學習也「做夢」

主持人:我們能更好地理解夢境嗎?

Hinton:我覺得能,我自己也對夢境很感興趣,以至于我知道至少四種關(guān)于夢境的理論。

主持人:給大家講講唄。

Hinton:第一種有個挺長的故事。很久以前有個叫做 Hopfield 網(wǎng)絡(luò)的東西,它可以把記憶學習為局部吸引子。Hopfield 這個人發(fā)現(xiàn),如果你試著往里面塞太多的記憶的話,它們就會混淆。這會讓兩個局部的吸引力子在中間某個位置合二為一。

有 Francis Crick 和 Graeme Mitchison 兩個人,他們說可以做忘記(unlearn)來避開虛假的局部極小值。那么我們就關(guān)閉網(wǎng)絡(luò)的輸入,先把神經(jīng)網(wǎng)絡(luò)設(shè)在一個隨機狀態(tài),然后等到它停止下來以后,我們會覺得得到的結(jié)果不好,然后調(diào)整一下網(wǎng)絡(luò)連接讓它不要停在那個狀態(tài)。這樣做過幾次之后,它就可以存儲更多的回憶。

然后就到我和 Terry Sejnowski,我們覺得,不僅僅有存儲回憶的神經(jīng)元,還有很多起其它作用的神經(jīng)元,我們能不能設(shè)計一個算法,讓其它的神經(jīng)元也幫助恢復(fù)回憶。后來我們就這樣開發(fā)出了機器學習里的玻爾茲曼機,它有一個非常有趣的性質(zhì):給它展示數(shù)據(jù),它就會在其它的單元附近持續(xù)轉(zhuǎn)悠,直到得到一個滿意的狀態(tài);然后一旦得到了,它就會根據(jù)兩個單元是否都激活來增加所有連接的權(quán)重。這里存在一個階段,你需要把它和輸入之間切割開。你讓它轉(zhuǎn)悠轉(zhuǎn)悠來到一個它自己覺得舒服的狀態(tài),這時候你就會讓它找到所有成對活躍的神經(jīng)元然后減弱它們之間的連接。

在這兒我跟你解釋的算法好像是一個有趣的過程,但實際上算法是數(shù)學研究的結(jié)果,我們考慮的是「要如何改變這些連接的方式,才能讓帶有隱層的神經(jīng)網(wǎng)絡(luò)覺得數(shù)據(jù)很熟悉」。而且它還需要有另外一個階段,我們把它叫做負性狀態(tài),就是讓它在沒有輸入的狀態(tài)下運行,然后對于它所處的任何狀態(tài)都會忘記。

我們?nèi)祟惷刻於紩芏鄠€小時。如果你隨機地醒來,你就能說出你剛才在做什么夢,因為夢的記憶在存儲在短期記憶里的。如果你一直睡夠了才醒來,你就只能記得最后一個夢,更早的夢就記不起來了。這其實是一件好事,免得把夢和現(xiàn)實弄混了。那么為什么我們不能記得我們的夢呢?Crick 的觀點是,做夢的意義就在于把很多事情忘掉。就像是學習的反向操作。

而 Terry Sejnowski 和我展示了,其實這是一個玻爾茲曼機的最大似然學習過程。這也是做夢的一種理論。

主持人:你有沒有讓哪個深度學習算法也像這樣做個夢?學習某個圖像數(shù)據(jù)集,然后忘掉,再學習,等等。

Hinton:有的。我們試過機器學習算法。我們最早發(fā)現(xiàn)的能夠?qū)W會處理隱層神經(jīng)元的算法里就包括了玻爾茲曼機,不過效率非常低。后來我發(fā)現(xiàn)了一種對它們做逼近的方法,要高效多了。這些其實都是讓深度學習重獲生機的契機,也就是借助這些方法我能夠每次學一層特征檢測器。這也就是受限玻爾茲曼機的一種高效形式。它也可以做遺忘。不過它不需要睡眠,它只需要在看過每個數(shù)據(jù)點之后冥想一陣子。

主持人:第二種理論呢?

Hinton:第二種理論叫做清醒和睡眠算法(the Wake Sleep Algorithm),而且你會想要學習一個生成性的模型。這里的思路是,你有一個可以生成數(shù)據(jù)的模型,它有很多層特征檢測器,它可以從高層開始逐步向下激活,一直激活到像素的那一層,然后你就得到了一張圖像。你也可以反過來做,就成了識別一張圖像。

這樣你的算法就會有兩個階段,在醒著的階段,數(shù)據(jù)進來,模型嘗試識別數(shù)據(jù);但這時候模型學習的目標不是加強連接用于識別,而是加強連接用于生成。隨著數(shù)據(jù)進來,隱層的神經(jīng)元被激活,然后讓神經(jīng)元學習如何更好地重建數(shù)據(jù)。每一層都學習如何重建。但問題是,這樣要如何學習前向連接呢?思路就是,如果你已經(jīng)知道了前向連接,你就可以學習反向連接,因為你可以學習重建。

和 Geoffery Hinton 面對面聊聊

現(xiàn)在我們還發(fā)現(xiàn)它可以使用反向連接,你可以學習反向連接,因為你可以直接從最上層開始激活然后生成數(shù)據(jù)。而且因為你在生成數(shù)據(jù),你就知道隱層神經(jīng)元的激活狀態(tài),你也就可以學習到前向連接來恢復(fù)這些狀態(tài)。這就是睡眠階段了。當你關(guān)掉輸入的時候,你只是生成數(shù)據(jù),然后你嘗試重建那些生成了數(shù)據(jù)的隱層神經(jīng)元的狀態(tài)。另外,如果你知道了自頂向下的鏈接的話,你就可以學習從下向上的連接;反過來也一樣。所以如果你從隨機連接開始做,把兩件事交替進行的話,也是可行的。當然了,為了讓它有好的效果,你需要對它做各種變化,但是確實是可行的。

主持人:emmm,我們還有 8 分鐘時間,你打算繼續(xù)談?wù)勂渌鼉煞N理論嗎?那樣的話我們就跳過最后幾個問題。

Hinton:另兩個理論可能要花一個小時。

膠囊是個好想法,但也是個錯誤

主持人:那我們就繼續(xù)往下問吧。你現(xiàn)在在做哪方面的研究?在嘗試解決哪些問題?

Hinton:最終我們都是要把以前沒做完的研究一直做完。我覺得我的研究里有一件東西是永遠都結(jié)束不了的,那就是膠囊(capsules),它就是我心中那個通過重建進行視覺感知的理論,也是把信息路由到正確的地方的理論。在標準的神經(jīng)網(wǎng)絡(luò)里,信息,也就是每層神經(jīng)元的活動,它的走向是自動的,你沒法決定要讓信息去哪里。膠囊的想法就是要決定把信息發(fā)送到哪里。目前來說,從我開始研究膠囊以后,有一些別的很聰明的谷歌同事創(chuàng)造了 Transformer 模型,做的是同樣的事情。它們都是決定把信息送到哪里,這是很大的一個進步。

還有一件啟發(fā)了我做膠囊的事情是坐標框架。當人類做視覺感知的時候,我們都會使用坐標框架。如果人類在一個事物上假設(shè)了錯誤的坐標框架,他就會認不出來那個物體。

和 Geoffery Hinton 面對面聊聊

你做一個小任務(wù)感受一下:想象一個正四面體,它的底面是三角形,然后有三個三角形的側(cè)面,四個面都是全等三角形。很容易想象對吧?然后想象用一個平面切割它,要得到一個正方形的截面。切割簡單,但是得到正方形的截面就難了。每次你嘗試截的時候,你都會得到一個三角形的截面。

和 Geoffery Hinton 面對面聊聊

似乎很難看到這個正方形截面要怎么截出來。那么我換個方式來描述這同一個物體。我用你的筆來筆畫一下,上面是一只筆,下面也有一只筆,想象它們在空間中垂直,然后把上面的筆上的所有的點連接到下面的筆的所有的點。這樣你就得到了一個四面體。現(xiàn)在我們看一下這個四面體和坐標框架的關(guān)系,上面的邊和一條坐標軸平行,下面的邊和另一條坐標軸平行。那么當你這樣來看它的時候,就很容易看到如何截出來一個矩形,也就能找到在中間某個位置可以得到一個正方形。但是只有我們在這個坐標框架下思考才能看得出來。

和 Geoffery Hinton 面對面聊聊

對于人類來說這一點是很顯然的,但其實對感知這整件事來說,坐標框架都很重要。

主持人:在模型中增加坐標框架,和你在 90 年代做的想要把規(guī)則集成到模型里結(jié)果發(fā)現(xiàn)是個錯誤,有什么區(qū)別嗎?不是說要讓系統(tǒng)是無監(jiān)督的嗎?

Hinton:沒錯,這就是同一個錯誤。正因為我很確定這是個糟糕的錯誤,所以我只能加一點點東西,有點不懂不癢。這實際上也讓我自己的處境有點尷尬。

主持人:你目前的研究是專門針對視覺識別的,還是說先想到了坐標框架的事情,然后再試著把它做成更通用的樣子?

Hinton:它也可以用在其他任務(wù)里,不過我自己尤其對視覺識別里的應(yīng)用感興趣。

主持人:深度學習曾經(jīng)很獨特,如今似乎很大程度上就是 AI 的近義詞了;同時 AI 也成了一個市場營銷意味很濃的詞,隨便用了一個什么機器什么算法的人也說自己用了 AI。作為發(fā)展了這些技術(shù)、幫助帶來了這種現(xiàn)狀的人,你的感受如何?

Hinton:當年 AI 只是指基于邏輯的、操作符號的計算系統(tǒng)的時候我要快樂得多;當時的神經(jīng)網(wǎng)絡(luò)也是說你可以用神經(jīng)網(wǎng)絡(luò)學習。現(xiàn)在有很多企業(yè)不喜歡那些,只是在乎錢。我就是在這樣的環(huán)境里長大的。如今我甚至看到有一些曾經(jīng)連續(xù)很多年說神經(jīng)網(wǎng)絡(luò)是垃圾的人現(xiàn)在開始說「我是做 AI 的教授,所以請給我批資金」。真的很煩人。

主持人:你的研究領(lǐng)域起飛了,有點吞并了其它領(lǐng)域的味道,也就讓他們有理由要錢了,有點讓人沮喪。

Hinton:不過也不是完全不公平吧,有很多人確實調(diào)整了思路。

主持人:最后一個問題,你曾經(jīng)在一次采訪中說過,AI 有可能會像是黑洞,如果你構(gòu)建它的方式不正確,它可能會反過來吃掉你。那么你在研究中是如何避免把它得有傷害、甚至做成黑洞的呢?

和 Geoffery Hinton 面對面聊聊

Hinton:我永遠都不會故意做會帶來傷害的 AI。當然了,如果你設(shè)計出了一個擅長吃別人的腦袋的黑洞,這就是挺不好的一件事,我是不會做這樣的研究的。

主持人:好的。今天聊得很開心,謝謝你說了這么多。也許明年我們繼續(xù)談?wù)勱P(guān)于夢的第三個和第四個理論。

和 Geoffery Hinton 面對面聊聊

來源 | 雷鋒網(wǎng)
作者 | 楊曉凡

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp