
幾年前,麥吉爾大學(McGill)的計算機科學教授若埃爾·皮諾(Joelle Pineau)在幫助學生設計新的算法,她的學生們當時陷入了困境。她的實驗室研究強化學習,這是人工智能的一種,用于幫助虛擬角色(“半獵豹”和“螞蟻”的虛擬角色很受歡迎)自學如何在虛擬世界中移動。這是制造自動機器人和汽車的先決技術條件。皮諾的學生希望改進實驗室的另一個系統。但首先他們必須重建它;不知道出于什么原因,他們的設計未能達到預期的效果,直到學生們嘗試了一些其他實驗室的論文中沒有提過的“創造性的操作”。
瞧,這個系統開始像宣傳的那樣運行了。皮諾表示,這種幸運的突破是一種讓人困擾的趨勢的征兆。神經網絡是一種技術,這種技術讓我們制造出了 Go-mastering 機器人,以及能創作中國古典詩歌的文本生成機器人,但這種技術通常被稱作黑盒子,因為它們運轉的原理非常神秘。想讓它們運作良好可謂是一門藝術,它涉及許多媒體沒有報道的微調操作。網絡也在變得越來越大、越來越復雜,加上龐大的數據集和龐大的計算機陣列,使得復現和研究這些模型變得非常昂貴,只有資金最充足的實驗室才能承擔這樣的研究——如果能夠承擔的話。
“那還算是研究嗎?”馬薩諸塞大學機器學習研究員安娜·羅杰斯(Anna Rogers)問道。“也搞不清楚你是在展示模型的優越性,還是在展示你預算的優越性。”
皮諾正試圖改變這種局面。她是頂級人工智能會議 NeurIPS 的可復現性主席。在她的監督下,會議現在要求研究人員提交一份“可復現性清單”,其中包括一些經常從論文中省略的信息,比如在選出“最佳”模型之前訓練過的模型數量、使用的計算能力,以及代碼和數據集的鏈接。這是該領域的一次變革——這個領域的參與者聲譽建立在排行榜的基礎之上(排行榜決定了誰的系統是某項特定任務的“最先進水平”),并提供了大量激勵,讓人們掩蓋得出這些驚人結果背后他們所經歷的曲折。
皮諾說,這個想法是為了鼓勵研究人員為其他人提供一個復制自己工作的路線圖。新文本生成器的口才或電子游戲機器人的“超人”敏捷性的確令人驚訝,但即使是最老練的研究人員也對它們的工作原理知之甚少。復現這些人工智能模型不僅對找出研究的新途徑很重要,而且也是一種研究算法的方式,這類算法能夠增強,并且在某些情況下能夠取代人類做出決策,例如決定誰呆在監獄,多長時間批準抵押貸款等。
其他人也在著手解決這個問題。谷歌的研究人員提出了所謂的“model cards”,來詳細說明機器學習系統是如何被測試的,包括指出具有潛在偏差的結果。其他人則試圖證明”最先進“這個表述有多脆弱,因為針對排行榜中使用的數據集而進行優化的系統,換到其他環境中就變得非常不可靠。上周,艾倫人工智能研究所(Allen Institute for Artificial Intelligence,簡稱 AI2)的研究人員發表了一篇論文,旨在將皮諾的可復現性清單擴展到實驗過程的其他部分。他們稱之為“展示你的作品”。
“從一個人停下的地方開始是如此痛苦,因為我們從來沒有完整地描述過實驗設置,”AI2 研究員杰西道奇 (Jesse Dodge) 說,他是這項研究的合著者之一。“如果我們不談論我們所做的事情,人們就無法復現我們所做的事情。他補充說,當人們公開系統構建過程的基本細節時,大家都會感到驚訝。去年一項關于強化學習論文的調查發現,只有大約一半的論文包含代碼。
有時基本信息會丟失,因為它是私有的——這對工業界的實驗室來說尤其是個問題。但道奇說,這更多是表明該領域未能跟上不斷變化的方法。研究人員為了改善他們的研究結果而做了哪些改變,這在十年前是能比較直觀的看到的。相比之下,神經網絡則比較講究;要獲得最佳效果,通常需要調節數千個節點,道奇稱之為是一種“黑魔法”。選出最佳模型往往需要大量的實驗。這種魔法成本變高,速度也變得更快了。
就連大型工業界實驗室也發出了警報,它們擁有著設計最大和最復雜系統的資源。當 Facebook 試圖復制 AlphaGo 時,研究人員似乎被這項任務搞得筋疲力盡。AlphaGo 是 Alphabet 旗下 DeepMind 開發的一個系統,用來讓機器掌握古老的圍棋游戲。Facebook 在 5 月份發表的一篇論文中寫道,龐大的計算需求——在數千臺設備上運行數百萬次的實驗,加上不可獲得的源代碼,使得該系統“即使不是不可能,也很難復制、研究、改進和擴展”。(Facebook 團隊最終成功了。)
AI2 的研究為這個問題提出了一個解決方案。這個想法就是提供更多的實驗數據。你仍然可以報告你在 100 個實驗之后得到的最佳模型——這個結果可能被聲稱為“最先進的”——但是你也可以說明,如果你只有嘗試 10 次或者僅僅一次的預算時,你所期望的性能范圍會是怎樣的。
道奇說,復現性的重點不是準確地復現結果,因為考慮到神經網絡代碼中的隨機因素,以及具體硬件和代碼運行的不同,這幾乎是不可能的。相反,這個想法是提供一個路線圖,以達到與原版的研究相同的結論,特別是涉及到決定哪個機器學習系統最適合某一特定任務時,復現性就尤為重要。
道奇解釋說,這可能有助于提高研究效率。當他的團隊重建一些流行的機器學習系統時,他們發現在預算約束下,較為陳舊的方法比更酷炫的方法更有意義。這一想法旨在幫助規模較小的學術實驗室,讓他們大致了解如何讓他們的資金得到最大回報。他補充說這樣做的一個附帶好處是,考慮到訓練大型模型可能需要的能源相當于一輛汽車的終生排放量(https://twitter.com/strubell/status/1129408199478661120?lang=en),這種方法還會促使研究變得更為環保。
皮諾說,她很高興看到其他人試圖“開放模型”,但她不確定是否大多數實驗室會利用這些節省成本的好處。許多研究人員在壓力下還是會使用更多的計算機來保持領先地位,之后才會考慮效率這件事。她還補充說,要為研究人員報告結果的方式做出規范也是很棘手的。AI2 的“展示你的作品”方法可能掩蓋了研究人員選擇最佳模型過程的復雜性。
這些方法上的差異,部分地解釋了為什么 NeurIPS 復現性檢查表需要是一個自愿的行為。尤其對工業實驗室來說,一個絆腳石是其代碼和數據的私有性。比如說,如果 Facebook 正在對你的 Instagram 照片進行研究,那么公開分享這些數據就會有問題。涉及健康數據的臨床研究是另一個癥結所在。“我們不想切斷研究人員與社區的聯系,”她說。
換句話說,很難在不限制研究人員的情況下開發出可復現性的標準,尤其是在方法快速發展的情況下難度更大。但皮諾很樂觀。NeurIPS 可復現性工作的另一個挑戰是要求其他研究人員復現已接受的論文。與其他領域相比(如生命科學,其中舊的方法會持續使用很久),這個領域中的研究人員更習慣于身處那種靈敏而快速變化的環境中。她表示:“無論是從人才還是技術角度來看,這個領域都很年輕,擋在路上的慣性思維更少。”
Gregory Barber 是 WIRED 網站的一位專職作家,撰寫區塊鏈,AI 和技術策略方面的文章。他是哥倫比亞大學計算機科學和英語文學專業的學士,現居于舊金山。
原文鏈接:
https://www.wired.com/story/artificial-intelligence-confronts-reproducibility-crisis
來源 | AI前線