12 月 20 日,新一代人工智能院士高峰論壇深度學(xué)習(xí)框架分論壇于深圳成功舉辦。百度飛槳作為我國首個自主研發(fā)、功能豐富、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,目前已經(jīng)凝聚了 406 萬開發(fā)者,創(chuàng)建 47.6 萬個模型,服務(wù) 15.7 萬家企事業(yè)單位。飛槳助力開發(fā)者快速實現(xiàn) AI 想法,創(chuàng)新 AI 應(yīng)用,作為基礎(chǔ)平臺支撐越來越多行業(yè)實現(xiàn)產(chǎn)業(yè)智能化升級。
“崇尚技術(shù),鼓勵創(chuàng)新”,本次深度學(xué)習(xí)框架論壇共邀請到 7 位嘉賓,向與會者們分享來自百度飛槳的技術(shù)干貨。

飛槳:源于產(chǎn)業(yè)實踐的深度學(xué)習(xí)開源開放平臺
飛槳作為源于產(chǎn)業(yè)實踐的深度學(xué)習(xí)開源開放平臺,一直不斷從產(chǎn)業(yè)實踐中吸取經(jīng)驗,進行各項性能的極致優(yōu)化以滿足更多的業(yè)務(wù)落地。百度飛槳主任研發(fā)架構(gòu)師吳志華基于產(chǎn)業(yè)級深度學(xué)習(xí)框架面臨的諸多挑戰(zhàn),向大家介紹了飛槳的四大領(lǐng)先技術(shù)。
首先在編程模式上,飛槳采用動靜統(tǒng)一的方式,構(gòu)建了開發(fā)便捷的深度學(xué)習(xí)框架。飛槳基于編程邏輯的計算描述,提供給開發(fā)者一個比較直觀的編程范式,并同時支持靜態(tài)圖和動態(tài)圖兩種模式。在超大規(guī)模分布式訓(xùn)練技術(shù)上,飛槳目前重點解決了“同生活息息相關(guān)的推薦場景下的稀疏大模型”、“圖像和自然語言處理下的稠密大模型”兩大類。對于比較稀疏的推薦場景,飛槳也在不斷解決萬億參數(shù)存儲、萬億邊圖存儲和高性能通信及訓(xùn)練等諸多挑戰(zhàn)。第三個領(lǐng)先技術(shù)來自多端多平臺部署的高性能推理引擎。飛槳針對推理提供多端多平臺的推理部署工具鏈,從模型準(zhǔn)備到模型優(yōu)化到推理部署,各個環(huán)節(jié)都有不同的工具組件。飛槳的第四個特點當(dāng)屬其產(chǎn)業(yè)級的開源模型庫。另外,目前飛槳已經(jīng)適配了 22 家企業(yè),31 種芯片,飛槳套件更是多次登上 GitHub 創(chuàng)建的榜首。
產(chǎn)業(yè)級部署方案,飛槳致力推動產(chǎn)業(yè)落地應(yīng)用
會上,飛槳資深研發(fā)工程師 Jason 介紹了飛槳在深度模型應(yīng)用中的產(chǎn)業(yè)級部署方案。在模型準(zhǔn)備階段,開發(fā)者可以選擇基于飛槳的動態(tài)圖 API,也可以通過飛槳開源的產(chǎn)業(yè)級模型庫,或者 X2Paddle 快速遷移其它框架的模型。在部署階段,目前飛槳提供了包括服務(wù)端上的 Paddle Inference 推理引擎,快速服務(wù)化部署引擎 Paddle Serving,移動端和邊緣端上的部署引擎 Paddle Lite,以及支持在網(wǎng)頁前端上部署的 Paddle.js。而除了飛槳自研的全場景部署方案之外,飛槳也開源了 Paddle2ONNX,支持飛槳模型保存為開源的神經(jīng)網(wǎng)絡(luò)交換格式 ONNX,可以滿足用戶更靈活的部署需求。

在講解完飛槳在各場景下產(chǎn)業(yè)級的部署方案后,Jason 還分享了飛槳在無人巡檢場景落地的產(chǎn)業(yè)案例。他表示,飛槳目前已在多個產(chǎn)業(yè)領(lǐng)域得到應(yīng)用,歡迎大家攜手飛槳,共創(chuàng)中國 AI 未來。
知識增強大模型,文心升級再賦能
“大規(guī)模預(yù)訓(xùn)練技術(shù)旨在通過海量數(shù)據(jù)進行自監(jiān)督訓(xùn)練,使用統(tǒng)一的模型和方法解決所有任務(wù)。該技術(shù)打破了傳統(tǒng)方法對于大規(guī)模標(biāo)注數(shù)據(jù)的依賴,顯著降低了人工智能的應(yīng)用門檻。”百度資深研發(fā)工程師 Shawn 這樣說道。

今年 12 月,全球首個知識增強千億大模型——鵬城-百度·文心(模型版本號:ERNIE 3.0 Titan)正式發(fā)布。從 2019 年 3 月發(fā)布 ERNIE 1.0,到最新的產(chǎn)業(yè)級知識增強大模型文心全景圖,既包含基礎(chǔ)通用的大模型,也包含面向重點領(lǐng)域、重點任務(wù)的大模型,以及豐富的工具與平臺。ERNIE3.0 的創(chuàng)新點是知識增強,將 NLU 和 NLG 進行有機整合等。另外,ERNIE3.0 還針對模型的框架進行了優(yōu)化,利用 4D 混合并行技術(shù),縮短了模型的收斂時間。Shawn 強調(diào)道,現(xiàn)在的文心除了在百度搜索、好看視頻、百度地圖、小度音響等內(nèi)部產(chǎn)品應(yīng)用外,還在持續(xù)賦能包括保險、金融、醫(yī)療、人力資源在內(nèi)的各行各業(yè)。
實踐應(yīng)用,不斷升級的飛槳高性能強化學(xué)習(xí)框架
百度資深研發(fā)工程師周波介紹了飛槳強化學(xué)習(xí)框架的三個特性。一是提供了非常友好的初學(xué)者教程;二個是在框架層面做的設(shè)計以及算法開源工作。第三個是聚焦到強化學(xué)習(xí)的并行方向,提供了非常便捷且高效的并行接口。在實際性能上,百度的強化學(xué)習(xí)框架與其他開源框架對比,性能和收斂效果都更好。

“我們已經(jīng)在飛槳算法庫里做了很多算法,相關(guān)的算法也經(jīng)過了內(nèi)部測試團隊在多個測試基準(zhǔn)做了評估。我們開源的算法在最終效果上領(lǐng)先于主流的算法庫,有 70%多的指標(biāo)比它們更好。”周波說道。
多方位聚焦發(fā)力,OpenCV 未來可期
會上,OpenCV 中國團隊負(fù)責(zé)人于仕琪向大家介紹了 OpenCV 的發(fā)展歷程。他提到,OpenCV 對深度學(xué)習(xí)模型的支持是非常好的,非常擅長在嵌入式系統(tǒng)里部署。最近幾年 OpenCV 的變化,體現(xiàn)在它的運營變得更加國際化、社區(qū)化。

OpenCV 的未來是什么?于仕琪答道,作為一個有 21 年歷史的老庫,OpenCV 不僅在邊緣計算方面要發(fā)力,深度學(xué)習(xí)上要提升,更要對 Licence 有所關(guān)注。OpenCV4、4.5 和 5.0,在邊緣端和 ARM 的提速上不斷加入了很多新功能,后面 OpenCV 在部署上也會更加有優(yōu)勢。中國在 OpenCV 用戶數(shù)量里排第一,但中國的貢獻量排名卻不是第一。針對這點,于仕琪表示:“希望在我們的共同努力下,使得中國對 OpenCV 的貢獻也達到世界第一。”
持續(xù)發(fā)展,飛槳圖神經(jīng)網(wǎng)絡(luò)的框架與實踐
圖是描述復(fù)雜世界的通用語言,而圖神經(jīng)網(wǎng)絡(luò)的發(fā)展從 2014 年開始。百度資深研發(fā)工程師 Yelrose 談到,目前基于空間的圖卷積算法主要是把圖的建模分成兩部分:一是怎么建模一個節(jié)點,二是怎么建模整張圖。PGL 2.2 按照消息傳遞的思路設(shè)計 API 接口。在編程算法上,它支持消息傳遞接口,包括不同的池化接口、采樣接口,方便用戶做圖神經(jīng)網(wǎng)絡(luò)的研發(fā)。另外,PGL 上還有一些模型倉庫,讓用戶快速實現(xiàn)已有算法,真正做到推薦系統(tǒng)、搜索引擎、金融風(fēng)控等場景的應(yīng)用落地。

傳統(tǒng)機器學(xué)習(xí)有一個數(shù)據(jù)是相互獨立的假設(shè),數(shù)據(jù)沒有相互關(guān)聯(lián),但在圖網(wǎng)絡(luò)場景,樣本之間有相互關(guān)聯(lián)的關(guān)系。這些關(guān)系怎么充分利用上,是圖網(wǎng)絡(luò)的關(guān)鍵。飛槳圖神經(jīng)網(wǎng)絡(luò) PGL 的應(yīng)用落地很多,例如百度 APP 和貼吧等推薦系統(tǒng)場景,搜索引擎內(nèi)的語義索引算法,甚至是百度地圖的流量預(yù)測和興趣點檢索。
開源賦能,來自飛槳的產(chǎn)業(yè)級模型庫
飛槳高級技術(shù)經(jīng)理賴寶華分享了飛槳產(chǎn)業(yè)級模型庫產(chǎn)生的背景,作為一個 AI 應(yīng)用開發(fā)者經(jīng)常遇到這些問題——應(yīng)該去哪里找模型,另外模型很多,模型應(yīng)該怎么選,選哪種?很多模型只追求算法精度,不一定適用產(chǎn)業(yè)場景,此外模型優(yōu)化和部署時可能遇到一系列問題。飛槳產(chǎn)業(yè)模型庫的目標(biāo)就是希望解決用戶這三大難題。

飛槳產(chǎn)業(yè)級模型庫中包含了業(yè)界經(jīng)典、前沿以及百度自研的一系列在產(chǎn)業(yè)實際場景中充分驗證的模型,覆蓋語音、圖像、自然語言處理、強化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)等多個方向,超過 400 種模型算法。針對產(chǎn)業(yè)場景,從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終上線部署做了全流程的打通。針對用戶模型優(yōu)化以及產(chǎn)業(yè)化落地需求,飛槳推出訓(xùn)推一體認(rèn)證以及端到端開發(fā)套件。在設(shè)計理念和架構(gòu)上,每個開發(fā)套件都提供全流程支持、模塊配置化以及提供豐富的案例、示例代碼和文檔。此外還可以通過飛槳產(chǎn)業(yè)實踐范例庫中場景快速嘗試及實現(xiàn)業(yè)務(wù)快速驗證。隨后詳細(xì)介紹了飛槳產(chǎn)業(yè)級模型庫在巡檢、安防、互娛、電商等業(yè)務(wù)場景中的應(yīng)用。業(yè)務(wù)場景是復(fù)雜多變的,飛槳不定時會開展產(chǎn)業(yè)落地賽,并提供技術(shù)培訓(xùn)、賦能工具以及獎金,鼓勵各行各業(yè)開發(fā)者加入飛槳開源項目建設(shè)和豐富飛槳模型生態(tài),共同推進人工智能繁榮生態(tài)。