www五月天,国产精品视频网站你懂得,精品国产你懂的在线观看,久久伊人成人,国产精品黄页网站在线播放免费,国产va在线
跳轉至內容
8 月 20, 2019
成員動態
飛槳強勢助攻,百度斬獲機器閱讀理解 MRQA 2019國際評測冠軍
在國際自然語言處理領域頗具影響力的百度,再傳捷報,再度奪冠。2019年8月12日, MRQA 2019閱讀理解國際評測落下帷幕。得益于自研開源深度學習平臺
飛槳( PaddlePaddle )
的強勢助攻,
百度以平均 F1 值72.55%,超出第二名近兩個百分點的絕對優勢獲得冠軍。
同時,在全部12個測試數據集中的10個上均
排名第一。
本屆評測吸引了來自蘋果公司、艾倫人工智能研究院( AI2 )、哈工大、香港科技大學、富士施樂等全球知名企業和高校研究院所隊伍的參與,高手如云。
▲MRQA 2019閱讀理解國際評測最終榜單百度排名第一
MRQA 全稱是 Machine Reading for Question Answering ,即
問答閱讀理解。
問答閱讀理解是自然語言處理領域當前最熱門的研究方向之一,已成為評估機器語言理解能力的重要方式,也是搜索引擎和對話系統等行業應用中的關鍵技術。第二屆 MRQA workshop( MRQA 2019) 將于今年11月在自然語言處理領域頂級學術會議 EMNLP 2019上舉辦。
本屆研討會在 Research Track 的基礎上,設立了一個新的問答閱讀理解評測。與以往僅聚焦于單個數據集的閱讀理解評測不同,本次評測主要有兩大挑戰:
首先,本次評測包括訓練集和測試集共18個閱讀理解數據集,覆蓋面廣,綜合難度高。
針對語言理解所應解決的不同挑戰,評測從多個角度考察了閱讀理解模型理解語言的能力。從數據源角度看,其文檔來源是多樣化的,包括百科、新聞、搜索結果、電影、生物醫藥甚至演講腳本。從應用任務角度來看,評測不僅包含了面向問答設計的數據集,還包含了面向信息抽取、語義解析等任務設計的數據集。
此外,從語言理解的能力來看,評測除了包含傳統的抽取式問答數據集,還包含了多個需要推理和計算的數據集。
本次評測可謂機器閱讀理解的“十項全能賽”。
▲本次評測的18個數據集
更重要的是,本次評測要求參賽隊伍僅可使用6個數據集訓練一個統一的閱讀理解模型,之后在其它12個分布各異的數據集上測試模型效果。更困難的是,測試階段中有6個在訓練階段完全沒見過的未知來源數據集。數據集分布的巨大差異和測試數據來源的完全未知為參評系統帶來了極大的挑戰。這樣的評測設置重點考察了閱讀理解模型的泛化能力。
模型的泛化能力通俗來講就是模型對未知數據的預測能力,它是機器學習模型最重要的性質之一,決定了模型是否真正具備實用性。能夠解決好該問題,意味著模型具有了一定的通用能力,在實際應用中面對不確定的數據,也能夠達到可用的效果。
▲百度 D-NET 通用“預訓練-微調”模型訓練框架
針對上述問題,百度在本次評測中提出了一個通用的
“預訓練-微調”模型訓練框架 D(ecathlon)- NET。
目前,“預訓練-微調”在自然語言處理領域已成為一種新的、被廣泛采用的學習范式,即首先在大規模無標簽語料上以語言模型為目標進行預訓練,然后再針對特定任務,如閱讀理解進行針對性的微調。
百度提出的
D-NET 框架
主要包括以下
優勢:
1.在預訓練階段,采用了基于飛槳深度學習框架中的多種預訓練模型,融合了多種預訓練模型的優勢,獲得了
比官方
基線更好
的效果。
2.在微調之前,D-NET 引入了針對更多領域數據的進一步預訓練,以提升模型在特定領域上的適應性,彌補
預訓練模型語料分布
的局限性。
3.在微調過程中,D-NET 采用了基于飛槳多任務學習框架進行多任務學習。在多任務學習的過程中利用了其它有標注的自然語言處理數據集(如自然語言推斷、段落排序等)學習更好的語言表示,從而提升模型的泛化能力。“預訓練-微調”學習范式在微調階段的一個問題是容易發生災難性遺忘。因此, D-NET 在微調過程中引入了
防止災難性遺忘
的機制。
4.在微調結束后,D-NET 使用
飛槳知識蒸餾框架
提升單模型效果,以滿足本次評測對模型效率的要求。
D-NET 能在本次評測中獲得第一,得益于飛槳( PaddlePaddle ) “多,快,好,省”的四大優勢:
“多”:
飛槳提供了多種預置的預訓練模型,方便開發者僅使用幾行代碼,即可調用各種預訓練模型。正是得益于飛槳中的多種預訓練模型庫,D-NET 融合了各種預訓練模型的優勢,獲得了更好的效果。項目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP
https://github.com/PaddlePaddle/ERNIE
“快”:
MRQA 2019技術評測的一大挑戰是要處理大規模的閱讀理解數據。飛槳的高性能分布式訓練框架,幫助開發者可以通過僅僅的幾行代碼,即可讓模型進行分布式訓練。
值得一提的是,為了克服多節點之間通信帶來的性能瓶頸,飛槳從梯度壓縮,動態混合精度訓練,梯度同步算法等方面進行了多項性能優化,使得訓練大規模復雜模型的多機加速比提高至77%,極大地縮短了 MRQA 2019評測策略調研的周期,提高了實驗的效率。項目地址:https://github.com/PaddlePaddle/Fleet
“好”:
D-NET 的一個核心思想是讓模型同時從不同類型的語料、不同的自然語言理解任務中進行學習,并將學習到的知識融會貫通,達到舉一反三,增強泛化能力的作用。
開發多任務學習最大的痛點就是要靈活地調度參數和任務。為此,飛槳開發了一套針對多任務學習場景的高級庫 PALM( PAddLe Multi-task ,預計在 Paddle Fluid 1.6版本中開源,敬請期待),讓用戶只需要開發幾十行代碼,就可以輕松完成不同模型間參數和任務的調度。
“省”:
D-NET 奪冠的另外一個秘密武器就是飛槳提供的高性能預測引擎和模型壓縮庫 PaddleSlim 。PaddleSlim 提供了豐富高效的模型壓縮算法,可以在不損失預測精度的前提下,通過剪枝,量化,蒸餾等算法,將多個復雜神經網絡壓縮至一個簡單網絡,從而提高預測速度并降低顯存消耗。
除此之外,飛槳還針對不同硬件資源的特點在底層進行了一系列的優化,進一步提升了模型在預測部署時的性能和效率,使得 D-NET 在最終結果提交階段,在有限的時間和空間內,可以集成更多復雜模型算法,提升模型在真實預測部署場景的精度和效果。項目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim
機器閱讀理解任務,是衡量機器理解人類語言綜合水平的重要方式。
MRQA 閱讀量理解評測取得的進展,將有力推動機器閱讀理解技術的發展。
同時在產業中,機器閱讀理解是構建問答和對話系統的關鍵技術之一。
百度機器閱讀理解技術已廣泛應用于百度內外,包括搜索、小度音箱等一系列產品中,為數億用戶提供精準問答。
來源 | 百度AI
Share this article:
Facebook
Twitter
LinkedIn
WhatsApp
More articles
啟智社區2022年開發者激勵細則
通知&公告
2025年5月23日
從“算力自主”到“普惠共贏”,中國算力網為DeepSeek云服務提供堅實的底座
社區動態
2025年2月8日
2024年度openMind開源實習領獎者名單公示
通知&公告
2025年1月13日
【芯動開源】openMind專場第4期領獎者名單公示
通知&公告
2025年1月9日
【芯動開源】openMind專場第3期領獎者名單公示
通知&公告
2025年1月9日
【芯動開源】openMind專場第2期領獎者名單公示
通知&公告
2024年12月9日
【芯動開源】openMind專場首場領獎者名單公示
通知&公告
2024年10月14日
2024CCF中國開源大會分論壇承辦單位征集通知
社區動態
2024年7月29日
“智繪藝術家之詩畫點軍”正式報名開賽 |AIGC與點軍的夢幻碰撞,等你來戰!
社區動態
2024年5月23日
算力獲新生 | 算力共享,驅動人工智能創新的新引擎
社區動態
2024年3月4日
2024年度OpenI啟智社區贊助方案
通知&公告
2024年1月31日
“我為開源打榜狂”第12期領獎者公示
通知&公告
2024年1月15日
返回頂部