近期,OpenI啟智社區(qū)召集了技術(shù)委員會成員針對社區(qū)重點(diǎn)項(xiàng)目進(jìn)入孵化培育管道的評審決策會議,最終共計通過2個重點(diǎn)開源項(xiàng)目的貢獻(xiàn)申請,分別是來自鵬城實(shí)驗(yàn)室開源所貢獻(xiàn)的鵬程·盤古α項(xiàng)目與來自智源語言大模型加速技術(shù)創(chuàng)新中心貢獻(xiàn)的OpenBMB項(xiàng)目。
恭喜這2個項(xiàng)目正式進(jìn)入啟智社區(qū)開源項(xiàng)目孵化管道,它們豐富了OpenI啟智社區(qū)在模型儲備方面的內(nèi)容,進(jìn)一步完善社區(qū)總體技術(shù)架構(gòu)。
鵬程·盤古α
PanGu-α
2000億參數(shù)中文自回歸大模型
貢獻(xiàn)者:鵬城實(shí)驗(yàn)室
許可證:Apache License 2.0
項(xiàng)目地址:https://git.openi.org.cn/PCL-Platform.Intelligence
鵬程·盤古α是業(yè)界首個2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語言模型,目前開源了兩個版本:鵬程·盤古α和鵬程·盤古α增強(qiáng)版,并支持NPU和GPU兩個版本,支持豐富的場景應(yīng)用,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領(lǐng)域表現(xiàn)突出,具備較強(qiáng)的少樣本學(xué)習(xí)的能力。例如:
Input: 中國和美國和日本和法國和加拿大和澳大利亞的首都分別是哪里? Generate: 中國的首都是北京,美國的首都是華盛頓,日本的首都是東京,法國的首都是巴黎,澳大利亞的首都是堪培
基于盤古系列大模型提供大模型應(yīng)用落地技術(shù)幫助用戶高效的落地超大預(yù)訓(xùn)練模型到實(shí)際場景。
整個框架特點(diǎn)如下:
主要有如下幾個核心模塊:
-
數(shù)據(jù)集:從開源開放數(shù)據(jù)集、common crawl數(shù)據(jù)集、電子書等收集近80TB原始語料,構(gòu)建了約1.1TB的高質(zhì)量中文語料數(shù)據(jù)集、53種語種高質(zhì)量單、雙語數(shù)據(jù)集2TB。
-
基礎(chǔ)模塊:提供預(yù)訓(xùn)練模型庫,支持常用的中文預(yù)訓(xùn)練模型,包括鵬程·盤古α、鵬程·盤古α增強(qiáng)版等。
-
應(yīng)用層:支持常見的NLP應(yīng)用比如多語言翻譯、開放域?qū)υ挼龋С诸A(yù)訓(xùn)練模型落地工具,包括模型壓縮、框架移植、可持續(xù)學(xué)習(xí),助力大模型快速落地。
正在進(jìn)行的開源工作有:
-
應(yīng)用組件:為快速適配用戶的應(yīng)用場景,將推出基于盤古大模型的一系列組件,如微調(diào)、壓縮、框架遷移等,實(shí)現(xiàn)一鍵式微調(diào)和模型遷移功能。
-
云服務(wù)提供:結(jié)合智算網(wǎng)絡(luò)提供模型訓(xùn)練、微調(diào)、壓縮等開源應(yīng)用創(chuàng)新的算力支持,優(yōu)化基礎(chǔ)大模型的云服務(wù)能力,支持本地調(diào)用的同時,也可以在云上實(shí)現(xiàn)調(diào)用,給用戶帶來高效的從訓(xùn)練到落地的完整體驗(yàn)。
盤古α項(xiàng)目已在OpenI啟智社區(qū)實(shí)現(xiàn)了數(shù)據(jù)、算法、模型和服務(wù)的逐步全面開源開放,希望以O(shè)penI啟智開源社區(qū)為載體,集眾智、聚眾力,吸引開發(fā)者共同參與到模型的壓縮輕量化和應(yīng)用創(chuàng)新工作中,不斷探索“盤古α”模型的強(qiáng)大潛力。
OpenBMB
Open Lab for Big Model Base
大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具
貢獻(xiàn)者:清華大學(xué)、北京智源人工智能研究院語言大模型加速技術(shù)創(chuàng)新中心、ModelBest
許可證:Apache License 2.0
項(xiàng)目地址:https://git.openi.org.cn/OpenBMB
OpenBMB全稱為Open Lab for Big Model Base,旨在打造大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具,加速百億級以上大模型的訓(xùn)練、微調(diào)與推理,降低大模型使用門檻,與國內(nèi)外開發(fā)者共同努力形成大模型開源社區(qū),推動大模型生態(tài)發(fā)展,實(shí)現(xiàn)大模型的標(biāo)準(zhǔn)化、普及化和實(shí)用化,讓大模型飛入千家萬戶。
OpenBMB將努力建設(shè)大模型開源社區(qū),團(tuán)結(jié)廣大開發(fā)者不斷完善大模型從訓(xùn)練、微調(diào)、推理到應(yīng)用的全流程配套工具。
基于貢獻(xiàn)者團(tuán)隊(duì)前期工作,OpenBMB設(shè)計了大模型全流程研發(fā)框架,并初步開發(fā)了相關(guān)工具,這些工具各司其職、相互協(xié)作,共同實(shí)現(xiàn)大模型從訓(xùn)練、微調(diào)到推理的全流程高效計算。
OpenBMB開源社區(qū)推崇簡潔,追求極致,相信數(shù)據(jù)與模型的力量。歡迎志同道合的開發(fā)者們加入,共同為大模型應(yīng)用落地添磚加瓦,早日讓大模型飛入千家萬戶。
OpenI啟智社區(qū)從服務(wù)新一代人工智能重大科技項(xiàng)目出發(fā),為我國的新一代人工智能發(fā)現(xiàn)項(xiàng)目、培育項(xiàng)目、檢驗(yàn)項(xiàng)目和推廣項(xiàng)目。目前,社區(qū)已孵化33個重點(diǎn)開源項(xiàng)目,形成包含基礎(chǔ)設(shè)施、軟件環(huán)境、算法框架、模型儲備、應(yīng)用開發(fā)部署的多維度、全流程的社區(qū)開源技術(shù)體系。
社區(qū)堅持以開放的心態(tài)與國內(nèi)外的社區(qū)、項(xiàng)目合作,也在“尊重創(chuàng)新”的原則下, 歡迎有志于AI開源事業(yè)的開發(fā)者加入社區(qū),共同促進(jìn)AI開源開放生態(tài)體系建設(shè)。如有意貢獻(xiàn)項(xiàng)目和參與社區(qū)孵化培育的個人或組織,請參考《啟智社區(qū)項(xiàng)目開源指南》提供項(xiàng)目相關(guān)材料。