智源人工智能算法大賽開鑼,百萬獎金激勵 AI 算法創新

智源人工智能算法大賽現已正式啟動!本次比賽由北京智源人工智能研究院主辦,清華大學、北京大學、中科院計算所、曠視、知乎等協辦,總獎金超過 100 萬元,旨在以全球領先的科研數據集與算法競賽為平臺,選拔培育人工智能創新人才。

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)是落實“北京智源行動計劃”的重要舉措,在科技部和北京市委市政府的指導和支持下,由北京市科委和海淀區政府推動成立,是依托北京大學、清華大學、中國科學院、百度、小米、字節跳動、美團點評、曠視科技等北京人工智能領域優勢單位共建的新型研發機構。在 2018 年 11 月 14 日舉行的 2018 中國(北京)跨國技術轉移大會開幕式上,智源研究院正式揭牌。
 
本次智源人工智能算法大賽有兩個重要的目的,一是通過發布數據集和數據競賽的方式,推動基礎研究的進展。特別是可以讓計算機領域的學者參與到其他學科的基礎科學研究中;二是可以通過比賽篩選、鍛煉相關領域的人才。
北京智源人工智能研究院院長、北京大學教授黃鐵軍介紹:智源的中心任務是在北京建成全球最優的人工智能創新生態,核心是選拔培育人工智能頂尖人才和發展潛力大的青年學術英才。研究院副院長劉江也表示:“我們希望不拘一格來支持人工智能真正的標志性突破,即使是本科生,如果真的是好苗子,我們也一定支持。”而人工智能大賽就是發現有潛力的年輕學者的重要途徑。
 
2019 智源算法大賽將包括 10 道賽題,覆蓋機器視覺、自然語言處理、推薦系統等機器學習領域,也將覆蓋粒子物理學、神經生物學、藥物化學、工業制造等基礎或應用學科。比賽的數據來自全球頂尖企業和研究實驗室,代表了最前沿的學科方向。
首批發布的兩個賽題分別來自知乎和中科院計算所。
 
第一彈:專家識別
 

?? 任務描述

比賽將提供知乎上的問題、話題、用戶畫像和用戶回答記錄等數據。希望選手可以預測某個專家是否會接受某個用戶就某個問題向他發出的回答邀請。

為了協助選手更好地搭建模型,本次比賽提供了 10 萬個話題數據、180 萬個問題和 475 萬個回答數據、190 萬個脫敏的用戶畫像和回答記錄數據,以及 1000 萬條邀請數據。

?? 數據集

比賽將提供知乎的問題信息、用戶畫像、用戶回答記錄,以及用戶接受邀請的記錄,要求選手預測這個用戶是否會接受某個新問題的邀請。

1. 問題信息。包括<問題id、問題創建時間、問題的話題、問題的文本、問題的描述等>;
2. 用戶的回答。包括<回答id、問題id、作者id、回答的文本、回答時間、點贊數、收藏數、感謝數、評論數>等;
3. 用戶人畫像數據。包括<用戶id、性別、活躍頻次、關注話題、長期興趣、鹽值>等;
4. <topic、token(詞)、單字 64維embedding> 數據;
5. 最近一月的邀請數據包括<問題id、用戶id、邀請時間、是否回答>。。

 
第二彈:虛假新聞識別
 
 

?? 任務描述

為應對當前虛假新聞泛濫的現狀,將虛假新聞帶來的危害最小化,我們設立此賽題以促進對虛假新聞自動化檢測方法的研究。針對虛假新聞的特點,我們設立了三個子任務:

Task 1:虛假新聞文本檢測:文本是新聞信息的主要載體,對新聞文本的研究有助于虛假新聞的有效識別。具體任務為:給定一個新聞事件的文本,判定該事件屬于真實新聞還是虛假新聞。

Task 2:虛假新聞圖片檢測:虛假新聞圖片是指虛假新聞中的配圖。在虛假新聞中,新聞配圖往往也包含著豐富的信息,有助于虛假新聞的判別。具體任務為:給定一張圖片,要求參賽者判斷該圖片是虛假新聞圖片還是真實新聞圖片。

Task 3:虛假新聞多模態檢測:隨著多媒體技術的發展,新聞當中通常都包含著文本與圖片等多模態信息,不同模態之間既存在著增強關系,同時也包含著互補信息。如何充分利用多模態信息進行虛假新聞檢測仍是一項具有挑戰的工作,為此,我們設立虛假新聞多模態檢測子任務以促進該領域研究。具體任務為:給定一條新聞的多模態內容,包括文本、配圖、用戶特征等,要求參賽者判斷該新聞屬于虛假新聞還是真實新聞。

?? 參考論文清單

為便于參賽選手了解已有方法,主辦方整理了參考論文清單:

 
• Jin Z, Cao J, Zhang Y, et al. Newsverification by exploiting conflicting social viewpoints in microblogs. AAAI2016.

• Jin, Z., Cao, J., Zhang, Y., Zhou, J.,& Tian, Q. Novel visual and statistical image features for microblogs newsverification. TMM, 19(3).
• Jin, Z., Cao, J., Guo, H., Zhang, Y.,& Luo, J. Multimodal fusion with recurrent neural networks for rumordetection on microblogs. MM 2017.
• Guo H, Cao J, Zhang Y, et al. Rumordetection with hierarchical social attention network. CIKM 2018.
• Qi P, Cao J, Yang T, et al. ExploitingMulti-domain Visual Information for Fake News Detection. ICDM 2019.
• Guo C, Cao J, Zhang X, et al.Exploiting Emotions for Fake News Detection on Social Media. arXiv:1903.01728.
 

除了首批發布的數據外,其余 8 道賽題將于未來兩個月內陸續發布。北京智源人工智能研究院副院長、清華大學計算機系教授唐杰表示:“本次智源的數據算法大賽,一方面促進了數據共享,提升數據使用效率,另一方面以賽代訓,提升了廣大學生和工程人員的技術水平,很有意義。”

人工智能正以前所未有的速度改變這個世界,也在改變我們探索自然,連接彼此,生產內容,制造產品的方式。業內人士普遍認為,依托北京智源人工智能研究院強大的科研實力和數據開放計劃,2019 智源人工智能算法大賽將成為促進學科交叉,推動算法進展,發掘潛力人才的重要活動。

來源 | BAAI

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp