5月7日,在國際權(quán)威的多目標追蹤挑戰(zhàn)(Multiple Object Tracking Challenge,MOT)的 MOT16 榜單上,百度視覺技術(shù)團隊超越平安科技、商湯科技、上海交大等眾多實力強勁的團隊,獲得榜單世界第一的好成績。 MOTA 指標顯著提升,超越第二名1.8個點;其中 MOTA 為誤檢、漏檢、ID 交換三個指標綜合平均值。
2019年上半年,百度視覺技術(shù)團隊已分別在 CVPR 2019活體、ICME 2019人臉 Keypoint、Widerface 等賽事獲得第一。此次 MOT 比賽是百度視覺技術(shù)團隊又一次奪冠,是在實踐“領先且實用的 AI 視覺技術(shù)”,同時是視頻新領域的又一次突破。
▲MOT 16 評測集排名,百度位居榜首
Multiple Object Tracking Challenge 是國際多目標跟蹤領域最權(quán)威的測評平臺,由阿德萊德大學、蘇黎世聯(lián)邦理工學院以及達姆施塔特工業(yè)大學聯(lián)合創(chuàng)辦,是世界各大 AI 研究機構(gòu)必爭之地。
該平臺針對多行人對象在復雜場景下的運動軌跡,來評測算法同時進行檢測及追蹤的性能,目前主要包含 MOT15、MOT16、MOT17 三個評測集,其中 MOT16 允許參賽隊自定義檢測器,并對目標檢測、特征提取及追蹤等多模塊的綜合效果進行測評,因此更具有挑戰(zhàn)性和實用性。
此次,百度視覺技術(shù)團隊正是在 MOT16 評測集中勇奪桂冠,超越來自平安科技、商湯科技、海康威視、騰訊優(yōu)圖、NEC 北美研究院、上海交大、斯坦福大學等多支實力強勁的世界知名公司團隊和高校,技術(shù)實力不容小覷。
在檢測、重識別、多目標追蹤等相關(guān)算法上,百度視覺技術(shù)團隊做了諸多創(chuàng)新和改進。
檢測部分,基于百度自主研發(fā)的開源深度學習平臺 PaddlePaddle,選擇更強大的分類底座網(wǎng)絡并使用多尺度特征提取、改善物體模板以提升對微小目標的召回能力、并利用級聯(lián)網(wǎng)絡結(jié)構(gòu)對目標框進行更精細的回歸;行人重識別部分,采用自研的基于多樣例注意力方法,能夠進一步挖掘樣本在“困難區(qū)域”的細粒度特征,從而提高相似樣本在特征空間的可區(qū)分性;追蹤部分,采用基于行人重識別的序列特征相似度模型進行目標軌跡匹配、并利用時空特征來降低密集多目標跟蹤的軌跡交換問題。
除此之外,深度學習平臺 PaddlePaddle 也是視覺技術(shù)團隊披荊斬棘的利器之一。PaddlePaddle 是集深度學習核心框架、工具組件和服務平臺為一體的技術(shù)領先、功能完備的開源深度學習平臺,而且 PaddlePaddle 在視覺技術(shù)上有深厚的積累,官方已開源覆蓋分類、檢測、語義分割、OCR、GAN、人體關(guān)鍵點檢測等類別,基于真實業(yè)務場景驗證的優(yōu)質(zhì)模型。
上個月,PaddlePaddle 聯(lián)合視覺技術(shù)團隊重磅發(fā)布了視頻識別工具集,覆蓋主流實用的序列建模算法與端到端視頻識別模型,可一鍵式任務啟動,公開數(shù)據(jù)集下載、數(shù)據(jù)預處理、模型訓練、模型 inference 一步到位。后續(xù)將會擴展以解決視頻理解、視頻編輯、視頻生成等一系列視頻理解任務。
PaddlePaddle 還對深度學習模型訓練中顯存占用及數(shù)據(jù)處理速度進行專項優(yōu)化。以語義分割 Deeplabv3+ 為例,針對顯存消耗分析與解決、冗余前向計算、GPU CPU 內(nèi)存交換、使用16位浮點數(shù)等等,讓開發(fā)者可在相同的計算設備上訓練更大的模型,還可以在消費級別顯卡上完成訓練。
在數(shù)據(jù)處理上,優(yōu)化分布式 IO,增加遠程文件系統(tǒng)流式讀取能力。GPU 多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力,在低配網(wǎng)絡帶寬網(wǎng)絡環(huán)境下,例如10 G 網(wǎng)絡下,同步訓練可提速10倍。
另外 PaddlePaddle 對單機多設備及多機分布式訓練支持也非常友好,相對于單設備訓練,用戶幾乎不用對模型進行任何修改,可以低成本的實現(xiàn)單機多 CPU/GPU 訓練;而對于多機分布式訓練,也只需要簡單的配置即可,使得用戶能方便地從模型構(gòu)建快速過渡到多種環(huán)境下的模型運行。
從實際應用角度,多目標追蹤是視頻理解和分析領域的核心技術(shù)之一。近年來,隨著人工智能技術(shù)的不斷落地,多目標追蹤在城市安防、客流分析、智慧零售、文體直播等多項重要應用場景(尤其是 AI to B 場景)發(fā)揮出日益重要的作用。
基于對多目標追蹤技術(shù)的重視,百度視覺技術(shù)團隊已在此方向積累百萬量級的檢測、重識別、追蹤訓練數(shù)據(jù);多項相關(guān)開放服務,如人體檢測、人體追蹤、人體屬性識別、靜態(tài)/動態(tài)人流統(tǒng)計等,已構(gòu)成完整的 B 端人體分析服務矩陣。對內(nèi)支持百度智能云、自動駕駛等業(yè)務;并通過百度大腦 AI 開放平臺對外開放,服務各行各業(yè)。
未來,百度視覺技術(shù)團隊會繼續(xù)推進多目標追蹤領域的創(chuàng)新性工作,并爭取在更多實際應用場景實現(xiàn)落地。
視覺技術(shù)是百度大腦核心技術(shù)能力之一,其領先國際的技術(shù)優(yōu)勢為開發(fā)者帶來了更多創(chuàng)新的機會。此次在 MOT 測評中的奪冠,是百度大腦技術(shù)實力的有力證明,也為百度人工智能“巨樹”再添碩果。百度視覺技術(shù)團隊不僅獲得多項國際賽事的第一名,還在 CVPR、ICCV、ECCV、AAAI 等多項計算機視覺頂會上發(fā)表文章。
百度大腦是百度 AI 技術(shù)多年積累和業(yè)務實踐的集大成,除了視覺技術(shù)領跑國際,在深度學習領域也頻頻發(fā)力。一站式深度學習開發(fā)平臺 AI Studio 更送出1億元免費算力,為普通開發(fā)者破除算力桎梏。
未來,百度大腦將持續(xù)秉持 AI 普惠的價值理念,一面在產(chǎn)業(yè)實踐中不斷打磨,超越自我勇攀高峰,一面高瞻遠矚、開山辟路,為開發(fā)者建立完善的 AI 生態(tài)環(huán)境,以技術(shù)改變生活、服務社會,為推動人類的文明與發(fā)展貢獻自己的 AI 之力。
來源 | 百度AI