算機(jī)視覺界的“奧斯卡”,一年一度的 CVPR 剛剛落下帷幕,百度大腦以 CVPR 中10項(xiàng)競賽的奪冠向世界彰顯了其不容小覷的技術(shù)實(shí)力,令人振奮。
6月16-20日,計(jì)算機(jī)視覺及模式識別領(lǐng)域頂級國際學(xué)術(shù)會議 CVPR 在美國加州長灘舉行,超過9200位相關(guān)人士共赴盛會。
本屆會議收到了5160篇提交論文,其中1294論文最終被接收發(fā)表,其中百度共有17篇論文被收錄。
百度相關(guān)視覺團(tuán)隊(duì)赴美參會,共舉辦兩項(xiàng) Workshop 、一項(xiàng) Tutorial 講座,并接連獲得10項(xiàng) CVPR 競賽任務(wù)的冠軍,全面涵蓋視覺領(lǐng)域下的視頻理解與分析、目標(biāo)檢測、圖像超分辨、智能城市車輛識別、人臉&人體檢測等眾多熱門子領(lǐng)域。
其中,百度研究院團(tuán)隊(duì)獲4項(xiàng)冠軍、百度視覺團(tuán)隊(duì)獲6項(xiàng)冠軍,此前被 CVPR 大會收錄的論文也大多出自這兩個(gè)團(tuán)隊(duì)。

視頻理解&分析領(lǐng)域
ActivityNet 是目前視頻理解領(lǐng)域影響力最大的賽事,與每年的頂級學(xué)術(shù)會議 CVPR 一起召開。在本次競賽中,百度更是獲得視頻動(dòng)作提名、視頻動(dòng)作檢測兩項(xiàng)任務(wù)的冠軍,并在新增任務(wù) EPIC-Kitchens 動(dòng)作識別挑戰(zhàn)賽中獲兩項(xiàng)測試集冠軍( Seen kitchens 和 Unseen kitchens )。這已是百度視覺團(tuán)隊(duì)連續(xù)三年在 ActivityNet 相關(guān)賽事中斬獲冠軍。
視頻理解是計(jì)算機(jī)視覺和模式識別領(lǐng)域的基礎(chǔ)問題之一,其中視頻動(dòng)作提名和視頻動(dòng)作檢測在安防、視頻摘要等場景下具有重要的應(yīng)用價(jià)值。
在視頻動(dòng)作提名、視頻動(dòng)作檢測兩項(xiàng)任務(wù)中,百度分別針對動(dòng)作分類、動(dòng)作邊界不準(zhǔn)確等問題提出 C-TCN 、 BMN 等模型,在 THUMOS 和 ActivityNet 兩個(gè)公開數(shù)據(jù)集的指標(biāo)均達(dá)到世界領(lǐng)先,相關(guān)的代碼將于6月底采用飛槳(PaddlePaddle)開源。
今年的新增任務(wù) EPIC-Kitchens 動(dòng)作識別挑戰(zhàn)賽聚焦第一人稱視頻理解,對可穿戴設(shè)備、智能家居、人機(jī)交互等方面的應(yīng)用起著關(guān)鍵作用,也是目前學(xué)術(shù)界、工業(yè)界關(guān)注的焦點(diǎn)。
競賽吸引了 Facebook AI 、牛津大學(xué)、 INRIA (法國國家信息與自動(dòng)化研究所)等66支隊(duì)伍參與,百度在該任務(wù)中的 Seenkitchens 和 Unseen kitchens 兩項(xiàng)測試集上以很大優(yōu)勢獲得第一,并受邀在 CVPR 2019 EPIC 和 ActivityNet Workshop 上作出報(bào)告。

針對第一人稱視頻小物體多、模糊遮擋嚴(yán)重等難點(diǎn),百度使用 2D 檢測框架和 3D 卷積網(wǎng)絡(luò)結(jié)合的方法進(jìn)行視頻特征提取。不僅如此,百度還提出了門控特征融合模塊,通過增強(qiáng)視頻片段特征與上下文物體特征之間的非線性交互,使得輸出表征具有更好的分辨能力。
人體檢測領(lǐng)域
在人體檢測領(lǐng)域,百度更是“開掛”一般,拿下“三連冠”。
在“ Look Into Person ”國際競賽(以下簡稱 LIP )三項(xiàng)人體精細(xì)化解析競賽單元( Track1: Single-Person Human Parsing , Track3: Mult-Person Human Parsing , Track4: Video Multi-Person Parsing )中,百度均獲第一名。
LIP 國際競賽專注于人體的精細(xì)語義理解任務(wù),包括單人的人體解析任務(wù)、單人的人體姿態(tài)估計(jì)任務(wù)、多人的人體解析任務(wù)、視頻多人人體解析任務(wù)。此次比賽的主題為復(fù)雜場景中人體的視覺理解,是計(jì)算機(jī)視覺領(lǐng)域的基本問題之一,對視頻監(jiān)控、人機(jī)交互、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等場景具有重要意義。
比賽中,單人人體解析競賽單元的任務(wù)是輸出單人圖片語義分割信息(如上肢和下肢等)。針對人體關(guān)鍵目標(biāo)區(qū)域較小、難以檢測的問題,百度對以往基于多尺度全卷積神經(jīng)網(wǎng)絡(luò)的模型(例如 Pyramid Scene Parsing Network ,DeepLab v3+ 等)進(jìn)行改進(jìn),使每個(gè)卷積核能對圖片的細(xì)節(jié)進(jìn)行感知,同時(shí)輸出精度更高的 feature map。
此外,百度還進(jìn)行了圖片增強(qiáng)、數(shù)據(jù)擴(kuò)張,在訓(xùn)練中動(dòng)態(tài)調(diào)整輸入圖片尺度,使用 mIoU loss 損失函數(shù)等,使得模型能夠更精確地捕捉肢體的細(xì)節(jié)、以及被遮蓋的部分。
最終根據(jù)各個(gè)不同模型的效果進(jìn)行融合,百度取得65.18%的 mIoU ,獲得了單人人體解析的冠軍,超過上屆冠軍7.2個(gè)百分點(diǎn)。

▲單人人體解析結(jié)果展示
多人人體解析和視頻人體解析方面,解決的是對圖片中以及視頻中的多人語義信息分割問題。該競賽數(shù)據(jù)集與單人人體解析任務(wù)相比,更關(guān)注多人遮擋等難題,進(jìn)一步增加比賽難度。
在比賽中,百度針對多人遮擋嚴(yán)重、姿態(tài)和視角多樣性等特點(diǎn),優(yōu)化改進(jìn)了結(jié)合多人檢測和單人人體解析的 top-down 框架,通過最終改進(jìn)的模型在多人人體解析和視頻多人人體解析競賽單元中均取得第一的成績,成績大幅領(lǐng)先第二名。
人臉活體檢測領(lǐng)域
人臉活體檢測是視覺人臉識別領(lǐng)域的一個(gè)經(jīng)典問題。近年來隨著人臉技術(shù)的不斷落地,活體檢測在人臉解鎖、人臉支付、遠(yuǎn)程身份核驗(yàn)等應(yīng)用上發(fā)揮著越來越重要的作用。
在 CVPR 人臉活體檢測比賽上,百度作為 invited participant 在300多個(gè)隊(duì)伍中獲得第一的好成績( Acer 即平均錯(cuò)誤率最低)。CVPR-19-Face Anti-spoofing Attack DetectionChallenge 是 CVPR 會議歷史上首次舉辦人臉活體檢測比賽,發(fā)布了目前世界上最大的跨模態(tài)人臉活體檢測數(shù)據(jù)集 CASIA-SURF ,包含1000人次的21000段三模態(tài)( RGB、IR、Depth )人臉視頻。比賽任務(wù)兼顧學(xué)術(shù)和實(shí)用價(jià)值,十分富有挑戰(zhàn)。
作為該項(xiàng)比賽的冠軍,百度在活體檢測方向已積累百萬級的攻擊圖像數(shù)據(jù),持續(xù)研發(fā)迭代了多模態(tài)( Depth、IR、RGB )、雙端(云端、嵌入式)的活體檢測模型。這些模型對內(nèi)支持多項(xiàng)核心業(yè)務(wù),對外服務(wù)眾多標(biāo)桿客戶,滿足不同的場景應(yīng)用需求。
目標(biāo)檢測領(lǐng)域
目標(biāo)檢測是計(jì)算機(jī)視覺和模式識別領(lǐng)域的基礎(chǔ)問題之一,百度在該領(lǐng)域獲得“ Objects 365 物體檢測”國際競賽 Full Track 冠軍,而 Full Track 主要用于探索目標(biāo)檢測系統(tǒng)的性能上限。Objects 365作為一個(gè)全新的數(shù)據(jù)集,旨在促進(jìn)對自然場景不同對象的檢測研究。
Objects 365 在638K 張圖像上標(biāo)注了365個(gè)對象類,訓(xùn)練集中共有超過1000萬個(gè)邊界框。因此,這些標(biāo)注涵蓋了發(fā)生在各種場景類別中的常見對象。參賽者可以使用發(fā)布的60萬張圖片組成的訓(xùn)練集訓(xùn)練一個(gè)目標(biāo)檢測模型,對圖片中的存在于 Objects 365定義的365個(gè)類中的目標(biāo)輸出包圍框、類別和分?jǐn)?shù)。
在3萬張圖片組成的驗(yàn)證集上做算法性能驗(yàn)證,最終在由10萬張圖片組成的測試集中完成挑戰(zhàn)。據(jù)悉,百度采用了基于飛槳研發(fā)的檢測訓(xùn)練框架,訓(xùn)練框架及模型即將開源。
同時(shí),百度在 NTIRE 競賽中的圖像超分辨項(xiàng)目也強(qiáng)勢奪冠。這是百度首次參加 NTIRE (計(jì)算機(jī)視覺 low-levelvision 領(lǐng)域中影響力最大的競賽),便在400余支參賽隊(duì)伍脫穎而出。
本次比賽采用了全新拍攝的真實(shí)數(shù)據(jù)集( RealSR ),百度視覺團(tuán)隊(duì)在 PSNR 和 SSIM 兩項(xiàng)指標(biāo)上均名列第一,同時(shí)提出極具創(chuàng)新性的 CDSR 超分模型,通過級聯(lián)的方法逐步將圖像從模糊變清晰。相關(guān)技術(shù)采用飛槳部署于百度 App ,已經(jīng)應(yīng)用于 Feed 圖片查看的功能。

智能城市車輛識別領(lǐng)域
本屆 AI-city 公開賽包含城市范圍多攝像頭車輛跟蹤、城市范圍多攝像頭車輛重識別和交通異常檢測三個(gè)子任務(wù)。百度在城市范圍多攝像頭車輛重識別任務(wù)中獲得冠軍,得益于飛槳( PaddlePaddle )框架助力,并憑借在車輛垂類領(lǐng)域檢測、跟蹤、屬性分析、關(guān)鍵點(diǎn)定位等技術(shù)能力的長期積累,實(shí)現(xiàn) mAP Score 指標(biāo)達(dá)到0.855,超越第二名6.4個(gè)點(diǎn)。
城市范圍多攝像頭車輛重識別是智能車輛分析能力的核心基礎(chǔ)技術(shù)之一。智能車輛分析能力為百度在智能城市領(lǐng)域積極探索提供強(qiáng)有力的支持,尤其是在城市安防、智能交通等重要的 AI2B 場景下都離不開對車輛結(jié)構(gòu)化分析的需求。
目前,百度已經(jīng)開放車輛檢測、車輛屬性/車型識別、車流統(tǒng)計(jì)和智能定損等多項(xiàng)相關(guān)服務(wù)。未來,百度將繼續(xù)推進(jìn)車輛垂類技術(shù)能力的建設(shè)及智能車輛分析技術(shù)迭代,為不同領(lǐng)域賦能。
百度在今年的 CVPR 上滿載而歸,顯示出百度大腦在視覺領(lǐng)域各個(gè)方向的長期積累、全面發(fā)力,更是百度大腦技術(shù)實(shí)力全球領(lǐng)先的強(qiáng)大佐證。
不僅如此,作為百度 AI 技術(shù)的集大成者,百度大腦還在對外不斷開放這些頂尖 AI 技術(shù),目前已對外開放視覺、語音、自然語言處理等170多項(xiàng)領(lǐng)先的 AI 能力,為廣大開發(fā)者提供 AI 技術(shù)研發(fā)支持,賦能各行業(yè)。