重磅開源!NeurIPS 2019,鵬城實(shí)驗(yàn)室提出新一代通用物體檢測(cè)方法FreeAnchor

鵬城實(shí)驗(yàn)室人工智能中心的葉齊祥教授提出了一種自由錨框匹配的單階段(One-stage)物體檢測(cè)方法FreeAnchor。通過目標(biāo)與特征的自由匹配,突破了“Object as Box”, 與“Objectas Point”的建模思路,探索了Object as Distribution的新思路。在MS-COCO數(shù)據(jù)集上顯著超越了雙階段(Two-stage)檢測(cè)方法FPN,成果被 NeurIPS 2019接收,并在鵬城匯智代碼托管平臺(tái)上開源。
 
論文地址:
https://arxiv.org/pdf/1909.02466
開源地址:

https://code.ihub.org.cn/projects/578


 
研究背景
 
過去幾年中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在視覺物體檢測(cè)中取得了巨大成功。為了使用有限卷積特征表示具有各種外觀,縱橫比和空間布局的物體,大多數(shù)基于CNN的檢測(cè)器利用具有多尺度和多長(zhǎng)寬比的錨框作為物體定位的參考點(diǎn)。通過將每個(gè)物體分配給單個(gè)或多個(gè)錨框,可以確定特征并進(jìn)行物體分類和定位。有錨框的物體檢測(cè)器利用空間關(guān)系,即物體和錨框的交并比(IoU),作為錨框劃分的唯一標(biāo)準(zhǔn)。基于與物體邊界框(Box)空間對(duì)齊的錨框(Anchor)最適合于對(duì)物體進(jìn)行分類和定位的直覺,網(wǎng)絡(luò)在每個(gè)錨框處的損失獨(dú)立地監(jiān)督下進(jìn)行學(xué)習(xí)。然而,在下文中,我們認(rèn)為這種直覺是不準(zhǔn)確的,手工設(shè)計(jì)IoU匹配物體與特征的方法不是最佳選擇。

一方面,對(duì)于”偏心”的物體,其最有判別力的特征并不靠近物體中心。空間對(duì)齊的錨框可能對(duì)應(yīng)于較少的代表性特征,這會(huì)限制目標(biāo)分類和定位能力。另一方面,當(dāng)多個(gè)物體聚集在一起時(shí),使用IoU標(biāo)準(zhǔn)匹配具有適當(dāng)錨框/特征的物體是不可行的。亟待解決的問題是如何將錨框/特征與物體完美匹配。

本研究提出了一種學(xué)習(xí)匹配錨框的物體檢測(cè)方法,目標(biāo)是丟棄手工設(shè)計(jì)的錨框劃分,同時(shí)優(yōu)化以下三個(gè)視覺物體檢測(cè)學(xué)習(xí)目標(biāo)。首先,為了實(shí)現(xiàn)高召回率,檢測(cè)器需要保證對(duì)于每個(gè)物體,至少一個(gè)錨框的預(yù)測(cè)足夠準(zhǔn)確。其次,為了實(shí)現(xiàn)高檢測(cè)精度,檢測(cè)器需要將具有較差定位(邊界框回歸誤差大)的錨框分類為背景。第三,錨框的預(yù)測(cè)應(yīng)該與非極大抑制(NMS)程序兼容,即分類得分越高,定位越準(zhǔn)確。否則,在使用NMS過程時(shí),可能抑制具有精確定位但是低分類分?jǐn)?shù)的錨框預(yù)測(cè)。

為了實(shí)現(xiàn)以上目標(biāo),我們將物體-錨框匹配表示為最大似然估計(jì)(MLE)過程,從每個(gè)物體的錨框集合中選擇最具代表性的錨框。定義每個(gè)錨框集合的似然概率為包中各錨框預(yù)測(cè)置信度的最大值,保證了存在至少一個(gè)錨框,對(duì)物體分類和定位都具有很高的置信度。同時(shí),具有較大定位誤差的錨框被歸類為背景。在訓(xùn)練期間,似然概率被轉(zhuǎn)換為損失函數(shù),然后該函數(shù)同時(shí)驅(qū)動(dòng)物體-錨框匹配和檢測(cè)器的學(xué)習(xí)。
 
圖 1 手工設(shè)計(jì)錨框劃分(上圖)和自由錨框匹配的對(duì)比(下圖)
 
方法描述




 
模型效果
 
1.  學(xué)習(xí)錨框匹配:所提出的學(xué)習(xí)匹配方法可以選擇適當(dāng)?shù)腻^框來(lái)表示感興趣的物體,如圖3所示:
圖 3 為“筆記本電腦”學(xué)習(xí)匹配錨框(左)與手工設(shè)計(jì)錨框分配的比較(右),紅點(diǎn)表示錨中心。較紅的點(diǎn)表示較高的置信度。為清楚起見,我們從所有50個(gè)錨框中選擇了16個(gè)長(zhǎng)寬比為1:1的錨框。

手工設(shè)計(jì)的錨框分配在兩種情況下失敗:物體特征偏心和擁擠場(chǎng)景。FreeAnchor有效地緩解了這兩個(gè)問題。對(duì)于容易出現(xiàn)特征偏心的細(xì)長(zhǎng)物體類別,如牙刷,滑雪板,沙發(fā)和領(lǐng)帶,F(xiàn)reeAnchor顯著優(yōu)于RetinaNet基線,如圖4所示。對(duì)于其他物體類別,包括時(shí)鐘,交通信號(hào)燈和運(yùn)動(dòng)球FreeAnchor的性能相當(dāng)與RetinaNet。其原因在于,學(xué)習(xí)匹配過程驅(qū)動(dòng)網(wǎng)絡(luò)激活每個(gè)物體的錨框集合內(nèi)的至少一個(gè)錨框,以便預(yù)測(cè)正確的類別和位置。激活的錨框沒有必要與物體空間對(duì)齊,只需要有對(duì)物體分類和定位的最具代表性的特征。

 
圖 4 方形和細(xì)長(zhǎng)類別物體的性能對(duì)比

我們進(jìn)一步比較了RetinaNet和FreeAnchor在擁擠場(chǎng)景中的表現(xiàn),如圖5所示。隨著單個(gè)圖像中物體數(shù)量的增加,F(xiàn)reeAnchor對(duì)RetinaNet的提升變得越來(lái)越明顯。這表明FreeAnchor具有學(xué)習(xí)匹配錨框的能力,可以在擁擠的場(chǎng)景中為物體選擇更合適的錨框。

 
圖 5 擁擠場(chǎng)景的性能對(duì)比
 
2.  保證與NMS的兼容性為了評(píng)估錨框預(yù)測(cè)與NMS的兼容性,我們將NMS召回率(  )定義為給定IoU閾值τ時(shí),在NMS之前和之前的召回率之比。遵循COCO中AP的定義方式,NR被定義為τ從0.50以0.05為間隔變化到0.90中NRτ的平均值。在表1.中我們用NRτ比較了RetinaNet和FreeAnchor。可以看出,F(xiàn)reeAnchor的NR值顯著高于RetinaNet,意味著與NMS的兼容性更高,驗(yàn)證了自由錨框匹配損失可以實(shí)現(xiàn)分類和定位的聯(lián)合優(yōu)化。

 
表 1 COCO驗(yàn)證集上的NMS召回率(%)比較
 
檢測(cè)性能
表2將FreeAnchor與RetinaNet基線進(jìn)行比較。FreeAnchor通過可忽略不計(jì)的訓(xùn)練和測(cè)試時(shí)間成本將AP提升至3.5%左右,這對(duì)具有挑戰(zhàn)性的通用物體檢測(cè)任務(wù)來(lái)說(shuō)是一個(gè)顯著提升。

 
表 2 FreeAnchor和RetinaNet(基線)的檢測(cè)性能比較

在表 3中FreeAnchor和其他方法進(jìn)行了對(duì)比。它顯著超出了Two-stage的FPN方法,也優(yōu)于最新的基于點(diǎn)檢測(cè)方法。在使用更少的訓(xùn)練迭代(135K vs 500k)和更少的網(wǎng)絡(luò)參數(shù)(96.9M vs 210.1M)前提下,F(xiàn)reeAnchor超過了CornerNet。

 
表 3 FreeAnchor與其他方法的檢測(cè)性能比較

FreeAnchor的本質(zhì)是通過目標(biāo)與特征的自由匹配,實(shí)現(xiàn)為每個(gè)物體選擇適合的錨框,其本質(zhì)為每個(gè)物體選擇合適的CNN特征。FreeAnchor突破了“Objectas Box”, 與“Object as Point”的建模思路,通過極大似然估計(jì)對(duì)物體范圍內(nèi)的特征分配不同的置信度建立起一個(gè)無(wú)參數(shù)的分布,探索了“Object asDistribution”的新思路。

來(lái)源 | 鵬城實(shí)驗(yàn)室
撰稿 | 人工智能研究中心 陳杰 旺靜然

 

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp

More articles