国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

<cite id="0oyoe"><input id="0oyoe"></input></cite>

<dfn id="0oyoe"><dl id="0oyoe"></dl></dfn>

搜索

深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望

學(xué)習(xí)

王飛躍科學(xué)網(wǎng)博客
2019-01-12 15:01

【摘要】目標(biāo)視覺檢測是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題，在視頻監(jiān)控、自主駕駛、人機(jī)交互等方面具有重要的研究意義和應(yīng)用價(jià)值.近年來，深度學(xué)習(xí)在圖像分類研究中取得了突破性進(jìn)展，也帶動著目標(biāo)視覺檢測取得突飛猛進(jìn)的發(fā)展.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望.首先對目標(biāo)視覺檢測的基本流程進(jìn)行總結(jié)，并介紹了目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集；然后重點(diǎn)介紹了目前發(fā)展迅猛的深度學(xué)習(xí)方法在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展；最后討論了深度學(xué)習(xí)方法應(yīng)用于目標(biāo)視覺檢測時(shí)存在的困難和挑戰(zhàn)，并對今后的發(fā)展趨勢進(jìn)行展望.

目標(biāo)視覺檢測是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要的研究問題.隨著電子設(shè)備的應(yīng)用在社會生產(chǎn)和人們生活中越來越普遍, 數(shù)字圖像已經(jīng)成為不可缺少的信息媒介, 每時(shí)每刻都在產(chǎn)生海量的圖像數(shù)據(jù).與此同時(shí), 對圖像中的目標(biāo)進(jìn)行精確識別變得越來越重要^[¹^].我們不僅關(guān)注對圖像的簡單分類, 而且希望能夠準(zhǔn)確獲得圖像中存在的感興趣目標(biāo)及其位置^[²^], 并將這些信息應(yīng)用到視頻監(jiān)控、自主駕駛等一系列現(xiàn)實(shí)任務(wù)中, 因此目標(biāo)視覺檢測技術(shù)受到了廣泛關(guān)注^[³^].

目標(biāo)視覺檢測具有巨大的實(shí)用價(jià)值和應(yīng)用前景.應(yīng)用領(lǐng)域包括智能視頻監(jiān)控、機(jī)器人導(dǎo)航、數(shù)碼相機(jī)中自動定位和聚焦人臉的技術(shù)、飛機(jī)航拍或衛(wèi)星圖像中道路的檢測、車載攝像機(jī)圖像中的障礙物檢測等.同時(shí), 目標(biāo)視覺檢測也是眾多高層視覺處理和分析任務(wù)的重要前提, 例如行為分析、事件檢測、場景語義理解等都要求利用圖像處理和模式識別技術(shù), 檢測出圖像中存在的目標(biāo), 確定這些目標(biāo)對象的語義類型, 并且標(biāo)出目標(biāo)對象在圖像中的具體區(qū)域^[⁴^].

在自然環(huán)境條件下, 目標(biāo)視覺檢測經(jīng)常遇到以下幾個(gè)方面的挑戰(zhàn):

1) 類內(nèi)和類間差異

對于很多物體, 它們自身就存在很大的差異性, 同類物體的不同實(shí)例在顏色、材料、形狀等方面可能存在巨大的差異, 很難訓(xùn)練一個(gè)能夠包含所有類內(nèi)變化的特征描述模型.另外, 不同類型物體之間又可能具有很大的相似性, 甚至非專業(yè)人員從外觀上很難區(qū)分它們.類內(nèi)差異可能很大, 而類間差異可能很小, 給目標(biāo)視覺檢測提出了挑戰(zhàn).

2) 圖像采集條件

在圖像采集過程中, 由于環(huán)境、光照、天氣、拍攝視角和距離的不同、物體自身的非剛體形變以及可能被其他物體部分遮擋, 導(dǎo)致物體在圖像中的表觀特征具有很大的多樣性, 對視覺算法的魯棒性提出了很高要求.

3) 語義理解的差異

對同一幅圖像, 不同的人可能會有不同的理解, 這不僅與個(gè)人的觀察視角和關(guān)注點(diǎn)有關(guān), 也與個(gè)人的性格、心理狀態(tài)和知識背景等有關(guān), 這明顯增加了從仿生或類腦角度來研究視覺算法的難度.

4) 計(jì)算復(fù)雜性和自適應(yīng)性

目標(biāo)視覺檢測的計(jì)算復(fù)雜性主要來自于待檢測目標(biāo)類型的數(shù)量、特征描述子的維度和大規(guī)模標(biāo)記數(shù)據(jù)集的獲取.由于在真實(shí)世界中存在大量的目標(biāo)類型, 每種類型都包含大量的圖像, 同時(shí)識別每種類型需要很多視覺特征, 這導(dǎo)致高維空間稀疏的特征描述^[⁴^].另外, 目標(biāo)模型經(jīng)常從大規(guī)模標(biāo)記數(shù)據(jù)集中學(xué)習(xí)得到, 在許多情況下, 數(shù)據(jù)采集和標(biāo)注很困難, 需要耗費(fèi)大量的人力物力.這些情況導(dǎo)致目標(biāo)檢測的計(jì)算復(fù)雜性很高, 需要設(shè)計(jì)高效的目標(biāo)檢測算法.同時(shí), 在動態(tài)變化的環(huán)境中, 為了提高目標(biāo)檢測精度, 還需要探索合適的機(jī)制來自動更新視覺模型, 提高模型對復(fù)雜環(huán)境的自適應(yīng)能力.

為了克服上述挑戰(zhàn), 已經(jīng)提出了許多目標(biāo)視覺檢測算法, 它們在目標(biāo)區(qū)域建議、圖像特征表示、候選區(qū)域分類等步驟采用了不同的處理策略.近年來, 隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 很多基于深度學(xué)習(xí)的目標(biāo)視覺檢測方法陸續(xù)被提出, 在精度上顯著優(yōu)于傳統(tǒng)方法, 成為最新的研究熱點(diǎn).本文首先介紹目標(biāo)視覺檢測的基本流程, 然后重點(diǎn)介紹深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展.

本文內(nèi)容安排如下:第1節(jié)介紹目標(biāo)視覺檢測的基本流程; 第2節(jié)對目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集進(jìn)行概述; 第3節(jié)介紹深度學(xué)習(xí)技術(shù)在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展; 第4節(jié)討論深度學(xué)習(xí)技術(shù)應(yīng)用于目標(biāo)視覺檢測時(shí)存在的困難和挑戰(zhàn), 并對今后的發(fā)展趨勢進(jìn)行展望; 第5節(jié)對本文進(jìn)行總結(jié).

1 目標(biāo)視覺檢測的基本流程

目標(biāo)視覺檢測的根本問題是估計(jì)特定類型目標(biāo)出現(xiàn)在圖像中的哪些位置.如圖 1所示, 目標(biāo)視覺檢測技術(shù)在流程上大致分為三個(gè)步驟:區(qū)域建議(Region proposal)、特征表示(Feature representation)和區(qū)域分類(Region classification).首先對圖像中可能的目標(biāo)位置提出建議, 也就是提出一些可能含有目標(biāo)的候選區(qū)域.然后采用合適的特征模型得到特征表示.最后借助分類器判斷各個(gè)區(qū)域中是否含有特定類型的目標(biāo), 并且通過一些后處理操作, 例如非極大值抑制、邊框位置回歸等, 得到最終的目標(biāo)邊框.該基本流程被許多工作所采用, 例如文獻(xiàn)[5]提出的HOG-SVM檢測方法、文獻(xiàn)[6]提出的Selective search區(qū)域建議方法、目前在PASCAL VOC、MS COCO、ImageNet等數(shù)據(jù)集上取得領(lǐng)先精度的Faster R-CNN^[⁷^]檢測方法以及Faster R-CNN采用的特征表示和區(qū)域分類方法ResNet^[⁸^]等.

圖 1 目標(biāo)視覺檢測的基本流程

Figure 1 Basic procedure for object detection

本節(jié)接下來從區(qū)域建議、特征表示和區(qū)域分類三個(gè)方面來總結(jié)目標(biāo)視覺檢測的關(guān)鍵技術(shù).

1.1 區(qū)域建議

目標(biāo)檢測要求獲得目標(biāo)的位置和尺度信息, 這需要借助區(qū)域建議來實(shí)現(xiàn).區(qū)域建議是指在輸入圖像中搜尋特定類型目標(biāo)的可能區(qū)域的一種策略.傳統(tǒng)的區(qū)域建議策略包括三種^[4]:基于滑動窗的區(qū)域建議、基于投票機(jī)制的區(qū)域建議和基于圖像分割的區(qū)域建議.

1.1.1 基于滑動窗的區(qū)域建議

基于滑動窗的方法是在輸入圖像所有可能的子窗口中執(zhí)行目標(biāo)檢測算法來定位潛在的目標(biāo).在文獻(xiàn)[5]中, 檢測窗口是一個(gè)給定大小的矩形框, 在整幅圖像的所有位置和尺度上進(jìn)行掃描, 并對區(qū)域分類結(jié)果做非極大值抑制.基于滑動窗的區(qū)域建議方法采用窮舉搜索, 原理簡單, 易于實(shí)現(xiàn), 但是計(jì)算復(fù)雜性高, 太過耗時(shí).于是一些研究者提出加快窗口搜索的方法. Lampert等^[9]提出了一種高效的子窗口搜索策略(簡稱為ESS), 采用分支限界法來減少搜索范圍.但是它的性能在很大程度上取決于輸入圖像中的物體, 當(dāng)沒有物體出現(xiàn)時(shí), 該算法退化到窮舉搜索. An等^[10]提出一種改進(jìn)的ESS算法. Wei等^[11]提出一種在直方圖維度上具有常數(shù)復(fù)雜度的滑動窗口策略. Van de Sande等^[12]引入圖像分割信息, 將其作為目標(biāo)假設(shè)區(qū)域, 從而只對這些假設(shè)區(qū)域進(jìn)行目標(biāo)檢測.

1.1.2 基于投票機(jī)制的區(qū)域建議

基于投票機(jī)制的方法主要用于基于部件的模型, 通常投票機(jī)制的實(shí)現(xiàn)可歸納為兩步^[13-14]: 1) 找到輸入圖像與模型中各個(gè)局部區(qū)域最匹配的區(qū)域, 并最大化所有局部區(qū)域的匹配得分; 2) 利用拓?fù)湓u價(jià)方法取得最佳的結(jié)構(gòu)匹配.由于投票機(jī)制是一種貪心算法, 可能得不到最優(yōu)的拓?fù)浼僭O(shè), 并且部件匹配通常采用窮舉搜索來實(shí)現(xiàn), 計(jì)算代價(jià)很高.

1.1.3 基于圖像分割的區(qū)域建議

基于圖像分割的區(qū)域建議建立在圖像分割的基礎(chǔ)上, 分割的圖像區(qū)域就是目標(biāo)的位置候選.語義分割是一種最直接的圖像分割方法, 需要對每個(gè)像素所屬的目標(biāo)類型進(jìn)行標(biāo)注^[15].目前主要采用的方法是概率圖模型, 例如采用CRF^[16]或MRF^[17]方法來鼓勵(lì)相鄰像素之間的標(biāo)記一致性.圖像分割是一個(gè)耗時(shí)而又復(fù)雜的過程, 而且很難將單個(gè)目標(biāo)完整地分割出來.

不同于以上策略, 文獻(xiàn)[6]先將圖片分割成若干小區(qū)域, 然后再聚合, 通過對聚合后的區(qū)域打分并排序, 獲得較有可能是目標(biāo)區(qū)域的窗口.文獻(xiàn)[18-19]中采用生成大量窗口并打分, 然后過濾掉低分的方法.文獻(xiàn)[20]對這些方法進(jìn)行了討論和比較.這些方法存在的主要問題是, 采樣數(shù)目較少時(shí)召回率不高、定位精度較低等.對于一個(gè)目標(biāo)檢測系統(tǒng)來說, 少量的候選區(qū)域不僅可以減少運(yùn)行時(shí)間, 而且使得檢測準(zhǔn)確率更高, 因此保證采樣數(shù)目少的情況下召回率仍然很高是至關(guān)重要的.為了解決這些問題, 一些研究者開始采用深度學(xué)習(xí)方法來產(chǎn)生候選區(qū)域.在MultiBox^[21-22]中, 通過采用深度神經(jīng)網(wǎng)絡(luò)回歸模型定位出若干可能的包圍邊框.在Deepbox^[23]中, Kuo等采用訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來給通過EdgeBoxes^[19]產(chǎn)生的候選區(qū)域進(jìn)行排序.在DeepProposal^[24]中, Ghodrati等評估了用卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生目標(biāo)候選區(qū)域的質(zhì)量, 發(fā)現(xiàn)最后一層卷積層可以以很高的召回率找到感興趣的目標(biāo), 但是定位精度很低, 而第一層網(wǎng)絡(luò)可以很好地定位目標(biāo), 但是召回率很低.基于此發(fā)現(xiàn), 他們設(shè)計(jì)了一種通過多層CNN特征由粗到細(xì)地串聯(lián)來產(chǎn)生候選區(qū)域的方法.文獻(xiàn)[7]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN), 把產(chǎn)生候選區(qū)域和區(qū)域分類聯(lián)合到一個(gè)深度神經(jīng)網(wǎng)絡(luò), 通過端到端訓(xùn)練, 在提高精度的同時(shí)降低了計(jì)算時(shí)間.最近, Gidaris等^[25]使用概率預(yù)測方式來進(jìn)一步提高目標(biāo)檢測的定位精度, 不同于邊框位置回歸的方法, 該方法首先將搜索區(qū)域劃分成若干個(gè)水平區(qū)域和豎直區(qū)域, 然后給搜索區(qū)域的每列或每行分配概率, 利用這些概率信息來不斷迭代獲得更精確的檢測框.

1.2 特征表示

特征表示是實(shí)現(xiàn)目標(biāo)視覺檢測必備的步驟, 選擇合適的特征模型將圖像區(qū)域映射為特征向量, 然后利用從訓(xùn)練樣本學(xué)習(xí)到的分類器對該特征向量進(jìn)行分類, 判斷其所屬類型.特征的表達(dá)能力直接影響分類器精度, 決定了算法的最終性能.特征模型主要分為手工設(shè)計(jì)的特征和自動學(xué)習(xí)的特征.

1.2.1 手工設(shè)計(jì)的特征

在深度學(xué)習(xí)熱潮之前, 主要采用手工設(shè)計(jì)的特征.手工特征數(shù)目繁多, 可以分為三大類:基于興趣點(diǎn)檢測的方法、基于密集提取的方法和基于多種特征組合的方法.

1) 基于興趣點(diǎn)檢測的方法

興趣點(diǎn)檢測方法通過某種準(zhǔn)則, 選擇具有明確定義并且局部紋理特征比較明顯的像素、邊緣和角點(diǎn)等^[3].其中Sobel、Prewitt、Roberts、Canny和LoG (Laplacian of Gaussian)等是典型的邊緣檢測算子^[26-29].而Harris、FAST (Features from accelerated segment test)、CSS (Curvature scale space)和DOG (Difference of Gaussian)等是典型的角點(diǎn)檢測算子^[30-32].興趣點(diǎn)檢測方法通常具有一定的幾何不變性, 能夠以較小的計(jì)算代價(jià)得到有意義的表達(dá).

2) 基于密集提取的方法

密集提取方法主要提取局部特征.區(qū)別于顏色直方圖等全局特征, 局部特征有利于處理目標(biāo)部分遮擋問題.常用的局部特征有SIFT (Scale-invariant feature transform)^[33]、HOG (Histogram of oriented gradient)^[5]、Haar-like^[34]和LBP (Local binary pattern)^[35-36]等.局部特征包含的信息豐富、獨(dú)特性好, 并且具有較強(qiáng)的不變性和可區(qū)分性, 能夠最大程度地對圖像進(jìn)行底層描述.但是其計(jì)算一般比較復(fù)雜, 近些年圖像的局部特征正在向快速和低存儲方向發(fā)展.

3) 基于多種特征組合的方法

手工特征具有良好的可擴(kuò)展性, 將興趣點(diǎn)檢測與密集提取相結(jié)合的多種特征組合方法, 能夠彌補(bǔ)利用單一特征進(jìn)行目標(biāo)表示的不足. DPM (Deformable part-based model)^[2]提出了一種有效的多種特征組合模型, 被廣泛應(yīng)用于目標(biāo)檢測任務(wù)并取得了良好效果, 例如行人檢測^[37-38]、人臉檢測^[39-40]和人體姿態(tài)估計(jì)^[41]等.另外, 文獻(xiàn)^[42]提出了一種改進(jìn)的DPM方法, 大大提升了檢測速度.

依靠手工設(shè)計(jì)特征, 需要豐富的專業(yè)知識并且花費(fèi)大量的時(shí)間.特征的好壞在很大程度上還要依靠經(jīng)驗(yàn)和運(yùn)氣, 往往整個(gè)算法的測試和調(diào)節(jié)工作都集中于此, 需要手工完成, 十分費(fèi)力.與之相比, 近年來受到廣泛關(guān)注的深度學(xué)習(xí)理論中的一個(gè)重要觀點(diǎn)就是手工設(shè)計(jì)的特征描述子作為視覺計(jì)算的第一步, 往往過早地丟失掉有用信息, 而直接從圖像中學(xué)習(xí)到與任務(wù)相關(guān)的特征表示, 比手工設(shè)計(jì)特征更加有效^[3].

1.2.2 自動學(xué)習(xí)的特征

近年來, 深度學(xué)習(xí)在圖像分類和目標(biāo)檢測等領(lǐng)域取得了突破性進(jìn)展, 成為目前最有效的自動特征學(xué)習(xí)方法.深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力, 通過監(jiān)督或非監(jiān)督的方式, 逐層自動地學(xué)習(xí)目標(biāo)的特征表示, 將原始數(shù)據(jù)經(jīng)過一系列非線性變換, 生成高層次的抽象表示, 避免了手工設(shè)計(jì)特征的繁瑣低效.深度學(xué)習(xí)在目標(biāo)視覺檢測中的研究現(xiàn)狀是本文的核心內(nèi)容, 將在第3節(jié)進(jìn)行詳細(xì)介紹.

1.3 區(qū)域分類

區(qū)域分類是指把候選區(qū)域的特征向量作為分類器輸入, 預(yù)測候選區(qū)域所屬的目標(biāo)類型.分類器在目標(biāo)檢測中的作用可以概括為:先利用訓(xùn)練數(shù)據(jù)集進(jìn)行模型學(xué)習(xí), 然后利用學(xué)習(xí)到的模型對新的候選區(qū)域進(jìn)行類型預(yù)測.分類器一般是利用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的, 常用的有支持向量機(jī)(Support vector machine, SVM)、Adaboost、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等.目前, 圖像識別任務(wù)中廣泛采用一對多(One-vs-others)的分類器訓(xùn)練方式^[43], 就是把其中一類模式作為正樣本, 其余模式作為負(fù)樣本, 針對每一類模式分別訓(xùn)練一個(gè)分類器; 在測試階段, 將圖像特征分別輸入到所有的分類器, 選擇分類器響應(yīng)最大的一類模式作為類型預(yù)測. Girshick等^[44]就是采用這種方式, 提取候選區(qū)域的特征表示, 利用一對多SVM分類器實(shí)現(xiàn)對PASCAL VOC圖像集20種目標(biāo)的檢測.

2 目標(biāo)視覺檢測的公共數(shù)據(jù)集

為了促進(jìn)目標(biāo)視覺檢測的研究進(jìn)展, 建設(shè)大規(guī)模的公共數(shù)據(jù)集成為必然要求.目前, 目標(biāo)視覺檢測研究常用的公共數(shù)據(jù)集有ImageNet、PASCAL VOC、SUN和MS COCO等.下面將從這些數(shù)據(jù)集包含的圖像數(shù)目、類型數(shù)目、每類樣本數(shù)等方面對它們進(jìn)行介紹.直觀對比如圖 2所示.

圖 2 幾種公共數(shù)據(jù)集的對比圖

Figure 2 Comparison of several common datasets

1) ImageNet數(shù)據(jù)集^[⁴⁵^]

該數(shù)據(jù)集是目前世界上最大的圖像分類數(shù)據(jù)集, 包含1 400萬幅圖像、2.2萬個(gè)類型, 平均每個(gè)類型包含1 000幅圖像.此外, ImgeNet還建立了一個(gè)包含1 000類物體, 有120萬圖像的數(shù)據(jù)集, 并將該數(shù)據(jù)集作為圖像識別競賽的數(shù)據(jù)平臺.

2) PASCAL VOC數(shù)據(jù)集^[⁴⁶^]

2005 ~ 2012年, 該數(shù)據(jù)集每年都發(fā)布關(guān)于圖像分類、目標(biāo)檢測和圖像分割等任務(wù)的數(shù)據(jù)集, 并在相應(yīng)數(shù)據(jù)集上舉行算法競賽, 極大地推動了計(jì)算機(jī)視覺領(lǐng)域的研究進(jìn)展.該數(shù)據(jù)集最初只提供了4個(gè)類型的圖像, 到2007年穩(wěn)定在20個(gè)類; 測試圖像的數(shù)量從最初的1 578幅, 到2011年穩(wěn)定在11 530幅.雖然該數(shù)據(jù)集類型數(shù)目比較少, 但是由于圖像中物體變化極大, 每幅圖像可能包含多個(gè)不同類型目標(biāo)對象, 并且目標(biāo)尺度變化很大, 因而檢測難度非常大.

3) SUN數(shù)據(jù)集^[⁴⁷^]

該數(shù)據(jù)集是一個(gè)覆蓋較大場景、位置、物體變化的數(shù)據(jù)集, 其中的場景名主要是從WorldNet中描述場景、位置、環(huán)境等任何具體的名詞得來. SUN數(shù)據(jù)集包含兩個(gè)評測集:一個(gè)是場景識別數(shù)據(jù)集, 稱為SUN 397, 共包含397類場景, 每類至少包含100幅圖像, 總共有108 754幅圖像; 另一個(gè)評測集為物體檢測數(shù)據(jù)集, 稱為SUN 2012, 包含16 873幅圖像.

4) MS COCO數(shù)據(jù)集^[⁴⁸^]

該數(shù)據(jù)集包含約30多萬幅圖像、200多萬個(gè)標(biāo)注物體、91個(gè)物體類型.雖然比ImageNet和SUN包含的類型少, 但是每一類物體的圖像多, 另外圖像中包含精確的分割信息, 是目前每幅圖像平均包含目標(biāo)數(shù)最多的數(shù)據(jù)集. MS COCO不但能夠用于目標(biāo)視覺檢測研究, 還能夠用來研究圖像中目標(biāo)之間的上下文關(guān)系.

3 深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展

3.1 深度學(xué)習(xí)簡介

深度學(xué)習(xí)模型具有強(qiáng)大的表征和建模能力, 通過監(jiān)督或非監(jiān)督的訓(xùn)練方式, 能夠逐層、自動地學(xué)習(xí)目標(biāo)的特征表示, 實(shí)現(xiàn)對物體層次化的抽象和描述. 1986年, Rumelhart等^[⁴⁹^]提出人工神經(jīng)網(wǎng)絡(luò)的反向傳播(Back propagation, BP)算法. BP算法指導(dǎo)機(jī)器如何從后一層獲取誤差而改變前一層的內(nèi)部參數(shù), 深度學(xué)習(xí)能夠利用BP算法發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu), 把原始數(shù)據(jù)通過一些簡單的非線性函數(shù)變成高層次的抽象表達(dá)^[⁵⁰^], 使計(jì)算機(jī)自動學(xué)習(xí)到模式特征, 從而避免了手工設(shè)計(jì)特征的繁瑣低效問題. Hinton等^[⁵¹^-⁵²^]于2006年首次提出以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù), 引起學(xué)術(shù)界的關(guān)注.之后, Bengio^[⁵³^]、LeCun^[⁵⁴^]和Lee^[⁵⁵^]等迅速開展了重要的跟進(jìn)工作, 開啟了深度學(xué)習(xí)研究的熱潮.深度學(xué)習(xí)技術(shù)首先在語音識別領(lǐng)域取得了突破性進(jìn)展^[⁵⁶^].在圖像識別領(lǐng)域, Krizhevsky等^[⁵⁷^]于2012年構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò), 在大規(guī)模圖像分類問題上取得了巨大成功.隨后在目標(biāo)檢測任務(wù)中, 深度學(xué)習(xí)方法^[⁷^,⁴⁴^,⁵⁸^]也超過了傳統(tǒng)方法.

目前應(yīng)用于圖像識別和分析研究的深度學(xué)習(xí)模型主要包括堆疊自動編碼器(Stacked auto-encoders, SAE)^[⁵³^]、深度信念網(wǎng)絡(luò)(Deep belief network, DBN)^[⁵¹^-⁵²^]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)^[⁵⁹^]等.

SAE模型的實(shí)質(zhì)是多個(gè)自動編碼器(Auto-encoder, AE)的堆疊.一個(gè)自動編碼器是由編碼器和解碼器兩部分組成, 能夠盡可能復(fù)現(xiàn)輸入信號.作為一種無監(jiān)督學(xué)習(xí)的非線性特征提取方法, 其輸出與輸入具有相同的維度, 隱藏層則被用來進(jìn)行原始數(shù)據(jù)的特征表示或編碼. SAE模型將前一層自動編碼器的輸出作為后一層自動編碼器的輸入, 逐層地對自動編碼器進(jìn)行預(yù)訓(xùn)練, 然后利用BP算法對整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào).目前基于SAE的擴(kuò)展模型有很多, 例如, 堆疊去噪自動編碼器(Stacked denoising autoencoders, SDA)^[⁶⁰^], 以及堆疊卷積自動編碼器(Stacked convolutional auto-encoders, SCAE)^[⁶¹^].

DBN類似于SAE, 它的基本單元是受限玻爾茲曼機(jī)(Restricted Boltzmann machines, RBM), 整個(gè)網(wǎng)絡(luò)的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和全局微調(diào).首先以原始輸入為可視層, 訓(xùn)練一個(gè)單層的RBM, 該RBM訓(xùn)練完成后, 其隱層輸出作為下一層RBM的輸入, 繼續(xù)訓(xùn)練下一層RBM.以此類推, 逐層訓(xùn)練, 直至將所有RBM訓(xùn)練完成, 通過這種貪婪式的無監(jiān)督訓(xùn)練, 使整個(gè)DBN模型得到一個(gè)比較好的初始值, 然后加入數(shù)據(jù)標(biāo)簽對整個(gè)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的微調(diào), 進(jìn)一步改善網(wǎng)絡(luò)性能.

CNN是圖像和視覺識別中的研究熱點(diǎn), 近年來取得了豐碩成果. 圖 3給出了由LeCun等^[⁵⁹^]提出的用于數(shù)字手寫體識別的CNN網(wǎng)絡(luò)結(jié)構(gòu), CNN通常包含卷積層、池化層和全連接層.卷積層通過使用多個(gè)濾波器與整個(gè)圖像進(jìn)行卷積, 可以得到圖像的多個(gè)特征圖表示; 池化層實(shí)際上是一個(gè)下采樣層, 通過求局部區(qū)域的最大值或平均值來達(dá)到降采樣的目的, 進(jìn)一步減少特征空間; 全連接層用于進(jìn)行高層推理, 實(shí)現(xiàn)最終分類. CNN的權(quán)值共享和局部連接大大減少了參數(shù)的規(guī)模, 降低了模型的訓(xùn)練復(fù)雜度, 同時(shí)卷積操作保留了圖像的空間信息, 具有平移不變性和一定的旋轉(zhuǎn)、尺度不變性. 2012年, Krizhevsky等^[⁵⁷^]將CNN模型用于ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ImageNet large scale visual recognition challenge, ILSVRC)的圖像分類問題, 使錯(cuò)誤率大幅降低, 在國際上引起了對CNN模型的高度重視, 也因此推動了目標(biāo)視覺檢測的研究進(jìn)展.

圖 3 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)^[⁵⁹^]

Figure 3 Basic structure of convolutional neural network^[⁵⁹^]

3.2 AlexNet及其改進(jìn)模型

隨著深度學(xué)習(xí)的發(fā)展, 人們將深度學(xué)習(xí)應(yīng)用于圖像分類和目標(biāo)檢測任務(wù)中, 在許多公開競賽中取得了明顯優(yōu)于傳統(tǒng)方法的結(jié)果. Krizhevsky等^[⁵⁷^]提出了一種新型卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet, 隨后其他研究者相繼提出ZFNet^[⁶²^]、VGG^[⁶³^]、GoogLeNet^[⁶⁴^]和ResNet^[⁸^]等改進(jìn)模型, 進(jìn)一步提高了模型精度. 表 1顯示了幾種經(jīng)典CNN模型在圖像分類任務(wù)中的性能對比. ILSVRC的圖像分類錯(cuò)誤率每年都在被刷新, 如圖 4所示.隨著模型變得越來越深, 圖像分類的Top-5錯(cuò)誤率也越來越低, 目前已經(jīng)降低到3.08%附近^[⁶⁵^].而在同樣的ImageNet數(shù)據(jù)集上, 人眼的辨識錯(cuò)誤率大約在5.1%.盡管這些模型都是針對圖像分類來做的, 但是都在解決一個(gè)最根本的問題, 即更強(qiáng)大的特征表示.采用這些CNN模型得到更強(qiáng)大的特征表示, 然后應(yīng)用到目標(biāo)檢測任務(wù), 可以獲得更高的檢測精度.

表 1 經(jīng)典CNN模型在ILSVRC圖像分類任務(wù)上的性能對比

Table 1 Performance comparison of classical CNN model in image classification task of ILSVRC

圖 4 ILSVRC圖像分類任務(wù)歷年冠軍方法的Top-5錯(cuò)誤率(下降曲線)和網(wǎng)絡(luò)層數(shù)(上升曲線)

Figure 4 Top-5 error rate (descent curve) and network layers (rise curve) of the champion methods each year in image classification task of ILSVRC

AlexNet^[⁵⁷^]在ILSVRC 2012圖像分類任務(wù)上取得了Top-5錯(cuò)誤率16.4%, 明顯優(yōu)于基于傳統(tǒng)方法的第2名的結(jié)果(Top-5錯(cuò)誤率26.2%). AlexNet神經(jīng)網(wǎng)絡(luò)由5個(gè)卷積層、最大池化層、Dropout層和3個(gè)全連接層組成, 網(wǎng)絡(luò)能夠?qū)? 000個(gè)圖像類型進(jìn)行分類.由于AlexNet的成功, 許多研究人員開始關(guān)注和改進(jìn)CNN結(jié)構(gòu). Zeiler等^[⁶²^]通過可視化AlexNet網(wǎng)絡(luò), 發(fā)現(xiàn)第1層濾波器是非常高頻和低頻信息的混合, 很少覆蓋中間頻率.并且由于第2層卷積采用比較大的步長, 導(dǎo)致第2層出現(xiàn)混疊失真(Aliasing artifacts).為了解決這些問題, 他們將第1層濾波器的尺寸從11 × 11減小到7 × 7, 將步長從4減小到2, 形成ZFNet模型. ZFNet在網(wǎng)絡(luò)的第1層和第2層保留了更多信息, 降低了分類錯(cuò)誤率.

Simonyan等^[⁶³^]隨后提出VGG網(wǎng)絡(luò), 探索在網(wǎng)絡(luò)參數(shù)總數(shù)基本不變的情況下, CNN隨著層數(shù)的增加, 導(dǎo)致其性能的變化.不同于AlexNet, VGG采用的濾波器尺寸是3 × 3, 通過將多個(gè)3 × 3濾波器堆疊的方式來代替一個(gè)大尺寸的濾波器, 因?yàn)槎鄠€(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸濾波器卷積層具有更高的非線性, 使模型更有判別能力, 而且多個(gè)3 × 3尺寸的卷積層比一個(gè)大尺寸的濾波器有更少的參數(shù).通過加入1 × 1卷積層, 在不影響輸入輸出維數(shù)的情況下, 進(jìn)一步增加網(wǎng)絡(luò)的非線性表達(dá)能力.

Szegedy等^[⁶⁴^]提出了一種新的深度CNN模型GoogLeNet, 習(xí)慣上稱為Inception-v1.只利用了比AlexNet^[⁵⁷^]少12倍的參數(shù), 但分類錯(cuò)誤率更低. GoogLeNet采用Inception結(jié)構(gòu), 上一層的輸出經(jīng)過1×1 、3×3、5×5 的卷積層和3×3的池化層, 然后拼接在一起作為Inception的輸出.并且在3×3 、5 × 5卷積層之前采用1×1卷積層來降維, 既增加了網(wǎng)絡(luò)的深度, 又減少了網(wǎng)絡(luò)參數(shù). Inception結(jié)構(gòu)既提高了網(wǎng)絡(luò)對尺度的適應(yīng)性, 又提高了網(wǎng)絡(luò)計(jì)算資源的利用率.但是深度網(wǎng)絡(luò)在訓(xùn)練時(shí), 由于模型參數(shù)在不斷更新, 各層輸入的概率分布在不斷變化, 因此必須使用較小的學(xué)習(xí)率和較好的參數(shù)初值, 導(dǎo)致網(wǎng)絡(luò)訓(xùn)練很慢, 同時(shí)也導(dǎo)致采用飽和的非線性激活函數(shù)(例如Sigmoid)時(shí)訓(xùn)練困難.為了解決這些問題, 又出現(xiàn)了GoogLeNet的續(xù)作Inception-v2^[⁶⁶^].它加入了批規(guī)范化(Batch normalization)處理, 將每一層的輸出都進(jìn)行規(guī)范化, 保持各層輸入的分布穩(wěn)定, 使得梯度受參數(shù)初值的影響減小.批規(guī)范化加快了網(wǎng)絡(luò)訓(xùn)練速度, 并且在一定程度上起到正則化的作用. Inception-v2在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到4.8%.隨著Szegedy等研究GoogLeNet的深入, 網(wǎng)絡(luò)的復(fù)雜度也逐漸提高. Inception-v3^[⁶⁷^]變得更加復(fù)雜, 它通過將大的濾波器拆解成若干個(gè)小的濾波器的堆疊, 在不降低網(wǎng)絡(luò)性能的基礎(chǔ)上, 增加了網(wǎng)絡(luò)的深度和非線性. Inception-v3在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.5%.

2015年, He等^[⁸^]提出了深度高達(dá)上百層的殘差網(wǎng)絡(luò)ResNet, 網(wǎng)絡(luò)層數(shù)(152層)比以往任何成功的神經(jīng)網(wǎng)絡(luò)的層數(shù)多5倍以上, 在ImageNet測試集上的圖像分類錯(cuò)誤率低至3.57%. ResNet使用一種全新的殘差學(xué)習(xí)策略來指導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì), 重新定義了網(wǎng)絡(luò)中信息流動的方式, 重構(gòu)了網(wǎng)絡(luò)學(xué)習(xí)的過程, 很好地解決了深度神經(jīng)網(wǎng)絡(luò)層數(shù)與錯(cuò)誤率之間的矛盾(即網(wǎng)絡(luò)達(dá)到一定層數(shù)后, 更深的網(wǎng)絡(luò)導(dǎo)致更高的訓(xùn)練和測試錯(cuò)誤率). ResNet具有很強(qiáng)的通用性, 不但在圖像分類任務(wù), 而且在ImageNet數(shù)據(jù)集的目標(biāo)檢測、目標(biāo)定位任務(wù)以及MS COCO數(shù)據(jù)集的目標(biāo)檢測和分割任務(wù)上都取得了當(dāng)時(shí)最好的競賽成績.此后, Szegedy等^[⁶⁵^]通過將Inception結(jié)構(gòu)與ResNet結(jié)構(gòu)相結(jié)合, 提出了Inception-ResNet-v1和Inception-ResNet-v2兩種混合網(wǎng)絡(luò), 極大地加快了訓(xùn)練速度, 并且性能也有所提升.除了這種混合結(jié)構(gòu), 他們還設(shè)計(jì)了一個(gè)更深更優(yōu)化的Inception-v4網(wǎng)絡(luò), 單純依靠Inception結(jié)構(gòu), 達(dá)到與Inception-ResNet-v2相近的性能. Szegedy等^[⁶⁵^]將3個(gè)Inception-ResNet-v2網(wǎng)絡(luò)和1個(gè)Inception-v4網(wǎng)絡(luò)相集成, 在ILSVRC 2012圖像分類任務(wù)上的Top-5錯(cuò)誤率降低到3.08%.

3.3 深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用

深度學(xué)習(xí)技術(shù)的發(fā)展, 極大推動了目標(biāo)視覺檢測研究.目標(biāo)檢測與圖像分類最主要的不同在于目標(biāo)檢測關(guān)注圖像的局部結(jié)構(gòu)信息, 而圖像分類關(guān)注圖像的全局表達(dá).與圖像分類一樣, 目標(biāo)檢測的輸入也是整幅圖像.目標(biāo)檢測和圖像分類在特征表示和分類器設(shè)計(jì)上有很大的相通性.

接下來, 我們從基于區(qū)域建議的方法和無區(qū)域建議的方法兩方面來介紹深度學(xué)習(xí)在目標(biāo)視覺檢測中的研究現(xiàn)狀.

3.3.1 基于區(qū)域建議(Proposal-based)的方法

Girshick等^[⁴⁴^]提出的R-CNN (Region-based convolutional neural networks)方法, 是近年來基于深度學(xué)習(xí)的目標(biāo)檢測研究的重要參考方法. R-CNN將目標(biāo)區(qū)域建議(Region proposal)和CNN相結(jié)合, 在PASCAL VOC 2012上的檢測平均精度mAP (Mean average precision)達(dá)到53.3%, 比傳統(tǒng)方法有了明顯改進(jìn). R-CNN的基本流程如圖 5所示, 首先對每一幅輸入圖像, 采用選擇性搜索(Selective search)^[⁶^]來提取候選區(qū)域; 然后用CNN網(wǎng)絡(luò)從每個(gè)區(qū)域提取一個(gè)固定長度的特征向量, 這里采用AlexNet^[⁵⁷^]結(jié)構(gòu), 圖像經(jīng)過5個(gè)卷積層和2個(gè)全連接層, 得到一個(gè)4 096維的特征向量; 接著把提取到的特征向量送入支持向量機(jī)進(jìn)行分類.由于一些區(qū)域存在高度交疊, Girshick等采用非極大值抑制(Non-maximum suppression)來舍棄那些與更高得分區(qū)域的IoU (Intersection-over-Union)過大的區(qū)域.為了得到更精確的結(jié)果, 還采用了邊框回歸方法來進(jìn)一步改善檢測結(jié)果.在R-CNN模型的訓(xùn)練過程中, 由于目標(biāo)檢測標(biāo)注數(shù)據(jù)集的規(guī)模不夠, Girshick等先將網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集ImageNet上進(jìn)行預(yù)訓(xùn)練, 然后用N+1 類(N個(gè)目標(biāo)類和1個(gè)背景類)的輸出層來替換1 000類的Softmax層, 再針對目標(biāo)檢測任務(wù), 用PASCAL VOC數(shù)據(jù)集進(jìn)行微調(diào).這種方法很好地解決了訓(xùn)練數(shù)據(jù)不足的問題, 進(jìn)一步提升了檢測精度.得益于CNN的參數(shù)共享以及更低維度的特征, 整個(gè)檢測算法更加高效.但是, R-CNN也存在一些不容忽視的問題: 1) 候選區(qū)域之間的交疊使得特征被重復(fù)提取, 造成了嚴(yán)重的速度瓶頸, 降低了計(jì)算效率; 2) 將候選區(qū)域直接縮放到固定大小, 破壞了物體的長寬比, 可能導(dǎo)致物體的局部細(xì)節(jié)損失; 3) 使用邊框回歸有助于提高物體的定位精度, 但是如果待檢測物體存在遮擋, 該方法將難以奏效.

圖 5 R-CNN的計(jì)算流程^[⁴⁴^]

Figure 5 Calculation flow of R-CNN^[⁴⁴^]

He等^[⁶⁸^]針對R-CNN速度慢{以及要求輸入圖像塊尺寸固定}的問題, 提出空間金字塔池化(Spatial pyramid pooling, SPP)模型.在R-CNN中, 要將提取到的目標(biāo)候選區(qū)域變換到固定尺寸, 再輸入到卷積神經(jīng)網(wǎng)絡(luò), He等加入了一個(gè)空間金字塔池化層來避免了這個(gè)限制. SPP-net網(wǎng)絡(luò)不論輸入圖像的尺寸大小, 都能產(chǎn)生固定長度的特征表示. SPP-net是對整幅圖像提取特征, 在最后一層卷積層得到特征圖后, 再針對每個(gè)候選區(qū)域在特征圖上進(jìn)行映射, 由此得到候選區(qū)域的特征.因?yàn)楹蜻x區(qū)域的尺寸各不相同, 導(dǎo)致它們映射所得到的特征圖大小也不同, 但CNN的全連接層需要固定維度的輸入, 因此引入了空間金字塔池化層來把特征轉(zhuǎn)換到相同的維度.空間金字塔池化的思想來源于空間金字塔模型(Spatial pyramid model, SPM)^[⁴³^], 它采用多個(gè)尺度的池化來替代原來單一的池化. SPP層用不同大小的池化窗口作用于卷積得到的特征圖, 池化窗口的大小和步長根據(jù)特征圖的尺寸進(jìn)行動態(tài)計(jì)算. SPP-net對于一幅圖像的所有候選區(qū)域, 只需要進(jìn)行一次卷積過程, 避免了重復(fù)計(jì)算, 顯著提高了計(jì)算效率, 而且空間金字塔池化層使得檢測網(wǎng)絡(luò)可以處理任意尺寸的圖像, 因此可以采用多尺度圖像來訓(xùn)練網(wǎng)絡(luò), 從而使得網(wǎng)絡(luò)對目標(biāo)的尺度有很好的魯棒性.該方法在速度上比R-CNN提高24 ~ 102倍, 并且在PASCAL VOC 2007和Caltech 101數(shù)據(jù)集上取得了當(dāng)時(shí)最好的成績.但是它存在以下缺點(diǎn): 1) SPP-net的檢測過程是分階段的, 在提取特征后用SVM分類, 然后還要進(jìn)一步進(jìn)行邊框回歸, 這使得訓(xùn)練過程復(fù)雜化; 2) CNN提取的特征存儲需要的空間和時(shí)間開銷大; 3) 在微調(diào)階段, SPP-net只能更新空間金字塔池化層后的全連接層, 而不能更新卷積層, 這限制了檢測性能的提升.

后來, Girshick等^[⁵⁸^]對R-CNN和SPP-net進(jìn)行了改進(jìn), 提出能夠?qū)崿F(xiàn)特征提取、區(qū)域分類和邊框回歸的端到端聯(lián)合訓(xùn)練的Fast R-CNN算法, 計(jì)算流程如圖 6所示.與R-CNN類似, Fast R-CNN首先在圖像中提取感興趣區(qū)域(Regions of Interest, RoI); 然后采用與SPP-net相似的處理方式, 對每幅圖像只進(jìn)行一次卷積, 在最后一個(gè)卷積層輸出的特征圖上對每個(gè)RoI進(jìn)行映射, 得到相應(yīng)的RoI的特征圖, 并送入RoI池化層(相當(dāng)于單層的SPP層, 通過該層把各尺寸的特征圖統(tǒng)一到相同的大小); 最后經(jīng)過全連接層得到兩個(gè)輸出向量, 一個(gè)進(jìn)行Softmax分類, 另一個(gè)進(jìn)行邊框回歸.在微調(diào)階段, Fast R-CNN采用一種新的層級采樣方法, 先采樣圖像, 再從采樣出的圖像中對RoI進(jìn)行采樣, 同一幅圖像的RoI共享計(jì)算和內(nèi)存, 使得訓(xùn)練更加高效. Fast R-CNN采用Softmax分類與邊框回歸一起進(jìn)行訓(xùn)練, 省去了特征存儲, 提高了空間和時(shí)間利用率, 同時(shí)分類和回歸任務(wù)也可以共享卷積特征, 相互促進(jìn).與R-CNN相比, 在訓(xùn)練VGG網(wǎng)絡(luò)時(shí), Fast R-CNN的訓(xùn)練階段快9倍, 測試階段快213倍; 與SPP-net相比, Fast R-CNN的訓(xùn)練階段快3倍, 測試階段快10倍, 并且檢測精度有一定提高.然而, Fast R-CNN仍然存在速度上的瓶頸, 就是區(qū)域建議步驟耗費(fèi)了整個(gè)檢測過程的大量時(shí)間.

圖 6 Fast R-CNN的計(jì)算流程^[⁵⁸^]

Figure 6 Calculation flow of Fast R-CNN^[⁵⁸^]

為了解決區(qū)域建議步驟消耗大量計(jì)算資源, 導(dǎo)致目標(biāo)檢測不能實(shí)時(shí)的問題, Ren等^[⁷^]提出區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN), 并且把RPN和Fast R-CNN融合到一個(gè)統(tǒng)一的網(wǎng)絡(luò)(稱為Faster R-CNN), 共享卷積特征. RPN將一整幅圖像作為輸入, 輸出一系列的矩形候選區(qū)域.它是一個(gè)全卷積網(wǎng)絡(luò)模型, 通過在與Fast R-CNN共享卷積層的最后一層輸出的特征圖上滑動一個(gè)小型網(wǎng)絡(luò), 這個(gè)網(wǎng)絡(luò)與特征圖上的小窗口全連接, 每個(gè)滑動窗口映射到一個(gè)低維的特征向量, 再輸入給兩個(gè)并列的全連接層, 即分類層(cls layer)和邊框回歸層(reg layer), 由于網(wǎng)絡(luò)是以滑動窗的形式來進(jìn)行操作, 所以全連接層的參數(shù)在所有空間位置是共享的.因此該結(jié)構(gòu)由一個(gè)卷積層后連接兩個(gè)并列的1×1卷積層實(shí)現(xiàn), 如圖 7所示.對于每個(gè)小窗口, 以中心點(diǎn)為基準(zhǔn)點(diǎn)選取k (作者采用k=9 )個(gè)不同尺度、不同長寬比的Anchor.對于每個(gè)Anchor, 分類層輸出2個(gè)值, 分別表示其屬于目標(biāo)的概率與屬于背景的概率; 邊框回歸層輸出4個(gè)值, 表示其坐標(biāo)位置. RPN的提出, 以及與Fast R-CNN進(jìn)行卷積特征的共享, 使得區(qū)域建議步驟的計(jì)算代價(jià)很小.與以前的方法相比, 提取的候選區(qū)域數(shù)量大幅減少, 同時(shí)改進(jìn)了候選區(qū)域的質(zhì)量, 從而提高了整個(gè)目標(biāo)檢測網(wǎng)絡(luò)的性能, 幾乎可以做到實(shí)時(shí)檢測.在PASCAL VOC 2007和2012、MS COCO等數(shù)據(jù)集上, Faster R-CNN取得了當(dāng)時(shí)最高的檢測精度.但是由于深度特征丟失了物體的細(xì)節(jié)信息, 造成定位性能差, Faster R-CNN對小尺寸物體的檢測效果不好.

圖 7 區(qū)域建議網(wǎng)絡(luò)的基本結(jié)構(gòu)^[⁷^]

Figure 7 Basic structure of region proposal network^[⁷^]

Bell等^[⁶⁹^]提出的ION (Inside-outside net)也是基于區(qū)域建議的目標(biāo)檢測方法.為了提高檢測精度, ION同時(shí)利用RoI的內(nèi)部和外部信息.其中內(nèi)部信息是指多尺度的信息提取.不同于以前的方法將最后一層卷積層輸出作為特征圖, Bell等將不同卷積層的特征連接在一起, 作為一個(gè)多尺度特征用來預(yù)測, 這樣做的目的是對于一些很小的物體, 不會丟失在低層的高分辨率信息. RoI的外部信息是指上下文信息, 在視覺識別中上下文信息具有很重要的作用.為了得到上下文特征, Bell等采用沿著圖像的橫軸或縱軸獨(dú)立地使用RNN的方法, 并把它們的輸出組合在一起, 重復(fù)該過程得到的輸出作為上下文特征.最后把這兩種特征組合在一起, 并調(diào)整到固定的大小輸入到全連接層, 進(jìn)行Softmax分類和邊框回歸.該方法在檢測小物體上的性能比以前的方法更好, 在PASCAL VOC 2012目標(biāo)檢測任務(wù)上將平均精度mAP從73.9 %提高到76.4 %, 在MS COCO 2015目標(biāo)檢測任務(wù)上取得第3名的成績.

Yang等^[⁷⁰^]為了處理不同尺度的目標(biāo), 并且提高對候選區(qū)域的計(jì)算效率, 提出了兩個(gè)策略, 統(tǒng)稱為SDP-CRC.一個(gè)策略是采用與尺度相關(guān)的池化層(Scale-dependent pooling, SDP), 由于不同尺寸的物體可能在不同的卷積層上得到不同的響應(yīng), 小尺寸物體會在淺層得到強(qiáng)響應(yīng), 而大尺寸物體可能在深層得到強(qiáng)響應(yīng).基于這一思想, SDP根據(jù)每個(gè)候選區(qū)域的尺寸, 從對應(yīng)的卷積特征圖上池化特征.對于小尺度的候選區(qū)域, 從第三層卷積特征圖上池化特征; 對于中等尺度的候選區(qū)域, 從第四層卷積特征圖上池化特征; 對于大尺度的候選區(qū)域, 從第五層卷積特征圖上池化特征.另一個(gè)策略是采用級聯(lián)拒絕分類器(Cascaded rejection classifier, CRC), 快速排除一些明顯不包含目標(biāo)的候選區(qū)域, 只保留那些更可能包含目標(biāo)的候選區(qū)域, 交由Fast R-CNN做最終分類.與Fast R-CNN相比, 該方法能夠更加準(zhǔn)確地檢測小尺寸目標(biāo), 在平均檢測精度和檢測速度上都有很大提升.

為了提高Fast R-CNN訓(xùn)練時(shí)的效率, Shrivastava等^[⁷¹^]提出了困難樣本在線挖掘(Online hard example mining, OHEM)的思想, 該方法利用Bootstrapping^[⁷²^]技術(shù), 對隨機(jī)梯度下降算法進(jìn)行修改, 使得在訓(xùn)練過程中加入在線挖掘困難樣本的策略. OHEM機(jī)制的加入提高了Fast R-CNN方法在PASCAL VOC 2007和2012上的檢測精度.

在Faster R-CNN基礎(chǔ)上, Kong等^[⁷³^]提出了HyperNet, 計(jì)算流程如圖 8所示.通過把不同卷積層得到的特征圖像聚集起來得到超特征(Hyper feature)來獲得質(zhì)量更高的候選區(qū)域.由于不同卷積層的輸出尺寸不同, 較淺層的特征圖像分辨率較高, 邊框定位精度高, 但是召回率低; 較深層的特征圖像分辨率低, 對小尺寸物體的邊框定位精度低, 但是這些特征有利于提高召回率.因此, 他們通過多層特征的融合, 解決了對小物體很難提取到精細(xì)特征的問題.該方法在每幅圖像中僅提取100個(gè)候選區(qū)域, 在PASCAL VOC 2007和2012數(shù)據(jù)集上獲得了很好的檢測效果.

圖 8 HyperNet的計(jì)算流程^[⁷³^]

Figure 8 Calculation flow of HyperNet^[⁷³^]

許多基于區(qū)域建議的目標(biāo)檢測方法存在一個(gè)共同問題, 就是有一部分子網(wǎng)絡(luò)需要重復(fù)計(jì)算.例如最早提出的R-CNN, 每一個(gè)候選區(qū)域都要經(jīng)歷一次CNN網(wǎng)絡(luò)提取特征, 這導(dǎo)致目標(biāo)檢測速度非常慢.之后提出的Fast R-CNN和Faster R-CNN等方法, 在最后一個(gè)卷積層通過RoI pooling把每一個(gè)候選區(qū)域變成一個(gè)尺寸一致的特征圖, 但是對于每一個(gè)特征圖, 還要經(jīng)過若干次全連接層才能得到結(jié)果.于是, Dai等^[⁷⁴^]提出了一種新的基于區(qū)域的全卷積網(wǎng)絡(luò)檢測方法R-FCN.為了給網(wǎng)絡(luò)引入平移變化, 用專門的卷積層構(gòu)建位置敏感的分?jǐn)?shù)圖(Position-sensitive score maps), 編碼感興趣區(qū)域的相對空間位置信息.該網(wǎng)絡(luò)解決了Faster R-CNN由于重復(fù)計(jì)算全連接層而導(dǎo)致的耗時(shí)問題, 實(shí)現(xiàn)了讓整個(gè)網(wǎng)絡(luò)中所有的計(jì)算都可以共享.

最近, Kim等^[⁷⁵^]提出PVANET網(wǎng)絡(luò), 在TITAN X上實(shí)現(xiàn)了基于輕量級模型的目標(biāo)檢測, 處理一幅圖像僅需要46 ms, 在PASCAL VOC 2012數(shù)據(jù)集上的檢測平均精度達(dá)到82.5 %.為了減少網(wǎng)絡(luò)參數(shù), PVANET采用了Concatenated ReLU^[⁷⁶^]結(jié)構(gòu), 在不損失精度的情況下使通道數(shù)減少一半, 并在拼接操作之后加入了尺度變化和偏移.網(wǎng)絡(luò)中還加入了Inception^[⁶⁴^]模型來更有效地捕捉各種尺度的物體, 以及HyperNet^[⁷³^]中多尺度特征融合的思想, 來增加對細(xì)節(jié)的提取.

3.3.2 無區(qū)域建議(Proposal-free)的方法

基于區(qū)域建議的目標(biāo)檢測方法不能利用局部目標(biāo)在整幅圖像中的空間信息, 所以一些研究者開展了無區(qū)域建議的目標(biāo)檢測研究, 主要采用回歸的思想.早期提出的無區(qū)域建議的方法, 檢測效果不太理想.

DPM模型^[²^]是一種性能較好的傳統(tǒng)目標(biāo)檢測模型.它對目標(biāo)內(nèi)在部件進(jìn)行結(jié)構(gòu)化建模, 可以更好地適應(yīng)非剛體目標(biāo)的較大形變, 大大提高了檢測性能.但是DPM模型的構(gòu)建需要關(guān)于物體結(jié)構(gòu)的先驗(yàn)知識(例如部件個(gè)數(shù)), 并且模型訓(xùn)練也比較復(fù)雜. Szegedy等^[¹^]將目標(biāo)檢測看做一個(gè)回歸問題, 估計(jì)圖像中的目標(biāo)位置和目標(biāo)類型概率.作者通過采用基于深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)的回歸來輸出目標(biāo)包圍窗口的二元掩膜(Mask), 從掩膜中提取目標(biāo)窗口.該方法的運(yùn)行框架如圖 9所示, 網(wǎng)絡(luò)中采用的卷積神經(jīng)網(wǎng)絡(luò)是AlexNet結(jié)構(gòu), 但是用回歸層代替最后一層.基于DNN的回歸不僅能學(xué)習(xí)到有利于分類的特征表示, 還能捕獲到很強(qiáng)的目標(biāo)幾何信息, Szegedy等還采用DNN定位器進(jìn)一步提高了定位準(zhǔn)確度.由于用單一的掩膜很難區(qū)分出識別的前景是單個(gè)物體還是粘連的多個(gè)物體, 作者采用了多個(gè)掩膜, 為每種掩膜訓(xùn)練一個(gè)單獨(dú)的DNN, 這也使得網(wǎng)絡(luò)訓(xùn)練復(fù)雜度很高, 很難擴(kuò)展到多種目標(biāo)類型.

圖 9 基于DNN回歸的目標(biāo)檢測框架^[¹^]

Figure 9 Object detection framework based on DNN regression^[¹^]

Sermanet等^[⁷⁷^]提出Overfeat模型, 把一個(gè)卷積神經(jīng)網(wǎng)絡(luò)同時(shí)用于分類、定位和檢測這幾個(gè)不同的任務(wù).卷積層作為特征提取層保持不變, 只需要針對不同的任務(wù)改變網(wǎng)絡(luò)的最后幾層為分類或回歸層. Overfeat的模型結(jié)構(gòu)與AlexNet結(jié)構(gòu)^[⁵⁷^]基本相同.其中, 前面5個(gè)卷積層為不同任務(wù)的共享層, 其余的層則根據(jù)任務(wù)進(jìn)行相應(yīng)的調(diào)整, 并對網(wǎng)絡(luò)做了一些改動.為了避免圖像的某些位置被忽略, Sermanet等采用偏置池化層來替換最后一層池化層, 既實(shí)現(xiàn)了池化操作, 也減小了采樣間隔. Overfeat訓(xùn)練分類模型時(shí)只使用單個(gè)尺度(221×221 )進(jìn)行訓(xùn)練, 測試時(shí)使用多個(gè)尺度輸入圖像, 沒有使用AlexNet中的對比歸一化.對于檢測問題, 傳統(tǒng)的方法是采用不同尺寸的滑動窗對整幅圖像進(jìn)行密集采樣, 然后對每一個(gè)采樣所得的圖像塊進(jìn)行檢測, 從而確定目標(biāo)物體的位置. Overfeat使用CNN來進(jìn)行滑動窗操作, 避免了對各圖像塊的單獨(dú)操作, 提高了算法效率; 而且將全連接層看作卷積層, 使得輸入圖像的尺寸不受限制.但是Overfeat對于較小尺寸目標(biāo)的識別依然存在困難.

近年來, Redmon等^[⁷⁸^]提出了一種新的無區(qū)域建議的目標(biāo)檢測方法, 稱為YOLO (You only look once).作為一種統(tǒng)一的、實(shí)時(shí)的檢測框架, YOLO的檢測速度非?？? 可以達(dá)到45 fps (Frame per second). YOLO用一個(gè)單一的卷積網(wǎng)絡(luò)直接基于整幅圖像來預(yù)測包圍邊框的位置及所屬類型, 首先將一幅圖像分成S×S 個(gè)網(wǎng)格, 每個(gè)網(wǎng)格要預(yù)測B個(gè)邊框, 每個(gè)邊框除了要回歸自身的位置之外, 還要附帶預(yù)測一個(gè)置信度.置信度不僅反映了包含目標(biāo)的可信程度, 也反映了預(yù)測位置的準(zhǔn)確度.另外對每個(gè)網(wǎng)格還要預(yù)測C個(gè)類型的條件概率, 將這些預(yù)測結(jié)果編碼為一個(gè)S×S×(B×5+C)維的張量(Tensor).整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)類似于GoogLeNet, 包含24個(gè)卷積層和2個(gè)全連接層, 卷積層用來從圖像中提取特征, 全連接層預(yù)測邊框的位置坐標(biāo)和類型概率. YOLO模型通過采用空間限制, 減少了對同一目標(biāo)的重復(fù)檢測, 大大提高了效率, 能夠達(dá)到實(shí)時(shí)的效果.但是YOLO的整體性能不如Fast R-CNN和Faster R-CNN, 并且對于相鄰的目標(biāo)和成群的小尺寸目標(biāo)(例如成群的鳥)的檢測效果不好, 對于新的或異常尺度的目標(biāo)泛化能力較差.

與YOLO類似, Najibi等^[⁷⁹^]提出的G-CNN模型也著重于檢測速度的提升.該方法將目標(biāo)檢測模型轉(zhuǎn)化為迭代回歸問題, 通過對整個(gè)圖像進(jìn)行不同尺度的網(wǎng)格劃分得到初始檢測框, 然后采用分段回歸模型多次迭代, 不斷提高邊框準(zhǔn)確度. G-CNN使用了約180個(gè)初始邊框, 經(jīng)過5次迭代達(dá)到與Fast R-CNN相當(dāng)?shù)臋z測精度, 但是計(jì)算速度比Fast R-CNN快5倍.

針對YOLO存在的不足, Liu等^[⁸⁰^]提出SSD模型, 在提高mAP的同時(shí)兼顧實(shí)時(shí)性的要求. SSD使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行卷積后, 在不同層次的特征圖上生成一系列不同尺寸和長寬比的邊框.在測試階段, 該網(wǎng)絡(luò)對每一個(gè)邊框中分別包含各個(gè)類型的物體的可能性進(jìn)行預(yù)測, 并且調(diào)整邊框來適應(yīng)目標(biāo)物體的形狀.在PASCAL VOC、MS COCO和ILSVRC數(shù)據(jù)集上的實(shí)驗(yàn)顯示, SSD在保證精度的同時(shí), 其速度要比用候選區(qū)域的方法快很多.與YOLO相比, 即使是在輸入圖像較小的情況下, SSD也能取得更高的精度.例如輸入300×300 尺寸的PASCAL VOC 2007測試圖像, 在單臺Nvidia Titan X上的處理速度達(dá)到58 fps, 平均精度mAP達(dá)到72.1%;如果輸入圖像尺寸為500×500 , 平均精度mAP達(dá)到75.1%.

與基于候選區(qū)域的方法相比, YOLO定位準(zhǔn)確率低且召回率不高.因此, Redmon等^[⁸¹^]提出了改進(jìn)的YOLO模型, 記作YOLOv2, 主要目標(biāo)是在保持分類準(zhǔn)確率的同時(shí)提高召回率和定位準(zhǔn)確度.通過采用多尺度訓(xùn)練、批規(guī)范化和高分辨率分類器等多種策略, 提升了檢測準(zhǔn)確率的同時(shí)速度超過其他檢測方法, 例如Faster R-CNN和SSD. Redmon等還提出了一種新的聯(lián)合訓(xùn)練算法, 同時(shí)在檢測數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測器, 用檢測數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準(zhǔn)確位置, 用分類數(shù)據(jù)集的數(shù)據(jù)增加分類的類別量, 提升健壯性, 采用這種方法訓(xùn)練出來的YOLO9000模型可以實(shí)時(shí)地檢測超過9 000種物體分類.

3.3.3 總結(jié)

基于區(qū)域建議的目標(biāo)檢測方法, 特別是R-CNN系列方法(包括R-CNN、SPPnet、Fast R-CNN和Faster R-CNN等), 取得了非常好的檢測精度, 但是在速度方面還達(dá)不到實(shí)時(shí)檢測的要求.在不損失精度的情況下實(shí)現(xiàn)實(shí)時(shí)檢測, 或者在提高檢測精度的同時(shí)兼顧速度, 逐漸成為目標(biāo)檢測的研究趨勢. R-FCN比Faster R-CNN計(jì)算效率更高, 在檢測精度和速度上平衡的很好. PVANET是一種輕量級的網(wǎng)絡(luò)結(jié)構(gòu), 通過調(diào)整和結(jié)合最新的技術(shù)達(dá)到最小化計(jì)算資源的目標(biāo).無區(qū)域建議的方法(例如YOLO)雖然能夠達(dá)到實(shí)時(shí)的效果, 但是其檢測精度與Faster R-CNN相比有很大的差距. SSD對YOLO進(jìn)行了改進(jìn), 同時(shí)兼顧檢測精度和實(shí)時(shí)性的要求, 在滿足實(shí)時(shí)性的條件下, 縮小了與Faster R-CNN檢測精度的差距. YOLOv2在檢測精度和速度上都超過了SSD.一些目標(biāo)視覺檢測方法在公共數(shù)據(jù)集上的性能對比如圖 10所示.

圖 10 一些目標(biāo)視覺檢測方法在公共數(shù)據(jù)集上的性能比較

Figure 10 Performance comparison of some object visual detection methods on public datasets

4 思考與展望

近年來, 由于深度學(xué)習(xí)技術(shù)的迅猛發(fā)展和應(yīng)用, 目標(biāo)視覺檢測研究取得了很大進(jìn)展.未來若干年, 基于深度學(xué)習(xí)的目標(biāo)視覺檢測研究仍然是該領(lǐng)域的主流研究方向.不同于傳統(tǒng)方法利用手工設(shè)計(jì)的特征, 可能忽視掉一些重要的特征信息, 深度學(xué)習(xí)方法可以通過端到端訓(xùn)練自動學(xué)習(xí)與任務(wù)相關(guān)的特征, 通過多層的非線性變換獲得圖像的高層次抽象表示.盡管深度學(xué)習(xí)在目標(biāo)視覺檢測領(lǐng)域取得了一定成功, 但是還存在一些問題:

1) 深度學(xué)習(xí)理論還不完善

深度學(xué)習(xí)的優(yōu)勢之一是能夠自動學(xué)習(xí)表達(dá)能力強(qiáng)的抽象特征, 不需要由專家手工進(jìn)行特征設(shè)計(jì)和選擇.但是, 將深度學(xué)習(xí)模型應(yīng)用于目標(biāo)檢測時(shí)還缺乏足夠的理論支撐, 學(xué)習(xí)到的模型的可解釋性較弱.目前的研究通常是把深度學(xué)習(xí)模型當(dāng)作一個(gè)黑盒子(Black box)來直接使用, 對于如何選擇和構(gòu)建模型、如何確定模型的深度以及深度學(xué)習(xí)的本質(zhì)等基本問題還沒有給出很好的解釋.理論的不完善導(dǎo)致研究時(shí)缺乏充分的原理性指導(dǎo), 在設(shè)計(jì)新的模型時(shí)往往只能憑借經(jīng)驗(yàn)和運(yùn)氣. Pepik等^[⁸²^]利用Pascal 3D+^[⁸³^]數(shù)據(jù)集對R-CNN方法進(jìn)行分析, 結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)對于場景和目標(biāo)的各種外觀因素的變化不具有視覺不變性, 目前大多數(shù)深度學(xué)習(xí)方法在處理多目標(biāo)遮擋和小尺寸目標(biāo)等困難問題時(shí)效果還不是很好, 增加額外的訓(xùn)練數(shù)據(jù)并不能克服這些缺陷, 有必要對模型結(jié)構(gòu)做出改變.因此必須進(jìn)一步完善深度學(xué)習(xí)理論, 為改進(jìn)模型結(jié)構(gòu)、加速模型訓(xùn)練和提高檢測效果等提供指導(dǎo).

2) 大規(guī)模多樣性數(shù)據(jù)集還很缺乏

深度學(xué)習(xí)模型主要是數(shù)據(jù)驅(qū)動的, 依賴于大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集.對一個(gè)特定的任務(wù), 增加訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性, 可以提高深度學(xué)習(xí)模型的泛化能力, 避免過擬合.但是目前缺乏可用于目標(biāo)檢測的大規(guī)模多樣性數(shù)據(jù)集, 即便是最大的公共數(shù)據(jù)集也只提供了很有限的標(biāo)記類型, 比如PASCAL VOC有20個(gè)類型, MS COCO有80個(gè)類型, ImageNet有1 000個(gè)類型.由人工采集和標(biāo)注含有大量目標(biāo)類型的大規(guī)模多樣性數(shù)據(jù)集非常費(fèi)時(shí)耗力, 并且由于光照、天氣、復(fù)雜背景、目標(biāo)外觀、攝像機(jī)視角和物體遮擋等導(dǎo)致的復(fù)雜性和挑戰(zhàn)性, 同一類型目標(biāo)在不同圖像中可能看起來非常不同, 使得人工標(biāo)注變得困難甚至容易出錯(cuò).雖然可以采用眾包方法(例如Amazon MTurk^[⁸⁴^])進(jìn)行數(shù)據(jù)標(biāo)注, 但是同樣要耗費(fèi)大量的人力財(cái)力, 并且標(biāo)注困難.另外在一些特殊領(lǐng)域(例如在醫(yī)療和軍事等領(lǐng)域)很難獲得大規(guī)模實(shí)際圖像.標(biāo)記數(shù)據(jù)集的不足, 可能導(dǎo)致訓(xùn)練出的目標(biāo)檢測模型的可靠性和魯棒性達(dá)不到要求.目前許多目標(biāo)檢測模型都采用先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練, 再針對具體任務(wù)進(jìn)行微調(diào)的方式.如果針對具體的目標(biāo)檢測任務(wù), 有大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集可供使用, 那么目標(biāo)檢測效果可以得到進(jìn)一步提高.

為了解決上述問題, 我們認(rèn)為可以采用平行視覺^[⁸⁵^-⁸⁶^]的思路進(jìn)行研究. 2016年, 王坤峰等^[⁸⁵^]將復(fù)雜系統(tǒng)建模與調(diào)控的ACP (Artificial societies, computational experiments, and parallel execution)理論^[⁸⁷^-⁸⁹^]推廣到視覺計(jì)算領(lǐng)域, 提出平行視覺的基本框架和關(guān)鍵技術(shù).其核心是利用人工場景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場景, 通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的設(shè)計(jì)與評估, 最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng), 實(shí)現(xiàn)對復(fù)雜環(huán)境的智能感知與理解. 圖 11顯示了平行視覺的基本框架.為了解決復(fù)雜環(huán)境下的目標(biāo)視覺檢測問題, 我們可以按照平行視覺的ACP三步曲開展研究.

圖 11 平行視覺的基本框架^[⁸⁵^]

Figure 11 Basic framework of parallel vision^[⁸⁵^]

1) 人工場景(Artificial scenes)

構(gòu)建色彩逼真的人工場景, 模擬實(shí)際場景中可能出現(xiàn)的環(huán)境條件, 自動得到精確的目標(biāo)位置、尺寸和類型等標(biāo)注信息, 生成大規(guī)模多樣性數(shù)據(jù)集.另外, 實(shí)際場景通常不可重復(fù), 而人工場景具有可重復(fù)性, 通過固定一些物理模型和參數(shù), 改變另外一些, 可以定制圖像生成要素, 以便從各種角度評價(jià)視覺算法.人工場景可以不受現(xiàn)有實(shí)際場景的限制, 預(yù)見未來的實(shí)際場景, 為視覺算法設(shè)計(jì)與評估提供超前信息.總之, 人工場景能夠提供一種可靠的數(shù)據(jù)來源, 是對實(shí)際場景數(shù)據(jù)的有效補(bǔ)充.

2) 計(jì)算實(shí)驗(yàn)(Computational experiments)

結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集, 進(jìn)行全面充分的計(jì)算實(shí)驗(yàn), 把計(jì)算機(jī)變成視覺計(jì)算實(shí)驗(yàn)室, 設(shè)計(jì)和評價(jià)視覺算法, 提高其在復(fù)雜環(huán)境下的性能.與基于實(shí)際場景的實(shí)驗(yàn)相比, 在人工場景中實(shí)驗(yàn)過程可控、可觀、可重復(fù), 并且可以真正地產(chǎn)生實(shí)驗(yàn)大數(shù)據(jù), 用于知識提取和算法優(yōu)化.計(jì)算實(shí)驗(yàn)包含兩種操作模式, 即學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評估.學(xué)習(xí)與訓(xùn)練是針對視覺算法設(shè)計(jì)而言, 實(shí)驗(yàn)與評估是針對視覺算法評價(jià)而言.兩種操作模式都需要結(jié)合人工場景數(shù)據(jù)集和實(shí)際場景數(shù)據(jù)集, 能夠增加實(shí)驗(yàn)的深度和廣度.

3) 平行執(zhí)行(Parallel execution)

將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行, 使模型訓(xùn)練和評估在線化、長期化, 通過實(shí)際與人工之間的虛實(shí)互動, 持續(xù)優(yōu)化視覺系統(tǒng).由于應(yīng)用環(huán)境的復(fù)雜性、挑戰(zhàn)性和變化性, 不存在一勞永逸的解決方案, 只能接受這些困難, 在系統(tǒng)運(yùn)行過程中不斷調(diào)節(jié)和改善.平行執(zhí)行基于物理和網(wǎng)絡(luò)空間的大數(shù)據(jù), 以人工場景的在線構(gòu)建和利用為主要手段, 通過在線自舉(Online bootstrapping)或困難實(shí)例挖掘(Hard example mining), 自動挖掘?qū)е乱曈X算法失敗或性能不佳的實(shí)例, 利用它們重新調(diào)節(jié)視覺算法和系統(tǒng), 提高對動態(tài)變化環(huán)境的自適應(yīng)能力.

目前, 已經(jīng)有一些工作基于人工場景數(shù)據(jù)進(jìn)行目標(biāo)檢測模型的訓(xùn)練.例如, Peng等^[⁹⁰^]利用3D CAD模型自動合成2D圖像, 使用這種虛擬圖像數(shù)據(jù)來擴(kuò)大深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集非常有效, 尤其是在真實(shí)的訓(xùn)練數(shù)據(jù)很有限或不能很好地匹配目標(biāo)領(lǐng)域的情況下, 避免了代價(jià)昂貴的大規(guī)模手工標(biāo)注. Johnson-Roberson等^[⁹¹^]利用游戲引擎生成逼真的虛擬圖像, 用于目標(biāo)檢測模型的訓(xùn)練.實(shí)驗(yàn)表明, 在KITTI數(shù)據(jù)集上, 使用大規(guī)模的虛擬圖像集訓(xùn)練的模型比基于較小規(guī)模的真實(shí)世界數(shù)據(jù)集訓(xùn)練的檢測器精度更高.但是, 已有的工作主要集中在人工場景和計(jì)算實(shí)驗(yàn), 忽視了平行執(zhí)行.我們認(rèn)為, 將視覺算法在實(shí)際場景與人工場景中平行執(zhí)行, 持續(xù)優(yōu)化視覺系統(tǒng), 提高其在復(fù)雜環(huán)境下的魯棒性和適應(yīng)性是非常重要的.

許多機(jī)器學(xué)習(xí)算法假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)具有相同的數(shù)據(jù)分布以及特征空間^[⁹²^], 然而使用ACP時(shí)會遇到虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異問題.遷移學(xué)習(xí)^[⁹³^]能夠很好解決分布差異問題.通過遷移學(xué)習(xí), 我們能夠運(yùn)用ACP中人工模擬出的虛擬數(shù)據(jù)來不斷提高模型的精準(zhǔn)度與魯棒性.

另外, 在深度學(xué)習(xí)模型自身方面, 如何提高模型的可解釋性, 改善模型結(jié)構(gòu), 設(shè)計(jì)新的優(yōu)化方法, 降低模型訓(xùn)練和應(yīng)用時(shí)的計(jì)算復(fù)雜性, 提高計(jì)算效率, 得到更加有用(More effective)和更加有效的(More efficient)深度學(xué)習(xí)模型, 這些問題都需要深入研究.目前, 基于候選區(qū)域的目標(biāo)檢測方法精度最高, 而基于回歸的SSD方法在實(shí)時(shí)性上表現(xiàn)最好, 如何將這兩類方法相結(jié)合, 借鑒和吸收彼此的優(yōu)點(diǎn), 在檢測精度和速度上取得新的突破還有待研究.

5 結(jié)論

目標(biāo)視覺檢測在計(jì)算機(jī)視覺領(lǐng)域具有重要的研究意義和應(yīng)用價(jià)值, 深度學(xué)習(xí)是目前最熱門的機(jī)器學(xué)習(xí)方法, 被廣泛研究和應(yīng)用.本文綜述了深度學(xué)習(xí)在目標(biāo)視覺檢測中的應(yīng)用進(jìn)展與展望.首先說明了目標(biāo)視覺檢測的基本流程和常用的公共數(shù)據(jù)集, 然后重點(diǎn)介紹了深度學(xué)習(xí)方法在目標(biāo)視覺檢測中的最新應(yīng)用進(jìn)展, 最后對深度學(xué)習(xí)在目標(biāo)視覺檢測研究中的困難和挑戰(zhàn)進(jìn)行了分析, 對未來的發(fā)展趨勢進(jìn)行了思考與展望.

在今后的工作中, 還需要進(jìn)一步完善深度學(xué)習(xí)理論, 提高目標(biāo)視覺檢測的精度和效率.另外, 平行視覺作為一種新的智能視覺計(jì)算方法學(xué), 通過人工場景提供大規(guī)模多樣性的標(biāo)記數(shù)據(jù)集, 通過計(jì)算實(shí)驗(yàn)全面設(shè)計(jì)和評價(jià)目標(biāo)視覺檢測方法, 通過平行執(zhí)行在線優(yōu)化視覺系統(tǒng), 能夠激發(fā)深度學(xué)習(xí)的潛力.我們相信, 深度學(xué)習(xí)與平行視覺相結(jié)合, 必將大力推動目標(biāo)視覺檢測的研究和應(yīng)用進(jìn)展.

參考文獻(xiàn)

1 Szegedy C, Toshev A, Erhan D. Deep neural networks for object detection. In: Proceedings of the 2013 Advances in Neural Information Processing Systems (NIPS). Harrahs and Harveys, Lake Tahoe, USA: MIT Press, 2013, 2553-2561.

2 Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

3 Huang Kai-Qi, Ren Wei-Qiang, Tan Tie-Niu. A review on image object classification and detection. Chinese Journal of Computers, 2014, 37(6): 1225-1240.

( 黃凱奇, 任偉強(qiáng), 譚鐵牛. 圖像物體分類與檢測算法綜述. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(6): 1225-1240.)

4 Zhang X, Yang Y H, Han Z G, Wang H, Gao C. Object class detection: a survey. ACM Computing Surveys (CSUR), 2013, 46(1): Article No. 10.

5 Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). San Diego, CA, USA: IEEE, 2005, 1:886-893

6 Uijlings J R R, van de Sande K E A, Gevers T, Smeulders A W M. Selective search for object recognition. International Journal of Computer Vision, 2013, 104(2): 154-171.

7 Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

8 He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, Nevada, USA: IEEE, 2016. 770-778

9 Lampert C H, Blaschko M B, Hofmann T. Beyond sliding windows: object localization by efficient subwindow search. In: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, Alaska, USA: IEEE, 2008. 1-8

10 An S J, Peursum P, Liu W Q, Venkatesh S. Efficient algorithms for subwindow search in object detection and localization. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Miami, Florida, USA: IEEE, 2009. 264-271

11 Wei Y C, Tao L T. Efficient histogram-based sliding window. In: Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3003-3010

12 Van de Sande K E A, Uijlings J R R, Gevers T, Smeulders A W M. Segmentation as selective search for object recognition. In: Proceedings of the 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona, Spain: IEEE, 2011. 1879-1886

13 Shotton J, Blake A, Cipolla R. Multiscale categorical object recognition using contour fragments. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(7): 1270-1281.

14 Leibe B, Leonardis A, Schiele B. Robust object detection with interleaved categorization and segmentation. International Journal of Computer Vision, 2008, 77(1-3): 259-289.

15 Arbelaez P, Maire M, Fowlkes C, Malik J. Contour detection and hierarchical image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.

16 Shotton J, Winn J, Rother C, Criminisi A. TextonBoost: joint appearance, shape and context modeling for multi-class object recognition and segmentation. In: Proceedings of the 9th European Conference on Computer Vision (ECCV). Berlin, Heidelberg, Germany: Springer, 2006. 1-15

17 Verbeek J, Triggs B. Region classification with Markov field aspect models. In: Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis, Minnesota, USA: IEEE, 2007. 1-8

18 Cheng M M, Zhang Z M, Lin W Y, Torr P. BING: binarized normed gradients for objectness estimation at 300fps. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, USA: IEEE, 2014. 3286-3293

19 Zitnick C L, Dollár P. Edge boxes:locating object proposals from edges. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 391-405

20 Hosang J, Benenson R, Schiele B. How good are detection proposals, really? arXiv:1406.6962, 2014.

21 Szegedy C, Reed S, Erhan D, Anguelov D, Ioffe S. Scalable, high-quality object detection. arXiv:1412.1441, 2014.

22 Erhan D, Szegedy C, Toshev A, Anguelov D. Scalable object detection using deep neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2155-2162

23 Kuo W C, Hariharan B, Malik J. Deepbox: learning objectness with convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2479-2487

24 Ghodrati A, Diba A, Pedersoli M, Tuytelaars T, Van Gool L. Deepproposal: hunting objects by cascading deep convolutional layers. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 2578-2586

25 Gidaris S, Komodakis N. Locnet: improving localization accuracy for object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 789-798

26 Lawrence G R. Machine Perception of Three-dimensional Solids[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1963.

27 Canny J. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, PAMI-8(6): 679-698.

28 Marr D, Hildreth E. Theory of edge detection. Proceedings of the Royal Society B: Biological Sciences, 1980, 207(1167): 187-217.

29 Pellegrino F A, Vanzella W, Torre V. Edge detection revisited. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2004, 34(3): 1500-1518.

30 Harris C, Stephens M. A combined corner and edge detector. In: Proceedings of the 4th Alvey Vision Conference. Manchester, UK: University of Sheffield Printing Unit, 1988. 147-151

31 Rosten E, Porter R, Drummond T. Faster and better: a machine learning approach to corner detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 105-119.

32 Lowe D G. Object recognition from local scale-invariant features. In: Proceedings of the 7th IEEE International Conference on Computer Vision (ICCV). Kerkyra, Greece: IEEE, 1999, 2:1150-1157

33 Lowe D G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60(2): 91-110.

34 Papageorgiou C P, Oren M, Poggio T. A general framework for object detection. In: Proceedings of the 6th International Conference on Computer Vision (ICCV). Bombay, India: IEEE, 1998. 555-562

35 Ojala T, Pietikäinen M, Harwood D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions. In: Proceedings of the 12th IAPR International Conference on Pattern Recognition, Conference A: Computer Vision and Image Processing. Jerusalem, Israel, Palestine: IEEE, 1994, 1:582-585

36 Ojala T, Pietikäinen M, Harwood D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 1996, 29(1): 51-59.

37 Yan J J, Lei Z, Yi D, Li S Z. Multi-pedestrian detection in crowded scenes: a global view. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 3124-3129

38 Yan J J, Zhang X C, Lei Z, Liao S C, Li S Z. Robust multi-resolution pedestrian detection in traffic scenes. In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Portland, Oregon, USA: IEEE, 2013. 3033-3040

39 Yan J J, Zhang X C, Lei Z, Yi D, Li S Z. Structural models for face detection. In: Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Shanghai, China: IEEE, 2013. 1-6

40 Zhu X X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, Rhode Island, USA: IEEE, 2012. 2879-2886

41 Yang Y, Ramanan D. Articulated pose estimation with flexible mixtures-of-parts. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2011. 1385-1392

42 Yan J J, Lei Z, Wen L Y, Li S Z. The fastest deformable part model for object detection. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 2497-2504

43 Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories. In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). New York, NY, USA: IEEE, 2006. 2169-2178

44 Girshick R, Donahue J, Darrell T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE, 2014. 580-587

45 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Fei-Fei L. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211-252.

46 Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, 88(2): 303-338.

47 Xiao J X, Hays J, Ehinger K A, Oliva A, Torralba A. Sun database: large-scale scene recognition from abbey to zoo. In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA: IEEE, 2010. 3485-3492

48 Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P, Zitnick C L. Microsoft COCO: common objects in context. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 740-755

49 Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536.

50 LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444.

51 Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504-507.

52 Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.

53 Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 19th International Conference on Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2006. 153-160

54 LeCun Y, Chopra S, Hadsell R, Ranzato M, Huang F. A tutorial on energy-based learning. Predicting Structured Data. Cambridge, MA, USA: MIT Press, 2006.

55 Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. In: Proceedings of the 2007 Advances in Neural Information Processing Systems (NIPS). Vancouver, British Columbia, Canada:MIT Press, 2007. 873-880

56 Hinton G, Deng L, Yu D, Dahl G E, Mohamed A R, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T N, Kingsbury B. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

57 Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: MIT Press, 2012. 1097-1105

58 Girshick R. Fast R-CNN. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile:IEEE, 2015. 1440-1448

59 Lecun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

60 Vincent P, Larochelle H, Bengio Y, Manzagol P A. Extracting and composing robust features with denoising Autoencoders. In:Proceedings of the 25th IEEE International Conference on Machine Learning (ICML). Helsinki, Finland: IEEE, 2008. 1096-1103

61 Masci J, Meier U, Cire?an D, Schmidhuber J. Stacked convolutional auto-encoders for hierarchical feature extraction. In:Proceedings of the 21th International Conference on Artificial Neural Networks. Berlin, Heidelberg, Germany: Springer, 2011. 52-59

62 Zeiler M D, Fergus R. Visualizing and understanding convolutional networks. In: Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland:Springer, 2014. 818-833

63 Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556, 2014.

64 Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, Massachusetts, USA: IEEE, 2015. 1-9

65 Szegedy C, Ioffe S, Vanhoucke V, Alemi A. Inception-v4, Inception-ResNet and the impact of residual connections on learning. arXiv:1602.07261, 2016.

66 Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift. arXiv:1502.03167, 2015.

67 Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. Rethinking the inception architecture for computer vision. arXiv:1512.00567, 2015.

68 He K, Zhang X, Ren S, Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition. In: Proceedings of the 2014 European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014. 346-361

69 Bell S, Lawrence Zitnick C, Bala K, Girshick R. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE, 2016. 2874-2883

70 Yang F, Choi W, Lin Y Q. Exploit all the layers: fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2129-2137

71 Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 761-769

72 Sung K K. Learning and Example Selection for Object and Pattern Detection[Ph.D. dissertation], Massachusetts Institute of Technology, USA, 1996.

73 Kong T, Yao A B, Chen Y R, Sun F C. Hyper Net:towards accurate region proposal generation and joint object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 845-853

74 Dai J F, Li Y, He K M, Sun J. R-FCN:object detection via region-based fully convolutional networks. In: Proceedings of the 2016 Advances in Neural Information Processing Systems (NIPS). Barcelona, Spain: MIT Press, 2016. 379-387

75 Kim K H, Hong S, Roh B, Cheon Y, Park M. PVANET: deep but lightweight neural networks for real-time object detection. arXiv: 1608.08021, 2016.

76 Shang W L, Sohn K, Almeida D, Lee H. Understanding and improving convolutional neural networks via concatenated rectified linear units. In: Proceedings of the 33rd International Conference on Machine Learning (ICML). New York, USA: IEEE, 2016. 2217-2225

77 Sermanet P, Eigen D, Zhang X, Mathieu M, Fergus R, LeCun Y. Overfeat: integrated recognition, localization and detection using convolutional networks. arXiv:1312.6229, 2013.

78 Redmon J, Divvala S, Girshick R, Farhadi A. You only look once:unified, real-time object detection. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 779-788

79 Najibi M, Rastegari M, Davis L S. G-CNN:an iterative grid based object detector. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016. 2369-2377

80 Liu W, Anguelov D, Erhan D, Szegedy C, Reed S E, Fu C Y, Berg A C. SSD: single shot multibox detector. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, Netherlands:Springer, 2016. 21-37

81 Redmon J, Farhadi A. YOLO9000: better, faster, stronger. arXiv:1612.08242, 2016.

82 Pepik B, Benenson R, Ritschel T, Schiele B. What is holding back convnets for detection? In: Proceedings of the 2015 German Conference on Pattern Recognition. Cham, Germany:Springer, 2015. 517-528

83 Xiang Y, Mottaghi R, Savarese S. Beyond PASCAL:a benchmark for 3d object detection in the wild. In: Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision (WACV). Steamboat Springs, Colorado, USA: IEEE, 2014. 75-82

84 Amazon Mechanical Turk[Online], available: https://www.mturk.com/, February 13, 2017

85 Wang Kun-Feng, Gou Chao, Wang Fei-Yue. Parallel vision: an ACP-based approach to intelligent vision computing. Acta Automatica Sinica, 2016, 42(10): 1490-1500.

( 王坤峰, 茍超, 王飛躍. 平行視覺:基于ACP的智能視覺計(jì)算方法. 自動化學(xué)報(bào), 2016, 42(10): 1490-1500.)

86 Wang K F, Gou C, Zheng N N, Rehg J M, Wang F Y. Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives. Artificial Intelligence Review[Online], available:https://link.springer.com/article/10.1007/s10462-017-9569-z, July 18, 2017

87 Wang Fei-Yue. Parallel system methods for management and control of complex systems. Control and Decision, 2004, 19(5): 485-489, 514.

( 王飛躍. 平行系統(tǒng)方法與復(fù)雜系統(tǒng)的管理和控制. 控制與決策, 2004, 19(5): 485-489, 514.)

88 Wang F Y. Parallel control and management for intelligent transportation systems: concepts, architectures, and applications. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3): 630-638.

89 Wang Fei-Yue. Parallel control:a method for data-driven and computational control. Acta Automatica Sinica, 2013, 39(4): 293-302.

( 王飛躍. 平行控制:數(shù)據(jù)驅(qū)動的計(jì)算控制方法. 自動化學(xué)報(bào), 2013, 39(4): 293-302.)

90 Peng X C, Sun B C, Ali K, Saenko K. Learning deep object detectors from 3D models. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 1278-1286

91 Johnson-Roberson M, Barto C, Mehta R, Sridhar S N, Rosaen K, Vasudevan R. Driving in the matrix: can virtual worlds replace human-generated annotations for real world tasks? arXiv: 1610.01983, 2016.

92 Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

93 Taylor M E, Stone P. Transfer learning for reinforcement learning domains: a survey. The Journal of Machine Learning Research, 2009, 10: 1633-1685.

來源：王飛躍科學(xué)網(wǎng)博客

作者：張慧,王坤峰,王飛躍

編輯：jiyang

圖片來源:

本文鏈接: http://givenhand.cn/article/20190112/1031.html

深度學(xué)習(xí)

免責(zé)聲明：本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布，不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對文中的圖文等所有信息的真實(shí)性不作任何保證或承諾，請讀者僅作參考，并自行核實(shí)相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考，不能做為投資、采購或行為決策依據(jù)，據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

5G+AR加持晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢
2021世界制造業(yè)大會于11月22日在合肥落下帷幕。為期四天的大會中，作為向世界展示智能制造全面能力的窗口，聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品。現(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤，折疊起來之后的厚度大約為24毫米。當(dāng)保持半開狀態(tài)時(shí)，可以像拿本書一樣握住，并且能同時(shí)運(yùn)行兩個(gè)應(yīng)用程序。使用固定在中間的鍵盤之后，瞬間變...
智能手機(jī)競爭中失敗，日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱
據(jù)外媒報(bào)道，在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競爭中，豐田汽車和日產(chǎn)汽車面臨著被本土市場拖累的風(fēng)險(xiǎn)。與美國和歐洲的汽車消費(fèi)者不同的是，日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是：日本只有10%的汽車...
2020年河南省將推廣應(yīng)用3萬臺工業(yè)機(jī)器人
到2020年，推廣應(yīng)用3萬臺工業(yè)機(jī)器人，建設(shè)1000條智能生產(chǎn)線、300個(gè)智能車間、150個(gè)智能工廠……4月16日，在2018兩岸智能裝備制造鄭州論壇上，河南省工信委發(fā)布了《2017年河南省智能制造白皮書》，河南智能制造的2020...

熱門標(biāo)簽

快速導(dǎo)航
投稿合作

Copyright ?2025 AIUST人工智能網(wǎng) All Rights Reserved 技術(shù)聯(lián)系：webmaster#aiust.com 運(yùn)營聯(lián)系：aiust#aiust.com(將#改為@)

<tbody id="guaqi"></tbody>

<acronym id="guaqi"></acronym>

<button id="guaqi"></button>

<dfn id="guaqi"><dl id="guaqi"></dl></dfn>