期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專(zhuān)業(yè),沒(méi)有后顧之憂(yōu)
來(lái)源:期刊VIP網(wǎng)所屬分類(lèi):計(jì)算機(jī)網(wǎng)絡(luò)時(shí)間:瀏覽:次
摘 要:在常規(guī)的車(chē)輛目標(biāo)檢測(cè)中,YOLO,SSD,RCNN等深度模型都獲得了較好的檢測(cè)效果,但是在無(wú)人駕駛系統(tǒng)中,車(chē)輛的速度、方向、相對(duì)距離等因素對(duì)于系統(tǒng)來(lái)說(shuō)十分重要,所以采用二維車(chē)輛檢測(cè)對(duì)于駕駛場(chǎng)景的理解還遠(yuǎn)遠(yuǎn)不夠。激光點(diǎn)云數(shù)據(jù)蘊(yùn)含著豐富的三維環(huán)境信息,融合點(diǎn)云數(shù)據(jù)和深度網(wǎng)絡(luò)的三維車(chē)輛檢測(cè)已成為未來(lái)的發(fā)展方向。文章給出了一種基于點(diǎn)云網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的三維車(chē)輛檢測(cè)方法,首先,使用CRC和輸入尺寸有關(guān)的SDP技術(shù)來(lái)提高車(chē)輛檢測(cè)的準(zhǔn)確性;其次,采用點(diǎn)云網(wǎng)絡(luò)結(jié)構(gòu)(Pointnet)來(lái)處理點(diǎn)云數(shù)據(jù),實(shí)現(xiàn)三維目標(biāo)檢測(cè),研究表明設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)在檢測(cè)精度上有著較大的優(yōu)勢(shì)。
關(guān)鍵詞:車(chē)輛檢測(cè);點(diǎn)云網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);拒絕分類(lèi)器

1 車(chē)輛檢測(cè)的相關(guān)算法
近年來(lái),由于深度學(xué)習(xí)技術(shù)的興起,機(jī)器視覺(jué)與人工智能有了快速的發(fā)展,特別是智能汽車(chē)領(lǐng)域,通過(guò)在車(chē)輛中安裝視覺(jué)傳感器使駕駛變得越來(lái)越安全以及智能化,而無(wú)人駕駛技術(shù)更是得到了工業(yè)界與學(xué)術(shù)界的高度關(guān)注。
車(chē)輛檢測(cè)是無(wú)人駕駛感知系統(tǒng)的關(guān)鍵環(huán)節(jié),大多數(shù)的交通事故發(fā)生在車(chē)車(chē)之間,傳統(tǒng)的二維車(chē)輛識(shí)別技術(shù)僅能提供方位信息,并不能滿(mǎn)足無(wú)人駕駛系統(tǒng)對(duì)車(chē)輛檢測(cè)的需求,車(chē)輛的空間位置、速度等因素對(duì)后期的控制決策起到極為重要的作用。
因此,需要激光雷達(dá)等傳感器提供三維點(diǎn)云信息、融合處理三維點(diǎn)云信息以及二維圖像信息成為車(chē)輛檢測(cè)的關(guān)鍵技術(shù)。目前,深度學(xué)習(xí)已被證明是目標(biāo)檢測(cè)中最為有效的方法,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1-2]更是在圖像處理領(lǐng)域中得到了廣泛的應(yīng)用,例如圖像的分類(lèi)、檢測(cè)、分割等。
但是CNN也存在一些明顯的問(wèn)題,最為突出的就是要對(duì)海量數(shù)據(jù)進(jìn)行大量卷積運(yùn)算需要消耗較大的計(jì)算量,為了提高目標(biāo)檢測(cè)的速度,近些年部分學(xué)者又提出了Fast RCNN[3]和空間金字塔網(wǎng)絡(luò)(Spatial Pyramid Pooling Net)[4],在Fast RCNN中,僅在整幅圖像中進(jìn)行一次卷積操作,其比R-CNN[5]通過(guò)共享卷積層來(lái)說(shuō)提高了運(yùn)算效率。Fast RCNN已經(jīng)實(shí)現(xiàn)了分別在訓(xùn)練和測(cè)試階段的加速。
為了進(jìn)一步提升速度,其他的深度神經(jīng)網(wǎng)絡(luò)模型也被提出,SSD[6]采用了一個(gè)CNN網(wǎng)絡(luò)來(lái)檢測(cè),不過(guò)其使用了多尺度特征圖,并設(shè)置了先驗(yàn)框。SSD借鑒了Fast R-CNN的錨點(diǎn)方法,對(duì)每一個(gè)候選單元設(shè)置不同大小的檢測(cè)框,取得了較好的檢測(cè)效果。YOLO[7]是另外一種快速單階段目標(biāo)檢測(cè)方法,與R-CNN類(lèi)型的模型有著明顯的不同,不再是將目標(biāo)檢測(cè)視為分類(lèi)問(wèn)題,而是作為一種回歸問(wèn)題,可以直接從圖像得到目標(biāo)邊界框以及類(lèi)別的判斷。
YOLO擁有非常快的速度優(yōu)勢(shì),并且是直接在圖像中進(jìn)行訓(xùn)練,這使得其自然包含有目標(biāo)的上下文信息。YOLO模型相比于R-CNN模型有著較大的速度優(yōu)勢(shì),但是精度上則不及大多主流的深度網(wǎng)絡(luò)模型。
三維車(chē)輛檢測(cè)可以提供更多的目標(biāo)信息,目前已有少量研究成果發(fā)表,把這些方法分為3類(lèi):(1)基于前景視角圖像的方法,通過(guò)單幅RGB圖像和形狀或遮擋樣式來(lái)推斷目標(biāo)三維邊界框[8]。利用深度數(shù)據(jù)集合CNN網(wǎng)絡(luò)來(lái)對(duì)二維目標(biāo)檢測(cè)的結(jié)果三維化[9]。(2)基于鳥(niǎo)瞰圖的方法,MV3D[10]將LIDAR點(diǎn)云投射到鳥(niǎo)瞰圖并采用RPN[11]網(wǎng)絡(luò)來(lái)預(yù)測(cè)目標(biāo)三維邊界框,但是該方法在檢測(cè)小物體時(shí)存在較大誤差,例如行人以及自行車(chē)都不是很準(zhǔn)確。(3)基于3D點(diǎn)云的方法,通過(guò)支持向量機(jī)(Support Vector Machine,SVM)從點(diǎn)云數(shù)據(jù)中提取幾何特征,最后使用滑動(dòng)窗口實(shí)現(xiàn)三維目標(biāo)檢測(cè)[12]。將整個(gè)場(chǎng)景的點(diǎn)云轉(zhuǎn)換為體積網(wǎng)格,并使用3D-CNN網(wǎng)絡(luò)進(jìn)行目標(biāo)特征提取和檢測(cè)。該方法使用到了3D卷積,其計(jì)算量十分龐大[13]。
本文采用了直接處理點(diǎn)云數(shù)據(jù)的PointNet網(wǎng)絡(luò)[14],該網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,但是卻可以高效處理點(diǎn)云數(shù)據(jù)。同時(shí),本文設(shè)計(jì)了一種基于深度點(diǎn)云網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法,先采用卷積神經(jīng)網(wǎng)絡(luò)快速、準(zhǔn)確地檢測(cè)車(chē)輛候選區(qū)域,再采用PointNet網(wǎng)絡(luò)實(shí)現(xiàn)三維實(shí)例分割,利用逐層級(jí)聯(lián)的拒絕分類(lèi)器(Cascaded Rejection Classifiers,CRC)和與輸入大小有關(guān)的池化層(Scale Dependent Pooling,SDP)來(lái)提高目標(biāo)車(chē)輛的檢測(cè)結(jié)果。
2 激光雷達(dá)與點(diǎn)云數(shù)據(jù)
激光雷達(dá)屬于光電技術(shù),會(huì)向周?chē)矬w發(fā)射激光束,再接受反射的光,通過(guò)反射的時(shí)間差得到物體的距離信息。激光雷達(dá)得到距離信息后再結(jié)合發(fā)射的角度,由空間幾何原理來(lái)推測(cè)到物體的位置與形狀。這個(gè)過(guò)程中,激光幾乎不受到環(huán)境因素的干擾,激光雷達(dá)的工作范圍可達(dá)100 m以上。
激光雷達(dá)采用激光射線而非無(wú)線電雷達(dá)的電磁波,因此擁有更短的波長(zhǎng),對(duì)于獲取目標(biāo)的距離以及形狀都會(huì)有更大的優(yōu)勢(shì),精度可以達(dá)到厘米級(jí)。激光雷達(dá)通常包括3部分:(1)激光發(fā)射器。(2)掃描與光學(xué)部件,可感知距離、時(shí)間以及角度信息。(3)感光部件,用來(lái)檢測(cè)反射光的光強(qiáng)。
現(xiàn)有的無(wú)人駕駛車(chē)輛中已廣泛安裝了激光雷達(dá),在車(chē)輛行駛的過(guò)程中,激光雷達(dá)會(huì)按照恒定的角速度進(jìn)行勻速轉(zhuǎn)動(dòng)并發(fā)射激光,會(huì)獲得360°全角度的環(huán)境信息,繼而可由距離、時(shí)間以及角度三者信息再加上激光雷達(dá)的位置信息,推導(dǎo)出反射點(diǎn)的三維坐標(biāo)。激光雷達(dá)旋轉(zhuǎn)360°獲得的反射點(diǎn)坐標(biāo)集合就叫點(diǎn)云,工作原理如圖1所示。激光雷達(dá)距離傳感器可以比普通攝像機(jī)更直接地得到三維信息,可以在識(shí)別分類(lèi)的過(guò)程中提供三維形狀的信息。
但是激光雷達(dá)所形成的三維點(diǎn)云一般都比較稀疏,空間的分辨率有限,所以缺乏目標(biāo)的外觀與紋理信息。本文結(jié)合二維視覺(jué)目標(biāo)檢測(cè)以及三維空間定位的各自?xún)?yōu)勢(shì),先利用RGB圖像檢測(cè)網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行候選估計(jì),再利用點(diǎn)云網(wǎng)絡(luò)對(duì)候選區(qū)域處理,最終完成三維車(chē)輛檢測(cè)任務(wù)。
作者:王鵬 葉子豪 孫銳