摘要:場景識(shí)別可作為溫室環(huán)境空間定位的替代方案,也是智能農(nóng)機(jī)裝備視覺系統(tǒng)的重要功能之一。針對(duì)以特征聚類為基礎(chǔ)的場景識(shí)別范式無法適應(yīng)高動(dòng)態(tài)變化且高度相似的溫室場景識(shí)別的問題,提出一種基于深度特征聚合的溫室場景識(shí)別方法,以預(yù)訓(xùn)練的視覺Transformer網(wǎng)絡(luò)為基礎(chǔ),提取場景圖像局部特征,應(yīng)用多層感知機(jī)全局感受野特性,考慮局部特征空間關(guān)系,融合圖像局部特征,生成場景圖像全局描述子,以多重相似性損失最小化為優(yōu)化目標(biāo),構(gòu)建溫室場景識(shí)別模型,。試驗(yàn)結(jié)果表明,模型場景識(shí)別R@1(top-1召回率),、R@5和R@10分別達(dá)到78.43%、89.21%和92.47%,具有較高的場景識(shí)別精度,。所提出的基于多層感知機(jī)的特征混合方法是有效的,與采用池化操作進(jìn)行特征聚合相比,R@1提高8.01個(gè)百分點(diǎn),。模型對(duì)光照條件變化具有一定的魯棒性,與正常的中等光照條件相比,強(qiáng)光及弱光條件下,R@1下降未超過4.00個(gè)百分點(diǎn)。相機(jī)視角及采樣距離的變化也會(huì)影響模型識(shí)別性能,20°以內(nèi)的視角變化,R@1下降6.61個(gè)百分點(diǎn),2倍以內(nèi)的距離變化,R@1下降17.87個(gè)百分點(diǎn),。與現(xiàn)有場景識(shí)別基準(zhǔn)方法NetVLAD,、GeM、Patch-NetVLAD,、MultiRes-NetVLAD和MixVPR相比,R@1分別提高7.82,、6.59、3.56,、4.14,、1.88個(gè)百分點(diǎn),在溫室場景識(shí)別任務(wù)上模型性能有較大提升。該研究構(gòu)建的基于多層感知機(jī)的圖像全局特征聚合方法,能夠生成可靠的全局描述子,用于溫室場景識(shí)別,且具有一定的光照,、視角,、距離及時(shí)間變化的魯棒性,研究結(jié)果可為智能農(nóng)機(jī)視覺系統(tǒng)設(shè)計(jì)提供技術(shù)參考。