摘要:場景識別可作為溫室環(huán)境空間定位的替代方案,也是智能農(nóng)機裝備視覺系統(tǒng)的重要功能之一,。針對以特征聚類為基礎(chǔ)的場景識別范式無法適應(yīng)高動態(tài)變化且高度相似的溫室場景識別的問題,提出一種基于深度特征聚合的溫室場景識別方法,以預(yù)訓(xùn)練的視覺Transformer網(wǎng)絡(luò)為基礎(chǔ),提取場景圖像局部特征,應(yīng)用多層感知機全局感受野特性,考慮局部特征空間關(guān)系,融合圖像局部特征,生成場景圖像全局描述子,以多重相似性損失最小化為優(yōu)化目標(biāo),構(gòu)建溫室場景識別模型。試驗結(jié)果表明,模型場景識別R@1(top-1召回率),、R@5和R@10分別達(dá)到78.43%,、89.21%和92.47%,具有較高的場景識別精度。所提出的基于多層感知機的特征混合方法是有效的,與采用池化操作進行特征聚合相比,R@1提高8.01個百分點,。模型對光照條件變化具有一定的魯棒性,與正常的中等光照條件相比,強光及弱光條件下,R@1下降未超過4.00個百分點,。相機視角及采樣距離的變化也會影響模型識別性能,20°以內(nèi)的視角變化,R@1下降6.61個百分點,2倍以內(nèi)的距離變化,R@1下降17.87個百分點。與現(xiàn)有場景識別基準(zhǔn)方法NetVLAD,、GeM、Patch-NetVLAD,、MultiRes-NetVLAD和MixVPR相比,R@1分別提高7.82,、6.59、3.56,、4.14,、1.88個百分點,在溫室場景識別任務(wù)上模型性能有較大提升,。該研究構(gòu)建的基于多層感知機的圖像全局特征聚合方法,能夠生成可靠的全局描述子,用于溫室場景識別,且具有一定的光照、視角,、距離及時間變化的魯棒性,研究結(jié)果可為智能農(nóng)機視覺系統(tǒng)設(shè)計提供技術(shù)參考,。