摘要:針對(duì)青皮核桃和樹(shù)枝等障礙物無(wú)序生長(zhǎng)導(dǎo)致機(jī)械臂采摘環(huán)境復(fù)雜,、訓(xùn)練任務(wù)量大,、穩(wěn)定性差等普遍存在的問(wèn)題,本文設(shè)計(jì)了一種同步帶模組與機(jī)械臂協(xié)作的采摘裝置,,并采用基于事后經(jīng)驗(yàn)回放的雙延遲深度確定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,,HER-TD3)對(duì)采摘機(jī)械臂進(jìn)行路徑規(guī)劃,通過(guò)HER算法提高智能體的探索能力,,緩解稀疏獎(jiǎng)勵(lì)的問(wèn)題,;通過(guò)TD3算法提高智能體的穩(wěn)定性,減少了訓(xùn)練中出現(xiàn)的震蕩現(xiàn)象,。為了證明HER-TD3算法的可行性和泛化能力,引入TD3,、HER-DDPG算法進(jìn)行對(duì)比,,采用降維訓(xùn)練方法對(duì)3種深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練,結(jié)果表明HER-TD3算法模型在完成路徑規(guī)劃任務(wù)中成功率達(dá)到98%,,與HER-DDPG算法相比提高4個(gè)百分點(diǎn),,與TD3算法相比提高19個(gè)百分點(diǎn);在CoppeliaSim軟件中搭建三維模型仿真環(huán)境,,設(shè)計(jì)初始姿態(tài)和碰撞檢測(cè),,使用YOLO v4識(shí)別青皮核桃,通過(guò)該算法模型能夠引導(dǎo)虛擬采摘機(jī)械臂避開(kāi)樹(shù)枝障礙物達(dá)到目標(biāo)位置,,完成無(wú)碰撞路徑規(guī)劃,,無(wú)障礙物和有障礙物時(shí)路徑規(guī)劃成功率分別為91%和86%;利用物理樣機(jī)進(jìn)行青皮核桃采摘試驗(yàn)時(shí),,仍能較好地完成路徑規(guī)劃任務(wù),,無(wú)障礙物時(shí)采摘路徑規(guī)劃成功率為86.7%,平均運(yùn)動(dòng)時(shí)間為12.8s,,有障礙物時(shí)采摘路徑規(guī)劃成功率為80.0%,,平均運(yùn)動(dòng)時(shí)間為13.6s,驗(yàn)證了HER-TD3算法對(duì)復(fù)雜環(huán)境具有較好的適應(yīng)性和穩(wěn)定性,。