摘要:針對青皮核桃和樹枝等障礙物無序生長導(dǎo)致機(jī)械臂采摘環(huán)境復(fù)雜、訓(xùn)練任務(wù)量大,、穩(wěn)定性差等普遍存在的問題,,本文設(shè)計(jì)了一種同步帶模組與機(jī)械臂協(xié)作的采摘裝置,并采用基于事后經(jīng)驗(yàn)回放的雙延遲深度確定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,,HER-TD3)對采摘機(jī)械臂進(jìn)行路徑規(guī)劃,,通過HER算法提高智能體的探索能力,緩解稀疏獎(jiǎng)勵(lì)的問題,;通過TD3算法提高智能體的穩(wěn)定性,,減少了訓(xùn)練中出現(xiàn)的震蕩現(xiàn)象。為了證明HER-TD3算法的可行性和泛化能力,,引入TD3,、HER-DDPG算法進(jìn)行對比,采用降維訓(xùn)練方法對3種深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練,,結(jié)果表明HER-TD3算法模型在完成路徑規(guī)劃任務(wù)中成功率達(dá)到98%,,與HER-DDPG算法相比提高4個(gè)百分點(diǎn),與TD3算法相比提高19個(gè)百分點(diǎn);在CoppeliaSim軟件中搭建三維模型仿真環(huán)境,,設(shè)計(jì)初始姿態(tài)和碰撞檢測,使用YOLO v4識(shí)別青皮核桃,,通過該算法模型能夠引導(dǎo)虛擬采摘機(jī)械臂避開樹枝障礙物達(dá)到目標(biāo)位置,,完成無碰撞路徑規(guī)劃,無障礙物和有障礙物時(shí)路徑規(guī)劃成功率分別為91%和86%,;利用物理樣機(jī)進(jìn)行青皮核桃采摘試驗(yàn)時(shí),,仍能較好地完成路徑規(guī)劃任務(wù),無障礙物時(shí)采摘路徑規(guī)劃成功率為86.7%,,平均運(yùn)動(dòng)時(shí)間為12.8s,,有障礙物時(shí)采摘路徑規(guī)劃成功率為80.0%,平均運(yùn)動(dòng)時(shí)間為13.6s,,驗(yàn)證了HER-TD3算法對復(fù)雜環(huán)境具有較好的適應(yīng)性和穩(wěn)定性,。