摘要:針對青皮核桃和樹枝等障礙物無序生長導(dǎo)致機(jī)械臂采摘環(huán)境復(fù)雜、訓(xùn)練任務(wù)量大,、穩(wěn)定性差等普遍存在的問題,,本文設(shè)計了一種同步帶模組與機(jī)械臂協(xié)作的采摘裝置,并采用基于事后經(jīng)驗回放的雙延遲深度確定性策略梯度算法(Twin delayed deep deterministic policy gradient with hindsight experience replay,,HER-TD3)對采摘機(jī)械臂進(jìn)行路徑規(guī)劃,,通過HER算法提高智能體的探索能力,緩解稀疏獎勵的問題,;通過TD3算法提高智能體的穩(wěn)定性,,減少了訓(xùn)練中出現(xiàn)的震蕩現(xiàn)象。為了證明HER-TD3算法的可行性和泛化能力,,引入TD3,、HER-DDPG算法進(jìn)行對比,采用降維訓(xùn)練方法對3種深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練,,結(jié)果表明HER-TD3算法模型在完成路徑規(guī)劃任務(wù)中成功率達(dá)到98%,,與HER-DDPG算法相比提高4個百分點(diǎn),與TD3算法相比提高19個百分點(diǎn),;在CoppeliaSim軟件中搭建三維模型仿真環(huán)境,,設(shè)計初始姿態(tài)和碰撞檢測,使用YOLO v4識別青皮核桃,通過該算法模型能夠引導(dǎo)虛擬采摘機(jī)械臂避開樹枝障礙物達(dá)到目標(biāo)位置,,完成無碰撞路徑規(guī)劃,,無障礙物和有障礙物時路徑規(guī)劃成功率分別為91%和86%;利用物理樣機(jī)進(jìn)行青皮核桃采摘試驗時,,仍能較好地完成路徑規(guī)劃任務(wù),,無障礙物時采摘路徑規(guī)劃成功率為86.7%,平均運(yùn)動時間為12.8s,,有障礙物時采摘路徑規(guī)劃成功率為80.0%,,平均運(yùn)動時間為13.6s,驗證了HER-TD3算法對復(fù)雜環(huán)境具有較好的適應(yīng)性和穩(wěn)定性,。