摘要:Q-learning是一種經(jīng)典的增強(qiáng)學(xué)習(xí)算法,簡(jiǎn)單易用且不需要環(huán)境模型;廣泛應(yīng)用于移動(dòng)機(jī)器人路徑規(guī)劃。但在狀態(tài)空間和動(dòng)作空間較大時(shí),經(jīng)典的Q-learning算法存在學(xué)習(xí)效率低、收斂速度慢,容易陷入局部最優(yōu)解等問題。通過引入神經(jīng)網(wǎng)絡(luò)模型,利用地圖信息計(jì)算狀態(tài)勢(shì)值,從而優(yōu)化了設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。合理獎(jiǎng)勵(lì)函數(shù)為Q(λ)-learning算法提供了先驗(yàn)知識(shí),避免訓(xùn)練中的盲目搜索,同時(shí)獎(jiǎng)勵(lì)函數(shù)激勵(lì)避免了陷入局部最優(yōu)解。仿真試驗(yàn)表明,改進(jìn)的路徑規(guī)劃方法在收斂速度方面有很大的提升,訓(xùn)練得到的路徑為全局最優(yōu)。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社