摘要:針對傳統(tǒng)Q-learning算法在復(fù)雜環(huán)境下移動機器人路徑規(guī)劃問題中容易產(chǎn)生維數(shù)災(zāi)難的問題,提出一種改進方法。該方法將深度學習融于Q-learming框架中,以網(wǎng)絡(luò)輸出代替Q值表,解決維數(shù)災(zāi)難問題。通過構(gòu)建記憶回放矩陣和雙層網(wǎng)絡(luò)結(jié)構(gòu)打斷數(shù)據(jù)相關(guān)性,提高算法收斂性。最后,通過柵格法建立仿真環(huán)境建模,在不同復(fù)雜程度上的地圖上進行仿真實驗,對比實驗驗證了傳統(tǒng)Q-learming難以在大狀態(tài)空間下進行路徑規(guī)劃,深度強化學習能夠在復(fù)雜狀態(tài)環(huán)境下進行良好的路徑規(guī)劃。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社