基于多智能體的城市路網交通信號控制研究
【文章頁數】:67 頁
【學位級別】:碩士
【部分圖文】:
圖3.10每個步長累積獎賞值
第三章深度強化學習在單交叉口控制中的應用27圖3.9一個步長中車輛到達率分布情況SUMO中車輛進入路網的個數和路徑都需要人為設定,即仿真前要定義路由文件,路由文件對最終仿真的影響比較大,車流量的不同最終訓練的結果差異也很大,本文使用動態交通流對交叉路口進行訓練,使得交叉口最終學習....
圖4.9三交叉口干道仿真路網仍然采用SUMO作為仿真平臺,交叉口分別記為intersection1、intersection2、
第四章區域交通信號協調控制45表4.2NashQ學習算法更新過程NashQ學習算法1:對S×A1×A2中的112(,,)tQsaa和212(,,)tQsaa賦初值2:對所有的Agenti2:設定初始狀態S03:交叉口分別選取動作1ta和動作2ta,動作的選取同樣遵循ε貪心法,即以....
圖4.10每個周期中車輛的到達率分布情況
東南大學碩士學位論文46圖4.10每個周期中車輛的到達率分布情況則使用NashQ學習算法實現交叉口控制時,每周期的車輛總體延遲曲線如圖4.11所示。圖4.11NashQ學習算法與定時控制算法總體延遲時間比較由圖可以看出,雖然交叉口intersection1可能并未達到自身狀態的最....
圖4.11NashQ學習算法與定時控制算法總體延遲時間比較
東南大學碩士學位論文46圖4.10每個周期中車輛的到達率分布情況則使用NashQ學習算法實現交叉口控制時,每周期的車輛總體延遲曲線如圖4.11所示。圖4.11NashQ學習算法與定時控制算法總體延遲時間比較由圖可以看出,雖然交叉口intersection1可能并未達到自身狀態的最....
本文編號:4049536
本文鏈接:http://www.malleg.cn/kejilunwen/daoluqiaoliang/4049536.html

