深度強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃:建模方法與場景化應(yīng)用
摘要
如近年來,自動(dòng)駕駛車輛領(lǐng)域的學(xué)術(shù)研究受到了廣泛關(guān)注,涉及傳感器技術(shù)、車與萬物通信(V2X)、安全性、保密性、決策制定、控制等多個(gè)主題,甚至包括法律和標(biāo)準(zhǔn)化規(guī)則。除了經(jīng)典的控制設(shè)計(jì)方法外,人工智能和機(jī)器學(xué)習(xí)方法幾乎應(yīng)用于所有這些領(lǐng)域。另一部分研究集中在運(yùn)動(dòng)規(guī)劃的不同層面,如戰(zhàn)略決策、軌跡規(guī)劃和控制。機(jī)器學(xué)習(xí)領(lǐng)域本身已發(fā)展出多種技術(shù),本文將介紹其中之一 —— 深度強(qiáng)化學(xué)習(xí)(DRL)。本文深入探討了分層運(yùn)動(dòng)規(guī)劃問題,闡述了深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)。設(shè)計(jì)此類系統(tǒng)的主要要素包括環(huán)境建模、建模抽象、狀態(tài)描述與感知模型、合理的獎(jiǎng)勵(lì)機(jī)制以及底層神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。文章還描述了車輛模型、仿真可能性和計(jì)算需求,展示了不同層級(jí)的戰(zhàn)略決策和觀測模型(如連續(xù)和離散狀態(tài)表示、基于網(wǎng)格和基于攝像頭的解決方案)。本文按自動(dòng)駕駛的不同任務(wù)和級(jí)別(如跟車行駛、車道保持、軌跡跟蹤、匯入車流或密集交通環(huán)境行駛等)對最新解決方案進(jìn)行了系統(tǒng)綜述。最后,討論了該領(lǐng)域尚未解決的問題和未來的挑戰(zhàn)。
一、引言
自動(dòng)駕駛車輛功能的運(yùn)動(dòng)規(guī)劃是一個(gè)廣泛且長期研究的領(lǐng)域,采用了多種方法,如不同的優(yōu)化技術(shù)、現(xiàn)代控制方法、人工智能和機(jī)器學(xué)習(xí)。本文呈現(xiàn)了近年來該領(lǐng)域中基于深度強(qiáng)化學(xué)習(xí)(DRL)方法的研究成果。深度強(qiáng)化學(xué)習(xí)結(jié)合了經(jīng)典強(qiáng)化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò),在 Deepmind 發(fā)表突破性論文后受到廣泛關(guān)注。過去幾年中,關(guān)于自動(dòng)駕駛車輛和深度強(qiáng)化學(xué)習(xí)的研究論文數(shù)量大幅增加(見圖1)。由于不同運(yùn)動(dòng)規(guī)劃問題的復(fù)雜性,評(píng)估深度強(qiáng)化學(xué)習(xí)在這些問題中的適用性是一個(gè)合適的選擇。

圖1、科學(xué)網(wǎng)主題搜索“深度強(qiáng)化學(xué)習(xí)”和“自動(dòng)駕駛汽車”
(一)自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃的分層分類
將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于自動(dòng)駕駛汽車,有望開發(fā)出 “端到端” 解決方案。該系統(tǒng)的工作方式類似人類駕駛員:輸入包括行駛目的地、道路網(wǎng)絡(luò)知識(shí)和各種傳感器信息,輸出則是直接的車輛控制指令(如轉(zhuǎn)向、扭矩和制動(dòng))。然而,一方面,實(shí)現(xiàn)這種方案相當(dāng)復(fù)雜,因?yàn)樗枰幚眈{駛?cè)蝿?wù)的所有層級(jí);另一方面,系統(tǒng)本身如同一個(gè)黑箱,這會(huì)引發(fā)設(shè)計(jì)和驗(yàn)證方面的問題。從該領(lǐng)域近期的進(jìn)展來看,大多數(shù)研究集中于解決分層運(yùn)動(dòng)規(guī)劃問題的某些子任務(wù)。如文獻(xiàn)所述,自動(dòng)駕駛的決策系統(tǒng)至少可分解為四個(gè)層級(jí)(見圖2)。

圖2、運(yùn)動(dòng)規(guī)劃的層次
路線規(guī)劃作為最高層級(jí),基于道路網(wǎng)絡(luò)地圖確定行駛路線點(diǎn),并可利用實(shí)時(shí)交通數(shù)據(jù)。盡管最優(yōu)路線選擇是研究界的熱點(diǎn),但涉及該層級(jí)的論文并未采用強(qiáng)化學(xué)習(xí)方法。關(guān)于該主題的全面研究可參見文獻(xiàn)。
行為層是自動(dòng)駕駛的戰(zhàn)略層級(jí)。在給定路線點(diǎn)的情況下,智能體(agent)會(huì)考慮局部道路拓?fù)浣Y(jié)構(gòu)、交通規(guī)則和其他交通參與者的感知狀態(tài),制定短期策略。針對駕駛場景,智能體有一組有限的可用動(dòng)作,因此該層級(jí)的實(shí)現(xiàn)通常是一個(gè)有限狀態(tài)機(jī),其狀態(tài)包含基本策略(如跟車行駛、車道變換等),并根據(jù)環(huán)境變化在這些狀態(tài)之間進(jìn)行明確的轉(zhuǎn)換。然而,即使完全了解當(dāng)前交通狀態(tài),周圍駕駛員的未來意圖仍然未知,這使得該問題具有部分可觀測性。因此,未來狀態(tài)不僅取決于自車(ego vehicle)的行為,還依賴于未知過程,該問題由此構(gòu)成部分可觀測馬爾可夫決策過程(POMDP)。已有多種技術(shù)可減輕這些影響,例如通過預(yù)測其他道路使用者的可能軌跡 —— 文獻(xiàn)中作者使用了高斯混合模型,文獻(xiàn) 中則基于記錄的交通數(shù)據(jù)訓(xùn)練了支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)。由于有限動(dòng)作空間的部分可觀測馬爾可夫決策過程是強(qiáng)化學(xué)習(xí)問題建模的自然方式,因此大量研究論文圍繞該層級(jí)展開,這將在本文后續(xù)章節(jié)中詳細(xì)介紹。
為執(zhí)行行為層定義的策略,運(yùn)動(dòng)規(guī)劃層需要設(shè)計(jì)一條可行的軌跡,該軌跡包含車輛在短時(shí)間范圍內(nèi)的期望速度、橫擺角和位置狀態(tài)。自然地,該層級(jí)必須考慮車輛動(dòng)力學(xué)特性,因此經(jīng)典的精確運(yùn)動(dòng)規(guī)劃解決方案并不實(shí)用,因?yàn)樗鼈兺ǔ<僭O(shè)車輛具有完整動(dòng)力學(xué)特性(holonomic dynamics)。長期以來,人們已知解決非完整動(dòng)力學(xué)(nonholonomic dynamics)運(yùn)動(dòng)規(guī)劃問題的數(shù)值復(fù)雜度為多項(xiàng)式空間算法(PSPACE),這意味著通過實(shí)時(shí)求解非線性規(guī)劃問題來制定整體解決方案難度較大。另一方面,該層級(jí)的輸出表示形式使得難以直接用 “純” 強(qiáng)化學(xué)習(xí)處理,僅有少數(shù)論文專門研究該層級(jí),且這些論文通常使用深度強(qiáng)化學(xué)習(xí)來定義樣條曲線作為訓(xùn)練結(jié)果。
在最低層級(jí),局部反饋控制負(fù)責(zé)最小化與規(guī)定路徑或軌跡的偏差。本文綜述的大量論文涉及該任務(wù)的各個(gè)方面,其中車道保持、軌跡跟蹤或跟車行駛是較高層級(jí)的策略。盡管在該層級(jí),動(dòng)作空間是連續(xù)的,但經(jīng)典強(qiáng)化學(xué)習(xí)方法無法處理連續(xù)動(dòng)作空間,因此需要對控制輸出進(jìn)行離散化處理,或者如部分論文所示,使用深度強(qiáng)化學(xué)習(xí)的連續(xù)變體。
(二)強(qiáng)化學(xué)習(xí)
作為人工智能和機(jī)器學(xué)習(xí)的一個(gè)分支,強(qiáng)化學(xué)習(xí)(RL)研究的是智能體在環(huán)境中學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo)的問題。與監(jiān)督學(xué)習(xí)不同(監(jiān)督學(xué)習(xí)中學(xué)習(xí)者會(huì)獲得好壞行為的示例),強(qiáng)化學(xué)習(xí)智能體必須通過試錯(cuò)來發(fā)現(xiàn)如何行為才能獲得最大獎(jiǎng)勵(lì) [12]。為完成這一任務(wù),智能體必須在一定程度上感知環(huán)境狀態(tài),并基于這些信息采取能導(dǎo)致新狀態(tài)的動(dòng)作。智能體的動(dòng)作會(huì)帶來獎(jiǎng)勵(lì),這有助于其改進(jìn)未來的行為。為了最終構(gòu)建問題模型,還需要基于智能體的動(dòng)作對環(huán)境的狀態(tài)轉(zhuǎn)移進(jìn)行建模。這就形成了由(S, A, T, R, Ω, O)函數(shù)定義的部分可觀測馬爾可夫決策過程(POMDP),其中 S 是環(huán)境狀態(tài)集合,A 是特定狀態(tài)下的可能動(dòng)作集合,T 是基于動(dòng)作的狀態(tài)轉(zhuǎn)移函數(shù),R 是給定(S, A)對的獎(jiǎng)勵(lì),Ω 是觀測集合,O 是傳感器模型。在這一背景下,智能體可通過任何推理模型實(shí)現(xiàn),其參數(shù)可根據(jù)獲得的經(jīng)驗(yàn)進(jìn)行調(diào)整。在深度強(qiáng)化學(xué)習(xí)中,該模型由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。
部分可觀測馬爾可夫決策過程場景下的問題在于,當(dāng)前動(dòng)作會(huì)影響未來狀態(tài),進(jìn)而影響未來獎(jiǎng)勵(lì)。這意味著,為了優(yōu)化整個(gè)情節(jié)(episode)的累積獎(jiǎng)勵(lì),智能體需要了解其動(dòng)作的未來后果。強(qiáng)化學(xué)習(xí)有兩種確定最優(yōu)行為的主要方法:基于價(jià)值的方法和基于策略的方法。
基于價(jià)值的方法的原始概念是文獻(xiàn)中提出的深度 Q 學(xué)習(xí)網(wǎng)絡(luò)(DQN)。簡要來說,智能體為每個(gè)狀態(tài) - 動(dòng)作對預(yù)測一個(gè)所謂的 Q 值,該值表示期望的即時(shí)獎(jiǎng)勵(lì)和未來獎(jiǎng)勵(lì)。智能體可從這些 Q 值中選擇具有最高值的動(dòng)作作為最優(yōu)策略,或在訓(xùn)練過程中利用這些值進(jìn)行探索。其主要目標(biāo)是學(xué)習(xí)最優(yōu) Q 函數(shù)(在該方法中由神經(jīng)網(wǎng)絡(luò)表示)。這可以通過進(jìn)行實(shí)驗(yàn)、計(jì)算每個(gè)動(dòng)作未來狀態(tài)的折扣獎(jiǎng)勵(lì),并使用貝爾曼方程作為目標(biāo)更新網(wǎng)絡(luò)來實(shí)現(xiàn)。若使用同一網(wǎng)絡(luò)進(jìn)行價(jià)值評(píng)估和動(dòng)作選擇,在噪聲環(huán)境中會(huì)導(dǎo)致行為不穩(wěn)定且學(xué)習(xí)速度緩慢。元啟發(fā)式方法(如經(jīng)驗(yàn)回放)可解決這一問題,同時(shí)也存在原始 DQN 的其他變體,例如雙 DQN(Double DQN)或競爭 DQN(Dueling DQN),它們將動(dòng)作預(yù)測和價(jià)值預(yù)測流分離,從而實(shí)現(xiàn)更快、更穩(wěn)定的學(xué)習(xí)。
基于策略的方法旨在直接選擇最優(yōu)行為,其中策略 π_θ 是(S, A)的函數(shù)。該策略由神經(jīng)網(wǎng)絡(luò)表示,帶有 softmax 輸出層,智能體通常會(huì)預(yù)測動(dòng)作期望收益的歸一化概率。在最自然的實(shí)現(xiàn)中,該輸出整合了強(qiáng)化學(xué)習(xí)過程的探索特性。在高級(jí)變體(如演員 - 評(píng)論家算法)中,智能體對價(jià)值和動(dòng)作進(jìn)行不同的預(yù)測 [16]。最初,強(qiáng)化學(xué)習(xí)算法使用有限動(dòng)作空間,但對于許多控制問題而言,這并不適用。為解決這一問題,文獻(xiàn)提出了深度確定性策略梯度(DDPG)智能體,其中 “演員”(actor)直接將狀態(tài)映射到連續(xù)動(dòng)作。
對于復(fù)雜問題,學(xué)習(xí)過程可能仍然漫長甚至無法成功,這一問題可通過多種方式解決:
· 課程學(xué)習(xí)(Curriculum learning):訓(xùn)練從任務(wù)的簡單示例開始,然后逐漸增加難度,文獻(xiàn)采用了這種方法。
· 對抗性學(xué)習(xí)(Adversarial learning):旨在通過惡意輸入欺騙模型。
基于模型的動(dòng)作選擇(如 Alpha-Go 中基于蒙特卡洛樹搜索(MCTS)的解決方案):可減少遠(yuǎn)距離獎(jiǎng)勵(lì)帶來的問題。

圖3、基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛POMDP模型
由于強(qiáng)化學(xué)習(xí)將問題建模為部分可觀測馬爾可夫決策過程(一種離散時(shí)間隨機(jī)控制過程),解決方案需要提供一個(gè)數(shù)學(xué)框架,用于在結(jié)果部分隨機(jī)、部分受決策者控制且狀態(tài)部分可觀測的情況下進(jìn)行決策。對于自動(dòng)駕駛或高度自動(dòng)化車輛的運(yùn)動(dòng)規(guī)劃,部分可觀測馬爾可夫決策過程的元組(S, A, T, R, O)如圖 3 所示,其解釋如下:
S、A、T 和 R 描述了馬爾可夫決策過程(MDP),即學(xué)習(xí)過程的建模環(huán)境。它們可能因目標(biāo)而異,但在本文所述場景中,需要對車輛動(dòng)力學(xué)、周圍靜態(tài)和動(dòng)態(tài)物體(如其他交通參與者)、道路拓?fù)浣Y(jié)構(gòu)、車道標(biāo)線、交通標(biāo)志和交通規(guī)則等進(jìn)行建模。S 表示仿真的當(dāng)前實(shí)際狀態(tài),A 是駕駛自車的智能體的可能動(dòng)作集合,而狀態(tài)轉(zhuǎn)移函數(shù) T 會(huì)根據(jù)車輛的動(dòng)作更新車輛狀態(tài)和交通參與者的狀態(tài)。不同的抽象層級(jí)將在第二節(jié) 第一 部分描述。許多研究論文使用不同的軟件平臺(tái)進(jìn)行環(huán)境建模,第二節(jié)第二部分將簡要介紹所使用的部分框架。R 是馬爾可夫決策過程的獎(jiǎng)勵(lì)函數(shù),第二節(jié)第四部分將對此主題進(jìn)行總結(jié)。
Ω 是智能體在環(huán)境中可獲得的觀測集合,而 O 是觀測函數(shù),它給出了可能觀測的概率分布。在較簡單的情況下,研究假設(shè)完全可觀測性,并將問題表述為馬爾可夫決策過程(MDP),但在許多情況下,車輛并非擁有所有信息。另一個(gè)有趣的主題是狀態(tài)觀測的表示,這是深度強(qiáng)化學(xué)習(xí)智能體架構(gòu)選擇和性能的關(guān)鍵因素。文獻(xiàn)中使用的觀測模型將在第二節(jié)第五部分進(jìn)行總結(jié)。
(三)多智能體強(qiáng)化學(xué)習(xí)
如前所述,運(yùn)動(dòng)規(guī)劃的較低層級(jí)(如軌跡跟蹤或簡單控制任務(wù))不需要與行為依賴于自車的其他智能體進(jìn)行交互。然而,在較高層級(jí),當(dāng)車輛處于復(fù)雜場景(如賽車、通過交叉路口、匯入車流或交通環(huán)境行駛)時(shí),其他參與者的反應(yīng)會(huì)極大地影響可用選擇和可能結(jié)果。這就引出了多智能體系統(tǒng)(MAS)領(lǐng)域,當(dāng)采用強(qiáng)化學(xué)習(xí)技術(shù)處理該領(lǐng)域問題時(shí),被稱為多智能體(深度)強(qiáng)化學(xué)習(xí)(不同文獻(xiàn)中簡稱 MARL 或 MDRL)。多智能體強(qiáng)化學(xué)習(xí)的一種建模方法是對原始部分可觀測馬爾可夫決策過程進(jìn)行泛化,為每個(gè)智能體擴(kuò)展多個(gè)動(dòng)作和觀測集合,甚至在不同智能體有不同目標(biāo)的情況下擴(kuò)展多個(gè)獎(jiǎng)勵(lì)。這種方法被稱為分散式部分可觀測馬爾可夫決策過程(DEC-POMDP)。
自然地,該領(lǐng)域的一些問題仍然可以通過單智能體方法處理:一種是將所有其他智能體嵌入到預(yù)先定義的、具有預(yù)定義或基于規(guī)則行為的模型中,為單個(gè)智能體創(chuàng)建獨(dú)立的學(xué)習(xí)環(huán)境;另一種是采用完全獨(dú)立的學(xué)習(xí)者,其中所有其他智能體僅作為實(shí)際學(xué)習(xí)者環(huán)境的一部分。但這種方法存在風(fēng)險(xiǎn) —— 找到的策略可能會(huì)過擬合于環(huán)境中其他智能體的策略,從而無法很好地泛化。
與單智能體強(qiáng)化學(xué)習(xí)問題相比,多智能體強(qiáng)化學(xué)習(xí)面臨更多額外問題,因?yàn)樗跀?shù)值和技術(shù)上更為復(fù)雜,且存在許多概念性問題需要處理。首先是 “博弈” 的性質(zhì),即它是合作性的還是競爭性的,這極大地影響?yīng)剟?lì)分配(即獎(jiǎng)勵(lì)的計(jì)算和分配)。零和博弈通常導(dǎo)致競爭性場景,因?yàn)橐粋€(gè)智能體的收益必然意味著另一個(gè)智能體的損失。在車輛運(yùn)動(dòng)規(guī)劃問題中,賽車就是此類多智能體系統(tǒng)問題的一個(gè)例子。此外,還存在明顯的合作性問題,即只有所有參與者都成功才算任務(wù)完成。某些交通場景可以從這兩種角度考慮,例如在交叉路口或高速公路行駛場景中,可以訓(xùn)練智能體以實(shí)現(xiàn)個(gè)體最短行駛時(shí)間,或所有智能體的平均最短行駛時(shí)間。即使意圖明確,獎(jiǎng)勵(lì)分配也并非易事,可能會(huì)導(dǎo)致不同的學(xué)習(xí)動(dòng)態(tài)或意想不到的結(jié)果。
智能體知識(shí)或任務(wù)的異質(zhì)性也是一個(gè)設(shè)計(jì)方面的問題。即使所有智能體的個(gè)體目標(biāo)相同,它們的行為也未必需要相似。此外,在某些場景(如匯入車流)中,智能體具有不同的任務(wù):已在目標(biāo)車道行駛的車輛需要決定是否為匯入車輛調(diào)整車距,而匯入車輛的智能體則需要導(dǎo)航至該目標(biāo)車距。
這引出了與單智能體系統(tǒng)相比的最后一個(gè)顯著差異:在多智能體系統(tǒng)中,智能體有機(jī)會(huì)通過消息傳遞或內(nèi)存共享進(jìn)行通信。這種設(shè)置通常假設(shè)環(huán)境是部分可觀測的,且智能體之間是合作關(guān)系,其目的有兩個(gè):一是傳遞其他智能體無法觀測到的信息;二是傳遞預(yù)期行為以實(shí)現(xiàn)更好的聯(lián)合性能。這兩種目的在駕駛場景中都具有實(shí)際意義,例如在高速公路車隊(duì)行駛中,每輛車的雷達(dá)只能感知前方最近的車輛,但如果能獲得前方所有車輛的信息,以及它們的預(yù)期制動(dòng)或加速意圖,車輛就能做出更好的反應(yīng)。多智能體系統(tǒng)中的通信是一個(gè)相對較新的領(lǐng)域,已取得了一些有前景的成果,但仍存在許多未解決的問題。
最后,多智能體強(qiáng)化學(xué)習(xí)有不同的訓(xùn)練方案,主要類別如下:
1. 集中式控制器方法:為所有智能體的所有觀測和動(dòng)作建立一個(gè)聯(lián)合模型。從理論上講,這可能是一種最優(yōu)方法,但本質(zhì)上是單個(gè)智能體控制多個(gè)智能體。另一方面,隨著智能體數(shù)量的增加,動(dòng)作空間的復(fù)雜度呈指數(shù)增長,使得探索變得極其困難。
2. 并發(fā)學(xué)習(xí)方法:每個(gè)智能體都有自己的策略、私有觀測和動(dòng)作空間。這種方法適用于異質(zhì)性任務(wù),但也存在缺點(diǎn):每個(gè)智能體都有自己的學(xué)習(xí)過程,因此總體學(xué)習(xí)資源需求(內(nèi)存、計(jì)算量)隨智能體數(shù)量線性增長;此外,由于智能體的策略會(huì)根據(jù)其他智能體的行為進(jìn)行調(diào)整,學(xué)習(xí)動(dòng)態(tài)可能會(huì)變得循環(huán)(類似簡單的石頭剪刀布游戲)。
3. 參數(shù)共享方法:智能體開發(fā)一個(gè)共同的策略,同時(shí)結(jié)合各自的獨(dú)特經(jīng)驗(yàn)。這并不意味著智能體行為完全相同,因?yàn)槊總€(gè)智能體的狀態(tài)和觀測可能不同,且這種方法的資源消耗相對較低。
二、強(qiáng)化學(xué)習(xí)建模
(一)車輛建模
自車運(yùn)動(dòng)建模是訓(xùn)練過程的關(guān)鍵部分,因?yàn)樗枰谀P蜏?zhǔn)確性和計(jì)算資源之間進(jìn)行權(quán)衡。由于強(qiáng)化學(xué)習(xí)技術(shù)需要大量情節(jié)來確定最優(yōu)策略,環(huán)境的步長時(shí)間(很大程度上取決于車輛動(dòng)力學(xué)模型的評(píng)估時(shí)間)會(huì)深刻影響訓(xùn)練時(shí)間。因此,在環(huán)境設(shè)計(jì)過程中,需要從最簡單的運(yùn)動(dòng)學(xué)模型到更復(fù)雜的動(dòng)力學(xué)模型中進(jìn)行選擇,這些動(dòng)力學(xué)模型包括 2 自由度(2DoF)橫向模型,以及參數(shù)數(shù)量更多、輪胎模型更復(fù)雜的高階模型。
剛性運(yùn)動(dòng)學(xué)單軌車輛模型忽略了輪胎滑移,其橫向運(yùn)動(dòng)僅受幾何參數(shù)影響,因此通常適用于低速場景。最簡單的包含縱向和橫向運(yùn)動(dòng)的動(dòng)力學(xué)模型基于 3 自由度(3DoF)動(dòng)態(tài)自行車模型,通常采用線性輪胎模型,其獨(dú)立變量為縱向速度(Vx)、橫向速度(Vy)和橫擺角速度(?)。更復(fù)雜的模型是 9 自由度(9DoF)四輪胎車輛模型,除了 3 自由度模型的參數(shù)外,還考慮了車身側(cè)傾、俯仰以及四個(gè)車輪的角速度(ωfl、ωfr、ωrl、ωrr),以更精確地計(jì)算輪胎力。因此,該模型既考慮了縱向和橫向滑移的耦合,也考慮了輪胎間的載荷轉(zhuǎn)移。
盡管運(yùn)動(dòng)學(xué)模型看似相當(dāng)簡化,且如文獻(xiàn)所述,此類模型的行為可能與實(shí)際車輛存在顯著差異,但對于許多控制場景而言,其準(zhǔn)確性已足夠。根據(jù)文獻(xiàn),使用橫向加速度限制在約 0.5g 或以下的運(yùn)動(dòng)學(xué)自行車模型可提供良好的結(jié)果,但僅適用于干燥路面的假設(shè)。當(dāng)橫向加速度超過該限制時(shí),該模型無法處理動(dòng)力學(xué)特性,因此在涉及較高加速度(需將車輛動(dòng)力學(xué)推向操控極限)的場景中,應(yīng)使用更精確的車輛模型。
關(guān)于計(jì)算時(shí)間,基于運(yùn)動(dòng)學(xué)模型,3 自由度模型的計(jì)算量可能是其 10-50 倍,而帶有非線性輪胎模型的 9 自由度模型的精確計(jì)算量可能是其 100-300 倍,這也是強(qiáng)化學(xué)習(xí)領(lǐng)域傾向于使用低抽象層級(jí)模型的主要原因。
交通和周圍車輛的建模通常通過使用特定的仿真器完成(見第二節(jié)第二部分)。部分作者使用元胞自動(dòng)機(jī)模型開發(fā)自己的環(huán)境;部分作者使用 MOBIL 模型(一種通過最小化車道變換引起的整體制動(dòng)來推導(dǎo)適用于各類跟車模型的自由車道變換和強(qiáng)制車道變換規(guī)則的通用模型);還有部分作者使用智能駕駛模型(IDM)—— 一種連續(xù)的微觀單車道模型。
(二)仿真器
一些作者會(huì)創(chuàng)建自定義環(huán)境以實(shí)現(xiàn)對模型的完全控制,但也有一些商業(yè)和開源環(huán)境可提供此功能。本節(jié)簡要介紹近年來在基于強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃研究中使用的部分仿真器。
在交通環(huán)境建模中,最受歡迎的選擇是 SUMO(城市交通仿真器),它是一個(gè)微觀、多模式、空間連續(xù)且時(shí)間離散的交通流仿真平臺(tái)。它可以轉(zhuǎn)換來自其他交通仿真器(如 VISUM、Vissim 或 MATSim)的網(wǎng)絡(luò),也可以讀取其他標(biāo)準(zhǔn)數(shù)字道路網(wǎng)絡(luò)格式(如 OpenStreetMap 或 OpenDRIVE),并提供與多種環(huán)境(如 Python、Matlab、.Net、C++ 等)的接口。盡管其抽象層級(jí)為微觀,且車輛行為受到限制,但易用性和高速性使其成為訓(xùn)練智能體處理交通場景的理想選擇,不過除了車輛的真實(shí)狀態(tài)外,它不提供任何傳感器模型。
另一個(gè)在商業(yè)和研究中都廣泛使用的微觀仿真器是 VISSIM,文獻(xiàn)中使用它來開發(fā)跟車行為和車道變換決策。
僅考慮車輛動(dòng)力學(xué)時(shí),最受歡迎的選擇是 TORCS(開源賽車仿真器),它是一個(gè)現(xiàn)代化、模塊化、高度可移植的多玩家、多智能體汽車仿真器。其高度的模塊化和可移植性使其成為人工智能研究的理想選擇。它與最流行的人工智能研究環(huán)境 Python 的接口便捷,且運(yùn)行速度可接受,還提供了不同的賽道、競爭機(jī)器人和多種傳感器模型。
對于車輛動(dòng)力學(xué)仿真,專業(yè)工具(如 CarSIM或 CarMaker)本應(yīng)是最佳選擇,但在強(qiáng)化學(xué)習(xí)文獻(xiàn)中并未發(fā)現(xiàn)這些軟件的應(yīng)用。這可能是因?yàn)樗鼈兪前嘿F的商業(yè)平臺(tái),更重要的是,它們?nèi)狈?Python 接口,且高精度但資源密集型的模型使其無法在合理時(shí)間內(nèi)運(yùn)行多個(gè)情節(jié)。
對于更詳細(xì)的傳感器模型或交通場景建模,作者通常使用 Airsim、Udacity Gazebo/ROS 和 CARLA:
· Airsim 最初是為無人機(jī)開發(fā)的仿真器,基于虛幻引擎(Unreal Engine)構(gòu)建,目前已擴(kuò)展到車輛仿真,支持不同的天氣條件和場景,文獻(xiàn)中的近期研究使用了該仿真器。
· Udacity 仿真器是為 Udacity 自動(dòng)駕駛汽車納米學(xué)位項(xiàng)目開發(fā)的,提供了多種傳感器(如高質(zhì)量渲染的攝像頭圖像、激光雷達(dá)(LIDAR)和紅外信息),并能夠?qū)ζ渌煌▍⑴c者進(jìn)行建模,文獻(xiàn)中使用了該仿真器。
· 另一個(gè)值得一提的是 CARLA,一個(gè)用于自動(dòng)駕駛研究的開源仿真器。CARLA 專為支持自動(dòng)駕駛城市駕駛系統(tǒng)的開發(fā)、訓(xùn)練和驗(yàn)證而設(shè)計(jì),除了開源代碼和協(xié)議外,還提供了專門為此目的創(chuàng)建的開放數(shù)字資產(chǎn)(城市布局、建筑物、車輛),可免費(fèi)使用。該仿真平臺(tái)支持傳感器套件和環(huán)境條件的靈活配置。
盡管本節(jié)僅對仿真器進(jìn)行了簡要描述,但文獻(xiàn)中提供了該主題的更系統(tǒng)綜述。
(三)動(dòng)作空間
動(dòng)作空間的選擇在很大程度上取決于之前每項(xiàng)研究中為強(qiáng)化學(xué)習(xí)問題設(shè)計(jì)的車輛模型和任務(wù),但主要存在兩個(gè)控制層級(jí):一是通過轉(zhuǎn)向、制動(dòng)和加速指令直接控制車輛;二是作用于行為層,定義戰(zhàn)略層級(jí)的選擇(如車道變換、車道保持、設(shè)置自適應(yīng)巡航控制(ACC)參考點(diǎn)等)。在該層級(jí),智能體向低層級(jí)控制器發(fā)出指令,由低層級(jí)控制器計(jì)算實(shí)際軌跡。僅有少數(shù)論文涉及運(yùn)動(dòng)規(guī)劃層,該層級(jí)的任務(wù)定義了端點(diǎn)(x, y, θ),智能體通過訓(xùn)練確定軌跡的節(jié)點(diǎn)(以樣條曲線表示),如文獻(xiàn)所示。此外,還有少數(shù)論文偏離了車輛運(yùn)動(dòng)限制,通過網(wǎng)格步進(jìn)來生成動(dòng)作,類似經(jīng)典的基于元胞自動(dòng)機(jī)的微觀模型。
部分論文通過分離縱向和橫向任務(wù)來結(jié)合控制層和行為層,例如文獻(xiàn)中,縱向加速度是直接指令,而車道變換是戰(zhàn)略決策。
行為層通常有幾個(gè)不同的選擇,底層神經(jīng)網(wǎng)絡(luò)需要從中進(jìn)行選擇,這使其成為具有有限動(dòng)作的經(jīng)典強(qiáng)化學(xué)習(xí)任務(wù)。
然而,在控制層級(jí),車輛的執(zhí)行器(即轉(zhuǎn)向、油門和制動(dòng))是連續(xù)參數(shù),許多強(qiáng)化學(xué)習(xí)技術(shù)(如 DQN 和策略梯度(PG))無法處理連續(xù)動(dòng)作空間,因?yàn)樗鼈冃枰邢薜膭?dòng)作集合,而部分技術(shù)(如 DDPG)則適用于連續(xù)動(dòng)作空間。為了適應(yīng)所使用的強(qiáng)化學(xué)習(xí)技術(shù)對有限動(dòng)作的要求,大多數(shù)論文將轉(zhuǎn)向和加速指令離散化為每個(gè)通道 3 到 9 個(gè)可能的選項(xiàng)。可能的選擇數(shù)量較少會(huì)使解決方案與現(xiàn)實(shí)存在較大差距,可能導(dǎo)致車輛動(dòng)力學(xué)問題(如不可控滑移、劇烈沖擊和橫擺角速度),但在論文中,運(yùn)動(dòng)學(xué)模型的使用有時(shí)會(huì)掩蓋這些問題。然而,大量的離散選擇會(huì)導(dǎo)致部分可觀測馬爾可夫決策過程方法中可能結(jié)果的指數(shù)級(jí)增長,從而減慢學(xué)習(xí)過程。
(四)獎(jiǎng)勵(lì)機(jī)制
在訓(xùn)練過程中,智能體試圖完成一項(xiàng)通常包含多個(gè)步驟的任務(wù),該任務(wù)被稱為一個(gè)情節(jié)(episode)。當(dāng)滿足以下條件之一時(shí),情節(jié)結(jié)束:
· 智能體成功完成任務(wù);
· 情節(jié)達(dá)到預(yù)先定義的步驟數(shù);
· 出現(xiàn)終止條件。
前兩種情況較為簡單,取決于具體問題的設(shè)計(jì)。終止條件通常是指智能體進(jìn)入無法完成當(dāng)前任務(wù)的狀態(tài),或做出不可接受的錯(cuò)誤。車輛運(yùn)動(dòng)規(guī)劃智能體通常使用的終止條件包括與其他參與者或障礙物碰撞、駛離軌道或車道,因?yàn)檫@兩種情況都會(huì)不可避免地導(dǎo)致情節(jié)結(jié)束。還有一些較寬松的方法,在事故發(fā)生前就以失敗為由終止情節(jié),例如車輛與軌道的切線角過大,或與其他參與者距離過近。這些 “事故前” 終止條件通過將失敗信息提前,加快了訓(xùn)練速度,但設(shè)計(jì)時(shí)需要謹(jǐn)慎。
獎(jiǎng)勵(lì)機(jī)制的作用是評(píng)估智能體在情節(jié)中做出的選擇的優(yōu)劣,提供反饋以改進(jìn)策略。獎(jiǎng)勵(lì)的時(shí)機(jī)是第一個(gè)重要方面,強(qiáng)化學(xué)習(xí)解決方案的設(shè)計(jì)者需要選擇以下策略的組合(每種策略都有其優(yōu)缺點(diǎn)):
· 僅在情節(jié)結(jié)束時(shí)給予獎(jiǎng)勵(lì),并將其折扣回之前的(S, A)對。這種方式可能導(dǎo)致學(xué)習(xí)過程較慢,但最大限度地減少了人為對策略的塑造。
· 通過評(píng)估當(dāng)前狀態(tài)在每個(gè)步驟給予即時(shí)獎(jiǎng)勵(lì)。這種解決方案中自然也存在折扣因子,能顯著加快學(xué)習(xí)速度,但即時(shí)獎(jiǎng)勵(lì)的選擇會(huì)極大地影響所建立的策略,有時(shí)會(huì)阻礙智能體開發(fā)出比設(shè)計(jì)獎(jiǎng)勵(lì)所預(yù)期的更優(yōu)整體解決方案。
· 中間解決方案:在預(yù)先定義的時(shí)間段或行駛距離內(nèi),或在做出良好或不良決策時(shí)給予獎(jiǎng)勵(lì)。
在運(yùn)動(dòng)規(guī)劃領(lǐng)域,情節(jié)結(jié)束時(shí)的獎(jiǎng)勵(lì)根據(jù)駕駛?cè)蝿?wù)的完成情況或失敗情況計(jì)算。總體性能因素通常包括:完成任務(wù)的時(shí)間、保持期望速度或?qū)崿F(xiàn)盡可能高的平均速度、與車道中心線或期望軌跡的橫擺角或距離、超越更多車輛、盡可能減少車道變換次數(shù)、靠右行駛等。獎(jiǎng)勵(lì)系統(tǒng)還可以體現(xiàn)乘客舒適性,通過強(qiáng)制車輛動(dòng)力學(xué)的平穩(wěn)性來實(shí)現(xiàn)。最常用的定量指標(biāo)包括縱向加速度、橫向加速度和沖擊度(jerk)。
在部分研究中,獎(jiǎng)勵(lì)基于與數(shù)據(jù)集的偏差,或計(jì)算為與參考模型的偏差。這些方法可以提供良好的結(jié)果,但在一定程度上偏離了強(qiáng)化學(xué)習(xí)的原始理念,因?yàn)閷W(xué)習(xí)過程可能會(huì)受到預(yù)先已知策略的指導(dǎo)。
(五)觀測空間
觀測空間向智能體描述環(huán)境,需要提供足夠的信息以幫助智能體選擇適當(dāng)?shù)膭?dòng)作。因此,根據(jù)任務(wù)的不同,觀測空間包含以下信息:
· 車輛在環(huán)境中的狀態(tài)(如位置、速度、橫擺角等);
· 拓?fù)湫畔ⅲㄈ畿嚨馈?biāo)志、規(guī)則等);
· 其他參與者(周圍車輛、障礙物等)。
觀測的參考系可以是絕對的,固定在世界坐標(biāo)系中,但由于決策過程以自車為中心,選擇以自車坐標(biāo)系、自車在世界中的位置或道路方向?yàn)榛鶞?zhǔn)的自車中心參考系更為簡便。這使得狀態(tài)分布在位置、航向和速度空間中集中在原點(diǎn)附近(因?yàn)槠渌囕v通常靠近自車,且速度和航向相似),從而減少了策略必須運(yùn)行的狀態(tài)空間區(qū)域。
1. 車輛狀態(tài)觀測
對于車道保持、導(dǎo)航、簡單賽車、超車或機(jī)動(dòng)任務(wù),自車最常用且最簡單的觀測包括連續(xù)變量(|e|, v, θe),分別描述車輛與車道中心線的橫向位置、車輛速度和橫擺角(見圖 4)。這些信息是指導(dǎo)類車車輛的絕對最小值,僅適用于經(jīng)典運(yùn)動(dòng)學(xué)類車模型(該模型假設(shè)車輛運(yùn)動(dòng)無滑移)。盡管在許多文獻(xiàn)中這些信息已足夠(因?yàn)檐囕v保持在動(dòng)態(tài)穩(wěn)定區(qū)域內(nèi)),但對于必須考慮更復(fù)雜車輛動(dòng)力學(xué)的任務(wù)(如賽車場景或車輛穩(wěn)定性至關(guān)重要的場景),這組可觀測狀態(tài)是不夠的,需要擴(kuò)展橫擺、俯仰、側(cè)傾、輪胎動(dòng)力學(xué)和滑移等信息。

圖4、車輛基本狀態(tài)觀察
2. 環(huán)境觀測
獲取車輛周圍環(huán)境信息并將其呈現(xiàn)給學(xué)習(xí)智能體的方式在文獻(xiàn)中存在很大差異,可觀察到不同層級(jí)的傳感器抽象:
· 傳感器層級(jí):將攝像頭圖像、激光雷達(dá)或雷達(dá)信息傳遞給智能體;
· 中間層級(jí):提供理想化的傳感器信息;
· 真實(shí)狀態(tài)層級(jí):提供所有可檢測和不可檢測的信息。
傳感器模型的結(jié)構(gòu)也會(huì)影響深度強(qiáng)化學(xué)習(xí)智能體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),因?yàn)轭悎D像或類數(shù)組輸入需要二維或一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu),而簡單的標(biāo)量信息集合則適用于簡單的全連接網(wǎng)絡(luò)(DNN)。在某些情況下,這兩種類型的輸入會(huì)混合使用,因此網(wǎng)絡(luò)需要有兩個(gè)不同類型的輸入層。
基于圖像的解決方案通常使用從三維仿真器中提取的前置攝像頭圖像來表示觀測空間。數(shù)據(jù)以(C×W×H)大小的矩陣形式組織,其中 C 是通道數(shù)(強(qiáng)度圖像通常為 1 通道,RGB 圖像為 3 通道),W 和 H 分別是圖像的寬度和高度分辨率。在某些情況下,為了檢測運(yùn)動(dòng),會(huì)將多個(gè)圖像并行輸入到網(wǎng)絡(luò)中。有時(shí)為了數(shù)據(jù)和網(wǎng)絡(luò)壓縮,會(huì)對圖像進(jìn)行下采樣,例如文獻(xiàn)中采用(1×48×27)的分辨率,文獻(xiàn)中采用(3×84×84)的分辨率。由于圖像中的信息是非結(jié)構(gòu)化的(即物體位置或車道信息等狀態(tài)信息被深度編碼在數(shù)據(jù)中),深度神經(jīng)網(wǎng)絡(luò)(如卷積神經(jīng)網(wǎng)絡(luò))通常需要大量樣本和時(shí)間才能收斂。隨著強(qiáng)化學(xué)習(xí)過程需要大量步驟,這一問題會(huì)進(jìn)一步加劇,導(dǎo)致學(xué)習(xí)過程漫長,例如文獻(xiàn)中需要 150 萬步,文獻(xiàn)中需要 1 億步。
許多基于圖像的解決方案提出了某種數(shù)據(jù)預(yù)處理方法來克服這一問題。文獻(xiàn)中,作者提出了一種基于視覺的橫向控制框架,結(jié)合了深度學(xué)習(xí)(DL)和強(qiáng)化學(xué)習(xí)(RL)方法。為了提高感知精度,提出了一種多任務(wù)學(xué)習(xí)(MTL)卷積神經(jīng)網(wǎng)絡(luò)模型,用于學(xué)習(xí)關(guān)鍵的軌道特征(這些特征用于確定車輛在軌道坐標(biāo)系中的位置),并訓(xùn)練了一個(gè)策略梯度強(qiáng)化學(xué)習(xí)控制器來解決連續(xù)的序列決策問題。自然地,這種方法也可以被視為具有結(jié)構(gòu)化特征的強(qiáng)化學(xué)習(xí)解決方案,但這種組合方法在基于圖像的解決方案中也占有一席之地。
另一種方法是簡化非結(jié)構(gòu)化數(shù)據(jù)。文獻(xiàn)中,Kotyan 等人使用連續(xù)兩幀之間的背景減法得到的差分圖像作為輸入,假設(shè)該圖像包含前景的運(yùn)動(dòng)信息,底層神經(jīng)網(wǎng)絡(luò)會(huì)更關(guān)注前景特征而非背景特征。使用相同的訓(xùn)練算法,他們的結(jié)果表明,使用差分圖像代替原始未處理輸入,達(dá)到相同性能所需的訓(xùn)練步驟約減少 10 倍。第二種可能性是,不將原始圖像作為輸入,而是將其通過圖像語義分割網(wǎng)絡(luò)處理,如文獻(xiàn)中所提出的:“語義圖像包含的信息比原始圖像少,但包含了智能體采取動(dòng)作所需的大部分信息。換句話說,語義圖像忽略了原始圖像中無用的信息。” 這種方法的另一個(gè)優(yōu)點(diǎn)是,訓(xùn)練后的智能體可以使用來自真實(shí)世界場景的圖像的分割輸出,因?yàn)樵谶@個(gè)層級(jí),仿真數(shù)據(jù)和真實(shí)世界數(shù)據(jù)之間的差異比仿真圖像和真實(shí)世界圖像之間的差異小得多。圖 5 展示了該研究中使用的 640×400 分辨率輸入。

圖5、來自駕駛數(shù)據(jù)的真實(shí)圖像及其語義分割
近年來的研究中,二維或三維激光雷達(dá)類傳感器模型并不常見,盡管它們可以提供良好的類深度圖環(huán)境信息。但與攝像頭圖像一樣,它們提供的數(shù)據(jù)(二維激光雷達(dá)為向量,三維激光雷達(dá)為矩陣)是非結(jié)構(gòu)化的。這種類型的輸入僅在文獻(xiàn)中出現(xiàn),其中觀測模擬了一個(gè)二維激光雷達(dá),在 150° 的視場角內(nèi)提供 31 個(gè)方向上到障礙物的距離,智能體將傳感器數(shù)據(jù)作為其狀態(tài)。文獻(xiàn)中使用了一種類似的輸入結(jié)構(gòu)(但并非建模激光雷達(dá),因?yàn)闆]有反射),該結(jié)構(gòu)由 TORCS 提供,通過虛擬光束傳感器來表示車道標(biāo)線。文中的智能體使用 19 個(gè)傳感器的讀數(shù)(探測范圍為 200 米,在車輛前半部分每 10° 布置一個(gè)),返回至軌道邊緣的距離。
基于網(wǎng)格的路徑規(guī)劃方法(如 A * 算法或各種同步定位與地圖構(gòu)建(SLAM)算法)已廣泛應(yīng)用于移動(dòng)機(jī)器人導(dǎo)航領(lǐng)域,該領(lǐng)域中環(huán)境被表示為空間地圖,通常表述為二維矩陣,為表面網(wǎng)格中的每個(gè)二維位置分配三種可能值之一:占用、空閑和未知。這種方法也可用于表示周圍車輛的概率機(jī)動(dòng),或通過從預(yù)測的運(yùn)動(dòng)序列生成時(shí)空地圖,實(shí)現(xiàn)動(dòng)態(tài)環(huán)境中的運(yùn)動(dòng)規(guī)劃。盡管前面引用的示例并未使用強(qiáng)化學(xué)習(xí)技術(shù),但它們證明了網(wǎng)格表示在該領(lǐng)域的巨大潛力。文獻(xiàn)中提出了一種使用網(wǎng)格地圖作為觀測(結(jié)合車輛的位置和橫擺角)的強(qiáng)化學(xué)習(xí)智能體,用于靜態(tài)環(huán)境中的導(dǎo)航(見圖 6)。網(wǎng)格地圖也是非結(jié)構(gòu)化數(shù)據(jù),其復(fù)雜度與語義分割圖像相似,因?yàn)閮烧叩膯卧穸即鎯?chǔ)類別信息,因此最優(yōu)處理方式是使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。

圖6、從車輛的角度來看,周圍環(huán)境可以用粗略的感知圖來描述,其中目標(biāo)由紅點(diǎn)(c)表示
在網(wǎng)格中表示移動(dòng)物體(即周圍車輛)不僅需要占用信息,還需要其他信息,因此空間網(wǎng)格的單元格需要包含額外信息。文獻(xiàn)中,作者使用等距網(wǎng)格,自車位于中心,其他車輛占用的單元格表示對應(yīng)車輛的縱向速度(見圖 7)。文獻(xiàn)中也采用了相同的方法。自然地,這種簡單表示無法提供其他交通參與者的橫向運(yùn)動(dòng)信息,但比僅基于占用的表示提供了更多信息。等距網(wǎng)格是通用環(huán)境的合理選擇,其中移動(dòng)機(jī)器人的移動(dòng)方向不受限制,但對于道路車輛而言,車輛主要沿交通流方向行駛。在這種情況下,可以選擇固定于道路拓?fù)浣Y(jié)構(gòu)(即道路車道,無論其曲率或?qū)挾热绾危┑目臻g表示。在這些基于車道的網(wǎng)格解決方案中,表示高速公路的網(wǎng)格行數(shù)與實(shí)際車道數(shù)相同,車道沿縱向離散化。文獻(xiàn)中展示了這種方法的最簡單應(yīng)用,其中單元格長度等于單位車輛長度,交通行為類似經(jīng)典的基于元胞自動(dòng)機(jī)的微觀模型。

圖7、HDM映射過程的可視化
與等距網(wǎng)格類似,這種表示也可用于占用情況,但仍然不包含車輛動(dòng)力學(xué)信息。文獻(xiàn)中,將多個(gè)連續(xù)的交通快照輸入到底層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,該結(jié)構(gòu)本質(zhì)上提取移動(dòng)物體的速度。在這種設(shè)置下,也可以在網(wǎng)格單元格中表示速度,例如文獻(xiàn)中,作者將從 Udacity 仿真器中提取的交通信息轉(zhuǎn)換為基于車道的網(wǎng)格。
除了周圍車輛的位置和縱向速度外,其他特征(如航向、加速度、橫向速度)對于決策制定也很重要。為克服這一問題,可以為每個(gè)關(guān)鍵參數(shù)使用多層網(wǎng)格地圖。文獻(xiàn)中,作者處理仿真器狀態(tài)以計(jì)算大小為 4×3×(2× 視場角(FoV)+1) 的觀測張量,其中視場角表示以單元格數(shù)為單位的最大觀測距離。四個(gè)通道(第一維)分別對應(yīng)道路占用情況、車輛的相對速度、相對橫向位移和相對于自車的相對航向。圖 8 展示了仿真器狀態(tài)及其對應(yīng)的網(wǎng)絡(luò)輸入觀測示例。

圖8、模擬器狀態(tài)(頂部,放大)轉(zhuǎn)換為4 x 3 x(2 x FoV+1)輸入觀測張量(底部)
前面提到的觀測模型(基于圖像、激光雷達(dá)或網(wǎng)格)都有一些共同特性:它們都是非結(jié)構(gòu)化數(shù)據(jù)集,需要卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行處理,這增加了學(xué)習(xí)過程的難度,因?yàn)橹悄荏w需要同時(shí)提取感興趣的特征并形成動(dòng)作策略。顯然,對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理并將結(jié)構(gòu)化信息輸入到智能體網(wǎng)絡(luò)中是更優(yōu)選擇。結(jié)構(gòu)化數(shù)據(jù)是指位于記錄或文件中固定字段內(nèi)的任何數(shù)據(jù)。例如,在交通環(huán)境中導(dǎo)航時(shí),根據(jù)任務(wù)的不同,周圍車輛的參數(shù)在輸入中位于相同的元素位置。在最簡單的跟車場景中,智能體僅關(guān)注前車,除自車狀態(tài)外,輸入還包括(d, v)或(d, v, a),其中這些參數(shù)分別是車間距、速度和前車加速度。與非結(jié)構(gòu)化數(shù)據(jù)相比,這些方法顯著減少了輸入數(shù)據(jù)量,且可通過簡單的全連接網(wǎng)絡(luò)(DNN)處理,這極大地影響了智能體性能的收斂速度。
對于在交通環(huán)境中導(dǎo)航(即執(zhí)行匯入或車道變換機(jī)動(dòng))的場景,不僅需要考慮前車狀態(tài),還需要考慮其他周圍車輛的狀態(tài)。在匯入場景中,最關(guān)鍵的信息是限定目標(biāo)車距的兩輛車的相對縱向位置和速度 2×(dx, dv),文獻(xiàn)中使用了這些信息。自然地,這是此類問題的絕對最小表示,但未來將開發(fā)更復(fù)雜的表示方式。在高速公路機(jī)動(dòng)場景中,需要考慮自車車道和相鄰車道的車輛,文獻(xiàn)中,作者使用上述 6×(dx, dv) 標(biāo)量向量表示三個(gè)相關(guān)車道中的前后車輛。而文獻(xiàn)中,作者將該信息擴(kuò)展為自車側(cè)面相鄰車道的占用情況(見圖 9)。文獻(xiàn)中也采用了相同的方法,但將追蹤對象的數(shù)量擴(kuò)展到 9 個(gè)。這些研究缺乏橫向信息,而文獻(xiàn)中,輸入向量還包含橫向位置和速度,形成 6×(dx, dy, dvx, dvy) 結(jié)構(gòu),分別表示相對于自車的縱向和橫向距離以及速度差異。在處理無信號(hào)交叉路口的特殊情況下,作者也采用了這種表述方式,考慮了其他車輛的笛卡爾坐標(biāo)、速度和航向。

圖9、高速公路上的環(huán)境狀況
三、基于場景的方法分類
盡管本文綜述的重點(diǎn)是基于深度強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃研究,但需要提及的是,部分論文嘗試通過經(jīng)典強(qiáng)化學(xué)習(xí)技術(shù)解決自動(dòng)駕駛的某些子任務(wù)。這些經(jīng)典方法的一個(gè)問題是無法處理非結(jié)構(gòu)化數(shù)據(jù)(如圖像、中層雷達(dá)或激光雷達(dá)傳感數(shù)據(jù));另一個(gè)問題是需要維護(hù)所有(S, A)狀態(tài) - 動(dòng)作對的 Q 表,這會(huì)導(dǎo)致空間復(fù)雜度爆炸,因?yàn)?Q 表的大小等于狀態(tài)和動(dòng)作中所有類別的大小的乘積。例如,文獻(xiàn)中提出的 Q 學(xué)習(xí)方法:作者在 TORCS 中訓(xùn)練了一個(gè)智能體,試圖利用空氣動(dòng)力學(xué)阻力實(shí)現(xiàn)最優(yōu)超車策略。該場景中僅有兩個(gè)參與者(超車車輛和前車),行駛在長直軌道上。
狀態(tài)表示包括兩輛車的縱向和橫向距離、自車的橫向位置以及兩輛車的速度差。作者將該狀態(tài)空間離散化為大小分別為(6, 10, 8, 9)的類別(見表 1),并使用最小的橫向動(dòng)作集合(大小為 3),動(dòng)作包括向左或向右偏移 1 米以及保持橫向位置。綜上,該問題生成的 Q 表包含 6×10×8×9×3=12960 個(gè)元素。盡管如今這樣大小的表格可以輕松處理,但不難想象,對于更復(fù)雜的問題(涉及更多車輛、更多傳感器、復(fù)雜動(dòng)力學(xué)、更密集的狀態(tài)和動(dòng)作表示),Q 表的大小會(huì)變得極其龐大。一種可能的簡化方法是利用多目標(biāo)強(qiáng)化學(xué)習(xí)方法,將整體問題分解為子任務(wù),文獻(xiàn)中就采用這種方法解決超車機(jī)動(dòng)問題。在后續(xù)研究中,作者擴(kuò)展了該問題,將駕駛問題分解為避撞、目標(biāo)追蹤、車道保持、車道選擇、速度保持和穩(wěn)定轉(zhuǎn)向等任務(wù)。為了減小問題規(guī)模,文獻(xiàn)的作者使用戰(zhàn)略層級(jí)決策為車輛設(shè)定相對于周圍車輛的運(yùn)動(dòng)目標(biāo),并將低層級(jí)控制留給經(jīng)典解決方案,這顯著減小了動(dòng)作空間。

表 1、文獻(xiàn)中的狀態(tài)表示離散化
經(jīng)典 Q 學(xué)習(xí)的另一個(gè)有趣示例在文獻(xiàn)中描述,作者設(shè)計(jì)了一個(gè)智能體,用于考慮障礙物的阿克曼轉(zhuǎn)向地面車輛的路徑規(guī)劃問題。該智能體使用(v, x, y, θ)(速度、位置和航向)作為狀態(tài)表示,并將強(qiáng)化學(xué)習(xí)用作優(yōu)化器(見圖 10)。

圖10、路徑規(guī)劃結(jié)果
盡管人們可能期望機(jī)器學(xué)習(xí)能為自動(dòng)駕駛提供端到端的整體解決方案,但對近期文獻(xiàn)的研究表明,強(qiáng)化學(xué)習(xí)研究只能為該問題的某些子任務(wù)提供答案。近年來的論文圍繞這些問題展開,選擇特定的場景或情境,研究自學(xué)習(xí)智能體是否能夠解決這些問題。這些問題的復(fù)雜程度各不相同。如前所述,強(qiáng)化學(xué)習(xí)的復(fù)雜性(進(jìn)而影響訓(xùn)練時(shí)間)在很大程度上取決于所選問題的復(fù)雜性、動(dòng)作空間的性質(zhì)以及獎(jiǎng)勵(lì)的及時(shí)性和合理表述。最簡單的問題(如車道保持或跟車行駛)通常可以歸結(jié)為簡單的凸優(yōu)化或控制問題,而在這些情況下,表述次要控制目標(biāo)(如乘客舒適性)更為容易。在復(fù)雜程度的另一端,存在一些問題(如在密集交通環(huán)境中機(jī)動(dòng)),這些問題的有效完成難以表述,智能體需要具有預(yù)測性的 “思考” 才能實(shí)現(xiàn)目標(biāo)。以下將介紹這些方法。
(一)跟車行駛
跟車行駛是本文綜述中最簡單的任務(wù),問題表述如下:仿真中有兩個(gè)參與者(前車和跟車),均保持在車道內(nèi)的橫向位置,跟車通過調(diào)整縱向速度來保持安全的跟車距離。觀測空間由(v, dv, ds)元組組成,分別表示智能體速度、與前車的速度差和車間距。動(dòng)作是加速指令。獎(jiǎng)勵(lì)系統(tǒng)自然地將兩輛車的碰撞視為失敗,而智能體的性能基于沖擊度、碰撞時(shí)間(TTC)或乘客舒適性來評(píng)估。文獻(xiàn)中展示了另一種方法,其中跟車智能體的性能通過與真實(shí)世界測量數(shù)據(jù)進(jìn)行比較來評(píng)估,以實(shí)現(xiàn)類人駕駛行為。
(二)車道保持
車道保持或軌跡跟蹤仍然是一個(gè)簡單的控制任務(wù),但與跟車行駛不同,該問題側(cè)重于橫向控制。這些研究中的觀測空間采用兩種不同的方法:一種是車輛在車道內(nèi)的 “真實(shí)狀態(tài)” 橫向位置和角度;另一種是前置攝像頭的圖像。自然地,對于基于圖像的控制,智能體使用外部仿真器(這些情況下使用 TORCS 和 GAZEBO/ROS)。獎(jiǎng)勵(lì)系統(tǒng)幾乎總是將車輛與車道中心線的距離作為即時(shí)獎(jiǎng)勵(lì)。需要提及的是,這些智能體幾乎不考慮車輛動(dòng)力學(xué),且令人驚訝的是,它們并不關(guān)注縱向和橫向的聯(lián)合控制。
(三)匯入車流
匝道匯入問題涉及高速公路入口場景(見圖 11),自車需要在兩輛車之間找到可接受的車距以駛?cè)敫咚俟贰W詈唵蔚姆椒ㄊ菍W(xué)習(xí)縱向控制,使智能體到達(dá)該位置,如文獻(xiàn)所示。其他論文則使用完整的轉(zhuǎn)向和加速控制。文獻(xiàn)中,動(dòng)作控制車輛的縱向運(yùn)動(dòng)(加速和減速),在執(zhí)行這些動(dòng)作時(shí),自車保持在車道內(nèi);“向左變道” 和 “向右變道” 動(dòng)作意味著橫向運(yùn)動(dòng)。每次僅執(zhí)行一個(gè)動(dòng)作,且動(dòng)作需完整執(zhí)行,車輛無法提前中止動(dòng)作。

圖11、斜坡合并:(a)模擬場景和(b)現(xiàn)實(shí)世界位置
文獻(xiàn)中提出了一個(gè)有趣的補(bǔ)充,其中周圍車輛的行為不同,存在合作型和非合作型駕駛員。他們在訓(xùn)練智能體時(shí)考慮了合作行為,并將結(jié)果與三種不同構(gòu)建的蒙特卡洛樹搜索(MTCS)規(guī)劃器進(jìn)行了比較。完全信息蒙特卡洛樹搜索自然優(yōu)于強(qiáng)化學(xué)習(xí),但計(jì)算成本高昂。作者采用課程學(xué)習(xí)方法訓(xùn)練智能體,逐漸增加交通密度。他們指出:“當(dāng)直接在密集交通環(huán)境中訓(xùn)練強(qiáng)化學(xué)習(xí)智能體時(shí),策略會(huì)收斂到一個(gè)次優(yōu)解決方案,即停留在匯入車道上不動(dòng),而不利用其他駕駛員的合作性。這種策略可以避免碰撞,但無法完成匯入機(jī)動(dòng)。”
文獻(xiàn)對該問題進(jìn)行了最詳細(xì)的描述:“駕駛環(huán)境被訓(xùn)練為長短期記憶網(wǎng)絡(luò)(LSTM)架構(gòu),以整合歷史和交互駕駛行為對動(dòng)作選擇的影響。深度 Q 學(xué)習(xí)過程將長短期記憶網(wǎng)絡(luò)的內(nèi)部狀態(tài)作為 Q 函數(shù)逼近器的輸入,利用更多的歷史信息進(jìn)行動(dòng)作選擇。Q 網(wǎng)絡(luò)參數(shù)通過經(jīng)驗(yàn)回放進(jìn)行更新,并使用第二個(gè)目標(biāo) Q 網(wǎng)絡(luò)來緩解局部最優(yōu)和不穩(wěn)定性問題。” 通過這種方法,研究人員試圖結(jié)合行為預(yù)測和學(xué)習(xí)的可能性,同時(shí)實(shí)現(xiàn)更好的性能。
多智能體匯入場景通常僅使用縱向控制來找到安全車距,并將橫向運(yùn)動(dòng)留給底層控制方案。從這個(gè)角度來看,匝道匯入和一些交叉路口通過問題有很多共同之處,因此本節(jié)將討論與匝道匯入和交叉路口相關(guān)的多智能體強(qiáng)化學(xué)習(xí)(MARL)。
第一個(gè)示例來自文獻(xiàn),場景是環(huán)形交叉路口(在拓?fù)浣Y(jié)構(gòu)上類似于出入口匝道問題)。該研究使用同質(zhì)的非通信智能體,采用參數(shù)共享的異步優(yōu)勢演員 - 評(píng)論家(A3C)學(xué)習(xí)器。觀測空間包括自車狀態(tài)和場景的鳥瞰圖網(wǎng)格(在三個(gè)通道中表示要遵循的路徑、拓?fù)浣Y(jié)構(gòu)和動(dòng)態(tài)物體)。自然地,這種設(shè)置需要異構(gòu)輸入神經(jīng)網(wǎng)絡(luò):用于網(wǎng)格的卷積神經(jīng)網(wǎng)絡(luò)和用于狀態(tài)值的全連接網(wǎng)絡(luò),以及三個(gè)離散選擇(加速、保持速度和制動(dòng))。文獻(xiàn)中進(jìn)行了一項(xiàng)有趣的比較,通過多個(gè)場景評(píng)估了延遲和單智能體 / 多智能體方法的影響,其中一個(gè)場景是無信號(hào)交叉路口,四個(gè)智能體左轉(zhuǎn)。通過將先前動(dòng)作集合擴(kuò)展到部分可觀測馬爾可夫決策過程中,處理了延遲感知問題。該研究應(yīng)用了連續(xù)的縱向加速指令,并使用了文獻(xiàn)中的多智能體深度確定性策略梯度(MADDPG),采用集中式評(píng)論家(critic)和分散式演員(actor)架構(gòu)。
文獻(xiàn)中研究了多車道交叉路口,除了縱向離散動(dòng)作外,還應(yīng)用了車道變換動(dòng)作。研究人員使用了文獻(xiàn)中的 “COIN”(一種基于參數(shù)共享表的即時(shí)獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法)。然而,如前所述,此類問題對于表格型 Q 學(xué)習(xí)器而言過于復(fù)雜,因此作者使用 K 近鄰(KNN)技術(shù)進(jìn)行函數(shù)逼近,以處理偶爾出現(xiàn)的、所有動(dòng)作都未經(jīng)過訓(xùn)練的稀有狀態(tài)。文獻(xiàn)中提出了另一種表格型 Q 學(xué)習(xí)方法,用于基于單元格轉(zhuǎn)換模型的雙智能體匯入場景。這種表示足夠小,可以求解,但無法擴(kuò)展和泛化。
在匯入場景中,最復(fù)雜的是雙匯入場景:兩條多車道高速公路交匯后又分離,智能體從兩個(gè)入口駛?cè)耄矎膬蓚€(gè)出口駛出。該問題的首次研究是文獻(xiàn)中提出的 CM3 算法示例,其中兩個(gè)人工智能控制的智能體在 SUMO 仿真器中與其他周圍車輛一起執(zhí)行這種匯入動(dòng)作。由于雙匯入問題具有相當(dāng)大的危險(xiǎn)性,使用簡單的強(qiáng)化學(xué)習(xí)技術(shù)難以解決。文獻(xiàn)中,基于策略梯度(PG)的學(xué)習(xí)器提供縱向和橫向期望目標(biāo),但由基于規(guī)則的監(jiān)督系統(tǒng)確保其安全性。
(四)交通環(huán)境行駛
近年來論文中研究的最復(fù)雜場景是自動(dòng)駕駛智能體在交通環(huán)境中行駛。自然地,該任務(wù)的復(fù)雜程度也可以通過網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、周圍車輛的數(shù)量和行為、交通規(guī)則的應(yīng)用以及許多其他特性來調(diào)整。因此,當(dāng)前幾乎所有解決方案都涉及高速公路行駛場景,該場景中沒有交叉路口和行人,所有車道的交通流方向相同。該場景的子任務(wù)(如車道保持或跟車行駛)已在前面的章節(jié)中討論過。以下將介紹兩種類型的高速公路行駛:首先概述分層方法(智能體在行為層動(dòng)作,制定車道變換或超車決策,并使用經(jīng)典控制方法通過底層控制器執(zhí)行這些動(dòng)作);其次介紹端到端解決方案(智能體通過轉(zhuǎn)向和加速直接控制車輛)。隨著問題變得更加復(fù)雜,需要提及的是,經(jīng)過訓(xùn)練的智能體只能解決其在仿真中接觸過的場景類型。因此,設(shè)計(jì)的仿真交通環(huán)境必須涵蓋預(yù)期場景至關(guān)重要。
在行為層制定決策至少包括三個(gè)離散動(dòng)作:保持當(dāng)前車道、向左變道和向右變道,如文獻(xiàn)所示。在該論文中,作者將自車的速度和車道位置的真實(shí)狀態(tài)信息,以及八個(gè)周圍車輛的相對位置和速度作為觀測空間。他們在三種觀測噪聲類別(無噪聲、中等噪聲(5%)和高噪聲(15%))下訓(xùn)練和測試智能體,并表明在噪聲較高的訓(xùn)練環(huán)境中訓(xùn)練出的智能體性能更穩(wěn)健可靠,且通過使用帶有 tanh 激活函數(shù)的、隱藏層為 64、128、128、64 的深度 Q 網(wǎng)絡(luò)(DQN),其性能也優(yōu)于基于規(guī)則的 MOBIL 模型。在非常相似的環(huán)境和觀測空間中,文獻(xiàn)使用了更廣泛的動(dòng)作集合來執(zhí)行車道變換(包括先前的加速或接近目標(biāo)車距),產(chǎn)生了六種不同的動(dòng)作(見表 2)。他們還得出結(jié)論,使用兩個(gè)卷積層和一個(gè)全連接層的深度 Q 網(wǎng)絡(luò)(DQN)智能體的性能與基于智能駕駛模型(IDM)和模型的參考模型相當(dāng)或更優(yōu)。在同一作者的另一篇論文中,動(dòng)作空間略有變化,將加速指令改為增加和減少自適應(yīng)巡航控制(ACC)設(shè)定點(diǎn),并讓底層控制器執(zhí)行這些動(dòng)作。

表 2、文獻(xiàn)中的動(dòng)作空間
文獻(xiàn)中考慮了雙車道場景,以進(jìn)一步分配分層決策:首先,深度 Q 網(wǎng)絡(luò)(DQN)做出 “是否變道” 的二元決策;隨后,另一個(gè) Q 網(wǎng)絡(luò)根據(jù)先前的決策負(fù)責(zé)縱向加速。因此,第二層與經(jīng)典控制模塊(如純追蹤控制)相結(jié)合,輸出適當(dāng)?shù)目刂苿?dòng)作以調(diào)整車輛位置。文獻(xiàn)中也考慮了上述雙車道場景,但作者使用了類演員 - 評(píng)論家的學(xué)習(xí)智能體。
自動(dòng)駕駛中的一個(gè)有趣問題是訓(xùn)練智能體的合作行為。文獻(xiàn)中,作者考慮了三車道高速公路場景,使用基于車道的網(wǎng)格表示作為觀測空間,并使用包含四個(gè)動(dòng)作的簡單元組(左、右、加速、無動(dòng)作),通過獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)合作和非合作行為。獎(jiǎng)勵(lì)函數(shù)中不僅考慮了自車的經(jīng)典性能指標(biāo),還考慮了周圍交通的速度(這自然會(huì)受到智能體行為的影響)。底層網(wǎng)絡(luò)使用兩個(gè)卷積層(16 個(gè)大小為(2,2)的補(bǔ)丁濾波器,采用 ReLU 激活函數(shù))和兩個(gè)全連接層(每個(gè)層有 500 個(gè)神經(jīng)元)。為了評(píng)估合作行為的影響,作者通過仿真中的虛擬環(huán)路收集交通數(shù)據(jù),并在經(jīng)典的流量 - 密度圖中可視化由此產(chǎn)生的交通性能(見圖 12)。結(jié)果表明,合作行為導(dǎo)致更高的交通流量,從而提高了高速公路容量并減少了整體行駛時(shí)間。

圖12、不同策略下虛擬回路檢測到的流量密度關(guān)系
端到端解決方案的模型真實(shí)性可能仍然存在差異。例如,文獻(xiàn)中,作者沒有使用非完整的阿克曼轉(zhuǎn)向幾何結(jié)構(gòu),而是為動(dòng)作空間使用了完整的機(jī)器人模型,這極大地降低了控制問題的復(fù)雜性。他們的動(dòng)作包括加速、減速、向左變道、向右變道和無動(dòng)作,其中前兩個(gè)動(dòng)作應(yīng)用最大加速和減速,而兩個(gè)變道動(dòng)作僅使用恒定速度的橫向運(yùn)動(dòng)。他們使用競爭深度 Q 網(wǎng)絡(luò)(Dueling DQN)和優(yōu)先經(jīng)驗(yàn)回放,結(jié)合基于網(wǎng)格的觀測模型。文獻(xiàn)中使用了類似的控制方法和非完整運(yùn)動(dòng)學(xué)。該研究的重要性在于它在學(xué)習(xí)過程中考慮了安全方面:通過使用類似模型預(yù)測控制(MPC)的安全檢查,智能體避免采取會(huì)導(dǎo)致碰撞的動(dòng)作,這使得訓(xùn)練更快、更穩(wěn)健。
使用非完整運(yùn)動(dòng)學(xué)需要加速和轉(zhuǎn)向指令。文獻(xiàn)中,作者使用周圍車輛結(jié)構(gòu)化信息的連續(xù)觀測空間和策略梯度(PG)強(qiáng)化學(xué)習(xí)結(jié)構(gòu)來實(shí)現(xiàn)端到端駕駛。由于所使用的方法具有離散動(dòng)作空間,需要對轉(zhuǎn)向和加速指令進(jìn)行量化。通過端到端解決方案在交通環(huán)境中駕駛的復(fù)雜性可以通過智能體所需的訓(xùn)練情節(jié)數(shù)量來很好地體現(xiàn):在簡單的車道保持場景中,智能體只需數(shù)百個(gè)情節(jié)即可完成任務(wù),而這些問題中使用的智能體需要 30 萬個(gè)情節(jié)。
部分論文也提出了將多智能體方法應(yīng)用于 “交通環(huán)境導(dǎo)航” 場景。文獻(xiàn)中,作者使用了一個(gè)簡單的離散三車道高速公路模型,采用簡單的選擇,展示了在單智能體方法中訓(xùn)練的車輛如何在多智能體環(huán)境中失敗,因?yàn)樗仨毰c具有相同策略的智能體打交道。但研究也表明,單智能體是在多智能體強(qiáng)化學(xué)習(xí)(MARL)設(shè)置中開始訓(xùn)練的良好初始網(wǎng)絡(luò)。
如前所述,集中式控制可能是一種解決方案,但隨著智能體數(shù)量的增加,其復(fù)雜性呈指數(shù)增長。文獻(xiàn)中,作者提出了利用所謂的協(xié)調(diào)圖(CG)技術(shù),該技術(shù)將全局收益函數(shù)分解為局部收益函數(shù)的線性組合。例如,展示了基于身份的協(xié)調(diào)圖(I-DCG)和基于位置的協(xié)調(diào)圖(P-DCG)分離方法,其中圖的邊僅處理相應(yīng)智能體動(dòng)作的笛卡爾積。文獻(xiàn)中,作者使用 MIT-Deeptraffic(一種微觀戰(zhàn)略級(jí)仿真器,環(huán)境中共有 20 輛車,最多允許對 11 輛車進(jìn)行智能控制,其余車輛隨機(jī)選擇動(dòng)作),尋求相同問題的答案,并比較了兩種場景:將單個(gè)交通智能體的模型應(yīng)用于多個(gè)智能體(遷移學(xué)習(xí)策略)和純多智能體強(qiáng)化學(xué)習(xí)(MARL)方法。
文獻(xiàn)中,作者提出了一種周期性參數(shù)共享結(jié)構(gòu),智能體周期性地共享參數(shù),但保持各自的策略,這可能源于與競爭深度 Q 網(wǎng)絡(luò)(Dueling DQN)相同的思路。在他們的示例中,兩個(gè)智能體執(zhí)行合作式靜態(tài)避障。該研究使用混合網(wǎng)格和自車狀態(tài)觀測,因此采用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)/ 全連接網(wǎng)絡(luò)(DNN)。結(jié)果與純參數(shù)共享和完全獨(dú)立訓(xùn)練進(jìn)行了比較,表明在該特定情況下,這種折中的方法比原始智能體表現(xiàn)更好。
也有研究小組將注意力從單智能體強(qiáng)化學(xué)習(xí)轉(zhuǎn)向多智能體強(qiáng)化學(xué)習(xí)(MARL)。文獻(xiàn)中,作者在 TORCS 環(huán)境中尋求競爭性超車的解決方案,隨后在文獻(xiàn)中將研究擴(kuò)展到多智能體。他們使用一個(gè)簡單的參數(shù)共享深度確定性策略梯度(DDPG),但為兩個(gè)不同的任務(wù)訓(xùn)練智能體:第一個(gè)任務(wù)僅獎(jiǎng)勵(lì)車道保持,第二個(gè)任務(wù)還獎(jiǎng)勵(lì)比賽排名。“任務(wù)” 作為二進(jìn)制信息注入觀測空間,使單個(gè)智能體能夠?qū)W習(xí)相同的策略。因此,基于觀測向量中接收到的指令,同一個(gè)智能體可以表現(xiàn)出競爭性或合作性。
最后,文獻(xiàn)中提出了一種并非純粹強(qiáng)化學(xué)習(xí)而是模仿學(xué)習(xí)的方法,將生成對抗模仿學(xué)習(xí)(GAIL)與參數(shù)共享信任區(qū)域策略優(yōu)化(PS-TRPO)相結(jié)合,以實(shí)現(xiàn)多智能體環(huán)境中的模仿學(xué)習(xí),稱為 PS-GAIL。對于該框架,智能體需要示范數(shù)據(jù),這些數(shù)據(jù)來自下一代仿真(NGSIM)數(shù)據(jù)集。
四、未來挑戰(zhàn)
該領(lǐng)域近期的研究成果表明,不同的深度強(qiáng)化學(xué)習(xí)技術(shù)可有效應(yīng)用于自動(dòng)駕駛車輛運(yùn)動(dòng)規(guī)劃的不同層級(jí)問題,但仍有許多問題尚未解決。這些方法的主要優(yōu)勢在于能夠處理非結(jié)構(gòu)化數(shù)據(jù),例如原始或經(jīng)過輕微預(yù)處理的雷達(dá)或基于攝像頭的圖像信息。
在運(yùn)動(dòng)規(guī)劃中使用由強(qiáng)化學(xué)習(xí)智能體訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),其主要優(yōu)點(diǎn)之一是訓(xùn)練后的網(wǎng)絡(luò)計(jì)算需求相對較低。然而,這一特性需要在學(xué)習(xí)階段進(jìn)行大量試驗(yàn)以獲取足夠的經(jīng)驗(yàn)。如前所述,對于簡單的凸優(yōu)化問題,該過程的收斂速度較快,但對于復(fù)雜場景,訓(xùn)練可能很快達(dá)到數(shù)百萬步,這意味著一組超參數(shù)或獎(jiǎng)勵(lì)假設(shè)的設(shè)置可能需要數(shù)小時(shí)甚至數(shù)天時(shí)間。由于復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)需要在環(huán)境設(shè)計(jì)、網(wǎng)絡(luò)結(jié)構(gòu)、獎(jiǎng)勵(lì)機(jī)制甚至所用算法本身方面進(jìn)行持續(xù)迭代,因此設(shè)計(jì)這樣的系統(tǒng)是一項(xiàng)耗時(shí)的工作。除了適當(dāng)?shù)慕Y(jié)果分析和推理外,評(píng)估時(shí)間在很大程度上取決于所分配的計(jì)算能力。基于此,如今大多數(shù)論文都致力于解決運(yùn)動(dòng)規(guī)劃問題的次要子任務(wù),而像城市交通環(huán)境導(dǎo)航這樣最復(fù)雜的場景在文獻(xiàn)中尚未出現(xiàn),這并不令人意外。與許多啟發(fā)式算法一樣,強(qiáng)化學(xué)習(xí)本身在性能和資源需求之間存在權(quán)衡。車輛控制的性能不僅包括行駛時(shí)間、平均速度或乘客舒適性,更重要的是安全性和穩(wěn)健性。強(qiáng)化學(xué)習(xí)在這兩個(gè)領(lǐng)域面臨諸多挑戰(zhàn),下文將概述這兩個(gè)主要問題。
(一)安全性
將神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)用作汽車系統(tǒng)中的通用函數(shù)逼近器引發(fā)了若干問題。例如,安全駕駛需要多少訓(xùn)練數(shù)據(jù)?如文獻(xiàn)所述,電子控制單元(ECUs)中實(shí)現(xiàn)的汽車應(yīng)用功能開發(fā)需遵循原始設(shè)備制造商(OEM)的專有規(guī)范和多項(xiàng)國際標(biāo)準(zhǔn),例如汽車軟件過程改進(jìn)和能力評(píng)定(Automotive SPICE)和 ISO 26262。然而,這些標(biāo)準(zhǔn)尚未針對深度學(xué)習(xí)制定專門的表述,因?yàn)樵擃I(lǐng)域的驗(yàn)證和確認(rèn)問題尚未得到解決。部分論文通過使用底層安全層來處理這些問題,該安全層在車輛控制系統(tǒng)執(zhí)行規(guī)劃軌跡之前驗(yàn)證其安全性。然而,在復(fù)雜場景中,這種方式無法保證全面的功能安全覆蓋。
強(qiáng)化學(xué)習(xí)的主要目標(biāo)是從統(tǒng)計(jì)角度最大化長期獎(jiǎng)勵(lì),但對于車輛控制任務(wù)而言,首要目標(biāo)是預(yù)防事故。由于強(qiáng)化學(xué)習(xí)并不一定能阻止使用會(huì)導(dǎo)致大量負(fù)獎(jiǎng)勵(lì)的動(dòng)作,因此需要其他方法來處理這些風(fēng)險(xiǎn)。文獻(xiàn)中以多種形式探討了安全性和風(fēng)險(xiǎn)問題,文獻(xiàn)對此進(jìn)行了出色的總結(jié)。該領(lǐng)域主要有兩個(gè)方向:一類解決方案包括使用優(yōu)化準(zhǔn)則的方法;另一類包含修改探索過程的算法。修改優(yōu)化準(zhǔn)則有多種選擇:
1. 最壞情況準(zhǔn)則:通過考慮最壞情況,解決由系統(tǒng)隨機(jī)波動(dòng)性和參數(shù)不確定性引起的問題。
2. 風(fēng)險(xiǎn)敏感準(zhǔn)則:在這種情況下,向損失函數(shù)添加一個(gè)標(biāo)量參數(shù)(即風(fēng)險(xiǎn)敏感參數(shù))以控制風(fēng)險(xiǎn)水平。
3. 約束馬爾可夫決策過程(constrained MDP):擴(kuò)展標(biāo)準(zhǔn)馬爾可夫決策過程元組,添加策略函數(shù)必須滿足的約束集。
與假設(shè)智能體從零開始學(xué)習(xí)的經(jīng)典探索策略不同,修改探索過程是一種可行的選擇。在車輛控制應(yīng)用中,經(jīng)典探索策略通常會(huì)導(dǎo)致災(zāi)難性情況。此外,完全無意識(shí)的探索策略會(huì)浪費(fèi)大量時(shí)間探索底層狀態(tài)空間的無關(guān)區(qū)域,這在大型連續(xù)狀態(tài)空間中尤為重要。修改探索過程主要有兩個(gè)方向:
1. 應(yīng)用外部智能引導(dǎo)探索過程:使用人類演示者的有限演示集,然后可以進(jìn)一步優(yōu)化這些演示集,創(chuàng)建初步的價(jià)值函數(shù)(這種方法類似于模仿學(xué)習(xí));演示者還可以通過在線展示狀態(tài)空間中有趣或危險(xiǎn)的部分來引導(dǎo)探索;最后,如文獻(xiàn) [99] 所示,可以通過監(jiān)督控制方案滿足硬約束。
2. 使用風(fēng)險(xiǎn)估計(jì)。
已有部分研究致力于通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)更安全的駕駛:
· 文獻(xiàn)中,作者結(jié)合深度確定性策略梯度(DDPG)算法和人工勢場,開發(fā)了一種安全的車道保持和避撞算法。
· 文獻(xiàn)中提出了一種頗具啟發(fā)性的方法,作者還訓(xùn)練了一個(gè)移動(dòng)機(jī)器人進(jìn)行避撞,結(jié)合了探索修改和課程學(xué)習(xí)方法,從低速機(jī)動(dòng)開始,不斷提高任務(wù)難度。為此,他們提出了一種依賴不確定性的成本函數(shù)來估計(jì)碰撞風(fēng)險(xiǎn),并在仿真器和真實(shí)機(jī)器人上演示了訓(xùn)練過程。
· 文獻(xiàn)的作者提供了一個(gè)安全高速公路駕駛的示例,通過兩種方式提高安全性:一方面,創(chuàng)建了一個(gè)學(xué)習(xí)安全模式的模塊,該模塊基于初步駕駛數(shù)據(jù)工作,并使用遠(yuǎn)期預(yù)測;另一方面,基于常見駕駛實(shí)踐開發(fā)了一個(gè)啟發(fā)式手工設(shè)計(jì)的安全模塊,確保最小跟車距離。他們在不同交通密度的仿真中演示了結(jié)果。
· 文獻(xiàn)中提出了一種所謂的 “并行約束策略優(yōu)化” 方法,并在兩個(gè)場景中進(jìn)行了演示。該方法通過第三個(gè)神經(jīng)網(wǎng)絡(luò)對風(fēng)險(xiǎn)函數(shù)進(jìn)行逼近,擴(kuò)展了通用的演員 - 評(píng)論家結(jié)構(gòu),并在車道保持和交叉路口通行仿真中展示了結(jié)果。
總體而言,安全強(qiáng)化學(xué)習(xí)理論是一個(gè)動(dòng)態(tài)發(fā)展的領(lǐng)域。除了上述綜述文章外,感興趣的讀者可以在文獻(xiàn)中找到每種解決方案的理論細(xì)節(jié)。從車輛控制的角度來看,該主題的重要性毋庸置疑,不僅關(guān)乎安全性,還關(guān)乎狀態(tài)和動(dòng)作空間的縮減。訓(xùn)練和驗(yàn)證的一大問題是從大量無關(guān)場景中選擇有問題的所謂極端情況(corner cases)。
(二)仿真到現(xiàn)實(shí)的遷移(Sim2Real)
通過分析近期文章的觀測元素可以發(fā)現(xiàn),大多數(shù)研究忽略了復(fù)雜的傳感器模型。部分論文使用 “真實(shí)狀態(tài)” 環(huán)境表示或 “理想” 傳感器模型,僅有少數(shù)文章考慮了傳感器噪聲。一方面,將從理想觀測中獲得的知識(shí)應(yīng)用于現(xiàn)實(shí)世界存在若干可行性問題;另一方面,如文獻(xiàn)所述,使用帶噪聲或有誤的模型實(shí)際上可能會(huì)產(chǎn)生更穩(wěn)健的智能體。
環(huán)境建模也是如此,在高速公路學(xué)習(xí)智能體群體中表現(xiàn)得最為明顯 —— 道路拓?fù)浣Y(jié)構(gòu)幾乎總是固定的,且周圍車輛的行為受到限制。這些智能體的驗(yàn)證通常在相同的環(huán)境設(shè)置中進(jìn)行,這與機(jī)器學(xué)習(xí)的基本技術(shù)相矛盾(機(jī)器學(xué)習(xí)中訓(xùn)練和驗(yàn)證場景應(yīng)在某些方面有所不同)。由于強(qiáng)化學(xué)習(xí)智能體通常只能在與其經(jīng)驗(yàn)相近的場景中表現(xiàn)良好,因此至關(guān)重要的是專注于開發(fā)更真實(shí)、更多樣化的環(huán)境,包括對所有交互交通參與者的建模,以實(shí)現(xiàn)易于遷移到現(xiàn)實(shí)世界應(yīng)用的智能體。這適用于車輛動(dòng)力學(xué)建模,需要更多樣化和更真實(shí)的建模。自然地,這些改進(jìn)會(huì)增加環(huán)境模型的數(shù)值復(fù)雜度,這是這些應(yīng)用中的主要問題之一。
在本綜述評(píng)估的研究中,所有問題都是在仿真環(huán)境中訓(xùn)練的。僅有一個(gè)例外:文獻(xiàn)中,作者使用連續(xù)、無模型的深度強(qiáng)化學(xué)習(xí)算法深度確定性策略梯度(DDPG),通過擴(kuò)展功能顯著減少了訓(xùn)練所需的情節(jié)數(shù),在真實(shí)車輛上訓(xùn)練智能體進(jìn)行車道保持。
在該領(lǐng)域中,使用仿真作為強(qiáng)化學(xué)習(xí)訓(xùn)練工具的原因有很多:
1. 可以獲得更多樣本,因?yàn)榉抡姹日鎸?shí)實(shí)驗(yàn)更快、更便宜(節(jié)省燃料、人員和設(shè)備成本)。
2. 安全性高,因?yàn)閺?qiáng)化學(xué)習(xí)的試錯(cuò)式學(xué)習(xí)在真實(shí)交通中無法保證安全。
自然地,在強(qiáng)化學(xué)習(xí)中使用仿真也存在缺點(diǎn):
1. 建模和識(shí)別問題:許多仿真器為了平衡計(jì)算資源而建模不足。與現(xiàn)實(shí)世界的差異可能來自觀測或車輛動(dòng)力學(xué)方面:傳感器可能過于精確、可靠,或提供完整狀態(tài)的真實(shí)值(這在現(xiàn)實(shí)世界場景中無法實(shí)現(xiàn));或者相反,可能缺乏細(xì)節(jié)(這通常是提供攝像頭信息的渲染視覺環(huán)境的情況)。
2. 仿真中學(xué)習(xí)的策略無法遷移到現(xiàn)實(shí)世界,這通常被稱為 “現(xiàn)實(shí)差距” 或 “仿真到現(xiàn)實(shí)的差距(sim2real gap)”。即使底層馬爾可夫決策過程假設(shè)成立,處理此類問題也很困難;而當(dāng)環(huán)境變?yōu)椴糠挚捎^測,或出現(xiàn)多個(gè)動(dòng)作無法預(yù)測的活躍智能體時(shí),這種差距會(huì)進(jìn)一步擴(kuò)大。在真實(shí)交通仿真中,幾乎(如果不是完全)不可能涵蓋所有可能的情況。
表3總結(jié)了使用仿真進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的主要優(yōu)缺點(diǎn)。由于現(xiàn)實(shí)差距較大,所開發(fā)算法的真實(shí)車輛測試無法保證安全性。此外,還會(huì)出現(xiàn)許多可行性問題,例如成本、自動(dòng)化、設(shè)備和測試場地等。這些因素共同導(dǎo)致大多數(shù)研究停留在仿真層面,僅有少數(shù)研究能提供現(xiàn)實(shí)世界應(yīng)用,且都存在一定限制:
· 文獻(xiàn)中,車道選擇算法的決策在雙車道高速公路上進(jìn)行展示,但未將完全控制權(quán)交給算法。
· 文獻(xiàn)的停車導(dǎo)航算法在封閉停車場中進(jìn)行了示例演示。
文獻(xiàn)中開發(fā)的車道變換機(jī)動(dòng)在封閉測試軌道上進(jìn)行了評(píng)估。

表3、使用仿真進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的優(yōu)缺點(diǎn)
通常,有三種方法可以縮小現(xiàn)實(shí)差距:
1. 系統(tǒng)識(shí)別:嘗試使仿真與現(xiàn)實(shí)匹配。
2. 領(lǐng)域自適應(yīng):旨在從源數(shù)據(jù)分布(仿真)中學(xué)習(xí)一個(gè)在不同(但相關(guān))目標(biāo)數(shù)據(jù)分布(現(xiàn)實(shí))上表現(xiàn)良好的模型。
3. 領(lǐng)域隨機(jī)化:旨在在高度隨機(jī)化的環(huán)境(仿真)中學(xué)習(xí),該環(huán)境(可能)涵蓋目標(biāo)(現(xiàn)實(shí)),使智能體具有穩(wěn)健性。
這三個(gè)概念如圖 13 所示。前文已討論過完全建模系統(tǒng)與可行性之間的權(quán)衡,因此本文不再概述系統(tǒng)識(shí)別。在領(lǐng)域自適應(yīng)過程中,需要找到仿真和真實(shí)表示之間的遷移技術(shù)。例如,對于從前置攝像頭獲取的圖像序列,可以通過語義分割圖像解決這種遷移:
· 文獻(xiàn)中,兩個(gè)領(lǐng)域在分割層面達(dá)成一致。
文獻(xiàn)中,作者嘗試通過生成對抗網(wǎng)絡(luò)(GAN)創(chuàng)建用于訓(xùn)練的 “真實(shí)” 圖像。自然地,這種方法依賴于生成對抗網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),無法保證完全覆蓋。
強(qiáng)化學(xué)習(xí)建模、車輛建模、獎(jiǎng)勵(lì)機(jī)制、車輛狀態(tài)觀測

圖13、sim2real傳輸?shù)娜N方法的概念圖
許多研究表明,強(qiáng)化學(xué)習(xí)智能體通常會(huì)過擬合于其訓(xùn)練環(huán)境,甚至開發(fā)出在現(xiàn)實(shí)應(yīng)用中完全無法使用的策略。領(lǐng)域隨機(jī)化除了提高穩(wěn)健性外,還是一種泛化或正則化技術(shù)。然而,隨著隨機(jī)化可能維度的增加,其可擴(kuò)展性問題變得嚴(yán)重;另一方面,如文獻(xiàn)所述,過多的隨機(jī)化會(huì)導(dǎo)致智能體采取保守策略。盡管本綜述介紹的大多數(shù)研究都使用了某種隨機(jī)化(多個(gè)軌道、隨機(jī)初始化或目標(biāo)等),但這些遠(yuǎn)未涵蓋真實(shí)駕駛的所有可能情況。基于上述原因,仿真到現(xiàn)實(shí)的遷移(sim2real)是該領(lǐng)域未來的關(guān)鍵研究問題之一。
總體而言,該領(lǐng)域仍有許多問題需要解決,例如環(huán)境和傳感器建模的細(xì)節(jié)、計(jì)算需求、向現(xiàn)實(shí)應(yīng)用的遷移性、智能體的穩(wěn)健性和驗(yàn)證等。由于這些問題的存在,強(qiáng)化學(xué)習(xí)本身不足以作為汽車運(yùn)動(dòng)規(guī)劃的工具,但通過與其他方法結(jié)合,它可以高效地解決復(fù)雜的優(yōu)化任務(wù)。
.png)
(添加微信號(hào)NewCarRen咨詢)
