特斯拉“行為克隆”技術(shù)曝光:無(wú)需寫(xiě)代碼,實(shí)現(xiàn)全自動(dòng)駕駛?

時(shí)間:2019-01-29

來(lái)源:手機(jī)中國(guó)網(wǎng)

0

導(dǎo)語(yǔ):特斯拉最近曝光“行為克隆”技術(shù),系統(tǒng)研究人類(lèi)在各種場(chǎng)景中的駕駛動(dòng)作并加以模仿。巧合的是,自動(dòng)駕駛第一大廠Waymo不久前也在公布了模仿學(xué)習(xí)中的技術(shù)細(xì)節(jié)。模仿學(xué)習(xí)會(huì)成為全自動(dòng)駕駛的一條捷徑嗎?

特斯拉最近曝光“行為克隆”技術(shù),系統(tǒng)研究人類(lèi)在各種場(chǎng)景中的駕駛動(dòng)作并加以模仿。巧合的是,自動(dòng)駕駛第一大廠Waymo不久前也在公布了模仿學(xué)習(xí)中的技術(shù)細(xì)節(jié)。模仿學(xué)習(xí)會(huì)成為全自動(dòng)駕駛的一條捷徑嗎?

全自動(dòng)駕駛的“捷徑”來(lái)了?

知情人士表示,特斯拉汽車(chē)收集了大量的來(lái)自攝像頭和其他傳感器的數(shù)據(jù),即使Autopilot系統(tǒng)沒(méi)有開(kāi)啟,開(kāi)發(fā)團(tuán)隊(duì)也可以研究傳統(tǒng)的人類(lèi)在各種場(chǎng)景中的駕駛動(dòng)作并加以模仿。

這種技術(shù)被稱(chēng)為“行為克隆”,實(shí)際上是一種模仿學(xué)習(xí)(imitation learning)。

系統(tǒng)使用模仿的信息作為車(chē)輛在特定情況下決定駕駛方式,比如,行駛彎道或避開(kāi)前方目標(biāo)等。

無(wú)獨(dú)有偶,為了模仿專(zhuān)家駕駛,自動(dòng)駕駛大廠Waymo不久前也創(chuàng)建了一個(gè)名為ChauffeurNet的深度RNN,該網(wǎng)絡(luò)通過(guò)觀察場(chǎng)景的中層表示作為輸入,訓(xùn)練它發(fā)出駕駛軌跡,最終的結(jié)果能超越純粹的模仿。

此外值得注意的是,上周AlphaStar戰(zhàn)勝人類(lèi)選手之,就涉及到模仿學(xué)習(xí)。AlphaStar只通過(guò)觀察人類(lèi)如何玩游戲,就能模仿學(xué)習(xí)策略,最后將信息用于訓(xùn)練各種智能體。

現(xiàn)在,自動(dòng)駕駛界的兩只領(lǐng)頭羊都在嘗試做模仿學(xué)習(xí),這會(huì)成為全自動(dòng)駕駛的一條捷徑嗎?

特斯拉行為克?。何磥?lái)人們不需要寫(xiě)代碼了

特斯拉的自動(dòng)駕駛系統(tǒng)Autopilot的核心功能與其他半自動(dòng)駕駛系統(tǒng)和全自動(dòng)駕駛系統(tǒng)類(lèi)似:在Autopilot可以運(yùn)行之前,特斯拉從汽車(chē)的傳感器(如前置攝像頭)收集數(shù)據(jù)。

之后公司雇人對(duì)圖像中的汽車(chē)和其他物體進(jìn)行數(shù)字標(biāo)記,然后將一些圖像輸入神經(jīng)網(wǎng)絡(luò)計(jì)算系統(tǒng),該系統(tǒng)會(huì)對(duì)其他車(chē)輛及其行進(jìn)方式進(jìn)行模式識(shí)別,并且隨著時(shí)間的推移提高車(chē)速。

通過(guò)神經(jīng)網(wǎng)絡(luò)提供足夠的真人駕駛數(shù)據(jù),網(wǎng)絡(luò)就可以學(xué)習(xí)如何在大多數(shù)情況下直接預(yù)測(cè)正確的轉(zhuǎn)向、制動(dòng)和加速行為。

但特斯拉不同的地方在于,“行為克隆”讓Autopilot開(kāi)發(fā)團(tuán)隊(duì)也可以研究傳統(tǒng)的人類(lèi)駕駛在各種場(chǎng)景中的動(dòng)作,從而加以模仿。

這樣做的結(jié)果是,你不需要任何其他東西來(lái)教系統(tǒng)如何自主駕駛,在未來(lái),人們不需要編寫(xiě)代碼來(lái)告訴汽車(chē)在遇到特定情況時(shí)該怎么做,因?yàn)槠?chē)自會(huì)知道該怎么做。

這個(gè)概念被特斯拉的一些工程師稱(chēng)為“軟件2.0”。

深度理解模仿學(xué)習(xí):未來(lái)或能交叉預(yù)測(cè)其他智能體的反應(yīng)

“軟件2.0”可能是一種產(chǎn)品概念,“行為克隆”的背后是技(學(xué))術(shù)概念——模仿學(xué)習(xí)。

目前,特斯拉對(duì)于模仿學(xué)習(xí)的詳細(xì)介紹資料比較少,但是Waymo去年11月發(fā)的一篇論文,可以窺見(jiàn)模仿學(xué)習(xí)的部分技術(shù)原理。

特斯拉“行為克隆”技術(shù)曝光:無(wú)需寫(xiě)代碼,實(shí)現(xiàn)全自動(dòng)駕駛?

Waymo創(chuàng)建的ChauffeurNet的深度遞歸神經(jīng)網(wǎng)絡(luò)(RNN),通過(guò)觀察場(chǎng)景的中級(jí)表示作為輸入來(lái)訓(xùn)練該網(wǎng)絡(luò)生成駕駛路線的軌跡。中級(jí)表示不直接使用來(lái)自傳感器的原始數(shù)據(jù),從而可以將感知任務(wù)分解出來(lái),能夠?qū)⒄鎸?shí)數(shù)據(jù)和模擬數(shù)據(jù)相結(jié)合,更容易地進(jìn)行遷移學(xué)習(xí)。

如下圖所示,輸入表示包括一個(gè)自上而下(鳥(niǎo)瞰)環(huán)境視圖,其中包括地圖、周?chē)矬w、交通信號(hào)燈狀態(tài)、車(chē)輛過(guò)往的運(yùn)動(dòng)等信息。該網(wǎng)絡(luò)還能夠給出谷歌地圖風(fēng)格的路線,引導(dǎo)車(chē)輛前往目的地。

為駕駛模型渲染輸入和輸出。上排從左至右:路線圖、紅綠燈,限速和路線。下排從左至右:當(dāng)前智能體框、動(dòng)態(tài)框、過(guò)往智能體姿勢(shì),未來(lái)智能體姿勢(shì)輸出。

ChauffeurNet在每次迭代期間會(huì)沿著未來(lái)的駕駛軌跡輸出一個(gè)點(diǎn),同時(shí)將預(yù)測(cè)點(diǎn)寫(xiě)入在下一次迭代期間使用的存儲(chǔ)器中。從這個(gè)意義上講,這個(gè)RNN并不是傳統(tǒng)式的,因?yàn)榇鎯?chǔ)模型是定制化的。

接著,ChauffeurNet將由十個(gè)未來(lái)的點(diǎn)組成的軌跡輸出到一個(gè)低級(jí)控制器,該控制器將這個(gè)軌跡轉(zhuǎn)換為對(duì)車(chē)輛的控制命令,比如轉(zhuǎn)向和加速,來(lái)驅(qū)動(dòng)汽車(chē)。

此外,Waymo還采用了一個(gè)單獨(dú)的“感知RNN”頭,能夠迭代式地預(yù)測(cè)環(huán)境中其他移動(dòng)物體的未來(lái)軌跡,并且這個(gè)網(wǎng)絡(luò)與預(yù)測(cè)車(chē)輛駕駛的RNN共享特征。

ChauffeurNet內(nèi)部分為兩個(gè)部分,F(xiàn)eatureNet和AgentRNN。 AgentRNN使用過(guò)去智能體姿勢(shì)的渲染圖像、由渲染輸入的卷積網(wǎng)絡(luò)“FeatureNet”計(jì)算出的一組特征、具有最后一個(gè)智能體框渲染的圖像,以及具有預(yù)測(cè)渲染的顯式存儲(chǔ)器,來(lái)預(yù)測(cè)下一個(gè)智能體姿勢(shì)和自上而下視圖中的下一個(gè)智能體框。這些預(yù)測(cè)用于更新AgentRNN的輸入,以預(yù)測(cè)下一個(gè)時(shí)間步長(zhǎng)。

未來(lái)的一種可能是,車(chē)輛可以在選擇自己的駕駛軌跡的同時(shí),更深入地交叉預(yù)測(cè)其他智能體的反應(yīng)過(guò)程。

模仿學(xué)習(xí)是“捷徑”還是“普通路徑”?

“行為克隆”也好,“軟件2.0也好”,利用神經(jīng)網(wǎng)絡(luò)編寫(xiě)代碼來(lái)自動(dòng)駕駛,從而取代人類(lèi)編寫(xiě)的代碼,看上去可能是未來(lái)全自動(dòng)駕駛的捷徑之一。

不過(guò),特斯拉“行為克隆”的也有其局限性:這種方法不能教Autopilot系統(tǒng)處理無(wú)法輕易預(yù)測(cè)的危險(xiǎn)情景。比如,老司機(jī)看到飄在前方的塑料袋時(shí)不會(huì)轉(zhuǎn)向,但自動(dòng)駕駛系統(tǒng)可能就會(huì)。

這也是自動(dòng)駕駛存在的識(shí)別訓(xùn)練數(shù)據(jù)相關(guān)性問(wèn)題,它不能通過(guò)純粹觀察相關(guān)性來(lái)構(gòu)建因果模型,并且無(wú)法在模擬中主動(dòng)測(cè)試反事實(shí)。

另外,傳統(tǒng)方法實(shí)現(xiàn)完全自動(dòng)駕駛系統(tǒng),需要能夠處理現(xiàn)實(shí)世界中發(fā)生的長(zhǎng)尾事件。

長(zhǎng)尾事件的解決需要深度學(xué)習(xí)訓(xùn)練盡可能多的數(shù)據(jù),但現(xiàn)實(shí)情況往往是缺少有效訓(xùn)練數(shù)據(jù)。

一位長(zhǎng)期從事自動(dòng)駕駛的業(yè)內(nèi)人士告訴新智元,“行為克隆”是快速收集大量數(shù)據(jù)的捷徑,但網(wǎng)絡(luò)傳輸速度和計(jì)算量都太大了。“至于是不是實(shí)現(xiàn)無(wú)人駕駛的捷徑,要看能不能搞出真正能用的系統(tǒng)。”

馭勢(shì)科技CEO吳甘沙告訴新智元,模仿學(xué)習(xí)的主要局限是數(shù)據(jù)的可獲得性和有效性,比如影子模式可能解決了可獲得性,但也包括了不值得提倡的司機(jī)行為。另一方面,它還是端到端的,在可解釋性上才剛剛有些進(jìn)展。同時(shí),因?yàn)槭嵌说蕉?,比較難在中間過(guò)程中接受其他的信息或指令。

吳甘沙認(rèn)為,模仿學(xué)習(xí)“肯定是路徑之一,或者是決策的一個(gè)來(lái)源,但目前來(lái)看還不能作為唯一決策方法。”

One more thing: 特斯拉AI芯片專(zhuān)利曝光

據(jù)Hot Hardware報(bào)道,特斯拉向美國(guó)專(zhuān)利商標(biāo)局提交的專(zhuān)利中提到,傳統(tǒng)處理器可以快速執(zhí)行單個(gè)數(shù)學(xué)運(yùn)算,但它有一個(gè)限制:這樣的處理器一次只能處理少量數(shù)據(jù)。

雖然GPU可以使用更大的數(shù)據(jù)集執(zhí)行多個(gè)任務(wù),但它們最初并不是為機(jī)器學(xué)習(xí)和AI開(kāi)發(fā)的。

特斯拉的AI芯片專(zhuān)利內(nèi)容如下:

“用于機(jī)器學(xué)習(xí)和人工智能的處理通常需要對(duì)大量數(shù)據(jù)集執(zhí)行數(shù)學(xué)運(yùn)算,并且通常涉及求解多個(gè)卷積層和匯集層。”

為了解決這個(gè)問(wèn)題,特斯拉必須開(kāi)發(fā)一種新的神經(jīng)AI,可以進(jìn)行“機(jī)器學(xué)習(xí)和人工智能特定的處理操作”。

因此,特斯拉提交了一些專(zhuān)利:

加速的數(shù)學(xué)引擎

具有可變延遲存儲(chǔ)器訪問(wèn)的計(jì)算陣列微處理器系統(tǒng)

使用非連續(xù)數(shù)據(jù)格式的計(jì)算陣列微處理器系統(tǒng)

矢量計(jì)算單位。

目前,Autopilot 2.0的計(jì)算機(jī)組件由英偉達(dá)GPU提供支持。

同時(shí),即將推出的升級(jí)版本將取代特斯拉目前使用的Autopilot 2.0平臺(tái),使用AI芯片的Autopilot 3.0能夠在汽車(chē)中實(shí)現(xiàn)全自動(dòng)駕駛功能。

低速無(wú)人駕駛產(chǎn)業(yè)綜合服務(wù)平臺(tái)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:低速無(wú)人駕駛產(chǎn)業(yè)綜合服務(wù)平臺(tái)]的所有文字、圖片、音視和視頻文件,版權(quán)均為低速無(wú)人駕駛產(chǎn)業(yè)綜合服務(wù)平臺(tái)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-85260609聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“低速無(wú)人駕駛產(chǎn)業(yè)綜合服務(wù)平臺(tái)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注低速無(wú)人駕駛產(chǎn)業(yè)聯(lián)盟公眾號(hào)獲取更多資訊

最新新聞