亞洲資本網(wǎng) > 資訊 > 圖片 > 正文
特斯拉 FSD V12 試駕平平無奇?
2023-09-01 04:02:32來源: 賽博汽車

作者 | EatElephant

編輯 | 章漣漪

當?shù)貢r間 8 月 26 日,特斯拉 CEO 馬斯克親自上線,開啟了一場路測特斯拉 FSD V12 的直播。試駕過程中,馬斯克多次表示現(xiàn)在的系統(tǒng)沒有一行規(guī)則和條件判斷代碼,不需要高清地圖,甚至不需要聯(lián)網(wǎng)就可以完成一切。


(資料圖)

直播全程 45 分鐘,吸引超 1000 萬人在線圍觀。其中,馬斯克只有一次駕駛干預(yù),這發(fā)生在一個繁忙的十字路口,馬斯克所駕駛的特斯拉試圖闖紅燈,他立即控制了車輛。

從技術(shù)上看,特斯拉 FSD V12 版本采用的是端到端的大模型技術(shù),即:一端輸入環(huán)境圖像,一端輸出控制指令,中間是一個神經(jīng)網(wǎng)絡(luò)大模型,這幾乎是接近人類真實駕駛。

針對這一事件,以及特斯拉 FSD V12 技術(shù)背后的邏輯,AI 算法工程師 EatElephant 進行了解讀,賽博汽車授權(quán)進行編發(fā)。

以下為《賽博汽車》依照 EatElephant 的文章整理改編而成——

其實挺驚訝對這次 demo 的評價目前看來還是比較負面的,從消費者角度其實這可以理解,畢竟 19min 就接管一次,還是闖紅燈這種極其普遍的駕駛場景中的致命錯誤,不過要知道這并非發(fā)布的用戶版本,而是研發(fā)內(nèi)測的 Alpha 版本,說一個研發(fā)版本不夠完善穩(wěn)定我個人感覺是有點吹毛求疵了。

作為技術(shù)從業(yè)者,我們更應(yīng)該從更加技術(shù)的角度去看待 FSD Version 12 的這次 demo,我個人認為這次 demo 給我?guī)淼臎_擊和引起的思考是比較大的,甚至不輸于以往的幾次 AI Day 和 Autonomous Day。

首先要知道為什么大家對 V12 如此感興趣。原 因是老馬在今年 5 月份就爆了一劑猛料,F(xiàn)SD V12 會徹底轉(zhuǎn)向端到端的自動駕駛技術(shù)方案,并且他還說 V12 會令 FSD 走出 Beta 階段徹底成為一個正式版的產(chǎn)品。

老馬 5 月宣布 Version12 將轉(zhuǎn)為端到端系統(tǒng)的 Twitter(X)

這個消息的噱頭有多大呢,我感覺吧其實不輸于 2020 年公布 FSD Beta 將于當年 10 月發(fā)布, 畢竟端到端的自動駕駛長期以來一直局限于學術(shù)研究中,Tesla 之前唯二的先行者 Comma 僅僅只能進行高速方面的簡單駕駛動作,Wayve 則局限于英國少數(shù)地區(qū)的內(nèi)部測試,而要知道 FSD 可是在廣大的北美大陸可以任意開啟的,這需要端到端系統(tǒng)體現(xiàn)的泛化性可以說和前兩者相比要高出一個層級 。

業(yè)內(nèi)普遍共識,端到端的自動駕駛系統(tǒng)理論上有比現(xiàn)今模塊化的自動駕駛系統(tǒng)更高的能力上限,那么端到端系統(tǒng)為什么并沒有成為業(yè)界主流呢?

原因是端到端系統(tǒng)在提高模型上限的同時也無限放大了神經(jīng)網(wǎng)絡(luò)黑盒的不可解釋的問題,而不可解釋性會給研發(fā)迭代和問題解決造成巨大的負面影響,同時業(yè)界也沒有端到端系統(tǒng)的成功先例,對于這種處于前沿科技無人區(qū)的技術(shù)方案絕大多數(shù)公司是沒有勇氣和實力敢為天下先的。

那作為端到端的 V12 首次公開亮相,我認為這次 demo 是毫無疑問的成功的,甚至是驚艷的 。 我的理由主要有以下三點:

1. 本次 Demo 展現(xiàn)了 FSD V12 端到端系統(tǒng)的成熟度

很多國內(nèi)外的網(wǎng)友質(zhì)疑這次 Demo 的路況場景都十分簡單,Palo Alto 的交通即使在下班高峰看起來也遠遠比不了國內(nèi)大城市道路的擁擠繁雜,在這種情況下甚至還有一次嚴重問題接管 ,其實算不上優(yōu)秀,對于這個觀點我其實很認同。

然而作為自動駕駛的算法從業(yè)者,我對于這次 demo 的關(guān)注點其實不在場景的困難程度,因為理論上端到端的系統(tǒng)自然比基于規(guī)則和搜索的現(xiàn)今主流自動駕駛系統(tǒng)上限高很多,其核心問題在于下限可能很低 。

端到端系統(tǒng)起步慢但上限高

今年 CVPR 小鵬的 Patrick 有這樣一個圖表很好的說明了端到端系統(tǒng)的特性,可以看到端到端的系統(tǒng)最大問題在于模型能力起步較慢,同時黑盒不可解釋不可控的性質(zhì)會導致系統(tǒng)雖然能夠處理復(fù)雜場景,但是簡單場景很可能相比目前主流系統(tǒng)會產(chǎn)生退步,甚至是犯很多 " 弱智 " 的錯誤,同時因為業(yè)界缺乏端到端系統(tǒng)的工程實踐經(jīng)驗,一些看似簡單的 fix 無法通過增加規(guī)則代碼迅速解決,因此嘗試端端到端的方案大多數(shù)時候可能會是死在起跑線。

實際上我甚至認為如果哪家公司能夠利用端到端的新技術(shù)架構(gòu)來獲得一個功能穩(wěn)定性匹敵現(xiàn)有技術(shù)架構(gòu)的自動駕駛系統(tǒng),那么基本可以證明端到端系統(tǒng)是未來方向。

因為,理論上端到端系統(tǒng)在達到現(xiàn)有技術(shù)水平的那個時間點之后會很快繼續(xù)提高水平將現(xiàn)有技術(shù)棧甩在身后,所以上圖紅藍線交叉的點我認為可以稱作端到端系統(tǒng)正收益的爆發(fā)點,一旦達到這一點基本上主流的技術(shù)范式就會被顛覆。

所以,考慮到 Tesla V12 應(yīng)該研發(fā)時間不長,我對于 V12 首秀能在隨機選取的測試路線上在眾多基礎(chǔ)的轉(zhuǎn)彎,變道,環(huán)島,與行人交互等場景表現(xiàn)十分穩(wěn)定平順其實是非常驚訝的,而 FSD V12 的這次初次亮相部分說明了 Tesla 已經(jīng)比較接近這個爆發(fā)點了,而這是我認為本次 Demo 傳遞的十分重要的信號。

2. 透露了 Tesla 端到端自動駕駛的一些重要的思路,理念和實踐經(jīng)驗

這次 Demo 另一個關(guān)鍵意義在于,通過 Demo 的一些細節(jié)以及直播過程中老馬和 Ashok 的聊天透露了很多 Tesla 對于端到端系統(tǒng)的實操經(jīng)驗和理解,而在端到端系統(tǒng)嚴重缺乏行業(yè)最佳實踐的現(xiàn)在,這毫無疑問是對技術(shù)從業(yè)者具有啟發(fā)意義的。

比如說,很多人以為端到端是一個中間完全不透明的黑盒,但是實際上目前大多數(shù)比較深入的端到端實踐都表明保持端到端系統(tǒng)中間結(jié)果的可解釋性是很重要的。

今年 CVPR Best Paper UniAD 就設(shè)計了一個端到端可導但是保留了中間子網(wǎng)絡(luò)輸出的端到端系統(tǒng),而從直播中可以發(fā)現(xiàn) V12 幾乎完整的保留了當前 FSD 的感知結(jié)果輸出,很顯然至少在目前階段 Tesla 的端到端技術(shù)方案也是保留中間功能子網(wǎng)絡(luò)的路徑。

那這個方案和普通的模塊化方案有什么區(qū)別呢?

其實重要區(qū)別在于各模塊都去除了基于規(guī)則的代碼,使得整個系統(tǒng)端到端可導,這使得整個系統(tǒng)作為一個整體直接對于駕駛動作進行訓練優(yōu)化成為可能 。而傳統(tǒng)的自動駕駛架構(gòu)由于模塊化以及并非端到端可導,使得各個功能模塊只能通過各自訓練優(yōu)化自己的任務(wù),最終結(jié)果是多個局部最優(yōu)無法實現(xiàn)整個系統(tǒng)的全局最優(yōu)。

CVPR 2023 Best Paper UniAD 保留了整個系統(tǒng)中間的各個功能網(wǎng)絡(luò)

這樣的方案其實比較好理解,保留中間結(jié)果相當于通過人類先驗知識把人類覺得有用的駕駛概念提取出來,給到端到端下游網(wǎng)絡(luò),也給到網(wǎng)絡(luò)的還有可能包括更加前端基礎(chǔ)的輸入,由下游決策規(guī)劃網(wǎng)絡(luò)自由選擇使用哪些信息進行判斷,這樣的技術(shù)方案通過人類先驗加快了端到端系統(tǒng)訓練時性能起步速度,但是又保留了原始信息直接輸入下游,減少了傳統(tǒng)模塊話系統(tǒng)中間輸輸出導致的信息損失。

同時,對中間結(jié)果進行分析也有助于確定系統(tǒng)犯錯時問題的原因,提高解決問題的效率。

V12 幾乎保留全部 FSD 感知結(jié)果可視化效果,但似乎沒有紅綠燈可視化

另外馬斯克和 Ashok 在聊天過程中反復(fù)強調(diào) V12 沒有顯式的把車道線,環(huán)島,減速帶等概念的處理辦法灌輸給系統(tǒng),對于這點我的理解是 V12 并不是沒有檢測這些內(nèi)容,而是在規(guī)控網(wǎng)絡(luò)中沒有顯式的添加如何應(yīng)對這些概念的規(guī)則,應(yīng)對方法是由網(wǎng)絡(luò)自己通過駕駛員視頻學習得到的。

例如,軟件沒有顯示要求自車要在車道線居中,模型自己從人類駕駛視頻中學習何時應(yīng)該居中,何時可以適當偏離中線以達成更加擬人的駕駛決策。

3. 展現(xiàn)了端到端自動駕駛系統(tǒng)相比傳統(tǒng)架構(gòu)優(yōu)勢的一些閃光點

雖然上面說了,我更加關(guān)注的是 V12 相比現(xiàn)有 FSD 是否在基礎(chǔ)功能上存在性能回退,但是在這次 Demo 中我們也看到了很多 V12 的閃光點。

這次的一個大家容易忽略的亮點其實就發(fā)生在老馬第 19min 紅綠燈接管之前。

當時的場景是這樣的,直行的綠燈亮起但是前方路口擁堵,這時比較合理的駕駛決策是不要進入路口,等待目標路口空間出現(xiàn)再選擇通過路口,而 FSD V12 也正是這樣做(不要糾結(jié)國內(nèi)國情,實際上我國的交規(guī)也是這樣建議的,雖然很少有人按照執(zhí)行),不過這也導致了這次綠燈 V12 沒能通行,一直到綠燈變紅,再下一次左轉(zhuǎn)綠燈亮起的時候 V12 出現(xiàn)了誤判。

上述情況出行的原因是:V12 目前似乎并不直接檢測紅綠燈的狀態(tài)(可視化界面中好像不再出現(xiàn)紅綠燈檢測結(jié)果),而是綜合參考了紅綠燈情況和周圍其他這輛行為來判斷是否應(yīng)該通行,所以當有紅燈變綠,且周圍左轉(zhuǎn)車輛開始移動的時候,V12 產(chǎn)生了錯誤判斷,認為直行也已經(jīng)可以通行,造成接管。

直行綠燈但路口擁堵,V12 選擇等待,沒有進入路口

第二個亮點出現(xiàn)在一次途徑點到達過程中,V12 可以進行靠邊停車的操作,而這也是目前的 FSD 所不具備的功能 。

而且 Ashok 在直播過程還透露,未來 FSD 甚至可以響應(yīng)用戶語音指令輸入。例如用戶可以告訴 FSD 向左換道,或者告訴 FSD 帶自己到達前面沃爾瑪,F(xiàn)SD 就會根據(jù)語音指令分析其中語義信息并執(zhí)行相應(yīng)動作。這里我的猜測是有可能在 V12 的模型中也有文字模態(tài)的加入,這也是目前自動駕駛系統(tǒng)中很少使用的新技術(shù),隨著大語言模型的爆炸式發(fā)展,在自動駕駛中融入語言模型這一方向也給人很大的遐想空間。

總之這次 FSD V12 的 Demo 可以說是自動駕駛行業(yè)內(nèi)一次具有顛覆性的事件,雖然本次 demo 依然存在問題,也還無法完全證明端到端系統(tǒng)就是自動駕駛未來的前進方向,但是隨著本次 demo 的展示,我相信端到端的自動駕駛很可能將擺脫空中樓閣的尷尬境地,有潛力成為未來幾年內(nèi)行業(yè)爭先投入的重點。

作為行業(yè)領(lǐng)軍的 Tesla(也許有人不認同,但是我身邊的從業(yè)者絕大多數(shù)對此是承認或者默認的)再次扮演了敢為天下先的角色,后續(xù)自動駕駛技術(shù)范式到底如何迭代,這次 demo 的意義可能比很多人想象的更加深遠。

關(guān)鍵詞:

專題新聞
  • 首屆“蒙陜甘寧晉”五省區(qū)農(nóng)牧民排球邀請賽開幕
  • 民生證券給予立高食品推薦評級
  • 庚星股份:主營業(yè)務(wù)未發(fā)生重大變化,新能源充電業(yè)務(wù)尚未產(chǎn)生收入
  • 兒童重疾險哪個好?
  • 安陽曙光小區(qū)屬于哪個區(qū)?
  • 鎖龍消防2023年上半年凈利578.5萬 同比增加75.09%
最近更新

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com