用車一電報(bào)道

理想汽車發(fā)布端到端+VLM自動(dòng)駕駛技術(shù)，7月推送無圖NOA

第一電動(dòng)張芳超 2024-07-05 22:33

7月5日，理想汽車召開了2024智能駕駛夏季發(fā)布會(huì)。在發(fā)布會(huì)上理想汽車表示，OTA 6.0.0版新增無圖NOA功能，并將于7月內(nèi)全量推送，覆蓋的所有的AD Max車型。同時(shí)，理想汽車發(fā)布了基于端到端模型、VLM視覺語言模型的全新自動(dòng)駕駛技術(shù)方案。

圖片.png

▍理想無圖NOA到底有哪些提升？

無圖NOA四大能力

圖片.png

理想汽車最新的無圖NOA，不管是在城市、城鎮(zhèn)，還是鄉(xiāng)村小路，都能夠行駛。最新的無圖NOA相比過去的版本，BEV、感知能力、規(guī)控能力，還有整體系統(tǒng)能力都得到全面的提升，無圖NOA擺脫了對(duì)先驗(yàn)信息（有圖）的依賴。

1、哪里都能開，不再依賴過多“先驗(yàn)信息”。理想汽車的智能駕駛系統(tǒng)背后有很多“小機(jī)器人”在運(yùn)行，可能有一些“小機(jī)器人”需要一些先驗(yàn)信息。但是隨著感知、規(guī)控能力的提升，就不再需要先驗(yàn)證，能更自如地解決在道路行駛中遇到的各種各樣的路況。

2、繞行絲滑，時(shí)空聯(lián)合。在實(shí)際道路上駕駛，會(huì)經(jīng)常遇到一些車輛、行人等對(duì)象，阻礙我們通行。這種情況下，就會(huì)“繞行絲滑”，它背后是時(shí)空聯(lián)合能力，就是具備時(shí)間和空間的能力?？臻g概念是橫縱（前后左右）同步規(guī)劃，時(shí)間概念是能夠持續(xù)預(yù)測(cè)自車與他車的空間交互關(guān)系，并規(guī)劃出未來一段時(shí)間窗口內(nèi)的所有可行駛的軌跡，篩選出最優(yōu)最高效的軌跡。

3、路口輕松，上帝視角。路口輕松過背后是我們具備“上帝視角”的能力。將攝像頭拼接的周邊環(huán)境、道路信息、導(dǎo)航提供的軌跡和數(shù)據(jù)信息全部合并在一起，形成超視距能力，在通過路口的時(shí)候找到最優(yōu)路線。

4、默契安心，分米級(jí)微操。無圖NOA重點(diǎn)考慮了用戶心理安全邊界的設(shè)計(jì)，將純視覺的Occ占用網(wǎng)絡(luò)升級(jí)為Lidar與視覺前融合的占用網(wǎng)絡(luò)，從而識(shí)別更大范圍內(nèi)的不規(guī)則障礙物，感知精度也會(huì)更高。提升可行駛區(qū)域內(nèi)的安全性和連續(xù)性，可以做到分米級(jí)別的微操。讓用戶和車之間產(chǎn)生了一種默契和安心的感覺。

主動(dòng)安全四大能力

圖片.png

主動(dòng)安全四大能力，包括復(fù)雜路口AEB，夜間弱光AEB，全自動(dòng)AES，全方位低速AEB。

復(fù)雜路口 AEB（自動(dòng)緊急制動(dòng)）：行人、兩輪車、三輪車這三種障礙物，不管是從左、右、前任何一個(gè)方向靠近時(shí)，如果它侵占了車輛的安全系統(tǒng)區(qū)間，車輛都會(huì)啟動(dòng)AEB主動(dòng)剎停。同時(shí)，如果車輛侵占了對(duì)方的安全空間，車輛也會(huì)主動(dòng)剎停。

夜間AEB（自動(dòng)緊急制動(dòng)）：在高速上夜間行駛，周圍基本上沒有光照，前方不遠(yuǎn)處有一輛貨柜車停著靜止不動(dòng)，沒有開燈、沒有反光條。在這種極限場(chǎng)景下，理想AD Max的AEB能做到120公里時(shí)速完全剎停。

全自動(dòng)AES（自動(dòng)緊急轉(zhuǎn)向）：場(chǎng)景為消失的前車，行駛過程中的我車和前車，都以非常快的速度在高速上行駛，突然前車的前車緊急剎停，前車避讓而我車距離很近不可能剎停。這種情況下車輛會(huì)減速并避讓過去，無需人為參與轉(zhuǎn)向操作，車輛會(huì)自動(dòng)緊急轉(zhuǎn)向，避讓前方障礙物。

全方位低速AEB（自動(dòng)緊急制動(dòng)）：用戶在日常生活的低速場(chǎng)景中，特別在地庫停車環(huán)境復(fù)雜的情況下，可能會(huì)出現(xiàn)比如柱子、墩子，車輛會(huì)啟動(dòng)低速AEB，可以剎停，避免剮蹭。

真正實(shí)現(xiàn)自動(dòng)駕駛的技術(shù)方案是什么樣的？

圖片.png

理想自動(dòng)駕駛理論來源是《思考，快與慢》理論。諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼在《思考，快與慢》中闡述了認(rèn)知心理學(xué)中系統(tǒng)1與系統(tǒng)2的概念，為理解人類的認(rèn)知模式提供了一個(gè)重要框架。

系統(tǒng)1其實(shí)是人根據(jù)自己過去的經(jīng)驗(yàn)和習(xí)慣形成的直覺，可以做出快速的決策。系統(tǒng)2其實(shí)是一個(gè)思維推理能力，人需要經(jīng)過思考或推理才能解決這種復(fù)雜的問題和應(yīng)對(duì)未知的場(chǎng)景。簡(jiǎn)言之，系統(tǒng)1和系統(tǒng)2相互配合，成為了人類認(rèn)知和理解世界、做出決策的基礎(chǔ)。

系統(tǒng)1和系統(tǒng)2是如何應(yīng)用到自動(dòng)駕駛中的?

圖片.png

系統(tǒng)1由一個(gè)端到端模型（E2E）實(shí)現(xiàn)，直接用來快速響應(yīng)常規(guī)駕駛問題。

系統(tǒng)2由一個(gè)視覺語言模型（VLM）實(shí)現(xiàn)，里面包含了思考的能力。

我們利用世界模型在云端來驗(yàn)證系統(tǒng)1和系統(tǒng)2的能力。

以上三個(gè)系統(tǒng)組成了理想汽車下一代自動(dòng)駕駛技術(shù)架構(gòu)。

什么是端到端，到底是哪個(gè)端到哪個(gè)端？它和以往的智能駕駛系統(tǒng)有什么區(qū)別?

圖片.png

理想汽車系統(tǒng)1的進(jìn)化過程：

第一代：NPN。采用模塊化的設(shè)計(jì)，包含感知、定位、規(guī)劃、導(dǎo)航、NPN等，這一代架構(gòu)支撐我們?cè)谌珖?00個(gè)城市推送了城市NOA功能。

第二代：無圖，分段式端到端。只有兩個(gè)模型組成，分別是感知和規(guī)劃。最大的變化是去掉了NPN，不依賴于先驗(yàn)信息，讓我們真正做到了全國都能開，有導(dǎo)航就能開。

第三代：端到端模型，它是一個(gè)One Model的結(jié)構(gòu)，只有一個(gè)模型，輸入的是傳感器，輸出的是行駛軌跡。

端到端模型的優(yōu)勢(shì)在于:

圖片.png

1、高效傳遞，駕駛體驗(yàn)更聰明和更擬人。

在無圖中有兩個(gè)模型，模型之間的信息傳遞我們運(yùn)用了大量的規(guī)則；而到了端到端模型，它是一體化的模型，信息都在模型內(nèi)部傳遞，具有更高上限。用戶所能感受到整套系統(tǒng)的動(dòng)作、決策更加擬人。

2、高效計(jì)算，駕駛時(shí)車輛會(huì)反應(yīng)更及時(shí)和更迅速。

因?yàn)槭且惑w化模型，可以在GPU里一次完成推理，端到端的延遲會(huì)更低。用戶感知到的是，眼睛和手協(xié)調(diào)一致，反應(yīng)迅速，車輛動(dòng)作響應(yīng)及時(shí)。

3、高效迭代，更高頻率的OTA。

一體化模型可以實(shí)現(xiàn)端到端的可訓(xùn)，完全的數(shù)據(jù)驅(qū)動(dòng)。對(duì)于用戶來說最大感受就是OTA的速度越來越快。

圖片.png

系統(tǒng)2：VLM（視覺語言模型）。整體算法架構(gòu)是由一個(gè)統(tǒng)一的Transformer模型組成，將Prompt（提示詞）文本進(jìn)行Tokenizer（分詞器）編碼，然后將前視120度和30度相機(jī)的圖像以及導(dǎo)航地圖信息進(jìn)行視覺信息編碼，通過圖文對(duì)齊模塊進(jìn)行模態(tài)對(duì)齊，統(tǒng)一交給VLM模型進(jìn)行自回歸推理，VLM輸出的信息包括對(duì)環(huán)境的理解、駕駛決策和駕駛軌跡，并傳遞給系統(tǒng)1控制車輛。

來源：第一電動(dòng)網(wǎng)

作者：張芳超

本文地址：http://www.idc61.net/carnews/yongche/236616

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。