蓋世汽車訊 自動(dòng)駕駛技術(shù)發(fā)展迅速,已從基于規(guī)則的系統(tǒng)發(fā)展到深度神經(jīng)網(wǎng)絡(luò)。然而,端到端模型仍然存在一些重大缺陷:它們通常缺乏對(duì)世界的認(rèn)知,在罕見(jiàn)或模糊的場(chǎng)景下表現(xiàn)不佳,并且對(duì)其決策過(guò)程的解釋能力有限。相比之下,大語(yǔ)言模型(LLM)擅長(zhǎng)推理、理解上下文和解釋復(fù)雜的指令。但是,LLM的輸出是語(yǔ)言形式而非可執(zhí)行指令,這使得將其與實(shí)際車輛控制系統(tǒng)集成變得困難。這些不足之處凸顯了對(duì)一種框架的需求,該框架能夠?qū)⒍嗄B(tài)感知與基于既定駕駛邏輯的結(jié)構(gòu)化、可執(zhí)行的決策輸出相結(jié)合。解決這些挑戰(zhàn)需要深入研究如何將多模態(tài)推理與自動(dòng)駕駛規(guī)劃器相結(jié)合。
圖片來(lái)源: 期刊《Visual Intelligence》
據(jù)外媒報(bào)道,上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室、清華大學(xué)及合作機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)發(fā)了一種用于閉環(huán)自動(dòng)駕駛的多模態(tài)大型語(yǔ)言模型框架DriveMLM。相關(guān)研究成果已發(fā)表在期刊《Visual Intelligence》上(DOI: 10.1007/s44267-025-00095-w)。
DriveMLM集成了多視角攝像頭圖像、激光雷達(dá)點(diǎn)云、系統(tǒng)消息和用戶指令,生成對(duì)齊的行為規(guī)劃狀態(tài)。這些狀態(tài)可以直接輸入到現(xiàn)有的運(yùn)動(dòng)規(guī)劃模塊,從而實(shí)現(xiàn)實(shí)時(shí)駕駛控制,同時(shí)生成對(duì)每個(gè)決策的自然語(yǔ)言解釋。
來(lái)源:第一電動(dòng)網(wǎng)
作者:蓋世汽車
本文地址:http://www.idc61.net/news/shichang/280644
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.idc61.net)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。