機(jī)器人,正在成為很多離開(kāi)自動(dòng)駕駛賽道玩家的下一站。
這倒不太令人意外。畢竟,環(huán)境感知、規(guī)劃決策、執(zhí)行控制,這些我們?cè)?a class="link2" href="http://www.idc61.net/tag/自動(dòng)駕駛" target="_blank">自動(dòng)駕駛領(lǐng)域耳熟能詳?shù)年P(guān)鍵技術(shù),在機(jī)器人領(lǐng)域同樣需要。
而另一個(gè)更關(guān)鍵的原因,是資本開(kāi)始對(duì)機(jī)器人展現(xiàn)出了遠(yuǎn)超自動(dòng)駕駛的熱情。
“最近和不少?gòu)淖詣?dòng)駕駛賽道出來(lái)的人聊過(guò),他們都在咨詢(xún)我機(jī)器人創(chuàng)業(yè)的事?!眲嬖V智車(chē)星球。
劍寒是清華大學(xué)一名年輕的助理教授,主要研究領(lǐng)域是機(jī)器人相關(guān)的計(jì)算機(jī)視覺(jué),尤其是三維場(chǎng)景理解和自動(dòng)駕駛領(lǐng)域。
在劍寒提到的聊天名單中,有好幾個(gè)是前不久從干線自動(dòng)駕駛賽道中退出的創(chuàng)業(yè)者。
“還有不少投資人也在問(wèn)我要不要出來(lái)自己做,我身邊也有不少青年科學(xué)家開(kāi)始在這個(gè)賽道創(chuàng)業(yè)了?!?/span>
資本的熱情很高,熱錢(qián)很多,對(duì)于身處學(xué)術(shù)界的劍寒來(lái)說(shuō),這是對(duì)目前機(jī)器人賽道的最直觀感受。
而產(chǎn)業(yè)界的人,這樣的體會(huì)會(huì)更早。
“從資本的視角來(lái)看,L4級(jí)自動(dòng)駕駛似乎已經(jīng)進(jìn)入了其資本生命周期的末期。海外公司Nuro進(jìn)行了大量的裁員,但尚未實(shí)現(xiàn)盈利;阿里巴巴也關(guān)閉了達(dá)摩院的自動(dòng)駕駛項(xiàng)目,更早之前,亞馬遜已經(jīng)放棄了其低速自動(dòng)駕駛配送服務(wù)——Amazon Scout。這些事件都被視為市場(chǎng)正在釋放的警報(bào)信號(hào),而資本市場(chǎng)對(duì)這類(lèi)信號(hào)極為敏感。然而目前來(lái)看,機(jī)器人領(lǐng)域仍然保持著較為積極的市場(chǎng)態(tài)勢(shì)?!?/span>
今年5月,在與優(yōu)時(shí)科技的CEO林锫森交流時(shí),他也提及了資本市場(chǎng)對(duì)L4級(jí)自動(dòng)駕駛的生命周期看法。“隨著ChatGPT的來(lái)臨,資本市場(chǎng)的注意力似乎開(kāi)始轉(zhuǎn)向AIGC領(lǐng)域,與此同時(shí),L4級(jí)自動(dòng)駕駛的實(shí)際應(yīng)用和成效卻顯得更為長(zhǎng)遠(yuǎn)和不確定?!?/span>
而隨著“華為天才少年”稚暉君帶著大模型AI機(jī)器人“遠(yuǎn)征 A1”實(shí)機(jī)登臺(tái)、原阿里達(dá)摩院自動(dòng)駕駛負(fù)責(zé)人陳俊波明確了有鹿機(jī)器人在“具身智能”領(lǐng)域的創(chuàng)業(yè)方向,這場(chǎng)關(guān)于大模型+機(jī)器人的創(chuàng)業(yè)風(fēng)暴,正在愈刮愈烈。
1
—
這件事為何迷人?
關(guān)于原子彈,最有價(jià)值的情報(bào)就是它可以被造出來(lái)。
這句話最近一次的代表性印證,就是ChatGPT出現(xiàn)后,國(guó)內(nèi)各種大模型就如雨后春筍般冒了出來(lái)。
同樣的情況也出現(xiàn)在機(jī)器人賽道, “尤其是在看到谷歌DeepMind發(fā)布的機(jī)器人大模型RT-2和李飛飛團(tuán)隊(duì)帶來(lái)的VoxPoser展示后,來(lái)找我聊機(jī)器人創(chuàng)業(yè)的投資人更多了?!眲f(shuō)道。
谷歌的RT-2是基于Transformer架構(gòu)來(lái)做的,但卻是一種全新的“視覺(jué)-語(yǔ)言-行動(dòng)”(VLA)模型。它是根據(jù)互聯(lián)網(wǎng)上的文本和圖像進(jìn)行訓(xùn)練,讓機(jī)器人學(xué)習(xí)“知識(shí)”,從而完成創(chuàng)造性任務(wù)。
用大白話說(shuō),通過(guò)RT-2模型的訓(xùn)練,機(jī)器人能像人一樣,將學(xué)到的概念應(yīng)用于全新的情境中。
舉個(gè)例子,如果我們希望機(jī)器人去廚房的冰箱中拿一個(gè)蘋(píng)果,普通機(jī)器人的執(zhí)行過(guò)程一般包括以下幾個(gè)環(huán)節(jié):
1、任務(wù)定義與描述(去接一杯水);
2、把任務(wù)拆解成一個(gè)一個(gè)細(xì)小動(dòng)作(進(jìn)入廚房、打開(kāi)冰箱、拿出蘋(píng)果、關(guān)閉冰箱等);
3、工程師根據(jù)分解動(dòng)作對(duì)機(jī)器人進(jìn)行編程,生成代碼;
4、控制-執(zhí)行-反饋。
這些都是傳統(tǒng)意義上機(jī)器人控制的主要功能,在大模型之前,通常只有第四步的控制和反饋環(huán)節(jié)由計(jì)算機(jī)自動(dòng)完成,之前的任務(wù)定義、拆解和機(jī)器人運(yùn)動(dòng)代碼生成等主要由工程師完成。
之所以需要工程師進(jìn)行大量的任務(wù)拆解和編程工作,是因?yàn)?strong style=";padding: 0px;outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important">普通機(jī)器人控制系統(tǒng)不具備通識(shí)理解能力和某些專(zhuān)業(yè)技能,無(wú)法把任務(wù)目標(biāo)和需要執(zhí)行的動(dòng)作聯(lián)系起來(lái)。
比如在人類(lèi)看來(lái)很簡(jiǎn)單的打開(kāi)冰箱,對(duì)機(jī)器人來(lái)講就有很多挑戰(zhàn),冰箱的大小款式不盡相同,機(jī)器人首先要理解面對(duì)的是一個(gè)怎樣的冰箱,該如何開(kāi)啟,開(kāi)啟冷藏還是冷凍層才能找到蘋(píng)果。這些對(duì)于人類(lèi)來(lái)講是常識(shí)的事,都需要工程師通過(guò)代碼一行行寫(xiě)出來(lái)。
但對(duì)于RT-2、Voxposer這類(lèi)機(jī)器人,你只需將互聯(lián)網(wǎng)數(shù)據(jù)中有關(guān)冰箱、蘋(píng)果的概念和知識(shí)(圖片、視頻、文本等)直接傳遞給機(jī)器人,讓機(jī)器人通過(guò)“學(xué)習(xí)”這些概念和知識(shí),逐步構(gòu)建相關(guān)的概念框架,就能讓從未受過(guò)拿蘋(píng)果訓(xùn)練的機(jī)器人,知道怎么打開(kāi)冰箱拿蘋(píng)果。
這就是所謂的零樣本或小樣本學(xué)習(xí),通過(guò)應(yīng)用大模型的理解能力,這種路徑規(guī)劃任務(wù)的學(xué)習(xí)過(guò)程不需要大量的訓(xùn)練數(shù)據(jù)就能完成。
比如下圖,當(dāng)人類(lèi)用自然語(yǔ)言給Voxposer下達(dá)“打開(kāi)上面的抽屜,小心花瓶!”的指令時(shí), 大語(yǔ)言模型+視覺(jué)語(yǔ)言模型就能從3D空間中分析出目標(biāo)和需要繞過(guò)的障礙,幫助機(jī)器人做行動(dòng)規(guī)劃。

一旦大模型的通識(shí)理解能有效賦能機(jī)器人,讓機(jī)器人能聽(tīng)懂任務(wù)描述、自動(dòng)進(jìn)行任務(wù)分解和程序生成,并最終完成任務(wù)交互,一個(gè)能幫你跑腿、打掃房間、照顧老人的機(jī)器人就將成為現(xiàn)實(shí),其商業(yè)價(jià)值也將成倍增長(zhǎng)。
2
—
變數(shù)是大模型?
當(dāng)然,在達(dá)到這些對(duì)機(jī)器人未來(lái)應(yīng)用的美好幻想前,要做的工作、要明確的問(wèn)題還有很多。因此,對(duì)于入局,劍寒很謹(jǐn)慎,
“現(xiàn)階段是一個(gè)技術(shù)和發(fā)展方向非常不明朗的階段,比如要不要端對(duì)端,要不要依靠大模型,到底是通用還是垂直,可選路徑太多?!?/span>
對(duì)此,林锫森也表達(dá)了相似的觀點(diǎn),特別是關(guān)于這場(chǎng)變革的核心——大模型,“大模型的變化實(shí)在是太快了,而且 Google 和 OpenAI 對(duì)比開(kāi)源社群的開(kāi)源方案,并沒(méi)有堅(jiān)不可摧的壁壘。” 林锫森說(shuō)道。
今年7月Meta開(kāi)源了LLama2大模型。一個(gè)月后,OpenAI正式開(kāi)放GPT-3.5微調(diào)API,所有開(kāi)發(fā)者都可以對(duì)GPT-3.5 Turbo進(jìn)行微調(diào)。有開(kāi)發(fā)者在微調(diào)GPT-3.5 Turbo后,在具體任務(wù)中,性能與GPT-4實(shí)力相當(dāng),甚至反超GPT-4。
“如果基于GPT-3.5進(jìn)行優(yōu)化,當(dāng)你經(jīng)過(guò)艱苦努力,優(yōu)化到一定程度后,GPT-5很可能又已經(jīng)發(fā)布了?!绷诛律忉尩???赡苁袌?chǎng)還要等多一些數(shù)據(jù)點(diǎn)后,會(huì)有較明朗的發(fā)展思路。
這不禁人讓人想到那家2020年底誕生,花費(fèi)18個(gè)月成為獨(dú)角獸的AIGC企業(yè)——Jasper。
憑借讓AI幫人寫(xiě)文案這個(gè)賣(mài)點(diǎn),Jasper在截至2022年底共完成了3輪融資,籌集到1.31億美元,估值超過(guò)15億美元。
但2023年初,ChatGPT風(fēng)靡全球,金主們掀起Jasper的“頭蓋骨”,發(fā)現(xiàn)其內(nèi)容生產(chǎn)軟件Jasper.ai就是基于GPT-3構(gòu)建的。這意味著,Jasper毫無(wú)技術(shù)護(hù)城河,產(chǎn)品極易被復(fù)制,無(wú)法在競(jìng)爭(zhēng)中保持領(lǐng)先地位。
很快,Jasper就開(kāi)啟了裁員,業(yè)內(nèi)一片嘩然。
因此,當(dāng)產(chǎn)品的核心模塊中包含大模型,如何保持領(lǐng)先性,是一個(gè)大問(wèn)題。
金沙江創(chuàng)投董事總經(jīng)理朱嘯虎就曾在朋友圈表示,“不要迷信通用大模型,明年3.5就成commodity,3年后4也將是commodity。對(duì)于大部分創(chuàng)業(yè)者,場(chǎng)景優(yōu)先,數(shù)據(jù)為王?!?/span>

3
—
10倍好的解決方案
但一旦落地到某一垂直場(chǎng)景中,效率和成本這兩個(gè)“緊箍咒”,又會(huì)是讓不少科技公司拔掉一層皮的存在。
比如,一個(gè)傳菜機(jī)器人,并不能完全替代一個(gè)服務(wù)員。一個(gè)人服務(wù)員的工作除了傳菜,還可能有清潔、點(diǎn)單、結(jié)賬等。一個(gè)普通機(jī)器人,往往只能解決某一個(gè)高頻簡(jiǎn)單問(wèn)題。且在餐廳場(chǎng)景中,無(wú)法通過(guò)增加機(jī)器人工作時(shí)長(zhǎng)來(lái)平衡效率不如人類(lèi)的問(wèn)題。
這些一直存在的問(wèn)題,即便疊上大模型的buff,也很難快速得到有效解決。
目前,有不少人形機(jī)器人創(chuàng)業(yè)公司不約而同地選擇了倉(cāng)庫(kù)搬箱子場(chǎng)景。
原因很好理解,倉(cāng)庫(kù)場(chǎng)景封閉、需要足夠多的搬運(yùn)工具且可以通過(guò)夜間作業(yè)或低頻長(zhǎng)時(shí)搬運(yùn)等方式彌補(bǔ)同時(shí)間效率不如人工的問(wèn)題。這些理由,與選擇叉車(chē)作為落地自動(dòng)駕駛技術(shù)的企業(yè)并無(wú)二致。
只是相比于已經(jīng)初步證明自己商業(yè)化價(jià)值的自動(dòng)駕駛叉車(chē),這些“人形高達(dá)”要證明自己的難度會(huì)更大。
“AI應(yīng)用最難的就是PMF(Product Market Fit的簡(jiǎn)寫(xiě),是指產(chǎn)品和市場(chǎng)達(dá)到最佳的契合點(diǎn)),什么是合格的PMF,見(jiàn)到客戶就能簽單或者至少PoC(Proof of Concept,即概念驗(yàn)證。通常是企業(yè)進(jìn)行產(chǎn)品選型時(shí)或開(kāi)展外部實(shí)施項(xiàng)目前,進(jìn)行的一種產(chǎn)品或供應(yīng)商能力驗(yàn)證工作)。為什么要求這么嚴(yán)格?因?yàn)橹袊?guó)投資人對(duì)中國(guó)軟件企業(yè)收入緩慢的增長(zhǎng)速度傷透心了,只有見(jiàn)面就能簽單才能實(shí)現(xiàn)AI應(yīng)用收入像消費(fèi)公司一樣的增長(zhǎng)速度。怎么做到見(jiàn)面就能簽單?至少為客戶創(chuàng)造10倍以上的價(jià)值?!敝靽[虎的這個(gè)結(jié)論不僅適用于AI應(yīng)用,套了一層物理外科的機(jī)器人也是同樣。
這里的10倍以上的價(jià)值并不是隨口而來(lái)的數(shù),它最早出自彼得·蒂爾的《從0到1》。里面談到一個(gè)新創(chuàng)企業(yè)要想獲得快速成長(zhǎng),其提供的解決方案要比現(xiàn)有方案好10倍以上??梢允浅杀镜?0倍,效能強(qiáng)10倍或易用性?xún)?yōu)10倍。為什么3倍5倍不行,因?yàn)橄M(fèi)者會(huì)高估已有解決方案3倍以上,創(chuàng)業(yè)者會(huì)高估自己方案3倍以上。
4
—
新的競(jìng)技場(chǎng)
除此之外,安全也是不容易跨越的大坎。
在不久前,馬斯克進(jìn)行45分鐘關(guān)于FSD 12測(cè)試版的直播。過(guò)程中,馬斯克多次強(qiáng)調(diào),FSD 12中沒(méi)有任何一行相應(yīng)代碼,也沒(méi)有被訓(xùn)練過(guò)如何讀取路標(biāo),也不知道什么是滑板車(chē),F(xiàn)SD 12的所有行為(自行在減速帶減速、避開(kāi)滑板車(chē)騎行者等)完全是大量視頻訓(xùn)練的結(jié)果。通過(guò)視頻訓(xùn)練數(shù)據(jù),AI可以自己學(xué)習(xí)駕駛,像人類(lèi)一樣做事。
馬斯克的思路就像人們?cè)谒阉鲿r(shí)完全拋棄了Google,只用ChatGPT。雖然很好,但依然會(huì)犯不少低級(jí)錯(cuò)誤。
同樣的,在直播過(guò)程中,出現(xiàn)了一次意外接管。當(dāng)時(shí)Model S需要直行,正停下等待紅燈。但當(dāng)左轉(zhuǎn)信號(hào)燈轉(zhuǎn)綠時(shí),車(chē)輛竟然也緊跟啟動(dòng)。

要解決這個(gè)問(wèn)題,就需要給FSD“投喂”更多左轉(zhuǎn)紅綠燈的視頻。
但投喂視頻真的能“喂”出安全的“AI代駕”嗎?這件事依然需要打個(gè)問(wèn)號(hào)。同時(shí),法律法規(guī)的問(wèn)題也得考慮其中,比如美國(guó)法律為了避免發(fā)生意外無(wú)法探究原因的問(wèn)題出現(xiàn),就不允許黑盒子AI。
這些,都是大模型機(jī)器人會(huì)遇到的問(wèn)題。每一個(gè)都需要系統(tǒng)化解決,每一個(gè)都不簡(jiǎn)單。
所以說(shuō),要看到“大模型+機(jī)器人”真正枝繁葉茂,所要的時(shí)間可能還有很多。
歷史經(jīng)驗(yàn)告訴我們,當(dāng)一個(gè)大浪潮到來(lái)時(shí),出現(xiàn)成果的機(jī)會(huì)往往并不在前幾年。IPhone誕生于2007年,但Uber是2010年出現(xiàn)的,抖音是2012年出來(lái)的,美團(tuán)外賣(mài)則是2013年才上線的。
這個(gè)目前看起來(lái)熱火朝天的賽道,它一定需要時(shí)間的沉淀。
而對(duì)于那些從自動(dòng)駕駛轉(zhuǎn)投機(jī)器人的玩家,這絕不是一處避風(fēng)港,相反,更像來(lái)到了一個(gè)新的殘酷競(jìng)技場(chǎng)。
(劍寒為化名)
來(lái)源:第一電動(dòng)網(wǎng)
作者:智車(chē)星球
本文地址:http://www.idc61.net/kol/210785
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。