9月20日的直播,我們邀請(qǐng)了星塵數(shù)據(jù)創(chuàng)始人、CEO章磊,共同討論在自動(dòng)駕駛和大模型發(fā)展的大背景下,數(shù)據(jù)標(biāo)注行業(yè)將如何配合迭代進(jìn)化。

嘉賓精彩發(fā)言及觀點(diǎn):
當(dāng)前數(shù)據(jù)標(biāo)注的工具越來越復(fù)雜,管理越來越細(xì)致,自動(dòng)化的算法要求越來越高;
隨著自動(dòng)駕駛的發(fā)展,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)量本身其實(shí)不是問題,更重要的是數(shù)據(jù)價(jià)值;
大模型標(biāo)注需要你像一個(gè)完整的人,需要用到大量的知識(shí),對(duì)人的要求非常高,甚至需要具備一些專家的知識(shí)才能夠去進(jìn)行標(biāo)注;
未來每一個(gè)行業(yè)都可能需要大模型,那么大模型怎么去落地,怎么產(chǎn)生直觀的效果提升辦公效率或者提高產(chǎn)出質(zhì)量等會(huì)很關(guān)鍵。
以下為直播聊天實(shí)錄,有所刪減,完整直播視頻請(qǐng)查看「智車星球」視頻號(hào):
智車星球:數(shù)據(jù)標(biāo)注這幾年有什么變化?有觀察到哪些趨勢(shì)?
章磊:數(shù)據(jù)的復(fù)雜程度和需求的復(fù)雜程度越來越高。幾年前是2D的圖像識(shí)別,后來是3D識(shí)別,然后是2D和3D融合、BEV、4D標(biāo)注等等。越來越多的技術(shù)方案,標(biāo)注規(guī)則也越來越細(xì),對(duì)標(biāo)注人員的要求也越來越高。
對(duì)于我們,挑戰(zhàn)主要有幾個(gè),一是標(biāo)注工具越來越復(fù)雜,二是管理得越來越細(xì)致,三是自動(dòng)化的算法要求越來越高。以前可能一個(gè)算法就可以進(jìn)行預(yù)標(biāo)注或者輔助標(biāo)注,現(xiàn)在得有七八個(gè)甚至十幾個(gè)算法做輔助配合,才能夠把一個(gè)標(biāo)注的結(jié)果做到自動(dòng)化。
目前行業(yè)主要有幾種發(fā)展策略,一是進(jìn)行人力運(yùn)營(yíng)的優(yōu)化,比如說將職高院?;蛘邔W(xué)校納入管理體系,讓人力變得更便宜,或者增加一些人力管控方案。
另外一種策略是商務(wù)路線或者銷售路線,去打大客戶,保證長(zhǎng)期穩(wěn)定的項(xiàng)目,這樣也能保證一定的利潤(rùn)。
第三種是做營(yíng)銷路線,這種可能不賺錢,甚至是貼錢,但先把規(guī)模做大,然后通過融資滾動(dòng)起來。
還有一種是我們走的技術(shù)路線,通過自動(dòng)化的輔助標(biāo)注,加上數(shù)據(jù)閉環(huán)的迭代,真正有效地降低標(biāo)注成本,提高標(biāo)注效率。這條路線相對(duì)不能在比較短的時(shí)間內(nèi)產(chǎn)生比較好的效果,比如一個(gè)算法迭代一版可能就是一到兩個(gè)月,要真正迭代出效果,可能需要在一個(gè)方向花費(fèi)一年、兩年甚至更長(zhǎng)的時(shí)間。
這么長(zhǎng)的一個(gè)時(shí)間周期,對(duì)于商務(wù)合作、運(yùn)營(yíng)管理以及整個(gè)公司的運(yùn)作都是挑戰(zhàn)和難度,但我們相信算法可以降低90%以上的人力成本,也可以大幅提升交付效率,滿足整個(gè)行業(yè)的需求。
但從一個(gè)技術(shù)人員的角度來說,技術(shù)本身都沒有難點(diǎn),只要在時(shí)間和資源無限的情況下,沒有一個(gè)技術(shù)是因?yàn)檎J(rèn)知而導(dǎo)致有門檻的。但這是理想情況,現(xiàn)實(shí)情況下,你的時(shí)間節(jié)點(diǎn)、資源、人力和規(guī)劃都不可能是完美的,所以如何對(duì)任務(wù)進(jìn)行編排、分解、每一個(gè)任務(wù)怎樣去協(xié)同,是比較有挑戰(zhàn)的。本質(zhì)上這是個(gè)任務(wù)管理工作,你得在認(rèn)知算法的前提下進(jìn)行管理,另外還有就是要把招人和管理這兩件事做好。
智車星球:如何看待和自動(dòng)駕駛車企的合作競(jìng)爭(zhēng),隨著自動(dòng)標(biāo)注的自動(dòng)化比例不斷提升和大模型的發(fā)展,車企有可能自己來做標(biāo)注嗎?
章磊:我們是產(chǎn)業(yè)鏈的一環(huán),是基礎(chǔ)設(shè)施算法,自研就要考慮投入產(chǎn)出比這件事。
前兩年很多大廠因?yàn)橐獫M足市值維護(hù)和不斷提升股價(jià)的需求,它需要不斷擴(kuò)充業(yè)務(wù)邊界。但我覺得這不是一個(gè)常態(tài),一個(gè)成熟的市場(chǎng)應(yīng)該是大家各自分工,各自做最專業(yè)的事情。
當(dāng)然我們不能完全排除車廠自己去做標(biāo)注工作,一方面內(nèi)部迭代可能效率會(huì)更高,第二數(shù)據(jù)相對(duì)會(huì)更安全,基于這兩點(diǎn)肯定會(huì)有公司自己去做。
但任何一個(gè)方案都不是100%去替代其他東西的,就像電視機(jī)出來那么多年,收音機(jī)仍然存在。
智車星球:標(biāo)注企業(yè)是否會(huì)始終聚焦在標(biāo)注,還是說會(huì)有發(fā)展成人工智能公司?
章磊:我們的定位并不是一家數(shù)據(jù)標(biāo)注公司,我們是一家數(shù)據(jù)的基礎(chǔ)設(shè)施公司。
我們處理的數(shù)據(jù)實(shí)際上是AI、機(jī)器學(xué)習(xí)要用到的數(shù)據(jù),這其實(shí)是一個(gè)比較新的領(lǐng)域。我們想解決的是AI數(shù)據(jù)層的問題,這些問題不僅僅是數(shù)據(jù)標(biāo)注。隨著自動(dòng)駕駛的發(fā)展,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)量本身其實(shí)不是問題,更重要的是數(shù)據(jù)價(jià)值。
我們認(rèn)為最終一個(gè)完整的數(shù)據(jù)閉環(huán),它如果能解決數(shù)據(jù)的入庫(kù)、流程編排、預(yù)處理、數(shù)據(jù)的價(jià)值發(fā)現(xiàn)以及數(shù)據(jù)的送標(biāo),數(shù)據(jù)驗(yàn)收,還有模型訓(xùn)練過程管理和模型價(jià)值指標(biāo)分析等等這些工作,那么這個(gè)數(shù)據(jù)閉環(huán)可以極大加快算法的迭代過程。
還有隨著大模型的發(fā)展,我們發(fā)現(xiàn)大模型需要的數(shù)據(jù)也是五花八門。今年下半年的一個(gè)趨勢(shì),就是垂類的應(yīng)用。垂類應(yīng)用它就需要業(yè)務(wù)相關(guān)的數(shù)據(jù),把它分成預(yù)訓(xùn)練數(shù)據(jù)、人類偏好數(shù)據(jù)等等這些流程的數(shù)據(jù)策略。
首先有了數(shù)據(jù)策略以后,就可以進(jìn)行一個(gè)任務(wù)的編排,然后做數(shù)據(jù)的生產(chǎn)。之后就可以通過數(shù)據(jù)閉環(huán)去檢測(cè)模型缺什么,可以通過benchmark或者其他一些方式去發(fā)現(xiàn)模型的缺陷,然后進(jìn)一步的去迭代和改進(jìn)。
我們?cè)谧龅牧硪患戮褪莃enchmark本身——怎么去衡量算法和模型。每家客戶都有自己內(nèi)部的一些指標(biāo),但這個(gè)指標(biāo)或者說你沿著這條路徑走了很長(zhǎng)時(shí)間以后,你不知道自己是領(lǐng)先還是落后,與行業(yè)平均水平相比到底如何。這就需要一家第三方公司去給一些反饋和建議,這也是未來數(shù)據(jù)層比較好的一個(gè)方向。
智車星球:目前高速NOA做數(shù)據(jù)標(biāo)注的話,數(shù)據(jù)量大概是多少?
章磊:高速場(chǎng)景一般比較干凈,我們認(rèn)為一般20~50萬幀的數(shù)據(jù)量,是可以訓(xùn)練出一款比較好的算法。這里的一幀是指所有傳感器的一幀,所以一幀可能包括了有好幾張圖片。
智車星球:數(shù)據(jù)孤島這個(gè)問題現(xiàn)在還存在嗎?
章磊:數(shù)據(jù)孤島的定義分企業(yè)內(nèi)和企業(yè)外。企業(yè)內(nèi)的數(shù)據(jù)孤島是每一個(gè)部門有自己的數(shù)據(jù),很多大企業(yè)各個(gè)部門之間數(shù)據(jù)很難打通,這是一種。另外一種是企業(yè)和企業(yè)之間,數(shù)據(jù)孤島的原因是源于交易雙方的不信任。
當(dāng)然也會(huì)有改變,如果自動(dòng)駕駛最后變成一個(gè)標(biāo)準(zhǔn)化的問題,那么就像小學(xué)、初中、高中課本,我們是可以統(tǒng)一去定制的。到了大學(xué)里面,每家客戶的場(chǎng)景不一樣,我們就按照自定義的方式去做定制化的開發(fā)。
智車星球:現(xiàn)在星塵也有很多大模型客戶,請(qǐng)您介紹一下大模型的數(shù)據(jù)標(biāo)注有哪些的特點(diǎn)和難點(diǎn)?
章磊:CV的標(biāo)注可能更需要像個(gè)運(yùn)動(dòng)員,能夠高效且非常整齊地做一個(gè)動(dòng)作,比如說把車識(shí)別出來。而在NLP中,更需要你像一個(gè)完整的人,比如數(shù)學(xué)的問題或者代碼問題集,這可能需要你用到大量的知識(shí)去把它寫出來。
從這個(gè)角度來講,對(duì)人的要求非常高,甚至需要具備一些專家的知識(shí)才能夠去進(jìn)行標(biāo)注。另外,你要根據(jù)他的垂類應(yīng)用場(chǎng)景去幫他設(shè)計(jì)一整套的數(shù)據(jù)集,里面包括開源數(shù)據(jù)、閉源數(shù)據(jù)和專業(yè)的私有化數(shù)據(jù),從這些角度規(guī)劃和設(shè)計(jì),然后把這些數(shù)據(jù)生產(chǎn)出來,然后再進(jìn)行模型訓(xùn)練。
智車星球:最近Scale AI在嘗試一些新業(yè)務(wù),尋找第二增長(zhǎng)曲線,但目前還沒有找到另一個(gè)核心支撐。您怎么看?
章磊:Scale AI做了很多工具,比如管理工具、測(cè)試工具、開發(fā)工具等。我們可以看到它從一家數(shù)據(jù)標(biāo)注公司已經(jīng)變成了一家數(shù)據(jù)閉環(huán)和infer的這么一家公司,它覆蓋的面會(huì)更大。
當(dāng)然如果從財(cái)報(bào)看,直至上個(gè)季度它的大模型收入體量并不大,但是結(jié)果永遠(yuǎn)是滯后的。我們從投資人的角度或者說從未來去看,我們能看到一個(gè)明顯趨勢(shì),過去我們服務(wù)的是一小部分懂算法的人,但是今天或者將來會(huì)越來越多去服務(wù)各行各業(yè)的人。每一個(gè)行業(yè)都可能會(huì)需要大模型,那么大模型怎么去落地,怎樣產(chǎn)生直觀的效果提升辦公效率或者提高產(chǎn)出質(zhì)量等會(huì)很關(guān)鍵。
對(duì)于大模型這樣的需求,其實(shí)算法公司會(huì)很難,雖然大部分大模型的流程和所需要的工具類似,但算法會(huì)涉及到很多定制化的需求,其中很大一部分就是數(shù)據(jù)生產(chǎn)工作,而數(shù)據(jù)生產(chǎn)工作正好就是數(shù)據(jù)公司的一個(gè)強(qiáng)項(xiàng)。從這個(gè)角度來講,我們將來的路其實(shí)是會(huì)越來越寬的。
智車星球:覺得現(xiàn)在數(shù)據(jù)行業(yè)在國(guó)內(nèi)已經(jīng)是紅海市場(chǎng)了嗎?
章磊:市場(chǎng)環(huán)境的第一個(gè)特點(diǎn)是長(zhǎng)江后浪推前浪。最近自動(dòng)駕駛和電動(dòng)車的一波熱潮,又帶動(dòng)了很多新的進(jìn)入者,但商業(yè)規(guī)律本身是沒有變化的,任何急功近利的人都可能被拍死在沙灘上。比如說想靠低價(jià)去快速擴(kuò)大規(guī)模的,可能因?yàn)橘Y金鏈斷裂,或者是任何這個(gè)行業(yè)的融資情況變化,就會(huì)導(dǎo)致現(xiàn)金流支撐不下去,這是一種。
另外一種就是靠客戶關(guān)系,但數(shù)據(jù)服務(wù)這件事情是具備可比性的,客戶關(guān)系做得即便很強(qiáng),可能并不是核心競(jìng)爭(zhēng)力。還有就是優(yōu)化人力,一旦發(fā)現(xiàn)人力優(yōu)化不下去但技術(shù)還在往前走的時(shí)候,就沒有辦法去克服客觀規(guī)律,當(dāng)所有的成本已經(jīng)低于人力成本的時(shí)候,就沒法正常經(jīng)營(yíng)了。
我們也看到有一些新的公司,他們也是通過技術(shù)來解決問題。整個(gè)行業(yè)肯定不可能只有一家公司最后走出來,我們也希望大家各有各自的特點(diǎn),然后去解決各自一些有優(yōu)勢(shì)的問題,我覺得這是一個(gè)比較良好的健康的行業(yè)和氛圍。
來源:第一電動(dòng)網(wǎng)
作者:智車星球
本文地址:http://www.idc61.net/kol/212011
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。