近日,AI社區(qū)對(duì)OpenAI最新發(fā)布的GPT-5.2模型的基準(zhǔn)測(cè)試結(jié)果提出質(zhì)疑。用戶發(fā)現(xiàn),在關(guān)鍵評(píng)測(cè)中,GPT-5.2可能使用了遠(yuǎn)超對(duì)手Gemini3.0Pro的算力資源,通過調(diào)整模型的“推理力度”參數(shù)。具體來說,在ARCAGI2測(cè)試中,GPT-5.2xhigh版每個(gè)任務(wù)消耗約13.5萬個(gè)token,而Gemini3.0Pro僅使用了6.7萬token,取得相似成績(jī)。如果將算力投入標(biāo)準(zhǔn)化,兩個(gè)模型的真實(shí)能力幾乎并駕齊驅(qū)。
此外,GPT-5.2在其他測(cè)試中的表現(xiàn)并不如預(yù)期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中,即使使用了超過Gemini3兩倍的token數(shù),GPT-5.2的表現(xiàn)仍然不佳。在GPQA上,兩者基本相當(dāng)。唯一例外的是GDPVal測(cè)試集,由OpenAI自己創(chuàng)建,結(jié)果的客觀性有待考量。
這一發(fā)現(xiàn)引發(fā)了網(wǎng)友熱議,有人認(rèn)為如果用戶得到的“推理力度”參數(shù)和token數(shù)與測(cè)評(píng)時(shí)不同,那么OpenAI就涉嫌虛假營(yíng)銷。也有人認(rèn)為,即使增加Gemini3的token數(shù)量,它也未必能趕超GPT-5.2。同時(shí),有用戶反映GPT-5.2的實(shí)際體驗(yàn)并不理想,如在檢查代碼時(shí)出現(xiàn)嚴(yán)重幻覺現(xiàn)象,無法理解函數(shù)代碼等。這表明GPT-5.2的實(shí)際體驗(yàn)與基準(zhǔn)測(cè)試結(jié)果存在較大差距。



來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.idc61.net)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。