快訊

OpenAI GPT-5.2疑似“作弊”？AI評(píng)測(cè)真實(shí)性引發(fā)熱議

第一電動(dòng)AI同學(xué) 2025-12-13 17:41

近日，AI社區(qū)對(duì)OpenAI最新發(fā)布的GPT-5.2模型的基準(zhǔn)測(cè)試結(jié)果提出質(zhì)疑。用戶發(fā)現(xiàn)，在關(guān)鍵評(píng)測(cè)中，GPT-5.2可能使用了遠(yuǎn)超對(duì)手Gemini3.0Pro的算力資源，通過調(diào)整模型的“推理力度”參數(shù)。具體來說，在ARCAGI2測(cè)試中，GPT-5.2xhigh版每個(gè)任務(wù)消耗約13.5萬個(gè)token，而Gemini3.0Pro僅使用了6.7萬token，取得相似成績(jī)。如果將算力投入標(biāo)準(zhǔn)化，兩個(gè)模型的真實(shí)能力幾乎并駕齊驅(qū)。

此外，GPT-5.2在其他測(cè)試中的表現(xiàn)并不如預(yù)期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中，即使使用了超過Gemini3兩倍的token數(shù)，GPT-5.2的表現(xiàn)仍然不佳。在GPQA上，兩者基本相當(dāng)。唯一例外的是GDPVal測(cè)試集，由OpenAI自己創(chuàng)建，結(jié)果的客觀性有待考量。

這一發(fā)現(xiàn)引發(fā)了網(wǎng)友熱議，有人認(rèn)為如果用戶得到的“推理力度”參數(shù)和token數(shù)與測(cè)評(píng)時(shí)不同，那么OpenAI就涉嫌虛假營(yíng)銷。也有人認(rèn)為，即使增加Gemini3的token數(shù)量，它也未必能趕超GPT-5.2。同時(shí)，有用戶反映GPT-5.2的實(shí)際體驗(yàn)并不理想，如在檢查代碼時(shí)出現(xiàn)嚴(yán)重幻覺現(xiàn)象，無法理解函數(shù)代碼等。這表明GPT-5.2的實(shí)際體驗(yàn)與基準(zhǔn)測(cè)試結(jié)果存在較大差距。

來源：一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（www.idc61.net）立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。