智譜AI今日宣布發(fā)布并開源GLM-4.6V系列多模態(tài)大模型,包括面向云端與高性能集群場景的基礎(chǔ)版GLM-4.6V(106B-A12B)和面向本地部署與低延遲應(yīng)用的輕量版GLM-4.6V-Flash(9B)。此次迭代將訓(xùn)練時上下文窗口提升至128ktokens,并在視覺理解精度上達到同參數(shù)規(guī)模SOTA。模型首次將FunctionCall(工具調(diào)用)能力原生融入視覺模型,實現(xiàn)從視覺感知到可執(zhí)行行動的鏈路。
GLM-4.6V系列在性能優(yōu)化的同時,相較于GLM-4.5V降價50%,API調(diào)用價格低至輸入1元/百萬tokens,輸出3元/百萬tokens,而GLM-4.6V-Flash免費開放使用。該系列模型融入GLMCodingPlan,針對用戶8大類場景定向開發(fā)了專用MCP工具,模型可自主調(diào)用最匹配的接口。GLM-4.6V從設(shè)計之初就圍繞“圖像即參數(shù),結(jié)果即上下文”,構(gòu)建了原生多模態(tài)工具調(diào)用能力,減少了信息損失和工程復(fù)雜度。GLM-4.6V在MMBench、MathVista、OCRBench等30+主流多模態(tài)評測基準(zhǔn)上進行了驗證,較上一代模型取得顯著提升。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.idc61.net)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。