《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 全自研芯片計(jì)算 百度智能云Qianfan-VL系列模型重磅開源

全自研芯片計(jì)算 百度智能云Qianfan-VL系列模型重磅開源

2025-09-23
來源:快科技
關(guān)鍵詞: 百度 千帆大模型 Qianfan-VL 開源

9月22日消息,今日,百度智能云千帆正式推出全新視覺理解模型——Qianfan-VL,并全面開源。

即日起至10月10日,用戶可在百度智能云千帆平臺免費(fèi)體驗(yàn)8B、70B模型。

據(jù)介紹,Qianfan-VL系列模型包含3B、8B和70B三個尺寸版本,是面向企業(yè)級多模態(tài)應(yīng)用場景,進(jìn)行了深度優(yōu)化的視覺理解大模型。

Qianfan-VL不僅具備出色的基礎(chǔ)通用能力,還針對產(chǎn)業(yè)落地中的高頻需求,如OCR和教育垂直場景做了專項(xiàng)強(qiáng)化。

據(jù)悉,該系列模型基于開源模型進(jìn)行開發(fā),并在百度自研昆侖芯 P800上完成全流程計(jì)算任務(wù),其提供了強(qiáng)大的算力支撐,同時支持單任務(wù)5000卡規(guī)模的并行計(jì)算。

這一結(jié)合不僅優(yōu)化了模型計(jì)算的效率,更使得模型在性能表現(xiàn)上達(dá)到了新的高度,在通用和垂類任務(wù)評測中展現(xiàn)出SOTA水平。

Qianfan-VL模型具備三大特點(diǎn):

多尺寸模型滿足不同場景需求:提供3B、8B、70B三種規(guī)格的模型,讓不同規(guī)模的企業(yè)和開發(fā)者都能找到合適的解決方案。

提供思考推理能力:8B和70B模型支持通過特殊token激活思維鏈能力,覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多種場景。

OCR與文檔理解能力增強(qiáng):主打OCR全場景識別和復(fù)雜版面文檔理解兩大特色能力,在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)異,為企業(yè)級應(yīng)用提供高精度的視覺理解解決方案。

在通用能力基準(zhǔn)測試中,Qianfan-VL系列模型(3B、8B、70B)展現(xiàn)出顯著核心優(yōu)勢。

從視覺理解到專業(yè)領(lǐng)域問答,模型性能隨參數(shù)規(guī)模增大提升顯著,體現(xiàn)出很好的Scaling趨勢。

1.png

此外,Qianfan-VL系列模型(3B、8B、70B)在OCR與文檔理解領(lǐng)域盡顯卓越實(shí)力。

一方面,具備OCR全場景識別能力,能精準(zhǔn)識別手寫體、數(shù)學(xué)公式、自然場景文字,還可對卡證票據(jù)信息進(jìn)行結(jié)構(gòu)化提取。

另一方面,復(fù)雜版面文檔理解能力突出,可自動分析版面元素,精準(zhǔn)解析表格、圖表,實(shí)現(xiàn)文檔智能問答與結(jié)構(gòu)化解析。

從基準(zhǔn)測試表現(xiàn)看,在OCRBench、各類專業(yè)測試中,相較于主流模型,成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好。

2.png

而8B和70B模型,支持通過特殊token激活思維鏈能力,能覆蓋復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等多類場景。

從數(shù)學(xué)解題基準(zhǔn)測試表現(xiàn)看,在MathVista-mini、MathVision等多項(xiàng)測試中,相較于主流模型,成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好。

3.png


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。