騰訊混元大模型團隊正式發布并開源HunyuanOCR模型!
這是一款商業級、開源且輕量(1B參數)
的OCR專用視覺語言模型,模型采用原生ViT和輕量LLM結合的架構。
具體而言,其感知能力(文本檢測和識別、復雜文檔解析)優于所有公開方案;語義能力(信息抽取、文字圖像翻譯)表現出色,榮獲ICDAR 2025 DIMT挑戰賽(小模型賽道)冠軍,并在OCRBench上取得3B以下模型SOTA成績。
目前,該模型在抱抱臉(Hugging Face)趨勢榜排名前四,GitHub標星超過700,并在Day 0被vllm官方團隊接入。
團隊介紹,混元OCR專家模型實現了三大突破:
(1)全能與高效統一。
在輕量框架下支持文字檢測和識別、復雜文檔解析、開放字段信息抽取、視覺問答和拍照圖像翻譯,解決了傳統專家模型功能單一和通用視覺理解大模型效率低下的痛點。
(2)極簡端到端架構。
摒棄版面分析等前處理依賴,徹底解決流水線錯誤累積問題,大幅簡化部署。
(3)數據驅動與RL創新。
驗證了高質量數據價值,并證明強化學習可顯著提升多項OCR任務性能。
目前模型參數已在抱抱臉和ModelScope等渠道開源,并提供基于vLLM的高性能部署方案,旨在助力科研與工業落地。
HunyuanOCR核心技術大揭秘
作為一款具備商業級性能的開源多語言VLM,混元OCR專家模型的核心動機在于構建一個真正統一、高效的端到端OCR基礎模型。
其核心技術主要聚焦于以下幾個方面:
輕量化模型結構設計、高質量預訓練數據生產、重應用導向的預訓練策略和OCR任務定制的強化學習。
輕量化模型結構設計
下圖為HunyuanOCR架構示意圖。
不同于其他開源的級聯OCR方案或專家模型,混元OCR模型貫徹端到端訓推一體范式,各項任務僅需單次推理即可獲取完整效果。