最近,國(guó)內(nèi)具身智能的開源 VLM 登頂了行業(yè)之巔。2025 年以來,具身智能的行業(yè)研發(fā)力似乎也迎來了井噴式爆發(fā)。
11 月 13 日,北京人形機(jī)器人創(chuàng)新中心正式開源了具身智能 VLM 模型 ——Pelican-VL 1.0,根據(jù)介紹,該模型覆蓋 7B、72B 參數(shù)規(guī)模,被稱為 “最大規(guī)模的開源具身多模態(tài)大腦模型”。
官方資料顯示,其核心優(yōu)勢(shì)在于深度整合海量數(shù)據(jù)與自適應(yīng)學(xué)習(xí)機(jī)制:并在由 1000+ A800 GPU 組成的集群上訓(xùn)練,單次檢查點(diǎn)訓(xùn)練耗費(fèi)超過 50,000 A800 GPU - 小時(shí);團(tuán)隊(duì)從原始數(shù)據(jù)中蒸餾出包含數(shù)億 token 的高質(zhì)量元數(shù)據(jù)以做訓(xùn)練基石。在基線基礎(chǔ)上性能提升 20.3%,超過同級(jí)別開源模型 10.6%。根據(jù)測(cè)試,其平均性能超越 GPT-5 和 Google gemini 等閉源系列模型,成為了目前最強(qiáng)具身性能的開源多模態(tài)大模型 。
圖片
DPPO 造就 “VLM 快速高效提升”
簡(jiǎn)單來說,Pelican-VL 就像一名刻苦鉆研的學(xué)生:每次訓(xùn)練循環(huán)都會(huì) “看視頻 — 自主練習(xí) — 發(fā)現(xiàn)錯(cuò)誤 — 糾正提升”,這得益于北京人形開創(chuàng)性的運(yùn)用了 “刻意練習(xí)” DPPO(Deliberate Practice Policy Optimization)訓(xùn)練范式。