開源模型首次在國際物理奧林匹克競(jìng)賽奪金了。
來自上海AI Lab的P1-235B-A22B取得了21.2分的成績(jī),成功跨越金牌線。
在覆蓋2024-2025年全球13場(chǎng)頂級(jí)物理競(jìng)賽的HiPhO基準(zhǔn)測(cè)試中,P1-235B-A22B獲12金1銀,與谷歌Gemini-2.5-Pro并列獎(jiǎng)牌榜第一。

這個(gè)成績(jī)超越了GPT-5的11金以及Grok-4的10金,標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。
同時(shí),團(tuán)隊(duì)提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions,在IPhO 2025及HiPhO綜合得分上雙雙問鼎,展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對(duì)復(fù)雜科學(xué)問題的卓越潛力。
物理推理是理解與塑造現(xiàn)實(shí)世界的核心能力。國際物理奧林匹克(IPhO)等頂尖賽事,以其對(duì)復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn),成為檢驗(yàn)物理智能對(duì)現(xiàn)實(shí)認(rèn)知能力的重要標(biāo)尺。AI在此類競(jìng)賽中奪得金牌,不僅是實(shí)現(xiàn)通用物理智能道路上的關(guān)鍵里程碑,更表明模型已初步具備應(yīng)對(duì)現(xiàn)實(shí)世界中復(fù)雜物理問題的潛力。
P1系列:模型、算法、評(píng)測(cè)集和智能體框架的全鏈路開源體系
首個(gè)物理奧賽基準(zhǔn)測(cè)試:HiPhO
為了準(zhǔn)確評(píng)估物理奧賽的表現(xiàn),研究團(tuán)隊(duì)構(gòu)建了HiPhO(High School Physics Olympiad)基準(zhǔn)測(cè)試,這是首個(gè)專注于最新物理奧賽、采用人類對(duì)齊評(píng)估的基準(zhǔn)。
HiPhO涵蓋了2024-2025年最新的13場(chǎng)奧林匹克級(jí)別的物理競(jìng)賽,包括 IPhO、APhO、EuPhO 等國際和區(qū)域賽事。評(píng)估時(shí)采用官方評(píng)分標(biāo)準(zhǔn),對(duì)答案和過程進(jìn)行細(xì)粒度評(píng)分,與人類評(píng)審嚴(yán)格對(duì)齊,確保得分準(zhǔn)確。由此,每個(gè)模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。

△HiPhO 基準(zhǔn)測(cè)試概覽,包含2024-2025年13場(chǎng)物理奧賽,覆蓋國際和區(qū)域競(jìng)賽。
多階段強(qiáng)化學(xué)習(xí)訓(xùn)練
研究團(tuán)隊(duì)通過高質(zhì)量的提取和標(biāo)注流程,構(gòu)建了包含數(shù)千條奧賽級(jí)別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗(yàn)證答案以及標(biāo)準(zhǔn)解題過程,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。
P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練,團(tuán)隊(duì)在每個(gè)階段應(yīng)用兩項(xiàng)關(guān)鍵策略:
- 上下文窗口擴(kuò)展:
- 隨著訓(xùn)練的推進(jìn),逐步擴(kuò)展模型最大生成長(zhǎng)度,使模型能夠探索更長(zhǎng)的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性,減少了因截?cái)鄬?dǎo)致的錯(cuò)誤。
- 通過率過濾:
- 在訓(xùn)練前,基于通過率統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行篩選,排除過于簡(jiǎn)單或過于困難的任務(wù)。
基于這種多階段強(qiáng)化學(xué)習(xí)策略,P1模型實(shí)現(xiàn)了在基座語言模型的基礎(chǔ)上長(zhǎng)期、持續(xù)的性能提升