国产女教师bbwbbwbbw,超碰在线免费观看97,久久久久久蜜桃一区二区

開源模型首次在國際物理奧林匹克競(jìng)賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績(jī)，成功跨越金牌線。

在覆蓋2024-2025年全球13場(chǎng)頂級(jí)物理競(jìng)賽的HiPhO基準(zhǔn)測(cè)試中，P1-235B-A22B獲12金1銀，與谷歌Gemini-2.5-Pro并列獎(jiǎng)牌榜第一。

開源模型首次物理奧賽奪金！上海AI Lab 235B模型擊敗GPT5和Grok4

這個(gè)成績(jī)超越了GPT-5的11金以及Grok-4的10金，標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。

同時(shí)，團(tuán)隊(duì)提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions，在IPhO 2025及HiPhO綜合得分上雙雙問鼎，展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對(duì)復(fù)雜科學(xué)問題的卓越潛力。

物理推理是理解與塑造現(xiàn)實(shí)世界的核心能力。國際物理奧林匹克（IPhO）等頂尖賽事，以其對(duì)復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn)，成為檢驗(yàn)物理智能對(duì)現(xiàn)實(shí)認(rèn)知能力的重要標(biāo)尺。AI在此類競(jìng)賽中奪得金牌，不僅是實(shí)現(xiàn)通用物理智能道路上的關(guān)鍵里程碑，更表明模型已初步具備應(yīng)對(duì)現(xiàn)實(shí)世界中復(fù)雜物理問題的潛力。

P1系列：模型、算法、評(píng)測(cè)集和智能體框架的全鏈路開源體系

首個(gè)物理奧賽基準(zhǔn)測(cè)試：HiPhO

為了準(zhǔn)確評(píng)估物理奧賽的表現(xiàn)，研究團(tuán)隊(duì)構(gòu)建了HiPhO（High School Physics Olympiad）基準(zhǔn)測(cè)試，這是首個(gè)專注于最新物理奧賽、采用人類對(duì)齊評(píng)估的基準(zhǔn)。

HiPhO涵蓋了2024-2025年最新的13場(chǎng)奧林匹克級(jí)別的物理競(jìng)賽，包括 IPhO、APhO、EuPhO 等國際和區(qū)域賽事。評(píng)估時(shí)采用官方評(píng)分標(biāo)準(zhǔn)，對(duì)答案和過程進(jìn)行細(xì)粒度評(píng)分，與人類評(píng)審嚴(yán)格對(duì)齊，確保得分準(zhǔn)確。由此，每個(gè)模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。

開源模型首次物理奧賽奪金！上海AI Lab 235B模型擊敗GPT5和Grok4

△HiPhO 基準(zhǔn)測(cè)試概覽，包含2024-2025年13場(chǎng)物理奧賽，覆蓋國際和區(qū)域競(jìng)賽。

多階段強(qiáng)化學(xué)習(xí)訓(xùn)練

研究團(tuán)隊(duì)通過高質(zhì)量的提取和標(biāo)注流程，構(gòu)建了包含數(shù)千條奧賽級(jí)別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗(yàn)證答案以及標(biāo)準(zhǔn)解題過程，用于強(qiáng)化學(xué)習(xí)訓(xùn)練。

P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練，團(tuán)隊(duì)在每個(gè)階段應(yīng)用兩項(xiàng)關(guān)鍵策略：

上下文窗口擴(kuò)展：
隨著訓(xùn)練的推進(jìn)，逐步擴(kuò)展模型最大生成長(zhǎng)度，使模型能夠探索更長(zhǎng)的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性，減少了因截?cái)鄬?dǎo)致的錯(cuò)誤。
通過率過濾：
在訓(xùn)練前，基于通過率統(tǒng)計(jì)對(duì)數(shù)據(jù)進(jìn)行篩選，排除過于簡(jiǎn)單或過于困難的任務(wù)。

基于這種多階段強(qiáng)化學(xué)習(xí)策略，P1模型實(shí)現(xiàn)了在基座語言模型的基礎(chǔ)上長(zhǎng)期、持續(xù)的性能提升

開源模型首次物理奧賽奪金！上海AI Lab 235B模型擊敗GPT5和Grok4

財(cái)經(jīng)數(shù)據(jù)更多>>