国产一区一区三区,免费极品av一视觉盛宴,√天堂资源在线

按從左到右的順序依次生成下一個(gè) token 真的是大模型生成方式的最優(yōu)解嗎？最近，越來(lái)越多的研究者對(duì)此提出質(zhì)疑。其中，有些研究者已經(jīng)轉(zhuǎn)向一個(gè)新的方向 —— 掩碼擴(kuò)散語(yǔ)言模型（MDLM）。

和自回歸（AR）語(yǔ)言模型不同，MDLM 的訓(xùn)練目標(biāo)是隨機(jī)遮蔽序列中的若干位置，模型學(xué)習(xí)去 in-fill（填充）這些被遮蔽位置。這樣訓(xùn)練出來(lái)的模型存在諸多優(yōu)勢(shì)，如支持任意順序解碼、多 token 并行解碼等。此前有研究表明，MDLM 的這些優(yōu)勢(shì)使其在數(shù)獨(dú)等邏輯謎題上的表現(xiàn)得到顯著提升。

然而，最近的一篇論文有了一些意外發(fā)現(xiàn)：在數(shù)學(xué)和編碼任務(wù)中，任意順序算法的性能往往不如從左到右采樣，或者表現(xiàn)與之相似，而標(biāo)準(zhǔn)的多 token 解碼會(huì)顯著降低性能。即使僅在兩個(gè) token 上進(jìn)行并行解碼，模型在主流基準(zhǔn)任務(wù)上的性能也會(huì)顯著下降。

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn)：其計(jì)算潛力正在被浪費(fèi)？

使用 MDLM 進(jìn)行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒(méi)有 [Arriola et al., 2025] 提出的塊大小（block sizes）來(lái)強(qiáng)制形成半自回歸（AR）的從左到右結(jié)構(gòu)，任意順序會(huì)顯著影響性能。

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn)：其計(jì)算潛力正在被浪費(fèi)？

MDLM 能夠并行生成多個(gè)固定 token，但這會(huì)降低準(zhǔn)確性。作者使用塊任意順序熵解碼，并行解碼 1 個(gè)、2 個(gè)、4 個(gè) token。可以看到，除數(shù)獨(dú)外，在所有任務(wù)中，即使并行解碼兩個(gè) token 也會(huì)導(dǎo)致性能顯著下降。

這一結(jié)果引發(fā)了一個(gè)問(wèn)題：既然 MDLM 在訓(xùn)練時(shí)投入了大量額外計(jì)算資源以建模所有被掩碼位置的聯(lián)合分布，那么這些額外的計(jì)算是否真的物有所值？

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn)：其計(jì)算潛力正在被浪費(fèi)？

為了回答這個(gè)問(wèn)題，研究者探究了如何將這些計(jì)算資源重新利用為有意義的推理與采樣能力。他們證明，MDLM 提供了對(duì)所有掩碼位置的條件分布的訪問(wèn)權(quán)限，并具備填充（in-filling）能力，這一特性解鎖了傳統(tǒng) NTP 模型無(wú)法輕易實(shí)現(xiàn)的新型采樣與后訓(xùn)練（post-training）機(jī)制。

首先，研究者展示了 MDLM 的填充能力如何開(kāi)啟新的模型提示范式。在本文中，他們提出了「提示即填充」（prompting-as-infilling）的方法。與 NTP 模型僅能在序列起始位置添加提示不同，這種方法允許在多個(gè)位置添加由用戶指定的上下文。

更具體地，他們提出了「推理即填充」（reasoning-as-infilling）的框架。在該框架中，研究者預(yù)先構(gòu)造了一個(gè)顯式的「推理模板」（reasoning template），其中包含特定的推理位置與答案位置（參見(jiàn)圖 1）。這一模板結(jié)構(gòu)使得模型能夠基于給定的推理預(yù)算和格式，對(duì)推理軌跡進(jìn)行采樣。

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn)：其計(jì)算潛力正在被浪費(fèi)？

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn)：其計(jì)算潛力正在被浪費(fèi)？

財(cái)經(jīng)數(shù)據(jù)更多>>