盡管擴散模型(Diffusion Model)與流匹配(Flow Matching)已經(jīng)把文本到圖像生成(Text-to-Image, T2I)推向了更高的視覺質(zhì)量與可控性,但他們通常在推理時需要數(shù)十步網(wǎng)絡(luò)迭代,限制了其對于一些需要低延遲,Real-Time 的應用。
為了把推理步數(shù)降下來,現(xiàn)有路線通常依賴知識蒸餾(Distillation):先訓練一個多步教師模型,再把能力遷移到少步學生模型。但這條路的代價同樣明顯 —— 既依賴預訓練教師,又引入了額外的訓練開銷,并在「從零訓練(from scratch)」與「極少步高質(zhì)量」之間留下了長期空白。
近日,香港大學(The University of Hong Kong)與 Adobe Research 聯(lián)合發(fā)布 Self-E(Self-Evaluating Model):一種無需預訓練教師蒸餾、從零開始訓練的任意步數(shù)文生圖框架。其目標非常直接:讓同一個模型在極少步數(shù)也能生成語義清晰、結(jié)構(gòu)穩(wěn)定的圖像,同時在 50 步等常規(guī)設(shè)置下保持頂級質(zhì)量,并且隨著步數(shù)增加呈現(xiàn)單調(diào)提升。

- 論文標題:Self-Evaluation Unlocks Any-Step Text-to-Image Generation
- 項目主頁:https://xinyu-andy.github.io/SelfE-project/
- 論文 PDF:https://www.arxiv.org/pdf/2512.22374

引言:從「軌跡匹配」到「落點評估」
擴散 / 流匹配范式本質(zhì)上是在學習一張「局部向量場」:給定噪聲狀態(tài),預測下一步該往哪里走。這個監(jiān)督信號在「小步、密集積分」時非常有效,但一旦嘗試「大步跳躍」,誤差會被軌跡曲率放大,生成往往滑向平均解、語義漂移或結(jié)構(gòu)坍塌。
Self-E 的切入點是一個根本上的范式改變:我們能否不再執(zhí)著于「每一步走得對不對」,而是把訓練重心轉(zhuǎn)向「落點好不好」?也就是把目標從「軌跡匹配(trajectory matching)」轉(zhuǎn)變?yōu)椤嘎潼c評估(destination/landing evaluation)」。
換句話說,傳統(tǒng) Diffusion Model 訓練強調(diào)「在起點對齊局部方向」;Self-E 強調(diào)「在落點評估結(jié)果并給出糾偏方向」。監(jiān)督位置的改變,帶來了訓練信號性質(zhì)的改變:從靜態(tài)監(jiān)督變成動態(tài)反饋。