日韩中文首页,91视频久久,美女网站一区

盡管擴散模型（Diffusion Model）與流匹配（Flow Matching）已經(jīng)把文本到圖像生成（Text-to-Image, T2I）推向了更高的視覺質(zhì)量與可控性，但他們通常在推理時需要數(shù)十步網(wǎng)絡(luò)迭代，限制了其對于一些需要低延遲，Real-Time 的應用。

為了把推理步數(shù)降下來，現(xiàn)有路線通常依賴知識蒸餾（Distillation）：先訓練一個多步教師模型，再把能力遷移到少步學生模型。但這條路的代價同樣明顯 —— 既依賴預訓練教師，又引入了額外的訓練開銷，并在「從零訓練（from scratch）」與「極少步高質(zhì)量」之間留下了長期空白。

近日，香港大學（The University of Hong Kong）與 Adobe Research 聯(lián)合發(fā)布 Self-E（Self-Evaluating Model）：一種無需預訓練教師蒸餾、從零開始訓練的任意步數(shù)文生圖框架。其目標非常直接：讓同一個模型在極少步數(shù)也能生成語義清晰、結(jié)構(gòu)穩(wěn)定的圖像，同時在 50 步等常規(guī)設(shè)置下保持頂級質(zhì)量，并且隨著步數(shù)增加呈現(xiàn)單調(diào)提升。

解鎖任意步數(shù)文生圖，港大&Adobe全新Self-E框架學會自我評估

論文標題：Self-Evaluation Unlocks Any-Step Text-to-Image Generation
項目主頁：https://xinyu-andy.github.io/SelfE-project/
論文 PDF：https://www.arxiv.org/pdf/2512.22374

解鎖任意步數(shù)文生圖，港大&Adobe全新Self-E框架學會自我評估

引言：從「軌跡匹配」到「落點評估」

擴散 / 流匹配范式本質(zhì)上是在學習一張「局部向量場」：給定噪聲狀態(tài)，預測下一步該往哪里走。這個監(jiān)督信號在「小步、密集積分」時非常有效，但一旦嘗試「大步跳躍」，誤差會被軌跡曲率放大，生成往往滑向平均解、語義漂移或結(jié)構(gòu)坍塌。

Self-E 的切入點是一個根本上的范式改變：我們能否不再執(zhí)著于「每一步走得對不對」，而是把訓練重心轉(zhuǎn)向「落點好不好」？也就是把目標從「軌跡匹配（trajectory matching）」轉(zhuǎn)變?yōu)椤嘎潼c評估（destination/landing evaluation）」。

換句話說，傳統(tǒng) Diffusion Model 訓練強調(diào)「在起點對齊局部方向」；Self-E 強調(diào)「在落點評估結(jié)果并給出糾偏方向」。監(jiān)督位置的改變，帶來了訓練信號性質(zhì)的改變：從靜態(tài)監(jiān)督變成動態(tài)反饋。

解鎖任意步數(shù)文生圖，港大&amp;Adobe全新Self-E框架學會自我評估

財經(jīng)數(shù)據(jù)更多>>

解鎖任意步數(shù)文生圖，港大&Adobe全新Self-E框架學會自我評估