开云体育(中国)官方网站为了幸免模子在微调进程中过度偏离原有散播-开云(中国)Kaiyun·官方网站登录入口

栏目分类

资讯: 资讯; 娱乐; 新闻; 旅游; 汽车; 电影

你的位置：开云(中国)Kaiyun·官方网站登录入口 > 资讯 > 开云体育(中国)官方网站为了幸免模子在微调进程中过度偏离原有散播-开云(中国)Kaiyun·官方网站登录入口

发布日期：2026-03-14 08:46 点击次数：179

开云体育(中国)官方网站为了幸免模子在微调进程中过度偏离原有散播-开云(中国)Kaiyun·官方网站登录入口

VGG-Flow团队投稿开云体育(中国)官方网站

量子位 | 公众号 QbitAI

用强化学习微调扩散模子，还有更好的办法吗？

来自港中深、微软辩论院等机构的VGG-Flow团队给出了一个新想路：既然奖励函数自己是可微的，为什么非要绕弯路用PPO、GRPO。

在大范围生成模子的对都任务中，通常依赖强化学习，在某个奖励函数上微调模子以迫临东说念主类偏好。而事实上，大部分奖励模子自己是在偏好数据集上磨练过的神经荟萃。既然奖励是可微的，能否胜利欺诈“可微性”自己，高效而安详地微调流匹配模子？

主流作念法主要分为两类旅途：一条路是把模子算作黑盒，通过像Flow-GRPO那样，把蓝本确定性的ODE采样进程强行转为随即SDE，适配经典的强化学习框架来遴荐高方差的计谋梯度神色（如PPO、GRPO）。

另一条路则愈加胜利，如ReFL等神色，通过相似技艺优化某些取样步对应的奖励值，但这种作念法在看法层面上穷乏严格的表面相沿，也往往容易导致过拟合与形态崩塌。那么是否不错走一条新蹊径？

VGG-Flow团队记忆第一性旨趣，将奖励微调再行表述为一个连合时辰最优戒指问题。通过Hamilton–Jacobi–Bellman（HJB）方程，胜利将“可微奖励”移动为价值梯度，为流匹配对都提供了一条更安详、更鲁棒的旅途。现在该技俩已被NeurIPS 2025罗致。

VGG-Flow的中枢想路：最大化“终态奖励−累计代价”

流匹配模子通过在随即取样的x₀上模拟时辰t=0到t=1的轨迹ẋ=v(x,t)来生成样本，其中v(x,t)是流匹配模子的速率场。

微调后的速率场不错被写成预磨练模子与残差的和：vθ(x,t)=vbase(x,t)+ṽθ(x,t)，其中预磨练模子是vbase(x,t)，残差是ṽθ(x,t)。

直不雅来看，为了幸免模子在微调进程中过度偏离原有散播，微调在最大化样本奖励的同期，需要治理预磨练模子与微调模子在取样旅途上的差：

从最优戒指的角度看，这即是一个终态看法加上一段旅途累计代价（cost-to-go）。

HJB方程：从价值到梯度的融会直观

在最优戒指表面中，价值函数V(x,t)态状了从现象(x,t)开拔的最优预期老本。凭据界说，上述看法对应如下的价值函数：

其演化知足以下Hamilton–Jacobi–Bellman（HJB）方程（强化学习中贝尔曼方程的连合时辰体式）：

由此不错赢得最优修正项的融会体式：

这赢得一个相当胜利的论断：最优微调场地=价值函数的梯度。

不需要采样上风函数，不需要猜度打算对数概率比，也不需要进行计谋比值剪辑。只需猜度价值梯度，即可胜利、可微地更新流匹配模子。

这个价值函数奈何赢得？将最优速率场代回HJB方程，不错赢得如下的价值一致性策动：

通过求解知足该一致性策动的价值函数，即可赢得用于磨练速率场的看法梯度。

参数化：将先验写入梯度

为了使价值梯度∇V(x,t)在磨练初期具备合理的涵养场地，VGG-Flow引入了Forward-looking参数化神色：

1. 预估特殊：在xt处进行一步Euler前推，赢得预估特殊

2. 参数化涵养：欺诈一步前推的奖励梯度对价值梯度∇V(x,t)进行参数化：

其中ηt为随时辰减小而减小的标量权重，

为可学习的残差项。

在这种想象下，模子仅需学习残差项即可杀青对都。团队在实验中发现，即使不学习残差，仅依赖奖励梯度的参数化涵养也能杀青显着的对都后果。这一技巧不错权臣裁汰流匹配模子微调的猜度打算老本。

优化看法：在该框架下，VGG-Flow的亏欠函数不错写为：

1. 梯度匹配亏欠：使速率场修正项拟合价值梯度

2. 价值一致性亏欠：最小化HJB方程的残差

3. 结尾范围亏欠：凭据价值函数界说，确保t=1时的范围条目建造

注：若遴荐上一节所述的成立（即不学习价值梯度中的残差项

），仅需优化梯度匹配亏欠。

实验后果

在Stable Diffusion 3上的实验中，仅需400次更新，VGG-Flow即可杀青奖励信号的安详进步。在Aesthetic和PickScore方针上，神色展现出较高的拘谨遵守与精致的各样性保捏智商。比较ReFL、DRaFT等神色，其发挥更为谨慎，更不易淡忘预磨练模子中的先验，生成结果愈加当然。其拘谨也快，何况胜利作用于流匹配模子自己，无需罕见将ODE调度为SDE。