UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

智能 PRO 稿源：AI工具集 2025-11-09 02:22

UniWorld V2是什么

UniWorld V2是兔展智能和北京大学UniWorld团队推出的新一代图像编辑模型。采用创新的UniWorld-R1训练框架，首次将强化学习策略优化应用于图像编辑，通过DiffusionNFT技术实现高效训练。模型使用多模态大语言模型作为奖励模型，提供稳定且细粒度的反馈，同时引入低方差组过滤机制，提升训练稳定性。能精准理解和渲染复杂的中文字体，支持精细化空间控制，如通过画框指定编辑区域，可实现全局光影融合，让图像更加自然和谐。在GEdit-Bench和ImgEdit等行业基准测试中取得领先成绩，全面超越现有公开模型。

UniWorld V2的主要功能

中文字体精准渲染：能理解和生成复杂的艺术中文字体，如“月满中秋”等，效果清晰且语义准确，只需简单指令即可实现文字修改。
精细化空间控制：支持通过画框指定编辑区域，例如“将鸟移出红框”，模型可严格遵守空间限制，完成高难度操作。
全局光影融合：深刻理解光影指令，如“给场景重新打光”，使物体自然融入场景，光影融合度高，画面统一和谐。
指令对齐与图像质量提升：在指令对齐性和图像质量方面表现出色，用户更倾向于其输出结果，尤其在指令遵循方面表现突出。
多模型适用性：框架具有模型无关性，可应用于多种基础模型，如Qwen-Image-Edit和FLUX-Kontext等，显著提升这些模型的性能。

UniWorld V2的技术原理

创新训练框架：采用UniWorld-R1训练框架，首次将强化学习策略优化应用于图像编辑，通过Diffusion Negative-aware Finetuning（DiffusionNFT）技术实现无需似然估计的策略优化，提升训练效率。
多模态奖励模型：使用多模态大语言模型（MLLM）作为奖励模型，直接利用其输出的对数值提供细粒度反馈，避免复杂推理和采样带来的计算开销和偏差。
低方差组过滤机制：针对奖励归一化中的低方差组问题，设计了基于奖励均值和方差的过滤策略，剔除高均值低方差的样本组，稳定训练过程。
模型无关性：框架设计为模型无关，可应用于多种基础图像编辑模型，如Qwen-Image-Edit和FLUX-Kontext等，具有广泛的适用性。