2026/4/18 12:30:37
网站建设
项目流程
网站推广新手入门,泉州市建设工程交易网站,app介绍网站模板,广州网站建设大公司点击下方卡片#xff0c;关注“CVer”公众号 AI/CV重磅干货#xff0c;第一时间送达 点击进入—【顶会/顶刊】投稿交流群 添加微信号#xff1a;CVer2233#xff0c;小助手拉你进群#xff01; 扫描下方二维码#xff0c;加入CVer学术星球#xff01;可以获得最新顶…点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自机器之心在文生图模型的技术版图中VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX再到一系列扩散 Transformer主流路线高度一致先用 VAE 压缩视觉信息再在潜空间中完成生成。这条路径被反复验证、规模化扩展也几乎没有再被认真挑战过。但挑战者其实早已到来它就是谢赛宁团队提出的表征自编码器RAE详见我们去年十月的报道《VAE 时代终结谢赛宁团队「RAE」登场表征自编码器或成 DiT 训练新基石》。现在RAE 方向又诞生了一项新的重磅成果。并且是来自 Rob Fergus、Yann LeCun 以及谢赛宁三位业内知名学者领导的一个联合团队。论文标题Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders论文地址https://arxiv.org/abs/2601.16208v1代码地址https://github.com/ZitengWangNYU/Scale-RAE项目页面https://rae-dit.github.io/scale-rae/他们解答了一个更加基础的问题我们真的需要 VAE 才能做好大规模文生图吗这篇工作给出的答案颇为激进。该团队系统性地扩展了「表征自编码器」这一思路在冻结的语义表征编码器之上构建扩散模型从 ImageNet 一路扩展到大规模自由文本生成场景。结果显示在从 5 亿到近百亿参数的多个尺度上RAE 不仅在预训练阶段全面优于当前最强的 VAE 方案还在高质量数据微调时展现出惊人的稳定性而 VAE 模型却在短短 64 个 epoch 后出现灾难性过拟合。可以说这篇论文释放出了一个相当具有颠覆性的信号当理解与生成共享同一套语义表征空间时扩散模型的复杂工程设计反而可以被大幅削减。更进一步这个思路或许有望打开多模态统一模型的想象空间。架构设计以表征自编码器重塑潜空间在传统的潜向扩散模型LDM中VAE 的作用是将图像压缩进一个极低维度的空间。然而RAE 采用了截然不同的逻辑它直接耦合一个预训练且冻结的视觉表征编码器如 SigLIP-2并仅训练一个轻量化的 ViT 结构解码器用于像素重建。以研究中采用的 SigLIP-2 So400M 为例它会将一幅图像转化为 16×16 个 token每个 token 的维度高达 1152。这一维度远超主流 VAE 方案通道数通常小于 64为生成过程提供了极高保真度的语义起点。为了将这一思路从 ImageNet 推广至复杂的文本生成场景研究团队进行了三项深度的架构探索。超越规模的数据组成策略研究发现单纯增加数据量并不能让 RAE 完美处理文生图任务。团队构建了一个包含约 7300 万条数据的大规模数据集涵盖了 Web 图像、由 FLUX.1-schnell 生成的高美感合成图像以及专门的 RenderedText 文本渲染数据。实验数据揭示了一个关键的技术细节虽然在 Web 规模数据上训练能提升模型对自然图像的泛化能力但对于「文本渲染」这一特定领域数据的组成比例至关重要。如表 1 所示若缺乏针对性的文本渲染数据解码器即使在数千万张 Web 图片上训练也无法还原出清晰的字形细节。只有引入了文本专项数据后其在 Text 域的 rFID 分数才出现了质的飞跃。除了数据组成研究团队还对比了不同视觉编码器作为 RAE 后端的重建质量。如表 2 所示在 ImageNet、YFCC 以及文本Text这三个维度上RAE 方案展现出了极具竞争力的保真度。虽然 RAE 在绝对重建指标上目前还稍逊于顶尖的 FLUX VAE但它已经全面超越了此前文生图领域的标杆 SDXL VAE。实验进一步发现基于自监督学习SSL训练的 WebSSL ViT-L 编码器在图像重建任务中比 SigLIP-2 表现更优。这证明了 RAE 框架具备极佳的通用性能够适配不同预训练目标的视觉编码器。潜空间维度相关的噪声调度由于 RAE 操作的是极高维度的语义表征传统的扩散模型噪声调度方案会因为维度灾难而失效。为了解决这一数学难题研究团队引入了维度敏感的噪声调度平移Noise Schedule Shift。其核心逻辑是根据有效数据维度 m即 token 数量 N 与通道维度 s 的乘积对基础调度 t_n 进行重缩放。其计算公式如下其中 α 是比例因子n 为参考基准维度。实验证明应用这一平移变换对模型收敛至关重要不带平移的模型在 GenEval 上的表现甚至不及带平移模型的一半。大模型时代的结构化减法在 RAE 最初针对 ImageNet 的设计中为了增强模型能力曾引入过复杂的「宽扩散头DiT^DH」以及「噪声增强解码Noise-augmented decoding」。然而这篇论文通过严谨的消融实验发现当扩散 TransformerDiT的规模扩展至十亿参数以上时这些复杂设计反而成了冗余。架构冗余DiT^DH 这种窄骨干配合宽头的设计在 0.5B 规模下能带来 11.2 的 GenEval 提升但当 DiT 扩展至 2.4B 以上时其增益会迅速消失。这是因为大模型本身的隐藏维度d≥2048已经天然覆盖了 RAE 的潜空间需求。训练简化原本用于缩小训练与推理分布差距的噪声增强解码在训练后期约 120k 步后提供的增益也趋于零。这表明在大规模预训练下模型能够自行学习到足够健壮的潜流形从而摒弃繁琐的正则化手段。实验表现从极速收敛到无惧过拟合研究团队在从 0.5B 到 9.8B 参数的多个 DiT 尺度上将 RAE 与目前最先进的 FLUX VAE 进行了系统性对比。在相同的算力与数据条件下RAE 展现出了显著的收敛速度优势。在 1.5B LLM 与 2.4B DiT 的基准测试中RAE 达到同等生成质量所需的时间仅为 VAE 的四分之一左右。在 GenEval 评测中实现了 4.0 倍加速在 DPG-Bench 上更是达到了 4.6 倍加速。这种由 RAE 带来的效率提升与性能增益在模型规模扩展过程中表现出了极强的鲁棒性。研究团队通过图 5 系统性地评估了 DiT 规模以及 LLM 骨干规模对最终生成效果的影响。在 0.5B 到 9.8B 参数的所有 DiT 尺度下RAE 均能稳定且大幅度地优于 VAE 方案。即便是在 DiT 隐藏维度仅略大于 RAE 潜空间维度的 0.5B 小模型上这种优势依然清晰可见。此外当 LLM 骨干从 1.5B 升级至 7B 时RAE 模型能够更好地利用更丰富的文本表征从而获得进一步的性能跨越。这一发现极具启发意义。以往研究往往认为 LLM 规模的增加对文生图任务的增益有限但本论文通过微调 LLM 骨干证明了当生成与理解在同一个语义潜空间中对齐时更大的语言模型确实能释放出更强的生成潜力。而在针对高质量数据集如 BLIP30-60k进行的精细化微调中RAE 与 VAE 方案的表现分化更是令人震惊。传统的 VAE 模型在训练至 64 个 epoch 左右后会发生灾难性的过拟合性能指标呈断崖式下跌。损耗曲线显示 VAE 的 Loss 会迅速跌至近乎为零这意味着模型正在机械地死记硬背训练样本。相比之下RAE 表现出了极强的鲁棒性。即使持续微调至 256 个甚至 512 个 epochRAE 依然能保持稳定的生成质量。这种「天然」的防过拟合特性或许得益于高维语义空间提供的隐式正则化作用。迈向多模态统一的新可能RAE 的意义不仅在于生成它还让理解与生成在同一套语义特征空间中运行。理解能力保全实验结果显示在加入生成训练后模型在 MME、MMMU 等视觉理解榜单上的性能保持完好甚至略有提升。潜空间测试时缩放TTS得益于共享表征LLM 无需将图像解码为像素即可直接对扩散模型生成的潜变量进行「理解」和「打分」。通过这种 Best-of-N 策略模型能显著提升生成图像与提示词的匹配度。文生图技术栈的下一站这篇论文为大规模文生图提供了一个全新的基础范式。通过将 RAE 扩展至百亿参数规模该团队证明了我们不仅不需要 VAE 来实现高质量生成甚至可以利用 RAE 获得更快的收敛速度、更高的训练稳定性和更好的多模态统一潜力。当理解与生成不再需要依靠两个互不相通的潜空间如 CLIP 与 VAE来回切换时扩散模型真正开始学会以「视觉语义」的角度去构建世界。RAE 的成功标志着潜向扩散模型正在从繁复的结构堆砌回归到更简洁、更本质的语义建模。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT赶紧学起来ICCV 2025 论文和代码下载在CVer公众号后台回复ICCV2025即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载在CVer公众号后台回复CVPR2025即可下载CVPR 2025论文和代码开源的论文合集CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看