2026/4/18 15:47:50
网站建设
项目流程
邵阳相亲网站,个人html网站模板,阿里巴巴跨境电商平台,网站设计联系方式AI绘画界无人不知的张吕敏发新作了。张吕敏#xff08;Lvmin Zhang#xff09; 是斯坦福计算机科学博士生#xff0c;AI图像生成领域顶级研究者#xff0c;业内誉为敏神。他本科毕业于苏州大学#xff0c;早在大一就发表AI绘画相关论文#xff0c;本科期间多篇顶会一作。…AI绘画界无人不知的张吕敏发新作了。张吕敏Lvmin Zhang 是斯坦福计算机科学博士生AI图像生成领域顶级研究者业内誉为敏神。他本科毕业于苏州大学早在大一就发表AI绘画相关论文本科期间多篇顶会一作。ControlNetAdding Conditional Control to Text-to-Image Diffusion Models第一作者。获ICCV 2023 Marr Prize最佳论文奖引用极高被视为扩散模型控制领域的里程碑。重要开源项目Fooocus极简用户友好的Stable Diffusion界面降低AI绘图门槛IC-Light文本/背景引导的图像重光照工具FramePack渐进式高效视频扩散生成6GB显存可跑高质量动画LayerDiffuse支持生成透明图层便于后期编辑等家喻户晓。而刚刚发布的新技术用更少的算力记住更长的画面细节让视频生成告别前言不搭后语的遗忘症。视频生成正在经历一场从短片到长叙事的跨越Sora2、Veo3.1以及Kling2.5等商业模型已经开启了故事板创作的新时代这种创作方式要求模型具备极强的连贯性能够在场景切换、动态镜头调度中保持角色、服装和环境的一致性。自回归模型作为视频叙事的关键架构天然适合处理这种连续生成的任务它将视频的历史片段视为上下文以此来预测未来的画面。处理长视频内容时上下文长度与显存开销之间的矛盾变得异常尖锐这直接导致了长视频生成中常见的崩坏现象要么是为了节省显存切断了历史联系导致角色变脸要么是保留了历史但挤爆了硬件资源。斯坦福大学、麻省理工学院MIT、卡内基梅隆大学CMU和香港科技大学HKUST的研究团队提出了一种全新的神经网络结构专门用于将长视频压缩成短小的上下文。这种方法引入了一个明确的预训练目标在任意时间点保留单帧的高频细节。基础模型能够将20秒的视频历史压缩成仅约5000个Token的长度并且能够以感知上极高的保真度检索出任意一帧这种预训练模型可以直接作为记忆编码器微调用于自回归视频模型以极低的上下文成本实现超长历史记忆。显存压缩与细节保留的平衡艺术视频上下文建模的核心痛点在于质量与长度的权衡最简单的滑动窗口机制虽然能维持固定的显存开销但它通过切断久远的帧来遗忘历史这对于长剧情叙事是致命的。为了解决这个问题学术界尝试了多种压缩方案例如高度压缩的变分自编码器VAEs或者像FramePack这样的混合方法虽然这些方法能将像素空间的视频压缩成更紧凑的形式但往往以牺牲图像的高频细节为代价。研究人员观察到视频压缩机制保留上下文细节能力的强弱有一个非常直观的指标那就是它能否在任意时间位置高质量地重建帧。这一观察引导出了一个新的随机化训练思路与其在生成视频时才去学习如何压缩不如先预训练一个专门的记忆编码器它的唯一任务就是将数百万个视频片段压缩并试图从压缩后的数据中还原出随机选定时间点的帧。这种训练方式迫使模型必须在有限的带宽内极尽可能地保留那些对于重建画面至关重要的纹理和光影信息。当这个压缩模型足够强大时再将其接入到视频扩散模型中作为历史记忆的供给者。这种预训练记忆编码器本身就能以极高的质量重建历史帧当它与视频扩散模型连接进行自回归微调时能够提供惊人的长程一致性。该框架在上下文长度和质量之间找到了一个优化的平衡点使得在相对较短的上下文长度下依然能生成感知上高度连贯的长视频。预训练记忆编码器的构建与机制为了量化这种压缩能力研究团队构建了一个具体的数学模型。假设我们有60秒的视频历史想要生成接下来的1秒在典型的480p分辨率、24fps帧率下如果使用标准的Hunyuan或Wan系列的VAE进行切片处理历史上下文长度将达到惊人的561,600个Token。这个数量级的计算量对于消费级显卡是不可承受的即便是对于拥有海量显存的服务器集群也会造成巨大的训练瓶颈。简单的滑动窗口策略会丢失长程一致性而像Token合并或下采样等常规手段则会丢失图像细节。研究团队提出的解决方案是训练一个压缩过程该过程接收历史帧并将其压缩成上下文为了优化重建效果训练目标是最小化原始帧与从压缩上下文中检索出的帧之间的特征距离。这是一个结合了扩散模型的生成式检索任务。具体来说他们随机采样视频作为历史然后随机选择一组帧保持不变并掩盖所有剩余的帧这里的掩盖采用了噪声作为掩盖的方法即添加不同层级的潜在噪声。之后系统尝试在任意位置重建目标帧。这种随机性至关重要如果只训练恢复固定位置如开头或结尾的帧模型就会作弊只压缩那几帧而忽略其他部分。通过在数百万个视频上进行这种随机帧检索的预训练模型被迫学会了对整个视频历史进行均匀且高保真的编码。在网络架构设计上团队采用了一个轻量级的基线架构。不同于从零构建压缩表示他们复用了DiT的上下文表示能力。首先将高分辨率、高帧率的视频下采样为低分辨率、低帧率的版本并通过VAE和DiT的切片器及第一层投影进行处理。随后将高分辨率的原始视频编码为一个残差增强向量并将其添加到上下文向量中。值得注意的是这种特征相加发生在DiT的第一层投影之后这意味着编码器不需要通过VAE那狭窄的16通道瓶颈而是直接在像3072对于WAN-5B模型这样的内部通道上输出从而保留了最佳的保真度。基线编码器使用3D卷积作为起始层并以注意力层结束这种设计既保证了时空信息的捕捉又维持了计算的轻量化。实验验证与长程一致性表现有了预训练好的记忆压缩模型接下来的步骤是微调视频扩散模型如WAN系列通过LoRA技术将预训练的压缩模型作为历史记忆编码器接入。这样就形成了一个拥有长历史窗口超过20秒但上下文成本很低约5k长度的自回归视频模型。数据集包含了约500万个互联网视频涵盖了垂直的Shorts风格视频和横屏视频。测试结果显示该方法在图像重建质量上显著优于其他压缩策略。在对比实验中无论是仅保留低分辨率分支Only LR还是去掉低分辨率分支Without LR亦或是使用大尺寸切片器Large Patchifier其重建效果都无法与该团队提出的方案相提并论。特别是Large Patchifier方法虽然压缩率高但导致了显著的结构变化而所提出的方法即使在4×4×2的高压缩率下依然有效地保留了原始图像的结构和纹理。预训练的影响是决定性的。对比实验显示经过预训练的模型能够保持强烈的时空一致性在面部特征、衣着、整体视频风格以及剧情连贯性上都有显著提升。相反未经预训练的模型往往无法关注到历史中的关键帧导致生成内容出现不一致。为了全面评估生成质量研究团队引入了多维度的量化指标包括VBench中的Cloth衣物一致性、Identity身份一致性、Object物体一致性等。结果显示该方法在保持高压缩率的同时各项指标均接近或超过了未压缩的基线模型水平。特别是在用户主观评测User Study和ELO评分中该方法生成的视频在连贯性和画质上都获得了极高的评价。例如在与WanI2V结合QwenEdit的对比中该方案在长时间跨度下的物体和身份保持能力上表现出了明显的优势。此外研究还发现了一个有趣的现象误差累积Drifting问题高度依赖于训练数据集。当在像Shorts这样镜头切换频繁的视频上训练时误差累积问题似乎不可见但对于需要长单镜头延续的视频则需要更精细的设计。该框架展示了极强的适应性能够处理各种复杂的镜头语言和叙事需求。该研究通过引入明确的帧检索预训练目标成功解决了自回归视频生成中长历史记忆与计算成本之间的矛盾。这种压缩-检索-生成的范式不仅大幅降低了训练和推理的门槛让消费级显卡也能涉足长视频生成更为未来AI电影制作、长篇故事生成提供了一种高效且高质量的技术路径。参考资料https://arxiv.org/pdf/2512.23851v1