ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

张开发

• 2026/4/20 19:57:04 • 15 分钟阅读

分享文章

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

来源机器之心本文约1500字建议阅读5分钟在此前工作 LeMiCaNeurIPS 2025 Spotlight的基础上继续深耕推出了进阶加速框架 MeanCache。FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存Feature Caching方案在追求高倍率加速时常因瞬时速度的剧烈波动导致轨迹漂移。针对这一痛点中国联通数据科学与人工智能研究院与南京大学研究团队在此前工作 LeMiCaNeurIPS 2025 Spotlight的基础上继续深耕推出了进阶加速框架 MeanCache。该工作不仅承袭了团队在扩散模型加速领域的深厚积淀更在技术上实现了跨越受到 MeanFlow 启发MeanCache 首次将 “平均速度” 视角引入缓存推理通过 JVP 修正精准校正了生成轨迹实现了 4x 以上的推理提速。该成果已入选人工智能顶会 ICLR 2026目前论文、代码均已开源。论文标题MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference论文链接https://arxiv.org/pdf/2601.19961项目主页https://unicomai.github.io/MeanCache/代码地址https://github.com/UnicomAI/MeanCache技术创新平均速度驱动的缓存新范式MeanCache 的核心贡献在于将缓存加速从 “瞬时速度” 转向了 “平均速度”主要包含以下两个核心技术点JVP 驱动的平均速度为了在不增加推理开销的前提下获取平均速度MeanCache 引入了雅可比 - 向量积JVP作为计算桥梁。基于推导出的起点锚定恒等式MeanCache 利用前一时间步已缓存的 JVP 信息来修正当前的瞬时速度:该建模方式将缓存视角从单一的 “点” 扩展到了 “区间”通过提供更稳定的引导信号有效地校正了高倍率加速下的轨迹偏离。轨迹稳定调度策略“什么时候该缓存” 以往的方法多依赖固定步长或手动阈值。MeanCache 将推理过程建模为一个多重图Multigraph寻优问题。它将每个时间步视为节点将预测均值速度与真实值之间的稳定性偏差定义为边权节点和边组成多重图然后再通过峰值抑制最短路径Peak-Suppressed Shortest Path算法在给定的计算预算下计算规则下最优的缓存策略实验结果刷新 SOTA 加速表现文生图在商业级文生图模型 Qwen-Image 和 FLUX.1 [dev] 分别实现最高 4x 加速在 Image Reward 和感知指标上取得了 SOTA 的表现。从视觉效果上看随着加速比的增大MeanCache 生成的图片在内容一致性方面表现更好。文生视频在视频生成模型 HunyuanVideo 上也实现了 3.6x 加速和 SOTA 的指标提升。在对视频的定性分析上MeanCache 也表现出更好的加速效果不论是画质还是内容一致性方面。语义一致性更进一步针对 rare-word如下图 Peristeronic的高难度生僻 Prompt 的测试下MeanCache 展现了更强的语义鲁棒性。业界顶级团队推荐同时MeanCache 已支持最新的阿里通义 Z-Image 和 Qwen-Image-2512 文生图模型并获得了 Z-Image 团队的官方主页推荐社区已支持 ComfyUI。总结与展望MeanCache 作为一种轻量化、免训练的 Flow Matching 加速框架创新性地提出了 “平均速度缓存” 与 “轨迹稳定性调度” 方案。该方案在确保图像高保真度与内容一致性的基础上显著提升了大模型的推理效率。联通元景大模型团队将以此为基石持续深耕模型推理加速及复杂场景生成领域。我们致力于为业界贡献更多元化的技术视角进一步降低工业级生成模型的使用门槛与算力成本。作者和团队介绍本文第一作者是高焕霖通讯作者为赵放和廉士国所有作者均来自联通数据智能有限公司中国联通数据科学与人工智能研究院- 元景大模型研发团队和南京大学专注于联通元景大模型研发。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

最新文章

大模型落地必看！RAG+MCP+智能体，解锁AI应用新范式！

AI智能助手功能实现

文献管理工具四强争霸：EndNote、Zotero、Scholaread、NoteExpress 功能横评

告别手动配置！一键部署《我的世界》Python编程环境（基于Docker与最新mcpi）

别再死磕算法了！用Python的Z3库5分钟搞定SMT约束求解（附实战代码）

保姆级教程：用facenet-pytorch在Colab上训练自己的人脸识别模型（附数据集处理与避坑指南）

推荐文章

VisionMaster企业实操训练系列课程

Python实现基于DD驱动的键盘R键连发功能

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

别再只靠复位了！Xilinx FIFO IP核清空的三种实战方法（附Verilog代码）

在Ubuntu 20.04上为MT7628开发板搭建OpenWrt编译环境（含64位系统避坑指南）

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

相关文章

科研绘图不止Origin：聊聊OriginPro 2021与Python/Matlab的共存与选择

StructBERT在客服系统中的实战应用：智能情绪分析与工单分类

30元玩客云变身全能软路由：手把手教你用Docker部署AllinOne直播服务

FinalBurn Neo终极指南：开源街机模拟器的技术架构与实战应用

OpCore-Simplify终极指南：10分钟完成黑苹果配置的完整解决方案

Qwen3.5-9B成本优化实践：Spot实例调度+自动启停+GPU资源弹性伸缩

分享文章

更多文章

网络安全自查清单：如何用Nmap快速检测你公司的‘三高一弱‘风险点？

Vue3项目避坑指南：Element Plus表格集成Sortable.js拖拽时，数据同步那些事儿

【从虚拟到实体：黎阳之光实时三维重构，开启AI空间智能新纪元

CLAHE在医学影像处理中的关键应用与优化策略

Python3.10镜像优化升级：比传统安装更便捷的环境管理方案

第十一章：Callback 与追踪系统 —— 可观测性的底层实现

TMSpeech：5分钟配置Windows本地实时语音转文字终极指南

Qt 5.14.2 + ARM64交叉编译工具链：一份为Windows10用户准备的避坑配置清单

高通QCM8550传感器驱动移植与调试实战指南

空洞骑士模组管理终极指南：Lumafly一键安装告别繁琐配置

ExtractorSharp游戏资源编辑工具：从零开始掌握NPK与IMG文件编辑的完整指南

从电机调速到LED调光：双向可控硅(TRIAC)的6种实战应用电路详解