2026年3月 人工智能前沿详细总结(包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等)

张开发
2026/4/21 8:00:58 15 分钟阅读

分享文章

2026年3月 人工智能前沿详细总结(包括Gemini 3.1 Flash-Lite、GPT-5.4、SkyReels 4、Mureka V9、GigaWorld-1等)
文章目录3月4日【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】【大语言模型】GPT-5.3 Instant 发布【OpenClaw 应用】阿里发布桌面智能体 QoderWork3月6日【多模态大模型】GPT-5.4 系列模型发布【重要】3月10日【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw3月12日【大语言模型】英伟达开源新模型 Nemotron 3 Super3月17日【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw【OpenClaw 应用】百度发布龙虾全家桶3月18日【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布【多模态大模型】MiniMax 发布 MiniMax M2.73月19日【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】【大模型架构】新架构 Mamba-3 发布【重要】【多模态大模型】小米发布 MiMo-V2 系列模型【OpenClaw 应用】飞书推出龙虾应用 aily3月22日【OpenClaw 应用】微信发布龙虾插件 ClawBot3月27日【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】【世界模型】超强世界模型 Matrix-Game 3.0 发布3月28日【大语言模型】超强编程模型 GLM-5.1 正式发布3月30日【世界模型】最强世界模型 GigaWorld-1 发布【重要】3月31日【全模态模型】超强全模态模型 Qwen3.5-Omini 发布3月4日【多模态大模型】Gemini 3.1 Flash-Lite 发布【重要】今天谷歌正式上线了新模型Gemini 3.1 Flash-Lite。该模型的速度达到了 363 token/s输出价格为 1.5美元 / 1M token跑分上更是超越了 GPT-5 mini 和 Claude 4.5 Haiku。Gemini 3.1 Flash-Lite的最大特点是速度快几乎可以做到“瞬时输出”同时价格很低。同一任务Gemini 2.5 Flash的运行时间需要33分钟而Gemini 3.1 Flash-Lite仅用时4分钟且 token 数量消耗最少正确率最高。尽管Gemini 3.1 Flash-Lite模型很小但是其多模态理解能力的基准测试结果仍然十分强悍只是在代码生成效果方面存在一定的短板。目前开发者可以通过 Google AI Studio 的 Gemini API 体验预览版企业用户可以通过 Vertex AI 接入。【大语言模型】GPT-5.3 Instant 发布今天凌晨OpenAI 发布了最新模型GPT-5.3 Instant。该模型为GPT-5.3的速度优化版本适合快速的日常查询、草稿写作和即时翻译等任务。相较于之前的模型GPT-5.3减少了模型回复的尴尬感去掉了机械重复、冗余的免责声明等 AI 腔调沟通更加自然流畅同时回答质量更加精准在联网搜索和写作能力上都得到了增强。目前该模型已经在 ChatGPT 中上线开发者也可以通过 API 进行调用。前一代模型GPT-5.2 Instant则会在付费用户的旧版模型区保留三个月之后退役。【OpenClaw 应用】阿里发布桌面智能体 QoderWork今天阿里发布了首个桌面智能体QoderWork杀入 Windows 生态。相较于OpenClawQoderWork具备了更完美的本地读写和自主执行的核心能力并且是一款真正成熟、打磨到位的商业化办公桌面智能体。用户不需要进行繁琐的配置和部署只需要下载QoderWork即可通过简单的对话按需调用本地应用。3月6日【多模态大模型】GPT-5.4 系列模型发布【重要】今天OpenAI 正式发布了新模型 GPT-5.4并在该模型中引入了一种被称为“原生的计算机使用”的新模式。GPT-5.4在知识工作和网络搜索方面表现出色具有原生的计算机使用能力。该模型可以直接操作软件使用工具、浏览网页、执行工作流程并规划跨应用程序的复杂任务最多可以处理 1M 上下文 token。在基准测试中GPT-5.4 Pro以 38% 的成绩击败了最难的数学基准测试 FrontierMath Tier而此前最佳的开源模型成绩为Kimi K2.5创造的 4.2%。在视觉感知、代码生成方面也相较于上一代模型有了明显提升。另外模型还引入了工具搜索功能并改进了工具调用。目前GPT-5.4已经在 OpenAI 的 API 和 Codex 中提供并正在 ChatGPT 中逐步推出面向 ChatGPT Plus、Team 和 Pro 用户开放取代GPT-5.2 Thinking模型。另外OpenAI 也在 ChatGPT 和 API 中推出了GPT-5.4 Pro该版本模型面向 Pro 用户和企业版用户开放适合解决更复杂的任务。但是在 API 中GPT-5.4的调用价格高于GPT-5.2。3月10日【OpenClaw 应用】智谱发布一分钟装好的龙虾 AutoClaw今天智谱发布了可以把OpenClaw打包为一键安装的桌面应用的AutoClaw中文名澳龙专门用于解决原版OpenClaw难以安装的问题。用户只需要下载、双击、登录就可以一分钟安装完成。AutoClaw并非OpenClaw的阉割版而是和其具有相同的内核能力也一个不少。而且AutoClaw把龙虾装进了飞书更好地帮助用户办公。为了辅助AutoClaw更好地进行工作智谱为其打造了专门的用于智能体场景的模型Pony-Alpha-2该模型的前身就是前段时间在 OpenRouter 上表现亮眼的Poly Alpha。面对OpenClaw单次任务价格极贵的问题AutoClaw提供了免费的模型GLM-4.7-Flash和GLM-4.7-FlashX。另外也支持接入自己的模型目前已经支持 GLM、DeepSeek、MiniMax、Kimi 等之后还会开放更多。【OpenClaw 应用】腾讯发布龙虾应用 WorkBuddy 和 QClaw今天腾讯发布了两款龙虾应用WorkBuddy和QClaw。前者兼容OpenClaw技能通过简单部署即可接入 QQ、飞书、钉钉的智能体工作平台目前已经上线后者能够直接住进微信支持远程对话预计下周开启公测。WorkBuddy和核心特色包括像普通软件一样快速安装部署上手难度不高支持无缝接入QQ、飞书、钉钉等工具处理日常聊天和办公场景能够进行代码开发、文档总结、数据分析、本地任务执行等多种任务内置多种模型和多种技能包。QClaw的核心特色包括和WorkBuddy一样的快速部署直接在微信中和AI对话并通过远程指令让 AI 执行任务拥有多个不同技能包长期记忆用户偏好和上下文信息直接操作电脑中的文件和各种应用。3月12日【大语言模型】英伟达开源新模型 Nemotron 3 Super今天英伟达重磅发布并开源了新一代模型Nemotron 3 Super该模型转为大规模 AI 智能体打造共有1200亿参数120亿 激活参数和 1M 上下文推理增加三倍吞吐量增加五倍。Nemotron 3 Super采用新的 Mamba-MoE 混合架构彻底解决了多智能体协作中的性能瓶颈。它原生采用 NVFP4 精度进行预训练并使用了全新的 LatentMoE 架构。在 Pinbench 基准上Nemotron 3 Super稳拿了开源模型第一在OpenClaw任务成功率上拿下了 85.6% 的高分性能直逼Claude Opus 4.6、GPT-5.4可以说是一款非常适配OpenClaw的模型了。3月17日【OpenClaw 应用】阿里发布 ToB 旗舰 AI 应用“悟空”今天阿里正式发布了一款 ToB 的 AI 旗舰应用“悟空”这是钉钉成立十一年来推出的第一款独立 APP也是阿里面向全球推出的 AI 原生工作平台。在官方展示中“悟空”可以高效承接串联多平台、多任务实现“一人搞定一个团队的工作”。“悟空”同步发布了“一人团队”的十大行业解决方案包括电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大核心场景。通过场景化的 Skills 套件加上预编排的工作流以及行业数据沉淀用户只需要一键启动就可以立即拥有一支精通行业规则的龙虾团队。相较于其他的 OpenClaw 类产品“悟空”精准补齐了企业级应用的最大短板安全。其通过四层安全体系智能体权限控制、安全沙箱运行、专属模型部署、Skill 安全认证保证了企业使用时的安全性。【OpenClaw 应用】英伟达推出龙虾应用 NemoClaw今天英伟达推出了自己的龙虾应用NemoClaw。在OpenClaw的基础上NemoClaw增加了多层安全防护使得其可以成为企业级的安全解决方案。NemoClaw比原始的OpenClaw更容易部署并且运行也更安全。用户只需要使用一条命令即可完成NemoClaw的安装和优化同时自动部署 OpenShell 进行时该运行时提供开源模型支持和隔离的沙箱环境让 AI 智能体在执行任务时能够受到安全、网络和隐私策略的约束。NemoClaw支持多种编程智能体包括用户本地专用系统上的开源模型也可以通过隐私路由访问云端的前沿闭源模型。【OpenClaw 应用】百度发布龙虾全家桶今天百度同时发布了云端龙虾、安全龙虾、手机龙虾红手指 Operator、桌面龙虾Dumate、小度首款家用小龙虾以及一整套的 Skills 能力。所有 Skills 能力中百度搜索 Skills 能力下载量超过4.5万次是全球下载量最大的搜索引擎官方 SKill成为了龙虾必备。百度在 APP 内上线了OpenClaw能力对于一大批龙虾预备用户来说不需要安装就可以一键使用龙虾甚至连一键部署的过程都省略了。另外百度推出了桌面龙虾Dumate作为员工的第二大脑和执行助理以个性化理解为核心融合用户习惯和企业知识让 AI 走进工作现场理解意图、主动执行并高效协同。百度将自己的整套 AI 能力封装为了标准化的 Skills并一口气推出了百度搜索、小度、秒哒、伐谋、客悦营销、百度一见等十余种能力组件。3月18日【多模态大模型】GPT-5.4 mini 和 GPT-5.4 nano 发布今天OpenAI 正式发布了新模型GPT-5.4 mini和GPT-5.4 nano它们继承了GPT-5.4的核心优势支持文本和图像输入、工具调用、函数调用、网络搜索、文件搜索和计算机使用但是速度拉满且成本更低。在编程上GPT-5.4在用于衡量修复 Github 上真实软件BUG的基准 SWE-Bench Pro 中的成绩是 57.7%而GPT-5.4 mini拿下了 54.4%在计算机使用上GPT-5.4在 OSWorld-Verifiled 的成绩为 75%而GPT-5.4 mini也拿下了 72.1%另外在推理和工具调用任务中GPT-5.4 mini的成绩也紧逼 GPT-5.4。而且相较于GPT-5 miniGPT-5.4 mini的运行速度达到了两倍。GPT-5.4 mini有 400K 的上下文输入价格为 0.75美元 / 1M Token输出价格为 4.5美元 / 1M TokenGPT-5.4 nano 的输入价格为 0.2 美元/ 1M Token输出价格为 1.25 美元 / 1M Token相较于GPT-5.4都有了非常明显的下降。在 ChatGPT 上GPT-5.4 mini已经向免费用户和 Go 用户开放对于付费用户当GPT-5.4 Thinking额度耗尽时GPT-5.4 mini将作为自动的降级备选方案。【多模态大模型】MiniMax 发布 MiniMax M2.7今天MiniMax 正式发布了新模型MiniMax M2.7。该模型的能力升级体现在五个方面分别是智能体指令遵循与复杂任务执行、多智能体协作与工程级编程、智能体调度、角色扮演与长期记忆以及办公自动化。对于智能体指令遵循MiniMax M2.7能够保证模型在50多个 Skills60-150 个特征列表的复杂环境中保持稳定的调用与流程执行多智能体协作与工程级编程实现了原生的智能体协作而无需对外部编排进行依赖在日志分析、BUG 定位、代码重构等真实工程场景中表现稳定智能体调度则进一步加强了工具编排能力支持智能体群组、多工具检索配合预制的各种 Skills构建自迭代的任务执行链路角色扮演能力方面覆盖闲聊陪伴、互动小说、沉浸式游戏等场景支持十多种语言尤其是通过适配OpenClaw长期记忆框架智能体角色被赋予了持久身份和真实情感办公自动化则支持对复杂的 Excel、Word 和 PPT 办公任务的效率提升。3月19日【视频生成模型】最强视频生成模型 SkyReels-V4 发布【重要】今天昆仑万维发布了最新的全球最强的视频生成模型SkyReels-V4。改模型的 Preview 版本在二月份的 Artificial Analysis 全球视频生成排行榜中成为全球第二超越了Sora 2以及Veo 3.1现在它已经在文生视频榜单中登顶全球第一超越Sora 2、Veo 3.1、Seedance 2.0等一众国际顶尖模型成为全球 AI 视频生成能力最强的模型。SkyReels V4同样支持图生视频也支持多图参考。据了解该模型将于3月27日在中关村论坛正式亮相。【大模型架构】新架构 Mamba-3 发布【重要】今天Mamba 架构的原版人手正式发布了最新一代的开源架构Mamba-3。相较于Mamba-2Mamba-3对核心的 SSM 进行了三大改动首先改进了离散化的过程使得其可以模拟卷积其次将状态转移引入复数领域来优化状态追踪过程最后采用 MIMO 架构以提升推理的利用率在保持模型解码速度的同时增强模型表现。实验结果证明仅使用一半的内部状态大小Mamba-3的性能就可以和Mamba-2相当同时在 1.5B 参数规模下Mamba-3 MIMO的平均准确率达到了 57.6%比 Transformers 高出了 4%在长序列任务上的端到端延迟仅为 Transformer 的七分之一。【多模态大模型】小米发布 MiMo-V2 系列模型过去一周在知名大模型基础设施平台 OpenRouter 上霸榜趋势榜第一、周榜第三的神秘模型Hunter Alpha曝光是小米的新一代模型MiMo-V2 Pro这是国内首个万亿参数以及 1M 上下文的模型。MiMo-V2共有三个版本MiMo-V2 Pro是面向智能体时代的旗舰基座模型参数量达到 1021B激活参数 42B主攻硬核复杂任务MiMo-V2-Omni是全模态模型专为快速推理和低延迟场景打造MiMo-V2-TTS是首款同时兼备说和唱的超拟人语音大模型。MiMo-V2 Pro在长文本、智能体调用稳定性等方面性能优异。在权威的综合智能排行榜 Artificial Analysis 上MiMo-V2 Pro位列全国第九国内第三次于GLM-5和MiniMax-M2.7进入了国内第一梯队。而且这是一款专为龙虾等智能体设计的模型在 OpenClaw 的标准评测榜单 PinBench 上该模型位列全球第三仅次于Claude Sonnet 4.6和Claude Opus 4.6强过GLM-5和Step 3.5 Flash。MiMo-V2-Omini支持文本、图像、音频、视频最长一小时作为输入在OpenClaw中可以处理网页、摄像头截图、音频分析、文档中的图片等多模态任务。【OpenClaw 应用】飞书推出龙虾应用 aily今天飞书在春季发布会上发布了升级的龙虾智能体aily。该智能体以联系人的形态存在在飞书列表中不需要进行部署就可以像同事、助理一样帮用户做很多复杂的工作。不仅如此飞书还把妙搭智能体和多维表格智能体升级了。3月22日【OpenClaw 应用】微信发布龙虾插件 ClawBot今天微信发布了龙虾插件ClawBot用户只需要扫码或复制命令即接入。接入之后用户就可以通过聊天的方式指挥龙虾进行干活。3月27日【音乐大模型】最强音乐生成大模型 Mureka V9 发布【重要】今天昆仑万维发布了最强的音乐生成大模型Mureka V9。在上一代模型Mureka V8已经霸榜了 Artificial Analysis 人声和乐器榜单的双料冠军后该模型进一步提升了控制能力。Mureka V9对段落级的语义控制更加精准使得人声从简单的“唱出来”到“唱对了”混音质感更强生成速度更快同一创意下的生成结果也更加新鲜。另外它还多了一项能力知道什么情况下不该唱。Mureka V9在主观评分中在音乐旋律性、音乐表现力、编配编曲三个维度全部拿下第一超越了Mureka V8、Suno V5和MiniMax M2.5而在精准控制维度更是大幅上涨目前仅次于Suno V5。【世界模型】超强世界模型 Matrix-Game 3.0 发布今天昆仑万维发布了新一代世界模型Matrix-Game 3.0。相较于上一代的Matrix-Game 2.0该模型在三个维度进行了系统升级。在记忆注入方面Matrix-Game 3.0在生成当前画面时不仅会看前几帧还会根据相机位置检索出更早的几帧相当于拥有了“记忆力”在抗漂移机制方面Matrix-Game 3.0避免了长时序生成中模型会逐渐偏离真实状态的缺点在蒸馏加速方面采用多段自回归蒸馏框架在训练阶段实现了明显的加速。3月28日【大语言模型】超强编程模型 GLM-5.1 正式发布今天智谱突然发布了新一代编程模型GLM-5.1该模型的编程能力相较于上一代模型GLM-5有了极大的飙升已经接近于全球最强编程模型Claude-4.6 Opus。此次的GLM-5.1率先向 GLM Coding Plan 的所有用户发放包括 Lite、Pro 和 Max 用户。3月30日【世界模型】最强世界模型 GigaWorld-1 发布【重要】近期极佳视界在具身智能领域连续发布了多项成果包括全栈自研的世界排名第一的具身基础大模型GigaBrain-0.1、依托世界模型实现自我进化的新一代原生范式GigaBrains-0.5M等。今天它又发布了全球最强的世界模型GigaWorld-1在世界模型领域的权威评测基准 WorldArena 中击败谷歌、英伟达、阿里等国际顶尖巨头的模型断崖式领先成为榜首。GigaWorld-1在物理遵循、3D 准确度和视觉质量上遥遥领先其他模型。3月31日【全模态模型】超强全模态模型 Qwen3.5-Omini 发布今天阿里正式发布了原生全模态模型Qwen3.5-Omni。该模型可以无缝理解文本、图片、音频和音视频输入并且能够生成支持细粒度、带时间戳的音视频脚本。Qwen3.5-Omni有 Plus、Flash 和 Light 三种尺寸支持 256K 的上下文以及 113 种可识别语言可以处理 10 小时音频或 1 小时视频。Qwen3.5-Omni在基准测试集上取得了 215 项 SOTA整体成绩也和Gemini 3.1 Pro达到同一层次。其中在通用音频理解、推理、识别、翻译和对话上全面超越了Gemini 3.1 Pro音视频理解能力和Gemini 3.1 Pro持平视觉和文本理解能力则与同尺寸的 Qwen3.5 模型持平。Qwen3.5-Omni的一大亮点是自然涌现的 Vibe Coding 能力可以在实时视频通话中根据画面逻辑生成 Python 代码或前端原型。并且该模型支持语义打断。

更多文章