微软一口气发布3个AI模型:能听、会说、还能画,实测后我有点意外

张开发
2026/4/15 19:41:08 15 分钟阅读

分享文章

微软一口气发布3个AI模型:能听、会说、还能画,实测后我有点意外
4月2号微软一口气发布了三款模型 MAI-Transcribe-1听 MAI-Voice-1说 MAI-Image-2画乍一看这是在补齐“多模态三件套”。 但问题是 它们真的好用吗我简单做了一轮体验聊点更真实的感受。 MAI-Image-2这次微软在“画图”上确实有点东西 模型概述MAI-Image-2 是一款文本生成图像模型可以根据自然语言提示生成高质量图像适用于设计、创意生成等场景。 实际体验重点我用几个典型场景测试了一下 测试内容Prompt 长焦镜头 | 展示了长焦镜头下一只猎豹在郁郁葱葱的森林中站立面对镜头背景被巧妙地虚化猎豹的面部成为画面的绝对焦点。阳光透过树叶的缝隙洒在猎豹身上形成斑驳的光影效果增强了视觉冲击力。MAI-Image-2 模型生成效果如下Prompt 逆光 | 展示了在逆光环境下模特轮廓线条更加分明金色的光线以及丝绸环绕在模特周围形成梦幻般的光环效果。整个场景充满艺术气息展现了高水准的摄影技术和创意。MAI-Image-2 模型生成效果如下Prompt 远景镜头 | 展示了远景镜头在壮丽的雪山背景下两个小小的人影站在远处山顶背对着镜头静静地观赏着日落的美景。夕阳的余晖洒在雪山上呈现出一片金黄色的光辉与蔚蓝的天空形成鲜明对比。两人仿佛被这壮观的自然景象所吸引整个画面充满了宁静与和谐。MAI-Image-2 模型生成效果如下Prompt 仰视视角 | 展示了热带地区的壮观景象高大的椰子树如同参天巨人般耸立枝叶茂盛直指蓝天。镜头采用仰视视角让观众仿佛置身树下感受大自然的雄伟与生机。阳光透过树叶间隙洒落形成斑驳光影增添了几分神秘与浪漫。整个画面充满了热带风情让人仿佛能闻到椰香感受到微风拂面的惬意。MAI-Image-2 模型生成效果如下冰川之上一头猛犸踏雪而行MAI-Image-2 模型生成效果如下整体感觉 更像一个“设计工具”而不是纯创意型模型 MAI-Transcribe-1真正的强点不在“转写”MAI-Transcribe-1 是语音转文本模型但它真正的价值其实不在“能转写”而在在嘈杂环境下依然能稳定工作 核心优势支持 25 种语言抗噪能力强自动语言识别 这一点在实际应用中非常关键尤其是会议、通话场景 我的判断 这是最接近“产品级能力”的一个模型如果你是做会议系统语音Agent客服系统 这个模型值得重点关注 MAI-Voice-1不惊艳但很实用MAI-Voice-1 是文本转语音模型。它的特点很明确自然、情绪丰富、而且可控 能力亮点高保真语音情绪控制逐句支持语音克隆目前 MAI-Transcribe-1 和 MAI-Voice-1 还未开放体验因此暂时无法做真实测试。不过我们目前仍在使用微软上一代语音模型包括语音识别和语音合成其整体表现已经相当成熟和稳定。 等新模型解锁后我会补一轮实测。相比很多后来者微软在语音领域已经积累了超过20年这也是为什么它在语音能力上一直比较稳。总结MAI-Image-2 在稳定性和细节上优于 GPT-image-1.5语音方面微软延续了一贯的“稳”路线MAI-Transcribe-1 强化抗噪更贴近真实场景MAI-Voice-1 不算惊艳但更自然、更可控这波更新不一定最炸但很实用。

更多文章