手把手教你用CosyVoice3:从部署到生成第一个克隆语音,全程截图

张开发
2026/4/16 21:13:48 15 分钟阅读

分享文章

手把手教你用CosyVoice3:从部署到生成第一个克隆语音,全程截图
手把手教你用CosyVoice3从部署到生成第一个克隆语音全程截图1. 环境准备与快速部署1.1 系统要求在开始之前请确保你的系统满足以下基本要求操作系统推荐使用Linux系统Ubuntu 20.04或更高版本硬件配置CPU4核以上内存8GB以上显存4GB以上GPU加速效果更佳网络连接需要能够访问GitHub和阿里云镜像仓库1.2 一键部署方法CosyVoice3提供了非常简单的部署方式只需要执行以下命令cd /root bash run.sh这个脚本会自动完成以下工作下载必要的依赖包拉取预训练模型配置运行环境启动Web服务部署过程截图如果遇到卡顿情况可以点击控制面板中的【重启应用】按钮释放资源等待完成启动后再次打开【打开应用】即可。2. 访问Web界面2.1 服务启动确认当看到终端显示如下信息时表示服务已成功启动Running on local URL: http://0.0.0.0:78602.2 浏览器访问在浏览器地址栏输入以下地址访问Web界面http://你的服务器IP:7860如果是本地测试可以直接访问http://localhost:7860Web界面截图3. 创建第一个克隆语音3.1 选择合成模式CosyVoice3提供两种语音合成模式模式特点适用场景3s极速复刻只需3秒音频即可克隆声音快速复制特定人声自然语言控制通过文字描述控制语音风格情感化语音生成3.2 3s极速复刻操作步骤上传音频样本点击选择prompt音频文件按钮上传或点击录制prompt音频文件直接录音建议使用3-10秒清晰语音输入合成文本在顶部文本框中输入想要合成的文字支持200字符以内的内容点击生成点击生成音频按钮等待处理完成操作界面截图3.3 方言与情感控制CosyVoice3支持18种中国方言和丰富的情感表达方言选择在自然语言控制模式下从下拉菜单中选择如用四川话说这句话情感控制选择如用兴奋的语气说这句话或用悲伤的语气说这句话方言与情感选项截图4. 进阶使用技巧4.1 多音字精准控制对于容易读错的多音字可以使用拼音标注她[h][ǎo]干净 → 读作hǎo 她的爱好[h][ào] → 读作hào4.2 英文发音校正使用ARPAbet音素标注确保英文发音准确[M][AY0][N][UW1][T] → 读作minute [R][EH1][K][ER0][D] → 读作record4.3 随机种子使用点击按钮生成随机种子相同种子相同输入相同输出种子范围1-1000000005. 常见问题解决5.1 音频生成失败怎么办检查音频采样率是否≥16kHz确认文本不超过200字符确保已上传音频样本5.2 生成的语音不像原声使用更清晰的音频样本确保样本中只有目标人声尝试3-10秒长度的样本5.3 后台查看生成进度点击【后台查看】可以实时监控音频生成的具体进度和资源使用情况。6. 总结与下一步通过本教程你已经学会了如何一键部署CosyVoice3访问Web界面并选择合成模式生成第一个克隆语音控制方言和情感表达解决常见问题下一步建议尝试不同的方言和情感组合探索多音字和英文发音控制关注项目更新https://github.com/FunAudioLLM/CosyVoice获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章