
新元乙智创
元乙智创是浙江元乙智能科技有限公司倾力打造的数字人创作平台,致力于将前沿技术与视频创作完美结合。通过该平台,用户可以根据自己的需求,快速创建出栩栩如生的数字分身,用于文化传播、在线教育、电子商务、文旅体验等各种场景。
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。
CosyVoice 本身也是一款免费开源工具,可以部署到本地免费使用,下面简单介绍一下 windows 一键安装包的基础用法:
cosyvoice整合包下载地址
1.下载并解压安装包,记得安装路径中文、特殊字符和空格,否则可能会启动失败;
2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件,确保已经安装 CUDA,并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序,等待 WebUI 界面开启(第一次会出现无法打开的提醒,无需理会,等待代码加载完成刷新后 WebUI 会自动打开)。
3. 在 WebUI 界面可以看到 4 种推理模式,每种模式代表不同的功能:
如果想用内置的预设音色生成音频,就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本,然后在「选择预训练音色」处选择一个音色,最后点击底部的「生成音频」,等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内
如果想克隆自己的声音在进行配音,选 “3s 极速复刻” 模式,然后按一下步骤操作: