
淘宝星辰
淘宝星辰是淘宝天猫集团自研的大模型,它基于Transformer架构,并使用半自主开发的Megatron-ama框架进行训练。这款大模型主要针对平台商家和消费者提供服务,旨在增强电商和生活服务场景的体验。
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。
CosyVoice 本身也是一款免费开源工具,可以部署到本地免费使用,下面简单介绍一下 windows 一键安装包的基础用法:
cosyvoice整合包下载地址
1.下载并解压安装包,记得安装路径中文、特殊字符和空格,否则可能会启动失败;
2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件,确保已经安装 CUDA,并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序,等待 WebUI 界面开启(第一次会出现无法打开的提醒,无需理会,等待代码加载完成刷新后 WebUI 会自动打开)。
3. 在 WebUI 界面可以看到 4 种推理模式,每种模式代表不同的功能:
如果想用内置的预设音色生成音频,就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本,然后在「选择预训练音色」处选择一个音色,最后点击底部的「生成音频」,等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内
如果想克隆自己的声音在进行配音,选 “3s 极速复刻” 模式,然后按一下步骤操作: