CosyVoice

5个月前发布 3,185 0 0

CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成，支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音，并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。

收录时间：

2025-07-06

打开网站手机查看

AI工具合集 AI音频工具 # CosyVoice # 实时语音合成 # 开源语音生成模型

CosyVoice

CosyVoice

主要功能特点

多语言支持：CosyVoice 能生成中文、英文、日文、粤语和韩语等多种语言的自然语音。
零样本语音克隆：只需提供几秒钟的目标说话人语音样本，即可模仿该说话人的声音特征，生成与之相似的语音。
跨语言语音合成：可以使用一种语言的语音样本合成另一种语言的语音，例如用中文语音样本合成英语语音。
指令控制语音生成：支持通过指令控制生成语音的情感、语气、重音等细节，使得合成语音更加丰富多样。
流式推理：支持流式推理模式，实现实时语音合成，适用于智能客服和实时语音翻译等需要即时响应的应用场景。

CosyVoice一键安装包使用方法

CosyVoice 本身也是一款免费开源工具，可以部署到本地免费使用，下面简单介绍一下 windows 一键安装包的基础用法：

cosyvoice整合包下载地址

1.下载并解压安装包，记得安装路径中文、特殊字符和空格，否则可能会启动失败；

2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件，确保已经安装 CUDA，并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序，等待 WebUI 界面开启（第一次会出现无法打开的提醒，无需理会，等待代码加载完成刷新后 WebUI 会自动打开）。

3. 在 WebUI 界面可以看到 4 种推理模式，每种模式代表不同的功能：

预训练音色：使用程序内置 7 种音色，将文本转换为语音。
3s 极速复刻：通过音频克隆音色，用新音色将同语种文本转为语音。
跨语种复刻：通过音频克隆音色，然后用新音色将不同语种的文字转换为语音。
自然语言控制：通过在文本中插入情绪标签，为配音添加笑声、停顿等元素。

如果想用内置的预设音色生成音频，就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本，然后在「选择预训练音色」处选择一个音色，最后点击底部的「生成音频」，等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内

如果想克隆自己的声音在进行配音，选 “3s 极速复刻” 模式，然后按一下步骤操作：

先在「输入合成文本」中输入待转换的文本，
然后在「参考音频」处上传自己的声音文件（或用麦克风录制一份）。声音文件不要超过 30s，人声清晰不能有杂音，录制要连贯，不要有中断。
在「输入 prompt 文本」处输入上传音频的文字内容，比如我录的音频内容是“我是花生，很高兴和大家见面”，就把这几个字原封不动的填写进去。
点击底部的「生成音频」，等待音频生成，这里的音频就是用你自己的声音了。
完成后可以在「输入新的音色名称」处为我们的音色命名，比如我的是“XHS”，然后点击「保存刚刚推理的 zero-shot 音色」，我们的声音就会被保存为一个文件。之后在“预训练音色”模式下，可以在「选择新增音色」处随时选择使用我们自己的音色了。

数据统计

相关导航

Stable-Makeup

Stable-Makeup 是一种基于扩散模型的化妆迁移技术。它能够稳健地将各种现实世界的化妆风格，从自然淡妆到浓艳妆容，精准地迁移到目标图像上。该框架通过多种编码器和化妆交叉注意层的协同作用，确保源图像和参考化妆图像的面部区域完美对齐，从而成功地转移复杂的化妆细节。

DUIX

DUIX是硅基智能打造的AI数字人智能交互平台。通过将数字人交互能力开源，开发者可自行接入多方大模型、语音识别（ASR）、语音合成（TTS）能力，实现数字人实时交互，并在Android和iOS多终端一键部署，让每个开发者可轻松创建智能化、个性化的数字人Agent，并应用到各行各业。

ElevenLabs

ElevenLabs提供了一个先进的文本转语音和语音生成的平台，让用户可以在29种语言和120种声音中快速生成逼真的语音。用户可以用这个平台为视频、有声书、游戏、聊天机器人等创建自然的语音内容，并使用各种工具和API来定制和集成语音技术。

AI Manga Translator

AI Manga Translator 是一款AI漫画翻译器，可让您轻松快速地将您喜爱的漫画或扫描件翻译成多种语言。它可以自动检测并翻译漫画对话框中的日文，将其翻译成简体或繁体中文，并自动嵌入翻译后的文字。

Public Prompts

Public Prompts是一个高质量免费的AI绘画提示词库，提供了一系列免费、高质量的提示（Prompts）。这些提示用于指导和启动机器学习模型，生成特定类型、主题或格式的输出。

Endless tools

Endless Tools 是一款功能强大的在线3D设计工具，可以帮助用户快速设计令人印象深刻的3D效果。它提供多种功能，包括封面设计、海报制作、精美排版、3D 插图和照片效果。通过 Endless Tools，您可以轻松进行 3D 排版、应用多种材质和字体、选择和定制 3D 模型，并将矢量图形转化为 3D 作品。

美图MoKi

美图MoKi是美图公司推出的一款AI短片创作工具。它能够在用户完成脚本、视觉风格、角色等前期设定后，自动生成分镜图并转换为视频素材。此外，MoKi还提供智能剪辑、AI配乐、AI音效和自动字幕等功能，帮助用户串联素材并制作成短片。

Trinka AI

Trinka AI是一个专为学术写作设计的人工智能助手。它可以提高写作的清晰度，纠正语法错误，检查一致性，并评估引文质量。

暂无评论

暂无评论...