Spark-TTS

5个月前发布 2,705 0 0

Spark-TTS是SparkAudio团队开源的基于大型语言模型（LLM）的高效文本转语音（TTS）工具，无需额外的生成模型，直接从LLM预测的编码中重建音频，实现零样本文本到语音的转换。Spark-TTS支持中英双语，具备跨语言合成能力，可通过参数调整（如性别、音调、语速）生成虚拟说话者的声音，满足多样化需求。

收录时间：

2025-07-06

打开网站手机查看

Spark-TTS

打开网站

Spark-TTS是什么？

Spark-TTS是一个由大型语言模型（LLM）驱动的先进文本转语音（TTS）系统，具备零样本语音克隆、中英文双语合成和可控语音生成等功能。直接从 Qwen2.5 语言模型代码输出重建音频，并不需要额外的声学模型。支持上传一段音频/录音作为语音模板进行克隆，同时可以控制性别、音高、语速参数来生成对应的发音，声音流畅自然且充满变化，具有多种不同用途场景。其提供了命令行及 webUI 操作入口两个界面对外交互。适配研究、内容创作、语音助手、教育等多种应用场景。

主要功能特点

零样本语音克隆：无需训练数据，几秒钟的参考音频就能“复刻”说话者的声音，用于个性化语音合成与虚拟角色塑造。
中英文双语支持：可以合成中文或英文语音，也可以一句话中混用中英两种语言。
可控语音生成：支持改变性别、音调、语速等参数，创造出不同风格的虚拟说话人，适配不同内容场景。
简化架构，高效推理：基于 Qwen2.5 构建而来，可以直接在 LLM 预测出的代码上重建出音频，不需要声学模型的参与。
Web UI 与命令行双支持：提供图形界面及 CLI 命令行工具，支持上传或者录音，面向不同的用户群体。
跨平台部署能力：本地部署和云端推理皆可，支持集成到各种内容创作平台、语音助手以及教育软件应用等场景。
开源透明，研究友好：已在 GitHub 上开源发布，使用 Apache 2.0 许可证，适合学术研究、产品原型开发与商业集成。

应用场景

AI 虚拟主播与配音
个性化语音助手与客服机器人
有声书、播客与短视频配音
教育内容语音生成与无障碍辅助
多语言语音研究与语音 UI 原型设计

Spark-TTS的使用方法

1. 环境准备

安装依赖：确保已安装 Python（建议版本 3.12 或更高）和 Conda 环境管理工具。

克隆代码仓库：运行以下命令将 Spark-TTS 仓库克隆到本地：

git clone https://github.com/SparkAudio/Spark-TTS.git

cd Spark-TTS

创建虚拟环境：使用 Conda 创建并激活虚拟环境：

conda create -n sparktts -y python=3.12

conda activate sparktts

安装依赖库：运行以下命令安装所需依赖：

pip install -r requirements.txt

2. 下载预训练模型

通过 Python 下载：

from huggingface_hub import snapshot_download

snapshot_download(“SparkAudio/Spark-TTS-0.5B”, local_dir=”pretrained_models/Spark-TTS-0.5B”)

通过 Git 下载：

mkdir -p pretrained_models

git lfs install

git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

3. 基本使用

运行示例脚本：

cd example

bash infer.sh

命令行生成语音：

python -m cli.inference

–text “需要合成的文本”

–device 0

–save_dir “保存音频的路径”

–model_dir pretrained_models/Spark-TTS-0.5B

–prompt_text “提示音频的文本内容”

–prompt_speech_path “提示音频的路径”

4. 使用 Web 界面

启动 Web UI：运行以下命令启动界面：

python webui.py –device 0

功能支持：Web 界面支持语音克隆和语音生成，可上传参考音频或直接录制音频。

5. 可选功能

语音克隆：上传参考音频，生成与参考音频相似的语音。
语音参数调整：通过调整性别、语速、音高等参数，生成个性化语音。

Spark-TTS的GitHub仓库：https://github.com/SparkAudio/Spark-TTS

数据统计

暂无评论

暂无评论...

Spark-TTS

Spark-TTS是什么？

主要功能特点

应用场景

Spark-TTS的使用方法

数据统计

相关导航

堆友

Vheer

气泡岛AI

Zonos TTS

AI小聚

词爪

Ghiblio Art

左脉・梦幻师

暂无评论

标签云