Stable-Makeup
Stable-Makeup 是一种基于扩散模型的化妆迁移技术。它能够稳健地将各种现实世界的化妆风格,从自然淡妆到浓艳妆容,精准地迁移到目标图像上。该框架通过多种编码器和化妆交叉注意层的协同作用,确保源图像和参考化妆图像的面部区域完美对齐,从而成功地转移复杂的化妆细节。
CosyVoice 是阿里巴巴通义实验室发布的开源语音生成模型。它专注于自然语音生成,支持多语言、音色和情感控制。CosyVoice 能够生成中、英、日、粤、韩五种语言的语音,并且可以在短短几秒钟内克隆声音,适用于智能助手、教育、音视频制作和智能客服等多种场景。
CosyVoice 本身也是一款免费开源工具,可以部署到本地免费使用,下面简单介绍一下 windows 一键安装包的基础用法:
cosyvoice整合包下载地址
1.下载并解压安装包,记得安装路径中文、特殊字符和空格,否则可能会启动失败;
2. 双击运行 “GPU 诊断” 和 “查看 CUDA 版本” 文件,确保已经安装 CUDA,并且 GPU 可用。然后双击 “运行-CosyVoice-300M” 文件启动程序,等待 WebUI 界面开启(第一次会出现无法打开的提醒,无需理会,等待代码加载完成刷新后 WebUI 会自动打开)。
3. 在 WebUI 界面可以看到 4 种推理模式,每种模式代表不同的功能:
如果想用内置的预设音色生成音频,就选 “预训练音色” 模式。先在「输入合成文本」中输入待转换的文本,然后在「选择预训练音色」处选择一个音色,最后点击底部的「生成音频」,等待音频生成即可。生成的音频会自动保存在根目录的“音频输出”文件夹内
如果想克隆自己的声音在进行配音,选 “3s 极速复刻” 模式,然后按一下步骤操作: