GPT-SoVITS-WebUI 初体验

一、安装

conda create -n GPTSoVits python=3.9

#
# To activate this environment, use
#
# $ conda activate GPTSoVits
#
# To deactivate an active environment, use
#
# $ conda deactivate

二、激活环境

conda activate GPTSoVits

三、补充安装依赖

bash install.sh

四、退出

conda deactivate

五、AutoDL镜像项目启动方法

开启WebUI

echo {}> ~/GPT-SoVITS/i18n/locale/en_US.json && source activate GPTSoVits && cd ~/GPT-SoVITS/ && python webui.py zh_CN

作者：RVC-Boss
链接：https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official
来源：CodeWithGpu

如果把目录移动到了数据盘

echo {}> ~/autodl-tmp/GPT-SoVITS/i18n/locale/en_US.json && source activate GPTSoVits && cd ~/autodl-tmp/GPT-SoVITS/ && python webui.py zh_CN

辨别不同的端口

WebUI 端口 http://localhost:9874/

UVR5 端口 http://localhost:9873/

数据达标端口 http://localhost:9871/

TTS推理端口 http://localhost:9872/

这些端口你要主动启动了才会有

UVR5 需要的模型

UVR5 所用到的模型放置路径

GPT-SoVITS/tools/uvr5/uvr5_weights

UVR5 可能用得到的模型

model_bs_roformer_ep_317_sdr_12.9755

数据准备

音频数据清洗和音频切割、音频数据打标是关键

其中音频数据打标最为致命，非常花时间，我一般直接跳过。。。。。。

在打标之前先用UVR5进行音频伴奏分离、混响分离，提取出稍微干净一些的人声

然后就是音频切割，如果是4090，建议每一份切割后的音频都在24秒以下，20秒左右

于是我自个儿尝试了以下调整，不一定对啊，参考啊

threshold 不懂不动

min_length 应该是多长的话语切割一次，不满这个时长则继续等到不少于这个时长为止单位是毫秒

4090只有24GB显存我把这个参数调成了 20000 即 20秒

min_interval 应该是说话停顿，说话没有到达停顿就不要切割

我设置成了 100 ，我怕录音中说话比较密，等讲话者换气的时候 100毫秒是足够了

max_sil_kept 看起来就是静音时间我从默认的500 改成了100

TTS推理

推理主要是把原先的数据集放回去参考

可能还有更好的方法，但是这个方法是真的简单方便

张士玉小黑屋

当前位置：首页 » 《我的小黑屋》 » 正文

10 人参与 2024年09月28日 19:20 分类 : 《我的小黑屋》评论

一、安装

二、激活环境

三、补充安装依赖

四、退出

五、AutoDL镜像项目启动方法

辨别不同的端口

UVR5 需要的模型

数据准备

TTS推理

评论（0）

赞助本站

search zhannei

最新文章

张士玉小黑屋

当前位置：首页 » 《我的小黑屋》 » 正文

GPT-SoVITS-WebUI 初体验

10 人参与 2024年09月28日 19:20 分类 : 《我的小黑屋》 评论

一、安装

二、激活环境

三、补充安装依赖

四、退出

五、AutoDL镜像项目启动方法

辨别不同的端口

UVR5 需要的模型

数据准备

TTS推理

评论（0） 赞助本站

search zhannei

最新文章

10 人参与 2024年09月28日 19:20 分类 : 《我的小黑屋》评论

评论（0）

赞助本站