前言
ChatTTS(Chat Text-to-Speech)是一款专为对话场景设计的文本转语音(TTS)模型,支持中文和英文,特别适用于大型语言模型(LLM)助手的对话任务。该模型在语音合成中表现出高质量和自然度,能够生成自然流畅的语音。本手册将详细介绍ChatTTS的安装、配置及使用方法。
1. 安装ChatTTS
1.1 准备工作
确保你的计算机已安装Python及必要的库。ChatTTS推荐使用Python 3.x版本。
1.2 下载或克隆项目
你可以通过GitHub或Gitee获取ChatTTS的源代码。推荐使用Git进行克隆:
git clone https://github.com/2noise/ChatTTS.git cd ChatTTS
解释
或者,你也可以直接下载项目的压缩包并解压。
1.3 安装依赖
在项目根目录下,使用pip安装所需的Python依赖:
pip install -r requirements.txt
注意:如果遇到torch版本不兼容的问题,请按照提示修改requirements.txt
文件中的torch版本。
2. 使用ChatTTS
2.1 谷歌Colab使用(适用于初学者)
如果你不想在本地安装复杂的环境,可以使用谷歌Colab来运行ChatTTS。但请注意,这种方式可能需要科学上网并注册谷歌账号。
访问谷歌Colab并登录你的谷歌账号。导入ChatTTS的Colab笔记本(如果有的话),或者根据官方提供的教程步骤操作。按照Colab中的指示填写需要转换的文本,并运行代码生成语音。2.2 本地使用
2.2.1 基本用法
加载模型:首先,你需要加载ChatTTS模型。确保你的模型文件(如Vocos.pt
, GPT.pt
等)已经下载并放置在正确的目录下。
from ChatTTS import ChatTTS import torchaudio chat = ChatTTS.Chat() chat.load_models( vocos_config_path='path/to/vocos.yaml', vocos_ckpt_path='path/to/Vocos.pt', gpt_config_path='path/to/gpt.yaml', gpt_ckpt_path='path/to/GPT.pt', decoder_config_path='path/to/decoder.yaml', decoder_ckpt_path='path/to/Decoder.pt', tokenizer_path='path/to/tokenizer.pt' )
文本转语音:使用infer
方法将文本转换为语音。
texts = ["你好,欢迎使用ChatTTS!"] wavs = chat.infer(texts, use_decoder=True) torchaudio.save("output.wav", torch.from_numpy(wavs[0]), 24000)
2.2.2 高级用法
ChatTTS支持多种高级功能,如音色选择、韵律控制等。
音色选择:通过修改sample_random_speaker
或设置固定的seed
值来选择不同的音色。韵律控制:利用params_infer_code
参数来精细控制韵律特征,如笑声、停顿等。 2.3 WebUI使用
ChatTTS还提供了WebUI界面,方便用户直接在网页上进行操作。
启动WebUI:在项目目录下,使用以下命令启动WebUI服务。
export CUDA_VISIBLE_DEVICES=0 # 指定使用的GPU nohup python examples/web/webui.py --server_name 0.0.0.0 --server_port 8888 > webui.log 2>&1 &
访问WebUI:在浏览器中打开http://localhost:8888
,即可访问ChatTTS的WebUI界面。
输入文本并合成语音:在WebUI界面的文本框中输入需要转换的文本,选择合适的音色和韵律参数,点击“合成”按钮即可生成语音文件。