- 已编辑
一、简介
- Coqui TTS 是一个基于深度学习的文本转语音库
- 提供几十种语言的TTS预处理模型,包括中文
- 支持pip一键安装和docker一键部署
- 开源地址:https://github.com/idiap/coqui-ai-TTS
二、安装启动
启动版本选择
cpu版本
- docker-compose.yml配置文件内容如下
version: '3' services: tts-cpu: image: ghcr.io/coqui-ai/tts-cpu container_name: tts-cpu restart: always ports: - 5002:5002 entrypoint: ["python3"] command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST"] volumes: - ./local:/root/.local #启动后,模型文件会下载到这个目录
- docker-compose.yml配置文件内容如下
gpu版本
- 运行主机需要安装“NVIDIA驱动程序”和“NVIDIA Container Toolkit”(自行安装,不做赘述)
- docker-compose.yml配置文件内容如下
version: '3' services: tts: image: ghcr.io/coqui-ai/tts container_name: tts restart: always ports: - 5002:5002 entrypoint: ["python3"] command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST", "--use_cuda", "true"] volumes: - ./local:/root/.local #启动后,模型文件会下载到这个目录 deploy: resources: reservations: devices: - capabilities: [gpu]
运行启动
直接运行下面命令即可
docker-compose up -d
注意,初次运行需要下载模型,需要耐心等待,输入下面命令查看运行日志
docker-compose logs -f
三、访问使用
使用页面
访问 http://127.0.0.1:5002 页面可以在线测试生成
生成效果展示:
使用接口
提供接口:GET http://127.0.0.1:5002/api/tts
参数设置:
参数名称 说明 text 要生成语音的文本,结尾一定要有标点符号,不然音频会抽风 style_wav 调整语音风格,格式:{"0": 0.1} 其他参数... 不做介绍,貌似对中文TTS不生效 示例音频展示
四、总结
- 存在很多问题:
- 目前只发现一个中文预处理模型,且只有女声
- 中文配音质量一般,有待提升
- 长文本自动中断
- 中英混搭配音卡壳
- 目前只适合拿来学习,个人使用,不适合用于生产