Coqui TTS 一个基于深度学习的文本转语音开源库，支持 docker 快速部署和 API 调用

luler · 2025-03-10T05:43:01+00:00

一、简介 Coqui TTS 是一个基于深度学习的文本转语音库提供几十种语言的TTS预处理模型，包括中文支持pip一键安装和docker一键部署开源地址：https://github.com/idiap/coqui-ai-TTS 二、安装启动启动版本选择 cpu版本 docker-compose....

luler

一、简介

Coqui TTS 是一个基于深度学习的文本转语音库
提供几十种语言的TTS预处理模型，包括中文
支持pip一键安装和docker一键部署
开源地址：https://github.com/idiap/coqui-ai-TTS

二、安装启动

启动版本选择

cpu版本

docker-compose.yml配置文件内容如下

version: '3'
services:
  tts-cpu:
    image: ghcr.io/coqui-ai/tts-cpu
    container_name: tts-cpu
    restart: always
    ports:
        - 5002:5002
    entrypoint: ["python3"]
    command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST"]
    volumes:
        - ./local:/root/.local #启动后，模型文件会下载到这个目录

gpu版本

运行主机需要安装“NVIDIA驱动程序”和“NVIDIA Container Toolkit”（自行安装，不做赘述）

docker-compose.yml配置文件内容如下

version: '3'
services:
  tts:
    image: ghcr.io/coqui-ai/tts
    container_name: tts
    restart: always
    ports:
        - 5002:5002
    entrypoint: ["python3"]
    command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST", "--use_cuda", "true"]
    volumes:
        - ./local:/root/.local #启动后，模型文件会下载到这个目录
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

运行启动

直接运行下面命令即可

docker-compose up -d

注意，初次运行需要下载模型，需要耐心等待，输入下面命令查看运行日志

docker-compose logs -f

三、访问使用

使用页面

访问 http://127.0.0.1:5002 页面可以在线测试生成
生成效果展示：

使用接口

提供接口：GET http://127.0.0.1:5002/api/tts

参数设置：

参数名称	说明
text	要生成语音的文本，结尾一定要有标点符号，不然音频会抽风
style_wav	调整语音风格，格式：{"0": 0.1}
其他参数...	不做介绍，貌似对中文TTS不生效

请求下示例：
示例音频展示

四、总结

存在很多问题：
- 目前只发现一个中文预处理模型，且只有女声
- 中文配音质量一般，有待提升
- 长文本自动中断
- 中英混搭配音卡壳
目前只适合拿来学习，个人使用，不适合用于生产