• AIGC文生音频
  • Coqui TTS一个基于深度学习的文本转语音开源库,支持docker快速部署和API调用

  • 已编辑

一、简介

  • Coqui TTS 是一个基于深度学习的文本转语音库
  • 提供几十种语言的TTS预处理模型,包括中文
  • 支持pip一键安装和docker一键部署
  • 开源地址:https://github.com/idiap/coqui-ai-TTS

二、安装启动

启动版本选择

  1. cpu版本

    • docker-compose.yml配置文件内容如下
      version: '3'
      services:
        tts-cpu:
          image: ghcr.io/coqui-ai/tts-cpu
          container_name: tts-cpu
          restart: always
          ports:
              - 5002:5002
          entrypoint: ["python3"]
          command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST"]
          volumes:
              - ./local:/root/.local #启动后,模型文件会下载到这个目录
  2. gpu版本

    • 运行主机需要安装“NVIDIA驱动程序”和“NVIDIA Container Toolkit”(自行安装,不做赘述)
    • docker-compose.yml配置文件内容如下
      version: '3'
      services:
        tts:
          image: ghcr.io/coqui-ai/tts
          container_name: tts
          restart: always
          ports:
              - 5002:5002
          entrypoint: ["python3"]
          command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST", "--use_cuda", "true"]
          volumes:
              - ./local:/root/.local #启动后,模型文件会下载到这个目录
          deploy:
            resources:
              reservations:
                devices:
                  - capabilities: [gpu]

运行启动

直接运行下面命令即可

docker-compose up -d

注意,初次运行需要下载模型,需要耐心等待,输入下面命令查看运行日志

docker-compose logs -f

三、访问使用

使用页面

使用接口

  • 提供接口:GET http://127.0.0.1:5002/api/tts

  • 参数设置:

    参数名称说明
    text要生成语音的文本,结尾一定要有标点符号,不然音频会抽风
    style_wav调整语音风格,格式:{"0": 0.1}
    其他参数...不做介绍,貌似对中文TTS不生效
  • 请求下示例:

  • 示例音频展示

四、总结

  • 存在很多问题:
    • 目前只发现一个中文预处理模型,且只有女声
    • 中文配音质量一般,有待提升
    • 长文本自动中断
    • 中英混搭配音卡壳
  • 目前只适合拿来学习,个人使用,不适合用于生产