Kokoro TTS：好用的文本转语言模型

Kokoro TTS是什么

简单说，Kokoro-FastAPI 是一个基于 Kokoro-82M 文本转语音模型的 Docker 化 FastAPI 封装，支持多语言（英语、日语、中文），提供 OpenAI 兼容的语音接口，支持 NVIDIA GPU 加速或 CPU 推理。

用人话说就是：你扔给它一段文字，它能用各种声音念出来，而且还挺自然的。

https://appstore.lazycat.cloud/#/shop/detail/cloud.lazycat.app.kokoro

应用安装后，打开主页面

最基础的用法，把文字变成语音文件：

在文本框中输入内容，超过500字符会自动分页

选择语言模型

这个功能很有意思，可以把多个声音混合：

选择语言速度、语言，点击生成按钮

如果是一页的数据，大概2分钟左右，生成之后，点击play听一下效果

右下角的下载按钮可以下载mp3文件。

查看 /v1/audio/voices 接口获取所有可用声音列表。

英文的效果也不错，感觉音色更自然一些

Kokoro 是个相当不错的本地 TTS 解决方案，特别适合：
内容创作者：需要批量生成语音内容
隐私敏感用户：不想把文本发到云端

最重要的是，这玩意儿完全免费开源，不用担心 API 额度用完或者服务停止。