Kokoro TTS:好用的文本转语言模型

天天

发布于304天前
龙猫也是猫
## Kokoro TTS是什么

简单说,Kokoro-FastAPI 是一个基于 Kokoro-82M 文本转语音模型的 Docker 化 FastAPI 封装,支持多语言(英语、日语、中文),提供 OpenAI 兼容的语音接口,支持 NVIDIA GPU 加速或 CPU 推理。

用人话说就是:**你扔给它一段文字,它能用各种声音念出来,而且还挺自然的**。



https://appstore.lazycat.cloud/#/shop/detail/cloud.lazycat.app.kokoro



## 如何使用

应用安装后,打开主页面

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/9c24375c-2971-4f1d-8784-7a84f846b40b.png "image.png")

最基础的用法,把文字变成语音文件:

在文本框中输入内容,超过500字符会自动分页

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/23523eeb-b0ab-4706-a82d-05340d20f3b3.png "image.png")

选择语言模型

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/2a095758-2841-4735-9f2c-1ff273bda142.png "image.png")

这个功能很有意思,可以把多个声音混合:
 
![image.png](https://dl.playground.lazycat.cloud/guidelines/496/945ac3de-8562-4710-bbc3-b7c25ebb39a4.png "image.png")

选择语言速度、语言,点击生成按钮

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/782e3e55-f42a-4d15-9314-ea7e1d99d315.png "image.png")

如果是一页的数据,大概2分钟左右,生成之后,点击play听一下效果

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/5f1897d5-3740-43e8-a8fa-3a7d037be208.png "image.png")

右下角的下载按钮可以下载mp3文件。
    
查看 `/v1/audio/voices` 接口获取所有可用声音列表。

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/20876f01-b733-4739-86b4-6e93c9812174.png "image.png")

英文的效果也不错,感觉音色更自然一些

![image.png](https://dl.playground.lazycat.cloud/guidelines/496/f189b057-4679-4c6e-8506-d0476be705b9.png "image.png")

## 总结

Kokoro 是个相当不错的本地 TTS 解决方案,特别适合:
**内容创作者**:需要批量生成语音内容
**隐私敏感用户**:不想把文本发到云端


最重要的是,这玩意儿**完全免费开源**,不用担心 API 额度用完或者服务停止。

评论

0

暂无评论

说点什么呢~
收藏
0
0
0