Mark (@MarkHk)TTS文字转语音模型咨询 中发帖

各位佬好, 
最近在做一个小玩具,场景里涉及到聊天对话,文本模型接入的是deepseek v4 flash,再接一个TTS模型转人声。 
TTS目前试过本地部署的index tts 2, qwen3 tts, moss-nano 
也尝试了mimo tts 2.5 
总体感觉下来index tts 2最强,支持音色克隆,情绪控制,人声效果也很好,可惜部署要求太高,5090显卡(租的算力平台)生成都需要很长时间 
moss nano最快,但明显有ai感 
qwen3 tts慢,人声效果中等 
mimo是在线免费的,人声效果也不错,但是情感控制有些问题,经常出现一句话里都是一种情绪,或者不带情绪(情绪标签偶尔不生效?) 
后续部署是想搞一台服务器,不带gpu,所以只能跑cpu或者在线模型了🤣 
想请教各位大佬有没有什么模型推荐,或者有更好的方案🙏🙏 
三色图原理我懂的🤣  不过还是有侥幸心理。 ...
 
 
Back to Top