Paradox (@1parado) 在 Voice2voice 人与AI通话解密中发帖今天在用Grok搜有意思的内容的时候，偶然发现 Supertonic这个开源项目，一个超快速、本地运行的多语言文本转语音（TTS）系统（但是不支持中文，中文的话可以找 Mimo-TTS系列模型）

Paradox (@1parado) 在 Voice2voice 人与AI通话解密中发帖

今天在用Grok搜有意思的内容的时候，偶然发现 Supertonic这个开源项目，一个超快速、本地运行的多语言文本转语音（TTS）系统（但是不支持中文，中文的话可以找 Mimo-TTS系列模型）。 
核心特点： 


完全本地推理 — 基于 ONNX Runtime，无需云端、无 API 调用、无隐私顾虑 


极低延迟 — 可在边缘设备上实时合成语音 


支持31 种语言 — 包括英文、日文、韩文等 


99M 参数 — 体积小，冷启动快 


然后就引起了我的好奇心，平时我们在和Gemini， 
豆包这些AI语音交流的时候，中间发生了什么？ 
[image] 
最新的技术方案还有端到端语音模型（如 GPT-4o realtime、Gemini Live），跳过中间文本环节，直接 spech-to-speech，延迟更低、能保留语气情感但是部署成本高。 
所以让Codex手搓了一个V...