Paradox (@1parado)Voice2voice 人与AI通话解密 中发帖

今天在用Grok搜有意思的内容的时候,偶然发现 Supertonic这个开源项目,一个超快速、本地运行的多语言文本转语音(TTS)系统(但是不支持中文,中文的话可以找 Mimo-TTS系列模型)。 
核心特点: 


完全本地推理 — 基于 ONNX Runtime,无需云端、无 API 调用、无隐私顾虑 


极低延迟 — 可在边缘设备上实时合成语音 


支持31 种语言 — 包括英文、日文、韩文等 


99M 参数 — 体积小,冷启动快 


然后就引起了我的好奇心,平时我们在和Gemini, 
豆包这些AI语音交流的时候,中间发生了什么? 
[image] 
最新的技术方案还有端到端语音模型(如 GPT-4o realtime、Gemini Live),跳过中间文本环节,直接 spech-to-speech,延迟更低、能保留语气情感但是部署成本高。 
所以让Codex手搓了一个V...
 
 
Back to Top