静心方可远行 (@code1880029)最新在做跨境,想做一个实时的同声传译的软件用于whatsapp聊天,请帮忙想想方案, 中发帖

我想做一个同声传译的windows软件,主要实现2个功能: 
1、对方说的英文内容自动翻译成中文文字显示,并且我听见的也是中文; 
2、我说的文中,翻译成英文文字显示,并且对方听见的是英文。 
3、因为是在实时语音聊天,因此要考虑实时性是速度和延迟以及稳定性。 
4、为了能和自己的音色比较接近,声音克隆应该作为扩展。 
目前进度: 
已经使用了火山的doubao_TTS和AST这个方案. 
AST固定音色 
TTS克隆音色 
目前实测下来,有几个问题: 
1、实时性不是很好,有延迟。 
2、如果有背景音或者有噪音(特别是有底噪的时候),翻译的效果不好。 
3、TTS声音克隆收费还挺高的,有免费的方案吗? 
集思广益,请教大家有什么其他方案吗?
 
 
Back to Top