Infinity Shen朋友们,有什么比较好的声音(日语为主)转字幕方案吗? 中发帖

最近自己下了几个日语音声,想生成srt文件然后翻译一下。结果发现各种方案都有一定问题: 
1、直接拿工具提取了纯净人声,然后用buzz,加载whisper large V3去生成字幕,基本还好,但是经常在没声音的地方乱加字幕,以及有时候字幕所对应时间集体错位。 
2、下了qwen-asr 1.7B,识别能力不错,但是自带的字幕时间轴功能及其拉跨,几分钟的音频几个字就当一句音频,有的几百毫秒有的十几秒,很混乱。 
问了下AI,建议我用 faster-whisper 和 Kotoba-Whisper,我觉得好像没那么大必要? 
我现在需要的是: 
1、模型识别日语能比whisper large v3好一点,或者有什么方法能避免V3乱识别; 
2、打轴可以稳定一些,不要混乱; 
3、最好能有热词功能,指定下人名地名,或者没有也行,我翻译的时候用prompt提示下。 
我看有地方推荐subtitl...
 
 
Back to Top