Infinity Shen 在朋友们，有什么比较好的声音（日语为主）转字幕方案吗？中发帖最近自己下了几个日语音声，想生成srt文件然后翻译一下

Infinity Shen 在朋友们，有什么比较好的声音（日语为主）转字幕方案吗？中发帖

最近自己下了几个日语音声，想生成srt文件然后翻译一下。结果发现各种方案都有一定问题： 
1、直接拿工具提取了纯净人声，然后用buzz，加载whisper large V3去生成字幕，基本还好，但是经常在没声音的地方乱加字幕，以及有时候字幕所对应时间集体错位。 
2、下了qwen-asr 1.7B，识别能力不错，但是自带的字幕时间轴功能及其拉跨，几分钟的音频几个字就当一句音频，有的几百毫秒有的十几秒，很混乱。 
问了下AI，建议我用 faster-whisper 和 Kotoba-Whisper，我觉得好像没那么大必要？ 
我现在需要的是： 
1、模型识别日语能比whisper large v3好一点，或者有什么方法能避免V3乱识别； 
2、打轴可以稳定一些，不要混乱； 
3、最好能有热词功能，指定下人名地名，或者没有也行，我翻译的时候用prompt提示下。 
我看有地方推荐subtitl...