Infinity Shen 在 朋友们,有什么比较好的声音(日语为主)转字幕方案吗? 中发帖
最近自己下了几个日语音声,想生成srt文件然后翻译一下。结果发现各种方案都有一定问题:
1、直接拿工具提取了纯净人声,然后用buzz,加载whisper large V3去生成字幕,基本还好,但是经常在没声音的地方乱加字幕,以及有时候字幕所对应时间集体错位。
2、下了qwen-asr 1.7B,识别能力不错,但是自带的字幕时间轴功能及其拉跨,几分钟的音频几个字就当一句音频,有的几百毫秒有的十几秒,很混乱。
问了下AI,建议我用 faster-whisper 和 Kotoba-Whisper,我觉得好像没那么大必要?
我现在需要的是:
1、模型识别日语能比whisper large v3好一点,或者有什么方法能避免V3乱识别;
2、打轴可以稳定一些,不要混乱;
3、最好能有热词功能,指定下人名地名,或者没有也行,我翻译的时候用prompt提示下。
我看有地方推荐subtitl...