Yaqilin 在 求咨询可靠的 工业化流水线字幕识别和翻译的工具方法 中发帖
如题,目前小弟用的是最原始的whisperX的模型然后来做的字幕打轴和转录,缺点是 不能实时,这个打轴的精确度不是简单调节个参数就能搞的了的,只能一个一个自己调整,生成的json文件的断句问题我自己用AI写了个脚本勉强解决,现在市面上这种自动转录加翻译的工具还是挺多的吧 Github一抓一大把,就因为多所以才不好选,所以想着怎么优化选择 一大堆都是在开源的whisperx的基础上搞得 前段时间还有根据阿里的ASR模型的,不过这个我还没怎么接触过 只是大概知道中文的识别能力很强 但是对于日语的效果一般。
我还用过Potplayer的那个自动翻译的 那个也是基于whisper模型的本地调用 而且 因为是实时的 如果你电脑差一点 视频最差也要掉帧或者是音画不同步,而且好像不能本地导出生成字幕文件(?)所以请问一下大佬们有没有配置要求更低更有效的方式来做这种工业化的实时字幕生成加翻译的办法呢,很...