@sallyn记录一些语音相关大模型的东西 | 语音识别(ASR), 文字转语音(TTS), 音色转换(STS)相关的项目 中发帖

语音识别部分
一、标志性的Whisper
openAI做的转录模型,开源,而且可以输出SRT。当时出来了减轻了很多字幕组的工作量。但是在今天的精度已经比不过如qwen3-asr等模型。 
仓库:GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision · GitHub 
我之前很喜欢的一个GUI页面:GitHub - CheshireCC/faster-whisper-GUI: faster_whisper GUI with PySide6 · GitHub 
我之前在用的打轴+翻译工具整合包(基于Whisper): https://www.bilibili.com/video/BV1MWhGz5Ej9 
faster-whisper 模型下载:Models – Hugging F...
 
 
Back to Top