Sanjin (@qsh)有没有大佬,指导下会议系统的实现 中发帖

Agent Meeting 项目:会议转录部分难题 
要求: 
一段会议音频,将各个说话人及其内容提取区分出来 
所有模型本地运行,中英文 
有什么实现方案、技术选型、建议和优化、文章和例子吗? 
我当前的方案 
VAD : pyannote 
ASR : Qwen3-ASR-1.7B 
diarization : pyannote/speaker-diarization-community-1 
标点 : Qwen3-ASR 
声纹识别 : SpeechBrain ECAPA-TDNN(192 维 embedding)+ pgvector 余弦距离匹配
 
 
Back to Top