Sanjin (@qsh) 在有没有大佬，指导下会议系统的实现中发帖Agent Meeting 项目：会议转录部分难题

Sanjin (@qsh) 在有没有大佬，指导下会议系统的实现中发帖

Agent Meeting 项目：会议转录部分难题 
要求： 
一段会议音频，将各个说话人及其内容提取区分出来 
所有模型本地运行，中英文 
有什么实现方案、技术选型、建议和优化、文章和例子吗？ 
我当前的方案 
VAD : pyannote 
ASR : Qwen3-ASR-1.7B 
diarization : pyannote/speaker-diarization-community-1 
标点 : Qwen3-ASR 
声纹识别 : SpeechBrain ECAPA-TDNN（192 维 embedding）+ pgvector 余弦距离匹配