Jedi_Pz【求助】如何让 openclaw 直接读取音视频联合输入,从而使用mimo-omni 的音视频理解能力 中发帖

我搞了 mimo 的 token plan,看到他家 mimo-omni 有音视频理解能力,想让 openclaw 直接看带音频的视频,目前没找到解决方法,求各位佬给看看 🥰 
目前我问 openclaw 如何能实现,它用 ffmpeg 隔几秒抽一帧,看字幕理解的视频,我感觉这不优雅…… 

openclaw: 通过 yt-dlp 下载视频 → ffmpeg 抽帧 → 我直接看图理解。不过音频转录这块我还没装语音识别工具(FunASR之类的),所以目前主要靠画面上的字幕来理解对话内容。
 
 
Back to Top