Jedi_Pz 在【求助】如何让 openclaw 直接读取音视频联合输入，从而使用mimo-omni 的音视频理解能力中发帖我搞了 mimo 的 token plan，看到他家 mimo-omni 有音视频理解能力，想让 openclaw 直接看带音频的视频，目前没找到解决方法，求各位佬给看看 🥰

Jedi_Pz 在【求助】如何让 openclaw 直接读取音视频联合输入，从而使用mimo-omni 的音视频理解能力中发帖

我搞了 mimo 的 token plan，看到他家 mimo-omni 有音视频理解能力，想让 openclaw 直接看带音频的视频，目前没找到解决方法，求各位佬给看看 🥰 
目前我问 openclaw 如何能实现，它用 ffmpeg 隔几秒抽一帧，看字幕理解的视频，我感觉这不优雅…… 

openclaw: 通过 yt-dlp 下载视频 → ffmpeg 抽帧 → 我直接看图理解。不过音频转录这块我还没装语音识别工具（FunASR之类的），所以目前主要靠画面上的字幕来理解对话内容。