闲云野鹤 (@DiscoveryH2) 在 视觉模型实现理解视频的可能性 中发帖
目前国产模型的全模态模型(含视觉理解)主要还是以理解图片为主,上传视频文件还是会出现先分离音频、视频,音频如果不覆盖听觉理解则利用fasterwhisper把音频转文字(这里带扰乱因子的音频分析得很糟糕),视频还是根据长度截取视频帧然后依旧做理解图片。目前理解视频有没有不通过截帧得方法做的?