闲云野鹤 (@DiscoveryH2) 在视觉模型实现理解视频的可能性中发帖目前国产模型的全模态模型（含视觉理解）主要还是以理解图片为主，上传视频文件还是会出现先分离音频、视频，音频如果不覆盖听觉理解则利用fasterwhisper把音频转文字（这里带扰乱因子的音频分析得很糟糕），视频还是根据长度截取视频帧然后依旧做理解图片

闲云野鹤 (@DiscoveryH2) 在视觉模型实现理解视频的可能性中发帖

目前国产模型的全模态模型（含视觉理解）主要还是以理解图片为主，上传视频文件还是会出现先分离音频、视频，音频如果不覆盖听觉理解则利用fasterwhisper把音频转文字（这里带扰乱因子的音频分析得很糟糕），视频还是根据长度截取视频帧然后依旧做理解图片。目前理解视频有没有不通过截帧得方法做的？