cyberhunter 在亲测多模态大模型GLM-5V-TURBO，遥遥领先中发帖我测试了 GPT5.4pro、CLAUDE-OUPS-4-7、GLM-5V-TURBO、豆包2.0、qwen3.6、qwen3-VL-PLUS、 Qwen-omni 、Gemini-3.1-pro

cyberhunter 在亲测多模态大模型GLM-5V-TURBO，遥遥领先中发帖

我测试了 GPT5.4pro、CLAUDE-OUPS-4-7、GLM-5V-TURBO、豆包2.0、qwen3.6、qwen3-VL-PLUS、 Qwen-omni  、Gemini-3.1-pro 
最强还是GLM-5V-TURBO。 20分钟的课程视频，逐帧分析、ppt位置、ppt内容、讲师语气语调、手写黑板内容、包括录屏实操展示都能完美识别。 
其他的模型，要么就是缺胳膊少腿，要么就是很慢 
prompt： 
分析这个视频课的类型。 是一种什么上课方式，然后把这个视频课的全部PPT（每页） 导出，并标记时间段。 
 [image] 
 [image] 
 [image] 
[image] 
[image] 
很强了，后续结合文本模型拆解，能够达到很好的效果