cyberhunter 在 亲测多模态大模型GLM-5V-TURBO,遥遥领先 中发帖
我测试了 GPT5.4pro、CLAUDE-OUPS-4-7、GLM-5V-TURBO、豆包2.0、qwen3.6、qwen3-VL-PLUS、 Qwen-omni 、Gemini-3.1-pro
最强还是GLM-5V-TURBO。 20分钟的课程视频,逐帧分析、ppt位置、ppt内容、讲师语气语调、手写黑板内容、包括录屏实操展示都能完美识别。
其他的模型,要么就是缺胳膊少腿,要么就是很慢
prompt:
分析这个视频课的类型。 是一种什么上课方式,然后把这个视频课的全部PPT(每页) 导出,并标记时间段。
[image]
[image]
[image]
[image]
[image]
很强了,后续结合文本模型拆解,能够达到很好的效果