longlong (@EricOnly) 在 阿里Ovis2.6开源发布 中发帖
阿里国际 AI 团队(AIDC-AI)近正式发布并开源了 Ovis2.6 系列模型。这是 Ovis 系列多模态大模型的最新重大迭代。
1. 核心定位:极致的文字渲染与 OCR 能力
Ovis2.6 最显著的进化在于其对视觉文字的处理能力。它旨在解决多模态模型在复杂排版、长文本 OCR 以及图像中文字生成(Text Rendering)方面的短板。
高保真文字渲染: 7B 参数规模的 Ovis-Image 在文字生成精度上表现惊人。在 CVTG-2K 榜单上,其 Word Accuracy 达到 0.9200,超越了参数量更大的 Qwen-Image (0.8288) 甚至 GPT-4o (0.8569)。
长文本 OCR 优势: 针对海报、Banner、UI 原型、信息图表等文字密集场景进行了深度优化,尤其在中文长文本渲染得分(LongText-Bench-ZN: 0.964)上处于...