Bunn (@BunnHack) 在打破 20 年垄断！百度 PaddleOCR 超越 Google Tesseract 登顶全球 OCR 开源第一中发帖在全球开源代码托管平台 GitHub 上，一项长达 20 年的纪录被中国项目改写

Bunn (@BunnHack) 在打破 20 年垄断！百度 PaddleOCR 超越 Google Tesseract 登顶全球 OCR 开源第一中发帖

在全球开源代码托管平台 GitHub 上，一项长达 20 年的纪录被中国项目改写。百度文心衍生模型 PaddleOCR 的 GitHub Star 数正式超越 Google 的老牌项目 Tesseract OCR，成为全球排名第一的 OCR开源项目。 
在刚刚公布的 CVPR 2026 入选名单中，PaddleOCR 凭借两篇高质量论文再次惊艳学术界。其中最受瞩目的 PP-OCRv5 模型，参数量仅为 5M，却在特定 OCR 任务上展现出了媲美 GPT-4o（千亿级参数）的性能。 
百度研发团队发现，模型能力的提升不再仅仅依赖架构堆叠，而在于精细化的数据策略。通过寻找模型的“难度甜点区”——即像教小孩做题一样，避开过于简单或过于超纲的题目，在“舒适区”边缘进行高效的题海战术。 
为了回馈社区，百度官方宣布：PaddleOCR 官网的免费解析额度从每天 1 万页直接翻倍至 2 万页！ 
此外...