10月16日,PaddlePaddle团队正式发布了最新的视觉语言模型PaddleOCR-VL,一经推出就轰动全球OCR(光学字符识别)领域。该模型在权威评测OmniDocBench V1.5中以0.9B参数取得92.56分,超越包括DeepSeek-OCR在内的所有主流模型,成功登上全球OCR榜单第一。
截至10月21日,Huggingface全球模特趋势榜(Trending Models)前三名均被OCR模特占据:
- 🥇桨OCR-VL(桨桨)
- 🥈DeepSeek-OCR
- 🥉纳米网OCR
其中,来自百度的 PaddleOCR-VL 已连续 5 天位居榜首,成为目前最受关注的开源 OCR 模型。
PaddleOCR-VL支持109种语言识别,准确解析文本、表格、公式和图表,并具备文档语义结构重建能力。这意味着它不仅能“识别字符”,还能“理解”复杂的文档内容,在研究论文、发票识别、知识提取等领域展现出很高的实用价值。
值得注意的是,DeepSeek 团队还在他们的论文中特别认可了 PaddleOCR,并透露他们的部分训练数据是使用 PaddleOCR 进行注释的。这个细节揭示了当前 OCR 模型繁荣背后的真实逻辑:百度、DeepSeek、上海 AI Lab 等机构几乎同时开源了他们的 OCR 模型,目的不仅仅是为了在识别性能上竞争,而是为大模型训练提供数据清洗和标注的基础能力。
也就是说,这场“OCR军备竞赛”的核心,不仅仅是谁识别得更准确,而是谁能帮助AI更快地理解世界上的文字和图像。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
