近日,百度正式发布并开源了自研的多模态文档解析模型PaddleOCR-VL。该模型在权威文档解析测评榜OmniBenchDoc V1.5上以92.6的骄人成绩位居全球第一,在文本、表格、公式、阅读顺序四大核心能力上展现出了出色的表现。
PaddleOCR-VL 的核心模型参数数仅为 0.9B,轻量级且高效。它可以以最小的计算成本准确识别文本、手写汉字、表格、公式和图表等复杂元素。该模型支持中文、英文、法文、日文、俄文、阿拉伯文、西班牙文等109种语言,适用于政企文档管理、知识检索、档案数字化、研究信息提取等多种智能文档处理任务。
作为文心4.5的衍生模型,PaddleOCR-VL-0.9B通过将NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成,成功实现了精度和效率的突破。具体来说,该模型在 OmniDocBench v1.5 上表现异常出色,文本编辑距离为 0.035,公式识别 CDM 为 91.43,表格 TEDS 为 93.52,阅读顺序预测误差值为 0.043。这些数据证明了其在复杂文档、手写稿件、历史档案识别等高难度场景下的稳定性和可靠性。
在推理速度方面,PaddleOCR-VL 在单个 A100 GPU 上每秒可以处理 1881 个 Token,与其他主流模型相比显示出显着的提升。它比 MinerU2.5 快 14.2%,比 dots.ocr 快 253.01%。这一表现树立了OCR技术的新标杆。
与传统的OCR技术不同,PaddleOCR-VL可以像人类一样理解复杂的布局结构,准确提取财务表、数学公式、课堂笔记等多种信息,并自动恢复符合人类阅读习惯的顺序,保证信息传递的准确性和逻辑的清晰度。其创新的两阶段架构首先检测布局并预测阅读顺序,然后识别并结构化输出文本、表格、公式等元素,显著提高了识别的稳定性和效率。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导
