人工智能资讯|百度发布全球领先的文档解析模型PaddleOCR-VL，重塑OCR技术格局！-数智化转型网szhzxw.cn

近日，百度正式发布并开源了自研的多模态文档解析模型PaddleOCR-VL。该模型在权威文档解析测评榜OmniBenchDoc V1.5上以92.6的骄人成绩位居全球第一，在文本、表格、公式、阅读顺序四大核心能力上展现出了出色的表现。

PaddleOCR-VL 的核心模型参数数仅为 0.9B，轻量级且高效。它可以以最小的计算成本准确识别文本、手写汉字、表格、公式和图表等复杂元素。该模型支持中文、英文、法文、日文、俄文、阿拉伯文、西班牙文等109种语言，适用于政企文档管理、知识检索、档案数字化、研究信息提取等多种智能文档处理任务。

作为文心4.5的衍生模型，PaddleOCR-VL-0.9B通过将NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成，成功实现了精度和效率的突破。具体来说，该模型在 OmniDocBench v1.5 上表现异常出色，文本编辑距离为 0.035，公式识别 CDM 为 91.43，表格 TEDS 为 93.52，阅读顺序预测误差值为 0.043。这些数据证明了其在复杂文档、手写稿件、历史档案识别等高难度场景下的稳定性和可靠性。

在推理速度方面，PaddleOCR-VL 在单个 A100 GPU 上每秒可以处理 1881 个 Token，与其他主流模型相比显示出显着的提升。它比 MinerU2.5 快 14.2%，比 dots.ocr 快 253.01%。这一表现树立了OCR技术的新标杆。

与传统的OCR技术不同，PaddleOCR-VL可以像人类一样理解复杂的布局结构，准确提取财务表、数学公式、课堂笔记等多种信息，并自动恢复符合人类阅读习惯的顺序，保证信息传递的准确性和逻辑的清晰度。其创新的两阶段架构首先检测布局并预测阅读顺序，然后识别并结构化输出文本、表格、公式等元素，显著提高了识别的稳定性和效率。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导

人工智能资讯|百度发布全球领先的文档解析模型PaddleOCR-VL，重塑OCR技术格局！

中企占新晋“灯塔工厂”半壁江山

海南省工业和信息化厅海南省财政厅关于印发《海南省支持现代生物医药产业做大做强奖补资金管理实施细则》的通知

2024年度轻工装备五十强

人工智能资讯|源 Yuan3.0Flash:开源多模态基础大模型引领 AI 新潮流

人工智能资讯|全球首个具身智能开放平台上线！3D数字人开箱即用：莫法星云将大模型集成到百元芯片中

联系我们

微信扫一扫关注我们

人工智能资讯|美国人对人工智能的担忧超过全球水平

人工智能资讯|OpenAI 与马丁·路德·金庄园合作，暂时停止 Sora 生成金博士的肖像

相关推荐

联系我们

微信扫一扫关注我们