数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|百度发布全球领先的文档解析模型PaddleOCR-VL,重塑OCR技术格局!

人工智能资讯|百度发布全球领先的文档解析模型PaddleOCR-VL,重塑OCR技术格局!

近日,百度正式发布并开源了自研的多模态文档解析模型PaddleOCR-VL。该模型在权威文档解析测评榜OmniBenchDoc V1.5上以92.6的骄人成绩位居全球第一,在文本、表格、公式、阅读顺序四大核心能力上展现出了出色的表现。

PaddleOCR-VL 的核心模型参数数仅为 0.9B,轻量级且高效。它可以以最小的计算成本准确识别文本、手写汉字、表格、公式和图表等复杂元素。该模型支持中文、英文、法文、日文、俄文、阿拉伯文、西班牙文等109种语言,适用于政企文档管理、知识检索、档案数字化、研究信息提取等多种智能文档处理任务。

作为文心4.5的衍生模型,PaddleOCR-VL-0.9B通过将NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成,成功实现了精度和效率的突破。具体来说,该模型在 OmniDocBench v1.5 上表现异常出色,文本编辑距离为 0.035,公式识别 CDM 为 91.43,表格 TEDS 为 93.52,阅读顺序预测误差值为 0.043。这些数据证明了其在复杂文档、手写稿件、历史档案识别等高难度场景下的稳定性和可靠性。

在推理速度方面,PaddleOCR-VL 在单个 A100 GPU 上每秒可以处理 1881 个 Token,与其他主流模型相比显示出显着的提升。它比 MinerU2.5 快 14.2%,比 dots.ocr 快 253.01%。这一表现树立了OCR技术的新标杆。

与传统的OCR技术不同,PaddleOCR-VL可以像人类一样理解复杂的布局结构,准确提取财务表、数学公式、课堂笔记等多种信息,并自动恢复符合人类阅读习惯的顺序,保证信息传递的准确性和逻辑的清晰度。其创新的两阶段架构首先检测布局并预测阅读顺序,然后识别并结构化输出文本、表格、公式等元素,显著提高了识别的稳定性和效率。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/98811.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部