人工智能资讯|DeepSeek-OCR 2 正式发布：引入更接近人类逻辑的文档识别视觉因果流-数智化转型网szhzxw.cn

DeepSeek 宣布发布其下一代文档识别模型 DeepSeek-OCR2。该模型在可视化编码器设计上取得了重大突破，旨在解决传统模型在处理复杂文档布局时缺乏逻辑结构的问题。

DeepSeek-OCR2 的核心亮点是其自开发的 DeepEncoder V2 编码器。与传统的视觉模型以固定网格顺序从左到右、从上到下处理图像不同，新模型引入了“视觉因果流”的概念。它可以根据图像语义动态调整信息处理顺序，智能地在识别文本前对视觉内容进行排序，从而使机器的阅读逻辑更符合人类对表格、公式和复杂文档的理解。

在架构方面，该模型继续采用高效的编码-解码框架。经过DeepEncoder V2的语义建模和重排序后，图像由专家混合（MoE）语言模型解码。实验数据显示，在OmniDocBench v1.5基准测试中，DeepSeek-OCR2的总得分为91.09%，比之前版本提升了3.73%。尤其是在阅读顺序准确性方面，其编辑距离显著减少，表明模型在恢复内容结构方面的能力更强。

此外，DeepSeek-OCR2在实际应用中也展现出更强的稳定性。在 PDF 批处理和在线日志数据的测试中，识别重复率显著降低。这意味着模型在保持低资源消耗的同时，能够提供更高质量、更合逻辑的识别输出。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数字化转型网小助手Nora，加入人工智能行业交流群。

若您为人工智能创业者，可添加数字化转型网社群主理人Carina，加入人工智能创业交流群。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|DeepSeek-OCR 2 正式发布：引入更接近人类逻辑的文档识别视觉因果流

国务院办公厅关于推动中央企业结构调整与重组的指导意见

中国企业出海东南亚的失败案例分析

【名企推介】北京建龙重工集团有限公司

做完选择题就成功了一半，因为可以找参考答案

山东：中小企业数字化转型供需对接服务平台上线启动

联系我们

微信扫一扫关注我们

人工智能资讯|分不清是真人还是机器？台州任务助理的拨号功能引发了激烈讨论

人工智能资讯|NVIDIA与谷歌联合投资：虚拟人类初创公司Synthesia筹集2亿美元融资，估值翻倍

相关推荐

联系我们

微信扫一扫关注我们