分享文章
Logics-Parsing – 阿里开源的端到端文档解析模型
智能
2025-10-05 09:50
声明:该文章来自(AI工具集)版权由原作者所有,K2OS渲染引擎提供网页加速服务。
Logics-Parsing是什么
Logics-Parsing 是阿里巴巴开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容类型,包括普通文本、数学公式、表格、化学公式和手写中文字符。采用两阶段训练:第一阶段是监督微调,学习生成结构化输出;第二阶段是布局为中心的强化学习,优化文本准确性、布局定位和阅读顺序。在 LogicsParsingBench 基准测试中表现出色,尤其在纯文本、化学结构和手写内容解析方面优于其他方法。

Logics-Parsing的主要功能
- 端到端文档解析:Logics-Parsing 能将 PDF 图像直接转换为结构化的 HTML 输出,支持多种内容类型,包括普通文本、数学公式、表格、化学公式和手写中文字符。
- 强化学习优化:采用两阶段训练方法,第一阶段通过监督微调学习生成结构化输出,第二阶段以布局为中心的强化学习优化文本准确性、布局定位和阅读顺序。
- 高性能表现:在 LogicsParsingBench 基准测试中,Logics-Parsing 在多个文档类型上表现出色,尤其在纯文本、化学结构和手写内容解析方面优于其他方法。
- 应用场景广泛:适用于学术论文、复杂多栏文档、报纸、海报等多种复杂文档类型,能处理多栏排版、数学公式和化学结构。
Logics-Parsing的技术原理
- 基于 Qwen2.5-VL-7B:Logics-Parsing 以强大的 Qwen2.5-VL-7B 模型为基础,继承了其在视觉和语言处理方面的优势。
- 两阶段训练:第一阶段是监督微调,模型学习生成结构化的 HTML 输出;第二阶段是布局为中心的强化学习,通过文本准确性、布局定位和阅读顺序三个奖励组件优化模型。
- 强化学习优化:通过强化学习,模型能更好地理解文档的布局和内容的逻辑顺序,生成更准确的结构化输出。
- 结构化 HTML 输出:模型能将文档图像转换为结构化的 HTML 格式,保留文档的逻辑结构,每个内容块都有类别、边界框坐标和 OCR 文本标签。
- 高级内容识别:模型能准确识别复杂科学公式、化学结构和手写中文字符,将化学结构转换为标准的 SMILES 格式。
- 自动去除无关元素:模型能自动识别并过滤掉页眉、页脚等无关元素,专注于文档的核心内容。
Logics-Parsing的项目地址
Github仓库:https://github.com/alibaba/Logics-Parsing
HuggingFace模型库:https://huggingface.co/Logics-MLLM/Logics-Parsing
arXiv技术论文:https://arxiv.org/pdf/2509.19760
Logics-Parsing的应用场景
- 学术论文解析:能处理包含多栏排版、数学公式和化学结构的学术论文,准确提取关键信息并生成结构化输出。
- 复杂多栏文档:适用于报纸、海报等复杂多栏文档,有效解析布局并提取内容。
- 手写文档识别:支持手写中文字符的识别和解析,可应用于手写笔记、试卷等场景。
- 化学文档处理:准确识别化学公式并转换为标准 SMILES 格式,适用于化学领域的文档解析。
- 数学文档解析:能处理包含复杂数学公式的文档,如数学教材、科研论文等,提供准确的公式解析。
- 多语言文档支持:支持多种语言的文档解析,适用于国际化文档处理场景。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
排名
热点
搜索指数
- 1 观察“中国之治”的一个视角 7904450
- 2 “抛售日本”开始了 7808001
- 3 中方:如日方武力介入 将行使自卫权 7714044
- 4 十五运会为粤港澳带来哪些全运红利 7617988
- 5 上海一小区多套住房统一挂牌1460万 7521719
- 6 “疫苗之王”科兴内斗10年停牌超6年 7426940
- 7 泽连斯基:要么失去尊严要么失去美国 7330083
- 8 女子称丈夫花8万元网购70平海景房 7238840
- 9 实现祖国统一 解放军时刻准备着 7139643
- 10 柬埔寨“江湖大嫂”口供曝光 7045348


>
>
>
>
>
>
