一个开源的快速准确地将 PDF 转换为 markdown工具

news/2024/10/3 12:28:00

大家好,今天给大家分享的是一个开源的快速准确地将 PDF 转换为 markdown工具。

Marker是一款功能强大的PDF转换工具,它能够将PDF文件快速、准确地转换为Markdown格式。这款工具特别适合处理书籍和科学论文,支持所有语言的转换,并且能够去除页眉、页脚等干扰元素,格式化表格和代码块,提取并保存图像和Markdown文件,并将大部分方程式转换为LaTeX格式。

功能简介

Marker:重新定义 PDF 到 Markdown 的转换效率。

•Marker 满足了将复杂的 PDF 文档转换为 markdown 以便于管理的日益增长的需求。
•传统的文本转换器难以维持原始布局、格式和内容的准确性。
•Marker 擅长准确地保存表格、代码块和数学方程式等复杂元素。
•自动去除文档中的非主要元素,如页眉和页脚。
•它能够以优化的处理速度和资源使用率有效地处理大量数据。
•Marker 的定制方法减少了数字 PDF 对 OCR 的依赖,从而实现了更快、更精确的转换。
•可以在GPU、CPU或MPS上运行。

实现原理

Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和 tesseract 工具),然后检测页面布局并确定阅读顺序(使用 布局分割器[1] 和 列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和 nougat[3]),最后将所有块合并并进行后处理,生成完整的Markdown文本(利用启发式算法和 pdf后处理器[4])。Marker只在必要时使用模型,从而提高了转换速度和准确性。

性能表现

通过查找具有 pdf 版本和 latex 源的书籍和科学论文创建了一个测试集。将 latex 转换为文本,并将参考与文本提取方法的输出进行比较。

基准测试表明 marker 比 nougat 快 4 倍,而且在 arXiv 之外更准确(nougat 是在 arXiv 数据上训练的)

速度

Method Average Score Time per page Time per document
marker 0.613721 0.631991 58.1432
nougat 0.406603 2.59702 238.926

准确性

前 3 篇是非 arXiv 书籍,后 3 篇是 arXiv 论文。

Method multicolcnn.pdf switch_trans.pdf thinkpython.pdf thinkos.pdf thinkdsp.pdf crowd.pdf
marker 0.536176 0.516833 0.70515 0.710657 0.690042 0.523467
nougat 0.44009 0.588973 0.322706 0.401342 0.160842 0.525663

基准测试期间,nougat的 GPU 内存使用峰值为 4.2GB,而marker的 GPU 内存使用峰值为 4.1GB。 基准测试在 A6000 Ada 上运行。

使用

安装

您需要 Python 3.9+ 和 PyTorch。如果您使用的不是 Mac 或 GPU 机器,则可能需要先安装 CPU 版本的 torch。请参阅此处[5]了解更多详细信息。

安装方式:

pip install marker-pdf

转换单个文件

marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English

•--batch_multiplier是如果您有额外的 VRAM,默认批处理大小要乘以的数值。数字越大,占用的 VRAM 越多,但处理速度越快。默认设置为 2。默认批处理大小将占用约 3GB 的 VRAM。
•--max_pages是要处理的最大页数。忽略此项可转换整个文档。
•--langs是文档中用于 OCR 的语言的逗号分隔列表

转换多个文件

marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000

•--workers是一次要转换的 PDF 数量。默认情况下,此值设置为 1,但您可以增加此值以增加吞吐量,但代价是增加 CPU/GPU 使用率。INFERENCE_RAM / VRAM_PER_TASK如果您使用 GPU,则并行度不会增加。
•--max是要转换的 PDF 的最大数量。省略此项可转换文件夹中的所有 PDF。
•--min_length是需要从 PDF 中提取的最少字符数,然后才会考虑进行处理。如果您要处理大量 PDF,我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。(这会减慢一切速度)
•--metadata_file是包含有关 pdf 元数据的 json 文件的可选路径。如果您提供它,它将用于设置每个 pdf 的语言。如果没有,DEFAULT_LANG将使用。格式为:

{"pdf1.pdf": {"languages": ["English"]},"pdf2.pdf": {"languages": ["Spanish", "Russian"]},...
}

在多个 GPU 上转换多个文件

MIN_LENGTH=10000 METADATA_FILE=../pdf_meta.json NUM_DEVICES=4 NUM_WORKERS=15 marker_chunk_convert ../pdf_in ../md_out

•METADATA_FILE是包含 pdf 元数据的 json 文件的可选路径。请参阅上文了解格式。
•NUM_DEVICES是要使用的 GPU 数量。应大于2或等于。
•NUM_WORKERS是每个 GPU 上运行的并行进程数。每个 GPU 的并行度不会超过INFERENCE_RAM / VRAM_PER_TASK。
•MIN_LENGTH是需要从 PDF 中提取的最少字符数,然后才会考虑进行处理。如果您要处理大量 PDF,我建议设置此项以避免对大部分是图像的 PDF 进行 OCR。(这会减慢一切速度)

项目地址

https://github.com/VikParuchuri/marker

References

[1] 布局分割器: https://huggingface.co/vikp/layout_segmenter
[2] 列检测器: https://huggingface.co/vikp/column_detector
[3] nougat: https://huggingface.co/facebook/nougat-base
[4] pdf后处理器: https://huggingface.co/vikp/pdf_postprocessor_t5
[5] 此处: https://pytorch.org/get-started/locally/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44611.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

简单聊聊Unicode

接下来我们简单讲讲,Unicode 的原理,例如,Unicode 的设计思路,Unicode 和 UTF 的关系等。接下来我们简单讲讲,Unicode 的原理,例如,Unicode 的设计思路,Unicode 和 UTF 的关系等。 ‍ 简单的字符编码模型 一个字符,在计算机中如何存储,是涉及到很多部分的。例如,一个…

有手就行!10分钟上手实现文生图!

Fooocus 一款基于 Gradio 实现的图像生成软件,提供高质量的文本生成图像功能,完全离线、开源、免费。大家好,我是 Java陈序员。 今天,给大家介绍一个文生图工具,无需繁杂的配置,一键安装启动,十分钟就能实现文生图!关注微信公众号:【Java陈序员】,获取开源项目分享、…

盘点常见的内外网文件传输方法 看看哪个最好用!

内外网文件传输在企业里面是很常见的一种业务场景,因为很多企业,包括政府机构、金融、医疗、能源等等行业组织,都会进行网络隔离,来保护内部的数据安全性。常见的内外网文件传输的方法主要包括以下几种: 1、移动介质:通过U盘、移动硬盘等移动存储设备在内外网之间进行文件…

ecs centos 挂载磁盘

# 查找新磁盘 lsblk# 假设新磁盘为/dev/vdb,分区该磁盘,以下为步骤:(# 使用fdisk的指令可以进行分区,这里省略了具体的fdisk命令) # 格式化新分区为ext4文件系统 mkfs.ext4 /dev/vdb1# 创建挂载点 mkdir /mnt# 挂载新分区 mount /dev/vdb1 /mnt# 为了让开机自动挂载,需要…

7大功能特色 让这款信创传输软件受众行业青睐!

信创传输软件,顾名思义,也就是能够支持信创环境的文件传输系统,并且需要具备强大的功能,可以满足各种复杂的传输需求。这种软件可能具有以下特点和功能: 1、兼容性:能够与信创环境中使用的硬件设备、网络协议和软件系统兼容,确保在该环境下能够正常运行和进行文件传输。…

Doris开发手记5:一场链接引发“吊诡”的性能问题

近期正在对 Doris 的性能问题展开排查,发现了一个极为“吊诡”的函数执行性能问题。经过一系列的CPU热点代码分析之后,发现“罪魁祸首”居然是libtoolchain中的静态库导致的。借用本篇手记记录下问题的发现,希望记录下一些对于C/C++程序链接问题的分析思路,也希望读者也能有…

中西文化比较

这本书名为《Western Civilization with Chinese Comparisons》,由John G. Blair和Jerusha Hull McCormack合著,是一本专注于西方文明与中国文明比较研究的教材。以下是对书中核心知识点的快速总结: 1. **文明比较的目的**:本书强调通过比较不同文明来增进对各自独特性的理…

FreeRTOS简单内核实现5 阻塞延时

增加阻塞延时,初步实现任务并行运行效果0、思考与回答 0.1、思考一 为什么 FreeRTOS简单内核实现3 任务管理 文章中实现的 RTOS 内核不能看起来并行运行呢? Task1 延时 100ms 之后执行 taskYIELD() 切换到 Task2,Task2 延时 500ms 之后执行 taskYIELD() 再次切换 Task1 ,在…