Docmatix - 超大文档视觉问答数据集

news/2024/10/6 6:52:05

本文,我们将发布 Docmatix - 一个超大的文档视觉问答 (DocVQA) 数据集,比之前的数据集大 100 倍。当使用 Docmatix 微调 Florence-2 时,消融实验显示 DocVQA 任务的性能提高了 20%。

数据集样本实例
Docmatix 数据集样本示例

缘起于 丹鼎 (The Cauldron) 的开发,丹鼎包含了 50 个数据集,旨在用于视觉语言模型 (VLM) 的微调,我们的 Idefics2 就是由此训得。在丹鼎的开发过程中,我们发现缺乏大规模文档视觉问答 (DocVQA) 数据集。Idefics2 依赖的视觉问答数据集主要是 DocVQA,其中仅包含 1 万张图像以及 3 万 9 千对问答 (Q/A)。基于其以及其他数据集微调出的开源模型在性能上与闭源模型差距很大。

为了解决这一问题,我们很高兴推出 Docmatix,这是一个 DocVQA 数据集,包含 240 万张图像以及源自 130 万个 PDF 文档的 950 万对问答。与之前的数据集相比,规模扩大了 240 倍

Docmatix 和其它 DocVQA 数据集的对比
Docmatix 和其它 DocVQA 数据集的对比

你可以通过下面的页面自由探索数据集并查阅 Docmatix 中包含的文档类型以及问答对。

Docmatix 是基于 PDFA - 一个包含 210 万个 PDF 的 OCR 数据集 生成的。我们从 PDFA 中转录出文本,然后用 Phi-3-small 模型生成 Q/A 对。为了确保数据集的质量,我们对模型生成的回答进行了过滤,丢弃了 15% 被识别为幻觉的 Q/A 对。另外,我们还使用正则表达式来检测代码并删除了包含关键字 “unanswerable” 的答案。Docmatix 数据集中的每一行对应于一个 PDF 文件,我们将 PDF 转换为分辨率为 150 dpi 的图像,并将处理后的图像上传至 Hugging Face Hub 以便于访问。所有样本的原始 PDF 都可以溯源至 PDFA 数据集,以最大程度提供透明度和可靠性。但考虑到将这么多 PDF 转换为图像会消耗不少资源,为方便数据集的用户起见,数据集中的样本用的是处理后的图像。

生成 Docmatix 的数据处理流水线
生成 Docmatix 的数据处理流水线

我们先处理了一小批数据集,并对其进行多次消融研究以对提示进行优化。我们的目标是每页生成大约 4 对问答。太多的话,它们之间会有很大的重叠,太少的话,则说明当前页的内容中细节较少。此外,我们的目标是让生成的答案与人类回答相似,避免过短或过长的答案。我们还比较重视问题的多样性,以确保尽量减少重复问题。有趣的是,当我们引导 Phi-3 模型 根据文档中的具体信息提出问题时 (例如,“某甲的头衔是什么?”),问题几乎没有重复。下图展示了我们得到的一些关键统计分析数据:

从提示的维度分析 Docmatix
从提示的维度分析 Docmatix

为了评估 Docmatix 的质量,我们使用 Florence-2 模型进行了消融实验。我们训练了两个版本的模型以进行比较。第一个版本在 DocVQA 数据集上训练数个 epoch。第二个版本先在 Docmatix 上训练 1 个 epoch (仅使用 20% 的图像、4% 的 Q/A 对),然后再在 DocVQA 上训练 1 个 epoch,以确保模型的输出格式符合 DocVQA 评估的要求。结果很明显: 先对 Docmatix 进行微调可带来近 20% 的相对指标提升。此外,所得的 0.7B Florence-2 模型的性能仅比基于混合训练集训练的 8B Idefics2 模型差 5%,要知道从模型尺寸上来看 8B 可以比 0.7B 大得远不止 5%。

数据集 DocVQA 上的 ANSL 值 模型尺寸
在 DocVQA 上微调的 Florence 2 60.1 700M
在 Docmatix 上微调的 Florence 2 71.4 700M
Idefics2 74.0 8B

Docmatix-Florence-2 Demo 体验

总结

本文介绍了 Docmatix,一个用于 DocVQA 的超大数据集。我们的结果表明,使用 Docmatix 在微调 Florence-2 时,我们可以将 DocVQA 性能提高 20%。该数据集有助用户弥合开源 VLM 相对于闭源 VLM 的性能差距。我们鼓励开源社区利用 Docmatix 去训练新的的 DocVQA 模型,创造新的 SOTA!我们迫不及待地想在 🤗 Hub 上看到你的模型!

有用的资源

  • Docmatix 微调 Florence-2 所得模型的演示
  • 微调 Florence-2 - 微软的尖端视觉语言模型
  • Florence-2 微调的 Github 代码库
  • 视觉语言模型详解

我们要感谢 merve 和 leo 对本文的审阅并提供了缩略图。


英文原文: https://huggingface.co/blog/docmatix

原文作者: Andres Marafioti,Hugo Laurençon

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/54674.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

ZLMediaKit转码rtsp

把摄像机的rtsp流转码播放 1. 启动ZLMediaKit 2. 执行addStreamProxy如下,stream是流ID,不要重复,可为字母数字等, 3. rtsp://10.136.238.143/live/123 这个地址可播放,如果stream变化则同步修改,vlc播放稳定 4. rtmp://10.136.238.143/live/123 这个地址可播放,vlc过一…

老爷机低端显卡也能玩3A大作?ToDesk云电脑开启游戏新模式!

3A游戏大作因其震撼的视觉效果、复杂的剧情设计和深度的游戏体验,成为无数玩家心中的游戏白月光。然而,这些游戏往往对硬件配置有着极高的要求,尤其是显卡,是3A游戏大作的畅玩配置“硬门槛”。但现在,随着云计算技术的飞速发展,ToDesk云电脑的出现,正悄然改变这一现状,…

uniapp 微信小程序 支付

<template><view class="wrap"><view class="payComplete"><image class="img" src="@/static/image/index/6.png" /><text class="adress">支付完成后填写</text></view><vi…

元气日语 Genki-1 第 7 课 家庭照片

家族の写真 课文 I ゆい: これはソラさんの家族の写真ですか。 ソラ: ええ。 ゆい: ソラさんはどれですか。 ソラ: これです。高校の時はめがねをかけていました。 ゆい: かわいいですね。 ソラ: これは父です。ニューヨークの会社で働いています。 ゆい: 背が高…

【Mysql】mysql count主键字段很慢超时 执行计划Select tables optimized away ,最终调整buffer pool问题解决

背景:mysql表 主键字段 count,速度很慢,耗时将近30s从执行计划可以看出:explain SELECT COUNT(rule_id) AS dataCount FROM `sku_safe_stock_rule`; 原理分析:Select tables optimized awaySELECT操作已经优化到不能再优化了 (MySQL根本没有遍历表或索引就返回数据了)由此…

Oracle 19c OCP 082认证考试题库(第6题)- 2024年修正版

【优技教育】Oracle 19c OCP 082题库(第6题)- 2024年修正版 考试科目:1Z0-082 考试题量:90 通过分数:60% 考试时间:150min 本文为(CUUG 原创)整理并解析,转发请注明出处,禁止抄袭及未经注明出处的转载。 原文地址:http://www.cuug.com/index.php?s=/home/article/detai…

08年买的电脑!一样玩《黑神话:悟空》!(影视级画质)

中国PC游戏界迎来了一场“大地震”!备受瞩目的国产3A级游戏《黑神话:悟空》正式全球发售。这款由游戏科学公司开发的动作角色扮演游戏,在研发阶段就吸引了无数目光。根据游戏平台Steam的数据显示,《黑神话:悟空》不仅在中国区,而且在全球范围内都持续占据热销榜首。游戏中…

[MYSQL] MYSQL 优化总结

0 查询变量参数查询某个参数时 select @@…1 数据插入与导入普通插入:采用批量插入(一次插入的数据不建议超过1000条) 手动提交事务 主键顺序插入大批量插入: ​> + 如果一次性需要插入大批量数据,使用insert语句插入性能较低,此时可以使用MySQL数据库提供的load指令插…