pytesseract实现识别pdf文件并将内容写入word文档中

news/2024/9/24 13:46:24

步骤一：先安装tesseract-ocr-w64-setup-5.4.0.20240606 （安装记得语言包只安装需要的即可）
步骤二：将安装目录添加到系统环境变量中
（网上很多这一步之后就说可以运行程序了其实不然，一直报错没有添加到环境变量中）
步骤三：

第四步：可以正常运行啦

==========================================================================================

from PyPDF2 import PdfReader
from docx import Document
import pytesseract
from PIL import Image
import io

def pdf_to_word_with_ocr(pdf_path, word_path):
import os
# 检查文件是否存在
if not os.path.exists(pdf_path):
raise FileNotFoundError(f"指定的文件 {pdf_path} 不存在。")

# 创建Word文档对象
doc = Document()# 打开PDF文件
reader = PdfReader(pdf_path)# 遍历PDF中的每一页
for page_number, page in enumerate(reader.pages):# 尝试提取页面文本text = page.extract_text()if text:# 如果能直接提取到文本，就添加到Word文档中doc.add_paragraph(text)else:# 如果页面没有文本，尝试使用OCR提取图像中的文本images = page.imagesif images:for image_index, img in enumerate(images):# 将图像数据从PDF中提取出来image = Image.open(io.BytesIO(img.data))# 使用OCR识别图像中的文本ocr_text = pytesseract.image_to_string(image, lang='chi_sim')doc.add_paragraph(f"第{page_number+1}页, 图像{image_index+1}: {ocr_text}")else:# 如果页面既没有文本也没有图像，添加一个占位符doc.add_paragraph(f"第{page_number+1}页无文本或图像。")# 保存Word文档
doc.save(word_path)

使用函数

pdf_path = '45.pdf'
word_path = 'output.docx'
pdf_to_word_with_ocr(pdf_path, word_path)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ryyt.cn/news/56723.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！

pytesseract实现识别pdf文件并将内容写入word文档中

使用函数

相关文章

消息中间件ms

9种最高频的架构模式

gadget驱动框架（一）

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

代码整洁之道--读书笔记(1)

Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

基于 GoFrame 框架的 Go 项目打包成镜像，并上传至 Harbor 镜像库

ChatOn安卓版(智能AI聊天机器人) v1.48.435-476 高级版