PDF信息提取工具专门用于从PDF发票和文档中提取结构化信息。采用模板匹配技术,可以通过可视化界面框选PDF中的关键区域,创建自定义提取模板,然后批量应用到多个PDF文件中,实现高效的信息提取。
可以用于批量发票信息提取,提取为excel文档,通过自定义模板自定义需要提前的信息。
功能特点
- 可视化模板定制:通过图形化界面在PDF上直接框选需要提取的区域,为每个区域指定字段名称,直观便捷地创建提取模板
- 模板管理功能:支持创建、编辑、删除和保存多个提取模板,方便不同类型发票的批量处理
- 批量文件处理:支持递归扫描目录中的所有PDF文件,可选择保持目录结构或平铺处理,一次性处理大量文档
- 拖放文件支持:支持直接拖放PDF文件到程序窗口,快速开始处理
- 结果导出:提取结果可导出为Excel格式,便于后续数据分析和处理
- 坐标系统转换:自动处理画布坐标与PDF坐标之间的转换,确保提取准确性
快速开始
首次使用流程:
- 启动程序:运行源代码文件,打开主界面
- 打开PDF文件:点击”打开PDF”按钮或直接拖放PDF文件到窗口
- 创建模板:切换到”模板定制”页面,在PDF预览中框选需要提取的区域
- 保存模板:为框选区域指定字段名称后保存模板
- 批量提取:切换回主页面,选择模板后批量处理PDF文件
关键操作步骤:
先自定义模板,通过加载pdf为同一类型的pdf制作模板,加载后会出现如图所示的预览界面
通过鼠标左键画框设置提前的区域,画框后会弹出一个窗口,用来命名
框选完成后一定要保存模板,不然之后无法调用
配置完成模板后,选择此类型pdf所在文件夹进行操作即可,如果有多个模板,则选择对应的模板即可
- 框选区域:在图形化预览模式下,按住鼠标左键拖动绘制矩形框
- 指定字段:框选完成后会弹出对话框,输入该区域对应的字段名称
- 保存模板:点击”保存模板”按钮,为模板命名并保存
- 批量处理:选择模板后,可打开单个文件或整个目录进行批量提取
详细使用说明
主界面功能
主界面包含以下主要功能区域:
- 文件操作区:提供打开PDF文件、打开目录、拖放文件等操作
- 模板选择区:下拉菜单选择已保存的提取模板
- 提取控制区:执行提取操作、查看提取结果
- 结果显示区:显示提取到的字段信息
模板定制功能
模板定制页面提供完整的模板编辑功能:
- 模板列表:左侧显示所有已保存的模板,支持新建、删除操作
- PDF预览区:中央区域显示PDF内容,支持翻页和缩放
- 框选操作:鼠标拖动在PDF上绘制矩形框,标记提取区域
- 字段管理:为每个框选区域指定对应的字段名称
- 模板保存:将当前框选配置保存为模板
批量处理功能
批量处理支持的模式:
结果导出
提取完成后,可将结果导出为Excel文件,每个字段对应一列,每个PDF文件对应一行。
使用场景示例
场景一:处理供应商发票
某公司每月收到大量供应商发票,需要提取发票号码、日期、金额等关键信息。使用本工具的步骤如下:
- 打开一张典型的供应商发票PDF
- 在模板定制页面框选发票号码区域,命名为”发票号”
- 框选日期区域,命名为”开票日期”
- 框选金额区域,命名为”金额”
- 保存模板为”供应商发票模板”
- 选择该模板,打开包含所有发票的文件夹
- 执行批量提取,导出结果到Excel
场景二:整理报销单据
财务部门需要从员工提交的报销单据中提取报销人、报销金额、报销类别等信息:
- 打开一张报销单据PDF
- 框选员工姓名区域,命名为”报销人”
- 框选报销金额区域,命名为”报销金额”
- 框选报销类别区域,命名为”报销类别”
- 保存模板为”报销单据模板”
- 批量处理所有报销单据,生成Excel汇总表
场景三:合同信息归档
法务部门需要从大量合同PDF中提取合同编号、签署日期、甲方乙方等信息:
- 打开一份标准合同PDF
- 框选合同编号位置,命名为”合同编号”
- 框选签署日期位置,命名为”签署日期”
- 框选甲方乙方信息位置,分别命名
- 保存模板后批量处理所有合同文件
- 将提取结果导入数据库进行归档管理
注意事项
- 重要警告:首次使用前请务必在少量样本文件上测试模板的准确性,确认无误后再进行批量处理
- 模板兼容性:不同格式或版式的PDF文件需要创建不同的模板,模板不具有通用性
- 文件备份:批量处理前建议备份原始PDF文件,防止意外数据丢失
- 坐标精度:框选区域时尽量精确对齐文字边界,避免包含多余空白区域
- 内存使用:处理大量PDF文件时可能占用较多内存,建议分批处理
- PDF质量:确保PDF文件清晰度足够,扫描件或低质量PDF可能影响提取准确性
程序截图
效果展示
只勾选穿透子文件夹
同时勾选保持结构目录
同时勾选合并,即勾选穿透子文件夹和合并数据
合并效果如图所示
常见问题解答
Q: 框选区域后提取不到内容怎么办?
A: 请检查以下几点:1) 确认框选区域准确覆盖了目标文字;2) 确认PDF文件清晰度足够;3) 尝试在文本模式下查看PDF内容,确认文字可被正确识别;4) 调整框选区域大小,避免包含过多空白。
Q: 如何处理不同版式的PDF文件?
A: 不同版式的PDF需要创建不同的模板。建议为每种版式创建专门的模板,处理时选择对应的模板。也可以在模板名称中加入版式标识,便于区分。
Q: 批量处理时如何保持目录结构?
A: 在打开目录时,勾选”保持目录结构”选项。这样输出结果会按照原始目录结构组织,每个文件夹的结果保存在对应的子目录中。
Q: 提取结果可以导出为哪些格式?
A: 目前支持导出为Excel格式(.xlsx),每个字段对应一列,每个PDF文件对应一行。
Q: 如何删除不需要的模板?
A: 在模板定制页面的模板列表中选中要删除的模板,点击”删除”按钮即可。删除操作不可恢复,请谨慎操作。
Q: 程序支持哪些操作系统?
A: 程序主要针对Windows系统开发,在Windows 7及以上版本上测试通过。
Q: 处理大量文件时程序卡顿怎么办?
A: 处理大量PDF文件时,建议分批处理,每批处理100-200个文件。同时关闭其他占用内存的程序,为Python分配足够的系统资源。
程序使用环境及相关说明
1、适用的系统环境说明: win7及以上64位win操作系统 , 注意事项:win32位系统以及mac系统需要额外定制开发
2、关于使用限制:①无需注册、登录等限制,直接使用, ②没有电脑台数限制, ③无使用时间限制、不联网本地使用、确保数据安全
3、程序如何安装:不需要安装,按照说明使用即可。
特别注意:请先测试,注意备份原文件,之后再批量使用,避免不可逆损失。
程序使用说明
解压后,双击快捷方式使用即可
如果快捷方式失效,打开文件夹,找到如下文件,重新创建快捷方式使用即可
本工具下载地址
更新日志
V1.0
- 随机文章
- 热门文章
- 717-搜索指定文件夹下同名文件【包含子孙文件夹下文件】在目标文件夹下创建同名文件夹并将同名文件移入
- 725-批量将指定文件夹下所有内容复制到多个文件夹下【包含子文件夹下】
- 727-根据txt内文件夹名搜索指定文件夹并移动文件夹到以txt文件名创建的文件夹内
- 729-批量文件夹合并-搜索A文件夹下与B文件夹下同名的文件夹并将文件合并到B文件夹
- 750-批量删除指定文件夹下指定文件
- 751-以txt中内容批量搜索并删除删除指定文件夹下文件
- 779-批量删除指定文件夹下指定名称的文件-包含子孙文件夹下指定文件名称
- 789-批量检测指定文件夹下空文件夹并输出到txt
- 搜索A文件夹内与B文件夹下快捷方式指向的最后一个文件夹同名文件夹并移动文件夹到快捷方式所在文件夹下
- 使用docsify配合github搭建个人知识库












还没有评论,来说两句吧...