——专治各种“目录失踪案”,让你的PDF乖乖交出藏宝图!
- 🔍 火眼金睛:管你是正经目录页还是“游击目录”(藏在正文里玩捉迷藏),统统抓出来!
- 🖼️ 图像PDF克星:就算目录是张图,咱也能用OCR魔法让它开口说话!
- 📊 Excel 格子间管理员:把乱跑的目录按标题、页码、层级塞进Excel表格,强迫症看了直呼内行!
- 🛠️ 源码自由魂:Windows版不够?拿源码去搓个Mac/Linux版吧!(友情提示:可能需要亿点点技术力)
本程序为高效解决 PDF 文档目录提取需求设计,支持以下功能:
- 全场景目录识别:自定义目录层级结构生成可编辑的正则表达式,自动解析 PDF 中目录页或分散于正文内的目录信息;
- 多格式兼容:支持文本型 PDF 及图像型 PDF(基于 OCR 技术);
- 结构化输出:将提取结果标准化为 Excel 表格,支持层级关系与页码映射、间隔符截断等;
- 跨平台扩展性:提供源代码,可编译为 macOS/Linux 等客户端版本。
适用于学术文献整理、企业文档归档等场景,显著提升信息处理效率。遵循开源协议,支持二次开发定制。
- 解压下载的 PDF2Excel.7z 到文件夹后,双击运行文件夹中的 PDF 目录提取器.exe
- 把PDF丢进程序窗口
- 手动输入目录层级结构,c代表中文、e代表英文、n代表阿拉伯数字、r代表罗马数字、同时支持间隔符、*通配符等
- 翘脚等待Excel表格生成
- 点选以编辑表格格式,是否合并单元格、对齐方式选择、双击编辑表格内容
- 导出提取出的目录为xlsx格式的表格文档
打开表格,大喊一声:“还有谁?!”
- Python 3.7+
- PyQt (GUI框架)
- PyMuPDF (PDF解析、分栏自动读取等)
- OpenCV + Tesseract OCR (图像处理)
本程序可能导致工作效率提升300%,请做好被同事当“卷王”的心理准备!