📖🗂️ 「目录神偷：PDF 转 Excel 的江湖救急侠」

——专治各种“目录失踪案”，让你的PDF乖乖交出藏宝图！

🚀 功能亮点

🔍 火眼金睛：管你是正经目录页还是“游击目录”（藏在正文里玩捉迷藏），统统抓出来！
🖼️ 图像PDF克星：就算目录是张图，咱也能用OCR魔法让它开口说话！
📊 Excel 格子间管理员：把乱跑的目录按标题、页码、层级塞进Excel表格，强迫症看了直呼内行！
🛠️ 源码自由魂：Windows版不够？拿源码去搓个Mac/Linux版吧！（友情提示：可能需要亿点点技术力）

正式语气程序介绍——「智能 PDF 目录提取与 Excel 结构化输出工具（Windows 版）」

本程序为高效解决 PDF 文档目录提取需求设计，支持以下功能：

全场景目录识别：自定义目录层级结构生成可编辑的正则表达式，自动解析 PDF 中目录页或分散于正文内的目录信息；
多格式兼容：支持文本型 PDF 及图像型 PDF（基于 OCR 技术）；
结构化输出：将提取结果标准化为 Excel 表格，支持层级关系与页码映射、间隔符截断等；
跨平台扩展性：提供源代码，可编译为 macOS/Linux 等客户端版本。

适用于学术文献整理、企业文档归档等场景，显著提升信息处理效率。遵循开源协议，支持二次开发定制。

🎮 使用说明

解压下载的 PDF2Excel.7z 到文件夹后，双击运行文件夹中的 PDF 目录提取器.exe
把PDF丢进程序窗口
手动输入目录层级结构，c代表中文、e代表英文、n代表阿拉伯数字、r代表罗马数字、同时支持间隔符、*通配符等
翘脚等待Excel表格生成
点选以编辑表格格式，是否合并单元格、对齐方式选择、双击编辑表格内容
导出提取出的目录为xlsx格式的表格文档

打开表格，大喊一声：“还有谁？！”

🛠️ 技术栈

Python 3.7+
PyQt (GUI框架)
PyMuPDF (PDF解析、分栏自动读取等)
OpenCV + Tesseract OCR (图像处理)

⚠️ 警告

本程序可能导致工作效率提升300%，请做好被同事当“卷王”的心理准备！

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
_internal		_internal
部分测试PDF		部分测试PDF
.gitignore		.gitignore
LICENSE		LICENSE
PDF 目录提取.py		PDF 目录提取.py
PDF 目录提取器.exe		PDF 目录提取器.exe
README.md		README.md
build.py		build.py
pdf.ico		pdf.ico

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📖🗂️ 「目录神偷：PDF 转 Excel 的江湖救急侠」

🚀 功能亮点

正式语气程序介绍——「智能 PDF 目录提取与 Excel 结构化输出工具（Windows 版）」

🎮 使用说明

🛠️ 技术栈

⚠️ 警告

友情出演：Python · Qt · 一堆开源库 · 以及你即将省下的无数小时

About

Uh oh!

Releases 1

Packages

Languages

License

EzXxY/pdf2excel-toc

Folders and files

Latest commit

History

Repository files navigation

📖🗂️ 「目录神偷：PDF 转 Excel 的江湖救急侠」

🚀 功能亮点

正式语气程序介绍——「智能 PDF 目录提取与 Excel 结构化输出工具（Windows 版）」

🎮 使用说明

🛠️ 技术栈

⚠️ 警告

友情出演：Python · Qt · 一堆开源库 · 以及你即将省下的无数小时

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages