8000 GitHub - EzXxY/pdf2excel-toc: PDF目录提取器:还在为 PDF 里东躲西藏的目录抓狂吗?本程序堪称「目录克星」!无论是正经八百的目录页,还是化身「文字游击队」藏在正文里的目录碎片,它都能用火眼金睛一网打尽,按进 Excel 格子间乖乖排好队! ✅ Windows 用户专享福利,源码在手,天下我有(想打包成 Mac/Linux 版?随便改!) ❌ 从此告别「PDF 马拉松式翻页」和「Excel 手动填表地狱」! (PS:本程序不负责治疗因效率过高导致的上班摸鱼愧疚症,请谨慎使用😏)
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

PDF目录提取器:还在为 PDF 里东躲西藏的目录抓狂吗?本程序堪称「目录克星」!无论是正经八百的目录页,还是化身「文字游击队」藏在正文里的目录碎片,它都能用火眼金睛一网打尽,按进 Excel 格子间乖乖排好队! ✅ Windows 用户专享福利,源码在手,天下我有(想打包成 Mac/Linux 版?随便改!) ❌ 从此告别「PDF 马拉松式翻页」和「Excel 手动填表地狱」! (PS:本程序不负责治疗因效率过高导致的上班摸鱼愧疚症,请谨慎使用😏)

License

Notifications You must be signed in to change notification settings

EzXxY/pdf2excel-toc

Repository files navigation

📖🗂️ 「目录神偷:PDF 转 Excel 的江湖救急侠」

——专治各种“目录失踪案”,让你的PDF乖乖交出藏宝图!

🚀 功能亮点

  • 🔍 火眼金睛:管你是正经目录页还是“游击目录”(藏在正文里玩捉迷藏),统统抓出来!
  • 🖼️ 图像PDF克星:就算目录是张图,咱也能用OCR魔法让它开口说话!
  • 📊 Excel 格子间管理员:把乱跑的目录按标题、页码、层级塞进Excel表格,强迫症看了直呼内行!
  • 🛠️ 源码自由魂:Windows版不够?拿源码去搓个Mac/Linux版吧!(友情提示:可能需要亿点点技术力)

正式语气程序介绍——「智能 PDF 目录提取与 Excel 结构化输出工具(Windows 版)」

  本程序为高效解决 PDF 文档目录提取需求设计,支持以下功能:

  1. 全场景目录识别:自定义目录层级结构生成可编辑的正则表达式,自动解析 PDF 中目录页或分散于正文内的目录信息;
  2. 多格式兼容:支持文本型 PDF 及图像型 PDF(基于 OCR 技术);
  3. 结构化输出:将提取结果标准化为 Excel 表格,支持层级关系与页码映射、间隔符截断等;
  4. 跨平台扩展性:提供源代码,可编译为 macOS/Linux 等客户端版本。

  适用于学术文献整理、企业文档归档等场景,显著提升信息处理效率。遵循开源协议,支持二次开发定制。

🎮 使用说明

  1. 解压下载的 PDF2Excel.7z 到文件夹后,双击运行文件夹中的 PDF 目录提取器.exe
  2. 把PDF丢进程序窗口
  3. 手动输入目录层级结构,c代表中文、e代表英文、n代表阿拉伯数字、r代表罗马数字、同时支持间隔符、*通配符等
  4. 翘脚等待Excel表格生成
  5. 点选以编辑表格格式,是否合并单元格、对齐方式选择、双击编辑表格内容
  6. 导出提取出的目录为xlsx格式的表格文档

  打开表格,大喊一声:“还有谁?!”

🛠️ 技术栈

  • Python 3.7+
  • PyQt (GUI框架)
  • PyMuPDF (PDF解析、分栏自动读取等)
  • OpenCV + Tesseract OCR (图像处理)

⚠️ 警告

本程序可能导致工作效率提升300%,请做好被同事当“卷王”的心理准备!

友情出演:Python · Qt · 一堆开源库 · 以及你即将省下的无数小时

About

PDF目录提取器:还在为 PDF 里东躲西藏的目录抓狂吗?本程序堪称「目录克星」!无论是正经八百的目录页,还是化身「文字游击队」藏在正文里的目录碎片,它都能用火眼金睛一网打尽,按进 Excel 格子间乖乖排好队! ✅ Windows 用户专享福利,源码在手,天下我有(想打包成 Mac/Linux 版?随便改!) ❌ 从此告别「PDF 马拉松式翻页」和「Excel 手动填表地狱」! (PS:本程序不负责治疗因效率过高导致的上班摸鱼愧疚症,请谨慎使用😏)

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages

0