这是一个强大的PDF文档翻译工具,能够将英文PDF文档翻译成中文,同时保持原始文档的布局、格式和样式。支持表格、列表、图片等复杂元素的处理,让翻译后的文档看起来与原文档保持一致。
- 🚀 保持原始PDF的布局和格式
- 📊 支持表格、列表等复杂元素的翻译
- 🖼️ 保留原文档中的图片
- 🎯 智能识别文档结构
- 🔄 批量处理多个PDF文件
- 🖥️ 支持GPU加速(如果可用)
- 📝 输出为易于编辑的Word格式
git clone https://github.com/yourusername/pdffanyi.git
cd pdffanyi
pip install -r requirements.txt
本项目使用思源黑体(Source Han Sans)来确保中文显示的美观。
- 从Adobe Source Han Sans发布页下载字体
- 将字体文件(特别是
SourceHanSansSC-Regular.otf
)放入fonts/
目录
- 将需要翻译的PDF文件放入
file
目录 - 运行程序:
python translate_pdf.py
- 翻译后的文件将保存为Word格式(
file/原文件名_translated.docx
)
在translate_pdf.py
中,您可以调整以下参数:
- 翻译质量参数(
translate_text
函数):max_length
: 控制输出长度num_beams
: 控制搜索宽度temperature
: 控制输出多样性chinese_ratio
: 控制中文比例阈值(默认0.15)
- 使用PyMuPDF (fitz)解析PDF文档结构
- 通过Helsinki-NLP的opus-mt-en-zh模型进行英译中
- 使用python-docx重建文档布局
- 智能处理表格、列表和图片等特殊元素
欢迎贡献代码!请遵循以下步骤:
- Fork本仓库
- 创建您的特性分支 (
git checkout -b feature/AmazingFeature
) - 提交您的更改 (
git commit -m 'Add some AmazingFeature'
) - 推送到
5FE9
分支 (
git push origin feature/AmazingFeature
) - 开启一个Pull Request
- 首次运行时会自动下载翻译模型(约1GB),需要等待一段时间
- 确保系统有足够的内存和存储空间
- 如果有CUDA设备,会自动使用GPU加速翻译
- 对于大型PDF文件,处理时间可能较长
本项目采用MIT许可证 - 查看LICENSE文件了解详情