Docling 可以轻松快速地解析文档并将其导出为所需的格式。
- 🗂️ 读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为 Markdown 和 JSON
- 📑 高级PDF文档理解,包括页面布局、阅读顺序和表格结构
- 🧩 统一、富有表现力的 DoclingDocument 表示格式
- 📝 元数据提取,包括标题、作者、参考文献和语言
- 🤖 无缝的LlamaIndex 🦙和LangChain 🦜🔗集成,适用于强大的RAG / QA应用程序
- 🔍 扫描 PDF 的 OCR 支持
- 💻 简单方便的 CLI
浏览文档以发现大量示例并解锁 Docling 的全部功能!
要使用 Docling,只需从你的包管理器(例如 pip)安装即可:docling
pip install docling
适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。
文档中提供了更详细的安装说明。
要转换单个文档,请使用 ,例如:convert()
from docling.document_converter import DocumentConvertersource = "https://arxiv.org/pdf/2408.09869" # document per local path or URL converter = DocumentConverter() result = converter.convert(source) print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL converter = DocumentConverter() result = converter.convert(source) print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"" tabindex="0" role="button">
查看入门。 您将找到许多调整选项来利用所有高级功能。
请随时使用讨论部分与我们联系。
有关 Docling 内部工作原理的更多详细信息,请查看 Docling 技术报告。
请阅读 为 Docling 做贡献 了解详情。
如果您在项目中使用 Docling,请考虑引用以下内容:
@techreport{Docling, author = {Deep Search Team}, month = {8}, title = {Docling Technical Report}, url = {https://arxiv.org/abs/2408.09869}, eprint = {2408.09869}, doi = {10.48550/arXiv.2408.09869}, version = {1.0.0}, year = {2024} }
Docling 代码库使用 MIT 许可证。 有关单个模型的使用,请参阅原始包装中的模型许可证。