8000 GitHub - yuanzhongqiao/docling: 让您的文档为第 AI 代做好准备 Get your docs ready for gen AI
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

yuanzhongqiao/docling

 
 

Repository files navigation

文档

文档

arXiv 文档 PyPI 版本 蟒 诗歌 代码样式:黑色 导入:isort Pydantic v2 版本 预提交 证书编号: MIT

Docling 可以轻松快速地解析文档并将其导出为所需的格式。

特征

  • 🗂️ 读取流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown)并导出为 Markdown 和 JSON
  • 📑 高级PDF文档理解,包括页面布局、阅读顺序和表格结构
  • 🧩 统一、富有表现力的 DoclingDocument 表示格式
  • 📝 元数据提取,包括标题、作者、参考文献和语言
  • 🤖 无缝的LlamaIndex 🦙和LangChain 🦜🔗集成,适用于强大的RAG / QA应用程序
  • 🔍 扫描 PDF 的 OCR 支持
  • 💻 简单方便的 CLI

浏览文档以发现大量示例并解锁 Docling 的全部功能!

安装

要使用 Docling,只需从你的包管理器(例如 pip)安装即可:docling

pip install docling

适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。

文档中提供了更详细的安装说明

开始

要转换单个文档,请使用 ,例如:convert()

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL converter = DocumentConverter() result = converter.convert(source) print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"

<clipboard-copy aria-label="Copy" class="ClipboardButton btn btn-invisible js-clipboard-copy m-2 p-0 d-flex flex-justify-center flex-items-center" data-copy-feedback="Copied!" data-tooltip-direction="w" value="from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL converter = DocumentConverter() result = converter.convert(source) print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"" tabindex="0" role="button">

查看入门。 您将找到许多调整选项来利用所有高级功能。

获取帮助和支持

请随时使用讨论部分与我们联系。

技术报告

有关 Docling 内部工作原理的更多详细信息,请查看 Docling 技术报告

贡献

请阅读 为 Docling 做贡献 了解详情。

引用

如果您在项目中使用 Docling,请考虑引用以下内容:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

许可证

Docling 代码库使用 MIT 许可证。 有关单个模型的使用,请参阅原始包装中的模型许可证。

About

让您的文档为第 AI 代做好准备 Get your docs ready for gen AI

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 55.8%
  • HTML 44.0%
  • Dockerfile 0.2%
0