Docling 简化了文档处理流程,支持解析多种格式(包括高级 PDF 理解功能),并提供与生成式 AI 生态系统的无缝集成。
通过包管理器(如 pip)安装 docling
即可使用:
pip install docling
支持 macOS、Linux 和 Windows 系统,兼容 x86_64 和 arm64 架构。
更多详细安装说明请参阅文档。
使用 Python 转换单个文档时,可调用 convert()
方法,例如:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
文档中提供了更多高级用法选项。
Docling 内置了命令行工具用于执行转换操作。
docling https://arxiv.org/pdf/2206.01062
您还可以通过 Docling CLI 使用 🥚SmolDocling 等视觉语言模型:
docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062
在支持的 Apple Silicon 硬件上会自动启用 MLX 加速。
详见使用说明
查阅 Docling 的完整文档,了解安装指南、使用方法、核心概念、应用示例、扩展功能等详细信息。
通过我们的实例教程亲身体验,了解如何使用 Docling 解决不同场景的应用需求。
为加速 AI 应用开发,可查看 Docling 与主流框架和工具的原生集成方案。
欢迎通过讨论区与我们联系。
了解 Docling 的内部工作原理,请参阅技术报告。
参与贡献前请阅读贡献指南。
如果在项目中使用 Docling,请考虑引用以下文献:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Docling 代码库采用 MIT 许可证。 各模型的使用许可请参考原始软件包中的声明。
Docling 是 LF AI & Data 基金会的托管项目。
本项目由 IBM 苏黎世研究院的知识智能团队发起。