Docling упрощает обработку документов, анализируя различные форматы — включая расширенное понимание PDF — и обеспечивая seamless-интеграции с экосистемой генеративного ИИ.
Чтобы использовать Docling, просто установите docling
через ваш менеджер пакетов, например pip:
pip install docling
Работает в средах macOS, Linux и Windows. Поддерживаются архитектуры x86_64 и arm64.
Более подробные инструкции по установке доступны в документации.
Для конвертации отдельных документов с помощью Python используйте convert()
, например:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
Более продвинутые варианты использования доступны в документации.
Docling имеет встроенный CLI для выполнения конвертаций.
docling https://arxiv.org/pdf/2206.01062
Вы также можете использовать 🥚SmolDocling и другие VLMs через CLI Docling:
docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062
Это обеспечит ускорение MLX на поддерживаемом оборудовании Apple Silicon.
Подробнее здесь
Ознакомьтесь с документацией Docling, чтобы узнать подробности об установке, использовании, концепциях, рецептах, расширениях и многом другом.
Попробуйте наши примеры, демонстрирующие, как решать различные сценарии использования с помощью Docling.
Для ускорения разработки ИИ-приложений ознакомьтесь с нативными интеграциями Docling с популярными фреймворками и инструментами.
Не стесняйтесь обращаться к нам через раздел обсуждений.
Для более глубокого понимания внутренней работы Docling ознакомьтесь с Техническим отчетом Docling.
Пожалуйста, прочитайте Contributing to Docling для подробностей.
Если вы используете Docling в своих проектах, пожалуйста, рассмотрите возможность цитирования:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
Кодовая база Docling распространяется под лицензией MIT. Для использования отдельных моделей обратитесь к лицензиям оригинальных пакетов.
Docling является проектом в рамках LF AI & Data Foundation.
Проект был начат командой AI for knowledge в IBM Research Zurich.