Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

Docling упрощает обработку документов, анализируя различные форматы — включая расширенное понимание PDF — и обеспечивая seamless-интеграции с экосистемой генеративного ИИ.

Возможности

  • 🗂️ Парсинг множества форматов документов, включая PDF, DOCX, XLSX, HTML, изображения и другие
  • 📑 Расширенное понимание PDF, включая макет страницы, порядок чтения, структуру таблиц, код, формулы, классификацию изображений и другое
  • 🧬 Унифицированный, выразительный формат представления DoclingDocument
  • ↪️ Различные форматы экспорта и опции, включая Markdown, HTML и lossless JSON
  • 🔒 Возможность локального выполнения для работы с конфиденциальными данными и в изолированных средах
  • 🤖 Plug-and-play интеграции, включая LangChain, LlamaIndex, Crew AI и Haystack для агентного ИИ
  • 🔍 Расширенная поддержка OCR для сканированных PDF и изображений
  • 🥚 Поддержка нескольких Visual Language Models (SmolDocling)
  • 💻 Простой и удобный CLI

Скоро в релизе

  • 📝 Извлечение метаданных, включая заголовок, авторов, ссылки и язык
  • 📝 Понимание графиков (гистограммы, круговые диаграммы, линейные графики и т.д.)
  • 📝 Расширенное понимание химических структур (молекулярные структуры)

Установка

Чтобы использовать Docling, просто установите docling через ваш менеджер пакетов, например pip:

pip install docling

Работает в средах macOS, Linux и Windows. Поддерживаются архитектуры x86_64 и arm64.

Более подробные инструкции по установке доступны в документации.

Начало работы

Для конвертации отдельных документов с помощью Python используйте convert(), например:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

Более продвинутые варианты использования доступны в документации.

CLI

Docling имеет встроенный CLI для выполнения конвертаций.

docling https://arxiv.org/pdf/2206.01062

Вы также можете использовать 🥚SmolDocling и другие VLMs через CLI Docling:

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

Это обеспечит ускорение MLX на поддерживаемом оборудовании Apple Silicon.

Подробнее здесь

Документация

Ознакомьтесь с документацией Docling, чтобы узнать подробности об установке, использовании, концепциях, рецептах, расширениях и многом другом.

Примеры

Попробуйте наши примеры, демонстрирующие, как решать различные сценарии использования с помощью Docling.

Интеграции

Для ускорения разработки ИИ-приложений ознакомьтесь с нативными интеграциями Docling с популярными фреймворками и инструментами.

Получение помощи и поддержки

Не стесняйтесь обращаться к нам через раздел обсуждений.

Технический отчет

Для более глубокого понимания внутренней работы Docling ознакомьтесь с Техническим отчетом Docling.

Участие в разработке

Пожалуйста, прочитайте Contributing to Docling для подробностей.

Ссылки

Если вы используете Docling в своих проектах, пожалуйста, рассмотрите возможность цитирования:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

Лицензия

Кодовая база Docling распространяется под лицензией MIT. Для использования отдельных моделей обратитесь к лицензиям оригинальных пакетов.

LF AI & Data

Docling является проектом в рамках LF AI & Data Foundation.

IBM ❤️ Open Source AI

Проект был начат командой AI for knowledge в IBM Research Zurich.