Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

Docling simplifie le traitement de documents en analysant divers formats — y compris la compréhension avancée des PDF — et en fournissant des intégrations transparentes avec l'écosystème d'IA générative.

Fonctionnalités

  • 🗂️ Analyse de multiples formats de documents incluant PDF, DOCX, XLSX, HTML, images, et plus encore
  • 📑 Compréhension avancée des PDF incluant la mise en page, l'ordre de lecture, la structure des tableaux, le code, les formules, la classification d'images, et plus encore
  • 🧬 Format de représentation unifié et expressif DoclingDocument
  • ↪️ Divers formats d'export et options, incluant Markdown, HTML et JSON sans perte
  • 🔒 Capacités d'exécution locale pour les données sensibles et les environnements isolés
  • 🤖 Intégrations prêtes à l'emploi integrations incluant LangChain, LlamaIndex, Crew AI & Haystack pour l'IA agentique
  • 🔍 Support étendu de l'OCR pour les PDF scannés et les images
  • 🥚 Support de plusieurs modèles de langage visuel (SmolDocling)
  • 💻 Interface en ligne de commande simple et pratique

À venir

  • 📝 Extraction de métadonnées, incluant le titre, les auteurs, les références et la langue
  • 📝 Compréhension des graphiques (histogrammes, camemberts, courbes, etc.)
  • 📝 Compréhension avancée de la chimie (structures moléculaires)

Installation

Pour utiliser Docling, installez simplement docling depuis votre gestionnaire de paquets, par exemple pip :

pip install docling

Fonctionne sur macOS, Linux et Windows. Architectures x86_64 et arm64.

Des instructions d'installation détaillées sont disponibles dans la documentation.

Premiers pas

Pour convertir des documents individuels avec Python, utilisez convert(), par exemple :

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

Des options d'utilisation avancées sont disponibles dans la documentation.

CLI

Docling dispose d'une interface en ligne de commande intégrée pour effectuer des conversions.

docling https://arxiv.org/pdf/2206.01062

Vous pouvez également utiliser 🥚SmolDocling et d'autres VLMs via la CLI de Docling :

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

Cela utilisera l'accélération MLX sur les matériels Apple Silicon compatibles.

En savoir plus ici

Documentation

Consultez la documentation de Docling pour des détails sur l'installation, l'utilisation, les concepts, les recettes, les extensions, et plus encore.

Exemples

Mettez la main à la pâte avec nos exemples, qui montrent comment aborder différents cas d'utilisation avec Docling.

Intégrations

Pour accélérer davantage le développement de vos applications d'IA, découvrez les intégrations natives de Docling avec les frameworks et outils populaires.

Obtenir de l'aide

N'hésitez pas à nous contacter via la section discussions.

Rapport technique

Pour plus de détails sur le fonctionnement interne de Docling, consultez le Rapport technique de Docling.

Contributions

Veuillez lire Contribuer à Docling pour plus de détails.

Références

Si vous utilisez Docling dans vos projets, veuillez considérer citer ce qui suit :

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

Licence

Le codebase de Docling est sous licence MIT. Pour l'utilisation des modèles individuels, veuillez vous référer aux licences des modèles trouvées dans les packages d'origine.

LF AI & Data

Docling est hébergé en tant que projet dans la Fondation LF AI & Data.

IBM ❤️ Open Source AI

Le projet a été initié par l'équipe AI for knowledge d'IBM Research Zurich.