Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

Docling vereinfacht die Dokumentenverarbeitung, analysiert diverse Formate – inklusive erweitertem PDF-Verständnis – und bietet nahtlose Integrationen mit der Gen-AI-Ökosystem.

Funktionen

  • 🗂️ Parsing von mehreren Dokumentformaten inkl. PDF, DOCX, XLSX, HTML, Bildern und mehr
  • 📑 Erweitertes PDF-Verständnis inkl. Seitenlayout, Lesereihenfolge, Tabellenstruktur, Code, Formeln, Bildklassifizierung und mehr
  • 🧬 Einheitliches, ausdrucksstarkes DoclingDocument Repräsentationsformat
  • ↪️ Verschiedene Exportformate und Optionen, inklusive Markdown, HTML und verlustfreiem JSON
  • 🔒 Lokale Ausführungsmöglichkeiten für sensible Daten und abgeschottete Umgebungen
  • 🤖 Plug-and-Play Integrationen inkl. LangChain, LlamaIndex, Crew AI & Haystack für agentenbasierte KI
  • 🔍 Umfassende OCR-Unterstützung für gescannte PDFs und Bilder
  • 🥚 Unterstützung mehrerer Visual Language Models (SmolDocling)
  • 💻 Einfache und benutzerfreundliche CLI

In Kürze verfügbar

  • 📝 Metadatenextraktion, inklusive Titel, Autoren, Referenzen & Sprache
  • 📝 Diagrammverständnis (Balkendiagramme, Kuchendiagramme, Liniendiagramme etc.)
  • 📝 Komplexes Chemieverständnis (Molekularstrukturen)

Installation

Um Docling zu verwenden, installieren Sie einfach docling über Ihren Paketmanager, z.B. pip:

pip install docling

Funktioniert in macOS-, Linux- und Windows-Umgebungen. Sowohl x86_64- als auch arm64-Architekturen.

Detailliertere Installationsanleitungen finden Sie in der Dokumentation.

Erste Schritte

Um einzelne Dokumente mit Python zu konvertieren, verwenden Sie convert(), zum Beispiel:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

Weitere erweiterte Nutzungsoptionen sind in der Dokumentation verfügbar.

CLI

Docling verfügt über eine integrierte CLI zur Durchführung von Konvertierungen.

docling https://arxiv.org/pdf/2206.01062

Sie können auch 🥚SmolDocling und andere VLMs über die Docling CLI verwenden:

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

Dies nutzt MLX-Beschleunigung auf unterstützter Apple-Silicon-Hardware.

Mehr dazu hier

Dokumentation

Werfen Sie einen Blick in die Dokumentation von Docling für Details zu Installation, Nutzung, Konzepten, Rezepten, Erweiterungen und mehr.

Beispiele

Machen Sie sich mit unseren Beispielen vertraut, die zeigen, wie Sie verschiedene Anwendungsfälle mit Docling lösen können.

Integrationen

Um die Entwicklung Ihrer KI-Anwendungen weiter zu beschleunigen, sehen Sie sich Doclings native Integrationen mit beliebten Frameworks und Tools an.

Hilfe und Support

Zögern Sie nicht, uns über den Diskussionsbereich zu kontaktieren.

Technischer Bericht

Für weitere Details zu den internen Abläufen von Docling lesen Sie den Docling Technical Report.

Mitwirken

Bitte lesen Sie Contributing to Docling für Details.

Referenzen

Wenn Sie Docling in Ihren Projekten verwenden, ziehen Sie bitte folgende Zitierung in Betracht:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

Lizenz

Die Docling-Codebasis steht unter MIT-Lizenz. Für die Nutzung einzelner Modelle beachten Sie bitte die Modelllizenzen der Originalpakete.

LF AI & Data

Docling wird als Projekt in der LF AI & Data Foundation gehostet.

IBM ❤️ Open Source AI

Das Projekt wurde vom AI for knowledge-Team bei IBM Research Zürich initiiert.