Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

Doclingはドキュメント処理を簡素化し、PDFの高度な理解を含む多様なフォーマットの解析を行い、生成AIエコシステムとのシームレスな統合を提供します。

特徴

  • 🗂️ PDF、DOCX、XLSX、HTML、画像など複数のドキュメント形式の解析
  • 📑 ページレイアウト、読み取り順序、表構造、コード、数式、画像分類など高度なPDF理解機能
  • 🧬 統一された表現力豊かなDoclingDocument表現形式
  • ↪️ Markdown、HTML、ロスレスJSONなど様々なエクスポート形式とオプション
  • 🔒 機密データやエアギャップ環境向けのローカル実行機能
  • 🤖 LangChain、LlamaIndex、Crew AI、HaystackなどエージェントAI向けプラグアンドプレイ統合機能
  • 🔍 スキャンPDFや画像向けの広範なOCRサポート
  • 🥚 複数の視覚言語モデルサポート(SmolDocling)
  • 💻 シンプルで便利なCLI

近日公開予定

  • 📝 タイトル、著者、参考文献、言語などのメタデータ抽出
  • 📝 チャート理解(棒グラフ、円グラフ、折れ線グラフなど)
  • 📝 複雑な化学構造理解(分子構造)

インストール

Doclingを使用するには、pipなどのパッケージマネージャからdoclingをインストールします:

pip install docling

macOS、Linux、Windows環境で動作します。x86_64とarm64アーキテクチャの両方をサポート。

詳細なインストール手順はドキュメントをご覧ください。

はじめに

Pythonで個々のドキュメントを変換するにはconvert()を使用します。例:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

より高度な使用法についてはドキュメントを参照してください。

CLI

Doclingには変換を実行するための組み込みCLIがあります。

docling https://arxiv.org/pdf/2206.01062

🥚SmolDoclingなどのVLMもDocling CLI経由で使用可能:

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

これはApple SiliconハードウェアでMLXアクセラレーションを利用します。

詳細はこちら

ドキュメント

インストール、使用方法、概念、レシピ、拡張機能など詳細についてはDoclingのドキュメントを参照してください。

Doclingを使用して様々なアプリケーションのユースケースに対処する方法を示すサンプルで実際に試せます。

統合機能

AIアプリケーション開発をさらに加速するため、人気のあるフレームワークやツールとのネイティブ統合を確認してください。

ヘルプとサポート

ディスカッションセクションを使用してお気軽にご連絡ください。

技術レポート

Doclingの内部動作の詳細については、Docling技術レポートをご覧ください。

貢献

詳細はDoclingへの貢献をお読みください。

参考文献

プロジェクトでDoclingを使用する場合は、以下を引用することを検討してください:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

ライセンス

DoclingコードベースはMITライセンスです。 個々のモデルの使用については、元のパッケージにあるモデルライセンスを参照してください。

LF AI & Data

DoclingはLF AI & Data Foundationのプロジェクトとしてホストされています。

IBM ❤️ Open Source AI

このプロジェクトはIBM Research ZurichのAI for knowledgeチームによって開始されました。