Doclingはドキュメント処理を簡素化し、PDFの高度な理解を含む多様なフォーマットの解析を行い、生成AIエコシステムとのシームレスな統合を提供します。
Doclingを使用するには、pipなどのパッケージマネージャからdocling
をインストールします:
pip install docling
macOS、Linux、Windows環境で動作します。x86_64とarm64アーキテクチャの両方をサポート。
詳細なインストール手順はドキュメントをご覧ください。
Pythonで個々のドキュメントを変換するにはconvert()
を使用します。例:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
より高度な使用法についてはドキュメントを参照してください。
Doclingには変換を実行するための組み込みCLIがあります。
docling https://arxiv.org/pdf/2206.01062
🥚SmolDoclingなどのVLMもDocling CLI経由で使用可能:
docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062
これはApple SiliconハードウェアでMLXアクセラレーションを利用します。
詳細はこちら
インストール、使用方法、概念、レシピ、拡張機能など詳細についてはDoclingのドキュメントを参照してください。
Doclingを使用して様々なアプリケーションのユースケースに対処する方法を示すサンプルで実際に試せます。
AIアプリケーション開発をさらに加速するため、人気のあるフレームワークやツールとのネイティブ統合を確認してください。
ディスカッションセクションを使用してお気軽にご連絡ください。
Doclingの内部動作の詳細については、Docling技術レポートをご覧ください。
詳細はDoclingへの貢献をお読みください。
プロジェクトでDoclingを使用する場合は、以下を引用することを検討してください:
@techreport{Docling,
author = {Deep Search Team},
month = {8},
title = {Docling Technical Report},
url = {https://arxiv.org/abs/2408.09869},
eprint = {2408.09869},
doi = {10.48550/arXiv.2408.09869},
version = {1.0.0},
year = {2024}
}
DoclingコードベースはMITライセンスです。 個々のモデルの使用については、元のパッケージにあるモデルライセンスを参照してください。
DoclingはLF AI & Data Foundationのプロジェクトとしてホストされています。
このプロジェクトはIBM Research ZurichのAI for knowledgeチームによって開始されました。