Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

Docling은 문서 처리를 간소화하며, 다양한 형식(고급 PDF 이해 포함)을 파싱하고 생성형 AI 생태계와의 원활한 통합을 제공합니다.

기능

  • 🗂️ PDF, DOCX, XLSX, HTML, 이미지 등 다양한 문서 형식 파싱 지원
  • 📑 페이지 레이아웃, 읽기 순서, 테이블 구조, 코드, 수식, 이미지 분류 등 고급 PDF 이해 기능
  • 🧬 통합적이고 표현력 있는 DoclingDocument 표현 형식
  • ↪️ Markdown, HTML, 무손실 JSON 등 다양한 내보내기 형식 및 옵션
  • 🔒 민감한 데이터 및 에어갭 환경을 위한 로컬 실행 기능
  • 🤖 LangChain, LlamaIndex, Crew AI & Haystack 등 에이전트 AI를 위한 플러그 앤 플레이 통합
  • 🔍 스캔된 PDF 및 이미지를 위한 광범위한 OCR 지원
  • 🥚 여러 시각 언어 모델 지원(SmolDocling)
  • 💻 간편하고 편리한 CLI

출시 예정 기능

  • 📝 제목, 저자, 참고문헌 및 언어를 포함한 메타데이터 추출
  • 📝 차트 이해(막대 그래프, 원형 차트, 선 그래프 등)
  • 📝 복잡한 화학 구조 이해(분자 구조)

설치

Docling을 사용하려면 패키지 관리자(예: pip)에서 docling을 설치하세요:

pip install docling

macOS, Linux 및 Windows 환경에서 작동합니다. x86_64 및 arm64 아키텍처 모두 지원.

더 자세한 설치 안내는 문서에서 확인할 수 있습니다.

시작하기

파이썬으로 개별 문서를 변환하려면 convert()를 사용하세요. 예시:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

고급 사용법 옵션은 문서에서 확인할 수 있습니다.

CLI

Docling에는 변환을 실행하기 위한 내장 CLI가 있습니다.

docling https://arxiv.org/pdf/2206.01062

🥚SmolDocling 및 기타 VLM을 Docling CLI로 사용할 수도 있습니다:

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

이는 지원되는 Apple Silicon 하드웨어에서 MLX 가속을 사용합니다.

자세한 내용은 여기에서 확인하세요.

문서

설치, 사용법, 개념, 레시피, 확장 등에 대한 자세한 내용은 Docling의 문서를 확인하세요.

예제

Docling으로 다양한 애플리케이션 사용 사례를 해결하는 방법을 보여주는 예제를 직접 경험해 보세요.

통합

AI 애플리케이션 개발을 더욱 가속화하려면 인기 있는 프레임워크 및 도구와의 Docling 네이티브 통합을 확인하세요.

도움 및 지원

토론 섹션을 통해 언제든지 문의해 주세요.

기술 보고서

Docling의 내부 작동 방식에 대한 자세한 내용은 Docling 기술 보고서를 참조하세요.

기여

자세한 내용은 Docling에 기여하기를 참조하세요.

참고 문헌

프로젝트에서 Docling을 사용하는 경우 다음을 인용해 주시기 바랍니다:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

라이선스

Docling 코드베이스는 MIT 라이선스 하에 있습니다. 개별 모델 사용에 대해서는 원본 패키지의 모델 라이선스를 참조하세요.

LF AI & Data

Docling은 LF AI & Data 재단의 프로젝트로 호스팅됩니다.

IBM ❤️ 오픈 소스 AI

이 프로젝트는 IBM Research Zurich의 AI for knowledge 팀에서 시작되었습니다.