Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

Docling

Docling

DS4SD%2Fdocling | Trendshift

arXiv Docs PyPI version PyPI - Python Version uv Ruff Pydantic v2 pre-commit License MIT PyPI Downloads Docling Actor OpenSSF Best Practices LF AI & Data

O Docling simplifica o processamento de documentos, analisando diversos formatos — incluindo compreensão avançada de PDF — e oferecendo integrações perfeitas com o ecossistema de IA generativa.

Funcionalidades

  • 🗂️ Análise de múltiplos formatos de documentos incluindo PDF, DOCX, XLSX, HTML, imagens e mais
  • 📑 Compreensão avançada de PDF incluindo layout de página, ordem de leitura, estrutura de tabelas, código, fórmulas, classificação de imagens e mais
  • 🧬 Formato unificado e expressivo de representação DoclingDocument
  • ↪️ Vários formatos de exportação e opções, incluindo Markdown, HTML e JSON sem perdas
  • 🔒 Capacidades de execução local para dados sensíveis e ambientes isolados
  • 🤖 Integrações plug-and-play integrations incluindo LangChain, LlamaIndex, Crew AI & Haystack para IA agentiva
  • 🔍 Suporte extensivo a OCR para PDFs digitalizados e imagens
  • 🥚 Suporte a vários Modelos de Linguagem Visual (SmolDocling)
  • 💻 CLI simples e conveniente

Em breve

  • 📝 Extração de metadados, incluindo título, autores, referências e idioma
  • 📝 Compreensão de gráficos (Barras, Pizza, Linhas, etc)
  • 📝 Compreensão complexa de química (Estruturas moleculares)

Instalação

Para usar o Docling, basta instalar docling através do seu gerenciador de pacotes, por exemplo pip:

pip install docling

Funciona em ambientes macOS, Linux e Windows. Tanto em arquiteturas x86_64 quanto arm64.

Instruções de instalação mais detalhadas estão disponíveis na documentação.

Primeiros passos

Para converter documentos individuais com Python, use convert(), por exemplo:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

Mais opções avançadas de uso estão disponíveis na documentação.

CLI

O Docling possui uma CLI integrada para executar conversões.

docling https://arxiv.org/pdf/2206.01062

Você também pode usar 🥚SmolDocling e outros VLMs via CLI do Docling:

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

Isso utilizará aceleração MLX em hardware Apple Silicon compatível.

Leia mais aqui

Documentação

Consulte a documentação do Docling para detalhes sobre instalação, uso, conceitos, receitas, extensões e mais.

Exemplos

Ponha a mão na massa com nossos exemplos, demonstrando como abordar diferentes casos de uso de aplicações com o Docling.

Integrações

Para acelerar ainda mais o desenvolvimento de suas aplicações de IA, confira as integrações nativas do Docling com frameworks e ferramentas populares.

Obtenha ajuda e suporte

Sinta-se à vontade para entrar em contato conosco usando a seção de discussões.

Relatório técnico

Para mais detalhes sobre o funcionamento interno do Docling, consulte o Relatório Técnico do Docling.

Contribuindo

Por favor, leia Contribuindo para o Docling para detalhes.

Referências

Se você usar o Docling em seus projetos, por favor considere citar o seguinte:

@techreport{Docling,
  author = {Deep Search Team},
  month = {8},
  title = {Docling Technical Report},
  url = {https://arxiv.org/abs/2408.09869},
  eprint = {2408.09869},
  doi = {10.48550/arXiv.2408.09869},
  version = {1.0.0},
  year = {2024}
}

Licença

O código do Docling está sob licença MIT. Para uso de modelos individuais, consulte as licenças dos modelos encontradas nos pacotes originais.

LF AI & Data

O Docling está hospedado como um projeto na LF AI & Data Foundation.

IBM ❤️ Open Source AI

O projeto foi iniciado pela equipe de IA para conhecimento da IBM Research Zurich.