🚀 Procurando uma forma ainda mais rápida e simples de fazer scraping em larga escala (apenas 5 linhas de código)? Confira nossa versão aprimorada em ScrapeGraphAI.com! 🚀


🕷️ ScrapeGraphAI: Você Só Faz Scrape Uma Vez

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

Downloads linting: pylint Pylint CodeQL License: MIT

VinciGit00%2FScrapegraph-ai | Trendshift

ScrapeGraphAI é uma biblioteca Python de web scraping que utiliza LLM e lógica de grafos diretos para criar pipelines de raspagem de dados para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).

Basta dizer quais informações você deseja extrair e a biblioteca fará isso por você!

ScrapeGraphAI Hero

🚀 Integrações

O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de raspagem. Seja você um desenvolvedor Python ou Node.js, utilizando frameworks LLM ou trabalhando com plataformas no-code, temos opções abrangentes de integração para você.

Você pode encontrar mais informações no seguinte link

Integrações:

Integrações:

🚀 Instalação rápida

A página de referência do Scrapegraph-ai está disponível na página oficial do PyPI: pypi.

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

Nota: recomenda-se instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱

💻 Como usar

Existem vários pipelines padrão de raspagem que podem ser usados para extrair informações de um site (ou arquivo local).

O mais comum é o SmartScraperGraph, que extrai informações de uma única página com base em um prompt do usuário e em uma URL de origem.

from scrapegraphai.graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Run the pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTA] Para modelos da OpenAI e outros, você só precisa alterar a configuração do llm!

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

A saída será um dicionário como o seguinte:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Existem outros pipelines que podem ser usados para extrair informações de múltiplas páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.

Nome do PipelineDescrição
SmartScraperGraphRaspador de página única que só precisa de um prompt do usuário e uma fonte de entrada.
SearchGraphRaspador de múltiplas páginas que extrai informações dos n principais resultados de uma busca em um mecanismo de pesquisa.
SpeechGraphRaspador de página única que extrai informações de um site e gera um arquivo de áudio.
ScriptCreatorGraphRaspador de página única que extrai informações de um site e gera um script Python.
SmartScraperMultiGraphRaspador de múltiplas páginas que extrai informações de várias páginas com um único prompt e uma lista de fontes.
ScriptCreatorMultiGraphRaspador de múltiplas páginas que gera um script Python para extrair informações de várias páginas e fontes.

Para cada um desses grafos, existe a versão multi. Ela permite fazer chamadas ao LLM em paralelo.

É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.

Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se quiser usar modelos locais.

📖 Documentação

Open In Colab

A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.

🤝 Contribuições

Sinta-se à vontade para contribuir e junte-se ao nosso servidor no Discord para discutir melhorias e nos dar sugestões!

Por favor, consulte as diretrizes de contribuição.

My Skills My Skills My Skills

🔗 API & SDKs do ScrapeGraph

Se você procura uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!

ScrapeGraph API Banner

Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:

SDKLinguagemLink do GitHub
Python SDKPythonscrapegraph-py
Node.js SDKNode.jsscrapegraph-js

A Documentação Oficial da API pode ser encontrada aqui.

📈 Telemetria

Coletamos métricas de uso anônimas para melhorar a qualidade do nosso pacote e a experiência do usuário. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se desejar desativar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.

❤️ Contribuidores

Contributors

🎓 Citações

Se você utilizou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autores

Informações de Contato
Marco VinciguerraLinkedin Badge
Lorenzo PadoanLinkedin Badge

📜 Licença

O ScrapeGraphAI está licenciado sob a Licença MIT. Consulte o arquivo LICENSE para mais informações.

Agradecimentos

  • Gostaríamos de agradecer a todos os contribuidores do projeto e à comunidade de código aberto pelo seu apoio.
  • O ScrapeGraphAI destina-se apenas a fins de exploração de dados e pesquisa. Não nos responsabilizamos por qualquer uso indevido da biblioteca.

Feito com ❤️ por ScrapeGraph AI

Scarf tracking