English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
ScrapeGraphAI é uma biblioteca Python de web scraping que utiliza LLM e lógica de grafos direta para criar pipelines de scraping para sites e documentos locais (XML, HTML, JSON, Markdown, etc.).
Basta dizer quais informações você deseja extrair e a biblioteca fará isso por você!
O ScrapeGraphAI oferece integração perfeita com frameworks e ferramentas populares para aprimorar suas capacidades de scraping. Se você está construindo com Python ou Node.js, usando frameworks LLM ou trabalhando com plataformas no-code, temos opções abrangentes de integração para você.
Você pode encontrar mais informações no seguinte link
Integrações:
A página de referência para o Scrapegraph-ai está disponível na página oficial do PyPI: pypi.
pip install scrapegraphai
# IMPORTANT (for fetching websites content)
playwright install
Observação: é recomendado instalar a biblioteca em um ambiente virtual para evitar conflitos com outras bibliotecas 🐱
Existem vários pipelines padrão de scraping que podem ser usados para extrair informações de um site (ou arquivo local).
O mais comum é o SmartScraperGraph
, que extrai informações de uma única página com base em um prompt do usuário e uma URL de origem.
from scrapegraphai.graphs import SmartScraperGraph
# Define the configuration for the scraping pipeline
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192
},
"verbose": True,
"headless": False,
}
# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
source="https://scrapegraphai.com/",
config=graph_config
)
# Run the pipeline
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTE] Para OpenAI e outros modelos, você só precisa alterar a configuração do llm!
graph_config = { "llm": { "api_key": "SUA_CHAVE_API_OPENAI", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
A saída será um dicionário como o seguinte:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
Existem outros pipelines que podem ser usados para extrair informações de várias páginas, gerar scripts Python ou até mesmo gerar arquivos de áudio.
Nome do Pipeline | Descrição |
---|---|
SmartScraperGraph | Scraper de página única que só precisa de um prompt do usuário e uma fonte de entrada. |
SearchGraph | Scraper de múltiplas páginas que extrai informações dos n principais resultados de uma busca em um mecanismo de pesquisa. |
SpeechGraph | Scraper de página única que extrai informações de um site e gera um arquivo de áudio. |
ScriptCreatorGraph | Scraper de página única que extrai informações de um site e gera um script Python. |
SmartScraperMultiGraph | Scraper de múltiplas páginas que extrai informações de várias páginas com base em um único prompt e uma lista de fontes. |
ScriptCreatorMultiGraph | Scraper de múltiplas páginas que gera um script Python para extrair informações de várias páginas e fontes. |
Para cada um desses grafos, existe a versão multi. Ela permite fazer chamadas do LLM em paralelo.
É possível usar diferentes LLMs através de APIs, como OpenAI, Groq, Azure e Gemini, ou modelos locais usando Ollama.
Lembre-se de ter o Ollama instalado e baixar os modelos usando o comando ollama pull, se quiser usar modelos locais.
A documentação do ScrapeGraphAI pode ser encontrada aqui. Confira também o Docusaurus aqui.
Sinta-se à vontade para contribuir e junte-se ao nosso servidor no Discord para discutir melhorias e nos dar sugestões!
Por favor, consulte as diretrizes de contribuição.
Se você está procurando uma solução rápida para integrar o ScrapeGraph em seu sistema, confira nossa poderosa API aqui!
Oferecemos SDKs em Python e Node.js, facilitando a integração em seus projetos. Confira abaixo:
SDK | Linguagem | Link do GitHub |
---|---|---|
Python SDK | Python | scrapegraph-py |
Node.js SDK | Node.js | scrapegraph-js |
A documentação oficial da API pode ser encontrada aqui.
Coletamos métricas de uso anônimas para melhorar a qualidade e a experiência do usuário do nosso pacote. Os dados nos ajudam a priorizar melhorias e garantir compatibilidade. Se desejar desativar, defina a variável de ambiente SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para mais informações, consulte a documentação aqui.
Se você usou nossa biblioteca para fins de pesquisa, por favor, cite-nos com a seguinte referência:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
Informações de Contato | |
---|---|
Marco Vinciguerra | |
Lorenzo Padoan |
O ScrapeGraphAI está licenciado sob a Licença MIT. Consulte o arquivo LICENSE para mais informações.
Feito com ❤️ por ScrapeGraph AI