English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português
ScrapeGraphAI es una biblioteca de Python para web scraping que utiliza LLM y lógica de grafos directa para crear pipelines de scraping para sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).
¡Solo indica qué información deseas extraer y la biblioteca lo hará por ti!
ScrapeGraphAI ofrece integración perfecta con frameworks y herramientas populares para mejorar tus capacidades de scraping. Ya sea que estés construyendo con Python o Node.js, usando frameworks LLM o trabajando con plataformas sin código, tenemos opciones de integración completas para ti.
Puedes encontrar más información en el siguiente enlace
Integraciones:
La página de referencia para Scrapegraph-ai está disponible en la página oficial de PyPI: pypi.
pip install scrapegraphai
# IMPORTANT (for fetching websites content)
playwright install
Nota: se recomienda instalar la biblioteca en un entorno virtual para evitar conflictos con otras bibliotecas 🐱
Existen múltiples pipelines estándar de scraping que pueden utilizarse para extraer información de un sitio web (o archivo local).
El más común es SmartScraperGraph
, que extrae información de una sola página dado un prompt de usuario y una URL de origen.
from scrapegraphai.graphs import SmartScraperGraph
# Define the configuration for the scraping pipeline
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192
},
"verbose": True,
"headless": False,
}
# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
source="https://scrapegraphai.com/",
config=graph_config
)
# Run the pipeline
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))
[!NOTA] Para OpenAI y otros modelos, ¡solo necesitas cambiar la configuración del LLM!
graph_config = { "llm": { "api_key": "TU_CLAVE_API_DE_OPENAI", "model": "openai/gpt-4o-mini", }, "verbose": True, "headless": False, }
La salida será un diccionario como el siguiente:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}
Hay otros pipelines que pueden usarse para extraer información de múltiples páginas, generar scripts de Python o incluso generar archivos de audio.
Nombre del Pipeline | Descripción |
---|---|
SmartScraperGraph | Scraper de una sola página que solo necesita un prompt de usuario y una fuente de entrada. |
SearchGraph | Scraper multi-página que extrae información de los n primeros resultados de un motor de búsqueda. |
SpeechGraph | Scraper de una sola página que extrae información de un sitio web y genera un archivo de audio. |
ScriptCreatorGraph | Scraper de una sola página que extrae información de un sitio web y genera un script de Python. |
SmartScraperMultiGraph | Scraper multi-página que extrae información de múltiples páginas dado un solo prompt y una lista de fuentes. |
ScriptCreatorMultiGraph | Scraper multi-página que genera un script de Python para extraer información de múltiples páginas y fuentes. |
Para cada uno de estos grafos existe la versión multi. Permite realizar llamadas al LLM en paralelo.
Es posible utilizar diferentes LLM a través de APIs, como OpenAI, Groq, Azure y Gemini, o modelos locales usando Ollama.
Recuerda tener Ollama instalado y descargar los modelos usando el comando ollama pull, si deseas utilizar modelos locales.
La documentación para ScrapeGraphAI se encuentra aquí. También puedes consultar el Docusaurus aquí.
¡Siéntete libre de contribuir y únete a nuestro servidor de Discord para discutir con nosotros mejoras y darnos sugerencias!
Por favor, consulta las pautas de contribución.
Si buscas una solución rápida para integrar ScrapeGraph en tu sistema, ¡consulta nuestra potente API aquí!
Ofrecemos SDKs tanto en Python como en Node.js, facilitando la integración en tus proyectos. Consúltalos a continuación:
SDK | Lenguaje | Enlace de GitHub |
---|---|---|
SDK Python | Python | scrapegraph-py |
SDK Node.js | Node.js | scrapegraph-js |
La documentación oficial de la API se encuentra aquí.
Recopilamos métricas de uso anónimas para mejorar la calidad y experiencia del usuario de nuestro paquete. Los datos nos ayudan a priorizar mejoras y garantizar compatibilidad. Si deseas desactivarlo, establece la variable de entorno SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para más información, consulta la documentación aquí.
Si has utilizado nuestra biblioteca con fines de investigación, por favor cítanos con la siguiente referencia:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
Información de Contacto | |
---|---|
Marco Vinciguerra | |
Lorenzo Padoan |
ScrapeGraphAI está licenciado bajo la Licencia MIT. Consulta el archivo LICENSE para más información.
Hecho con ❤️ por ScrapeGraph AI