🚀 ¿Buscas una forma aún más rápida y sencilla de hacer web scraping a gran escala (solo 5 líneas de código)? ¡Echa un vistazo a nuestra versión mejorada en ScrapeGraphAI.com! 🚀

🕷️ ScrapeGraphAI: Solo Haces Scraping Una Vez

ScrapeGraphAI es una biblioteca de Python para web scraping que utiliza LLM y lógica de grafos directa para crear pipelines de scraping para sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).

¡Solo indica qué información deseas extraer y la biblioteca lo hará por ti!

ScrapeGraphAI Hero

🚀 Integraciones

ScrapeGraphAI ofrece integración perfecta con frameworks y herramientas populares para mejorar tus capacidades de scraping. Ya sea que estés construyendo con Python o Node.js, usando frameworks LLM o trabajando con plataformas sin código, tenemos opciones de integración completas para ti.

Puedes encontrar más información en el siguiente enlace

Integraciones:

API: Documentación
SDKs: Python, Node
Frameworks LLM: Langchain, Llama Index, Crew.ai, CamelAI
Frameworks Low-code: Pipedream, Bubble, Zapier, n8n, LangFlow, Dify
Servidor MCP: Enlace

🚀 Instalación rápida

La página de referencia para Scrapegraph-ai está disponible en la página oficial de PyPI: pypi.

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

Nota: se recomienda instalar la biblioteca en un entorno virtual para evitar conflictos con otras bibliotecas 🐱

💻 Uso

Existen múltiples pipelines estándar de scraping que pueden utilizarse para extraer información de un sitio web (o archivo local).

El más común es SmartScraperGraph, que extrae información de una sola página dado un prompt de usuario y una URL de origen.

from scrapegraphai.graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Run the pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTA] Para OpenAI y otros modelos, ¡solo necesitas cambiar la configuración del LLM!

graph_config = {
   "llm": {
       "api_key": "TU_CLAVE_API_DE_OPENAI",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

La salida será un diccionario como el siguiente:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Hay otros pipelines que pueden usarse para extraer información de múltiples páginas, generar scripts de Python o incluso generar archivos de audio.

Nombre del Pipeline	Descripción
SmartScraperGraph	Scraper de una sola página que solo necesita un prompt de usuario y una fuente de entrada.
SearchGraph	Scraper multi-página que extrae información de los n primeros resultados de un motor de búsqueda.
SpeechGraph	Scraper de una sola página que extrae información de un sitio web y genera un archivo de audio.
ScriptCreatorGraph	Scraper de una sola página que extrae información de un sitio web y genera un script de Python.
SmartScraperMultiGraph	Scraper multi-página que extrae información de múltiples páginas dado un solo prompt y una lista de fuentes.
ScriptCreatorMultiGraph	Scraper multi-página que genera un script de Python para extraer información de múltiples páginas y fuentes.

Para cada uno de estos grafos existe la versión multi. Permite realizar llamadas al LLM en paralelo.

Es posible utilizar diferentes LLM a través de APIs, como OpenAI, Groq, Azure y Gemini, o modelos locales usando Ollama.

Recuerda tener Ollama instalado y descargar los modelos usando el comando ollama pull, si deseas utilizar modelos locales.

📖 Documentación

La documentación para ScrapeGraphAI se encuentra aquí. También puedes consultar el Docusaurus aquí.

🤝 Contribuciones

¡Siéntete libre de contribuir y únete a nuestro servidor de Discord para discutir con nosotros mejoras y darnos sugerencias!

Por favor, consulta las pautas de contribución.

🔗 API y SDKs de ScrapeGraph

Si buscas una solución rápida para integrar ScrapeGraph en tu sistema, ¡consulta nuestra potente API aquí!

Ofrecemos SDKs tanto en Python como en Node.js, facilitando la integración en tus proyectos. Consúltalos a continuación:

SDK	Lenguaje	Enlace de GitHub
SDK Python	Python	scrapegraph-py
SDK Node.js	Node.js	scrapegraph-js

La documentación oficial de la API se encuentra aquí.

🏆 Patrocinadores

📈 Telemetría

Recopilamos métricas de uso anónimas para mejorar la calidad y experiencia del usuario de nuestro paquete. Los datos nos ayudan a priorizar mejoras y garantizar compatibilidad. Si deseas desactivarlo, establece la variable de entorno SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para más información, consulta la documentación aquí.

❤️ Contribuidores

🎓 Citas

Si has utilizado nuestra biblioteca con fines de investigación, por favor cítanos con la siguiente referencia:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autores

	Información de Contacto
Marco Vinciguerra
Lorenzo Padoan

📜 Licencia

ScrapeGraphAI está licenciado bajo la Licencia MIT. Consulta el archivo LICENSE para más información.

Agradecimientos

Queremos agradecer a todos los contribuidores del proyecto y a la comunidad de código abierto por su apoyo.
ScrapeGraphAI está destinado a ser utilizado solo para exploración de datos y fines de investigación. No somos responsables del mal uso de la biblioteca.

Hecho con ❤️ por ScrapeGraph AI

Seguimiento de Scarf