Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

Once translated, you'll be able to submit a PR to the repository.

Once translated, you'll be able to submit a PR to the repository.

🚀 ¿Buscas una forma aún más rápida y sencilla de hacer web scraping a gran escala (solo 5 líneas de código)? ¡Echa un vistazo a nuestra versión mejorada en ScrapeGraphAI.com! 🚀


🕷️ ScrapeGraphAI: Solo Haces Scraping Una Vez

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

Downloads linting: pylint Pylint CodeQL License: MIT

VinciGit00%2FScrapegraph-ai | Trendshift

ScrapeGraphAI es una biblioteca de Python para web scraping que utiliza LLM y lógica de grafos directa para crear pipelines de scraping para sitios web y documentos locales (XML, HTML, JSON, Markdown, etc.).

¡Solo indica qué información deseas extraer y la biblioteca lo hará por ti!

ScrapeGraphAI Hero

🚀 Integraciones

ScrapeGraphAI ofrece integración perfecta con frameworks y herramientas populares para mejorar tus capacidades de scraping. Ya sea que estés construyendo con Python o Node.js, usando frameworks LLM o trabajando con plataformas sin código, tenemos opciones de integración completas para ti.

Puedes encontrar más información en el siguiente enlace

Integraciones:

🚀 Instalación rápida

La página de referencia para Scrapegraph-ai está disponible en la página oficial de PyPI: pypi.

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

Nota: se recomienda instalar la biblioteca en un entorno virtual para evitar conflictos con otras bibliotecas 🐱

💻 Uso

Existen múltiples pipelines estándar de scraping que pueden utilizarse para extraer información de un sitio web (o archivo local).

El más común es SmartScraperGraph, que extrae información de una sola página dado un prompt de usuario y una URL de origen.

from scrapegraphai.graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Run the pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!NOTA] Para OpenAI y otros modelos, ¡solo necesitas cambiar la configuración del LLM!

graph_config = {
   "llm": {
       "api_key": "TU_CLAVE_API_DE_OPENAI",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

La salida será un diccionario como el siguiente:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Hay otros pipelines que pueden usarse para extraer información de múltiples páginas, generar scripts de Python o incluso generar archivos de audio.

Nombre del PipelineDescripción
SmartScraperGraphScraper de una sola página que solo necesita un prompt de usuario y una fuente de entrada.
SearchGraphScraper multi-página que extrae información de los n primeros resultados de un motor de búsqueda.
SpeechGraphScraper de una sola página que extrae información de un sitio web y genera un archivo de audio.
ScriptCreatorGraphScraper de una sola página que extrae información de un sitio web y genera un script de Python.
SmartScraperMultiGraphScraper multi-página que extrae información de múltiples páginas dado un solo prompt y una lista de fuentes.
ScriptCreatorMultiGraphScraper multi-página que genera un script de Python para extraer información de múltiples páginas y fuentes.

Para cada uno de estos grafos existe la versión multi. Permite realizar llamadas al LLM en paralelo.

Es posible utilizar diferentes LLM a través de APIs, como OpenAI, Groq, Azure y Gemini, o modelos locales usando Ollama.

Recuerda tener Ollama instalado y descargar los modelos usando el comando ollama pull, si deseas utilizar modelos locales.

📖 Documentación

Abrir en Colab

La documentación para ScrapeGraphAI se encuentra aquí. También puedes consultar el Docusaurus aquí.

🤝 Contribuciones

¡Siéntete libre de contribuir y únete a nuestro servidor de Discord para discutir con nosotros mejoras y darnos sugerencias!

Por favor, consulta las pautas de contribución.

Mis Habilidades Mis Habilidades Mis Habilidades

🔗 API y SDKs de ScrapeGraph

Si buscas una solución rápida para integrar ScrapeGraph en tu sistema, ¡consulta nuestra potente API aquí!

ScrapeGraph API Banner

Ofrecemos SDKs tanto en Python como en Node.js, facilitando la integración en tus proyectos. Consúltalos a continuación:

SDKLenguajeEnlace de GitHub
SDK PythonPythonscrapegraph-py
SDK Node.jsNode.jsscrapegraph-js

La documentación oficial de la API se encuentra aquí.

🏆 Patrocinadores

Browserbase SerpAPI Stats Stats

📈 Telemetría

Recopilamos métricas de uso anónimas para mejorar la calidad y experiencia del usuario de nuestro paquete. Los datos nos ayudan a priorizar mejoras y garantizar compatibilidad. Si deseas desactivarlo, establece la variable de entorno SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Para más información, consulta la documentación aquí.

❤️ Contribuidores

Contribuidores

🎓 Citas

Si has utilizado nuestra biblioteca con fines de investigación, por favor cítanos con la siguiente referencia:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autores

Información de Contacto
Marco VinciguerraLinkedin Badge
Lorenzo PadoanLinkedin Badge

📜 Licencia

ScrapeGraphAI está licenciado bajo la Licencia MIT. Consulta el archivo LICENSE para más información.

Agradecimientos

  • Queremos agradecer a todos los contribuidores del proyecto y a la comunidad de código abierto por su apoyo.
  • ScrapeGraphAI está destinado a ser utilizado solo para exploración de datos y fines de investigación. No somos responsables del mal uso de la biblioteca.

Hecho con ❤️ por ScrapeGraph AI

Seguimiento de Scarf