🚀 Auf der Suche nach einer noch schnelleren und einfacheren Methode für großangelegtes Scraping (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀


🕷️ ScrapeGraphAI: You Only Scrape Once

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português

Downloads linting: pylint Pylint CodeQL License: MIT

VinciGit00%2FScrapegraph-ai | Trendshift

ScrapeGraphAI ist eine Web-Scraping-Python-Bibliothek, die LLM und direkte Graph-Logik verwendet, um Scraping-Pipelines für Websites und lokale Dokumente (XML, HTML, JSON, Markdown usw.) zu erstellen.

Sagen Sie einfach, welche Informationen Sie extrahieren möchten, und die Bibliothek erledigt den Rest für Sie!

ScrapeGraphAI Hero

🚀 Integrationen

ScrapeGraphAI bietet nahtlose Integration mit beliebten Frameworks und Tools, um Ihre Scraping-Fähigkeiten zu erweitern. Egal, ob Sie mit Python oder Node.js arbeiten, LLM-Frameworks nutzen oder No-Code-Plattformen verwenden – unsere umfassenden Integrationsoptionen haben Sie abgedeckt.

Weitere Informationen finden Sie unter folgendem Link.

Integrationen:

Integrationen:

🚀 Schnellinstallation

Die Referenzseite für Scrapegraph-ai ist auf der offiziellen PyPI-Seite verfügbar: pypi.

pip install scrapegraphai

# IMPORTANT (for fetching websites content)
playwright install

Hinweis: Es wird empfohlen, die Bibliothek in einer virtuellen Umgebung zu installieren, um Konflikte mit anderen Bibliotheken zu vermeiden 🐱

💻 Verwendung

Es gibt mehrere standardmäßige Scraping-Pipelines, die verwendet werden können, um Informationen von einer Website (oder einer lokalen Datei) zu extrahieren.

Die gebräuchlichste ist der SmartScraperGraph, der Informationen von einer einzelnen Seite extrahiert, basierend auf einer Benutzeranfrage und einer Quell-URL.

from scrapegraphai.graphs import SmartScraperGraph

# Define the configuration for the scraping pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Create the SmartScraperGraph instance
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Run the pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

[!HINWEIS] Für OpenAI und andere Modelle müssen Sie nur die llm-Konfiguration ändern!

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

Die Ausgabe wird ein Wörterbuch wie folgt sein:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Es gibt weitere Pipelines, die verwendet werden können, um Informationen von mehreren Seiten zu extrahieren, Python-Skripte zu generieren oder sogar Audiodateien zu erstellen.

Pipeline-NameBeschreibung
SmartScraperGraphEinseitiger Scraper, der nur eine Benutzeraufforderung und eine Eingabequelle benötigt.
SearchGraphMehrseitiger Scraper, der Informationen aus den Top-n-Suchergebnissen einer Suchmaschine extrahiert.
SpeechGraphEinseitiger Scraper, der Informationen von einer Website extrahiert und eine Audiodatei generiert.
ScriptCreatorGraphEinseitiger Scraper, der Informationen von einer Website extrahiert und ein Python-Skript generiert.
SmartScraperMultiGraphMehrseitiger Scraper, der Informationen von mehreren Seiten mit einer einzigen Aufforderung und einer Liste von Quellen extrahiert.
ScriptCreatorMultiGraphMehrseitiger Scraper, der ein Python-Skript zur Extraktion von Informationen von mehreren Seiten und Quellen generiert.

Für jeden dieser Graphen gibt es die Multi-Version. Sie ermöglicht parallele Aufrufe des LLM.

Es ist möglich, verschiedene LLMs über APIs zu nutzen, wie OpenAI, Groq, Azure und Gemini, oder lokale Modelle mit Ollama.

Denken Sie daran, Ollama installiert zu haben und die Modelle mit dem Befehl ollama pull herunterzuladen, falls Sie lokale Modelle verwenden möchten.

📖 Dokumentation

Open In Colab

Die Dokumentation für ScrapeGraphAI finden Sie hier. Besuchen Sie auch unser Docusaurus hier.

🤝 Mitwirken

Wir freuen uns über Beiträge! Treten Sie unserem Discord-Server bei, um mit uns über Verbesserungen zu diskutieren und uns Vorschläge zu machen!

Bitte lesen Sie die Richtlinien für Beiträge.

My Skills My Skills My Skills

🔗 ScrapeGraph API & SDKs

Wenn Sie nach einer schnellen Lösung suchen, um ScrapeGraph in Ihr System zu integrieren, finden Sie hier unsere leistungsstarke API hier!

ScrapeGraph API Banner

Wir bieten SDKs für Python und Node.js an, die eine einfache Integration in Ihre Projekte ermöglichen. Schauen Sie sich die folgenden Links an:

SDKSpracheGitHub Link
Python SDKPythonscrapegraph-py
Node.js SDKNode.jsscrapegraph-js

Die offizielle API-Dokumentation finden Sie hier.

📈 Telemetrie

Wir sammeln anonyme Nutzungsdaten, um die Qualität unseres Pakets und die Benutzererfahrung zu verbessern. Diese Daten helfen uns, Verbesserungen zu priorisieren und die Kompatibilität sicherzustellen. Wenn Sie die Datenerfassung deaktivieren möchten, setzen Sie die Umgebungsvariable SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Weitere Informationen finden Sie in der Dokumentation hier.

❤️ Mitwirkende

Contributors

🎓 Zitate

Falls Sie unsere Bibliothek für Forschungszwecke genutzt haben, zitieren Sie uns bitte mit folgender Referenz:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autoren

Kontaktinformation
Marco VinciguerraLinkedin Badge
Lorenzo PadoanLinkedin Badge

📜 Lizenz

ScrapeGraphAI ist unter der MIT-Lizenz lizenziert. Weitere Informationen finden Sie in der LICENSE-Datei.

Danksagungen

  • Wir möchten allen Projektmitwirkenden und der Open-Source-Community für ihre Unterstützung danken.
  • ScrapeGraphAI ist ausschließlich für Datenexploration und Forschungszwecke gedacht. Wir übernehmen keine Verantwortung für Missbrauch der Bibliothek.

Mit ❤️ erstellt von ScrapeGraph AI

Scarf tracking