🚀🤖 Crawl4AI: LLM向けオープンソースWebクローラー＆スクレイパー

Crawl4AIはGitHubで#1トレンドのリポジトリで、活発なコミュニティによってメンテナンスされています。LLM、AIエージェント、データパイプライン向けに最適化された超高速なWebクローリングを提供します。オープンソースで柔軟性が高く、リアルタイムパフォーマンスを考慮して構築されており、開発者に比類ない速度、精度、デプロイの容易さを提供します。

✨ 最新アップデート v0.6.0をチェック

🎉 バージョン0.6.0が利用可能になりました！ このリリース候補では、ジオロケーションとロケール設定を伴うWorld-aware Crawling、Table-to-DataFrame抽出、ブラウザプーリングと事前ウォーミング、ネットワークおよびコンソールトラフィックキャプチャ、AIツール向けMCP統合、完全に刷新されたDockerデプロイメントが導入されています！リリースノートを読む →

🤓 私の個人的なストーリー

私のコンピュータとの関わりは子供の頃に始まりました。コンピュータ科学者である父がAmstradコンピュータを紹介してくれたのがきっかけです。その初期の日々が技術への興味を引き起こし、私はコンピュータサイエンスを学び、大学院ではNLPを専門としました。この時期に初めてWebクローリングに取り組み、研究者が論文を整理し出版物から情報を抽出するのを助けるツールを構築しました。これはデータ抽出スキルを磨く挑戦的でやりがいのある経験でした。

2023年、プロジェクト向けのツールを開発中に、ウェブページをマークダウンに変換するクローラーが必要になりました。ソリューションを探していると、オープンソースを謳いながらアカウント作成とAPIトークン生成を要求するものを見つけました。さらに悪いことに、それは$16を請求するSaaSモデルで、品質も私の基準に達していませんでした。この不満が怒りに変わり、私は独自のソリューションを構築することを決意しました。わずか数日でCrawl4AIを作成しました。驚いたことに、これはバズり、数千のGitHubスターを獲得し、グローバルなコミュニティに共感されました。

私がCrawl4AIをオープンソースにした理由は2つあります。1つ目は、私のキャリアを通じて支えてくれたオープンソースコミュニティへの恩返しです。2つ目は、データは誰もがアクセス可能であるべきで、ペイウォールの後ろに閉じ込められたり、少数によって独占されたりすべきではないという信念です。データへのオープンアクセスは、個人が自分自身のモデルをトレーニングし、自分の情報の所有権を取ることができるAIの民主化のビジョンの基礎を築きます。このライブラリは、情熱的なコミュニティによって協力的に構築される、史上最高のオープンソースデータ抽出・生成ツールを作る大きな旅の第一歩です。

このプロジェクトをサポートし、使用し、フィードバックを共有してくれた皆さんに感謝します。あなたの励ましが私にさらに大きな夢を抱かせます。私たちに参加し、問題を報告し、PRを提出し、または言葉を広めてください。一緒に、人々が自分自身のデータにアクセスし、AIの未来を再形成する真に力強いツールを構築しましょう。

🧐 Crawl4AIを選ぶ理由

LLM向け設計: RAGやファインチューニングアプリケーション向けに最適化されたスマートで簡潔なマークダウンを生成
超高速: リアルタイムでコスト効率の高いパフォーマンスを6倍の速度で提供
柔軟なブラウザ制御: シームレスなデータアクセスのためのセッション管理、プロキシ、カスタムフックを提供
ヒューリスティックインテリジェンス: 高価なモデルへの依存を減らすための効率的な抽出のための高度なアルゴリズムを使用
オープンソース＆デプロイ可能: APIキー不要の完全なオープンソースで、Dockerとクラウド統合に対応
活発なコミュニティ: 活発なコミュニティによってメンテナンスされ、GitHubで#1トレンドのリポジトリ

🚀 クイックスタート

Crawl4AIをインストール:

# Install the package
pip install -U crawl4ai

# For pre release versions
pip install crawl4ai --pre

# Run post-installation setup
crawl4ai-setup

# Verify your installation
crawl4ai-doctor

ブラウザ関連の問題が発生した場合、手動でインストールできます:

python -m playwright install --with-deps chromium

Pythonで簡単なWebクロールを実行:

import asyncio
from crawl4ai import *

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.nbcnews.com/business",
        )
        print(result.markdown)

if __name__ == "__main__":
    asyncio.run(main())

または新しいコマンドラインインターフェースを使用:

# Basic crawl with markdown output
crwl https://www.nbcnews.com/business -o markdown

# Deep crawl with BFS strategy, max 10 pages
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10

# Use LLM extraction with a specific question
crwl https://www.example.com/products -q "Extract all product prices"

✨ 特徴

📝 マークダウン生成

🧹 クリーンなマークダウン: 正確なフォーマットでクリーンで構造化されたマークダウンを生成
🎯 フィットマークダウン: ノイズや無関係な部分を除去するヒューリスティックベースのフィルタリングでAIフレンドリーな処理
🔗 引用と参照: ページリンクを番号付き参照リストに変換し、クリーンな引用を提供
🛠️ カスタム戦略: 特定のニーズに合わせた独自のマークダウン生成戦略を作成可能
📚 BM25アルゴリズム: コア情報を抽出し無関係なコンテンツを除去するBM25ベースのフィルタリングを採用

📊 構造化データ抽出

🤖 LLM駆動抽出: 構造化データ抽出のためにすべてのLLM（オープンソースおよびプロプライエタリ）をサポート
🧱 チャンキング戦略: ターゲットコンテンツ処理のためのチャンキング（トピックベース、正規表現、文レベル）を実装
🌌 コサイン類似度: セマンティック抽出のためのユーザークエリに基づく関連コンテンツチャンクを検索
🔎 CSSベース抽出: XPathとCSSセレクタを使用した高速なスキーマベースのデータ抽出
🔧 スキーマ定義: 繰り返しパターンから構造化JSONを抽出するためのカスタムスキーマを定義

🌐 ブラウザ統合

🖥️ 管理されたブラウザ: ボット検出を回避する完全な制御を伴うユーザー所有のブラウザを使用
🔄 リモートブラウザ制御: 大規模なデータ抽出のためにChrome Developer Tools Protocolに接続
👤 ブラウザプロファイラー: 保存された認証状態、クッキー、設定を持つ永続的なプロファイルを作成・管理
🔒 セッション管理: ブラウザ状態を保持し、マルチステップクローリングで再利用
🧩 プロキシサポート: 認証付きプロキシにシームレスに接続して安全なアクセスを実現
⚙️ 完全なブラウザ制御: ヘッダー、クッキー、ユーザーエージェントなどを変更してカスタマイズされたクローリング設定を実現
🌍 マルチブラウザサポート: Chromium、Firefox、WebKitに対応
📐 動的ビューポート調整: ブラウザのビューポートをページコンテンツに合わせて自動調整し、すべての要素の完全なレンダリングとキャプチャを保証

🔎 クローリング＆スクレイピング

🖼️ メディアサポート: 画像、オーディオ、ビデオ、およびsrcsetやpictureなどのレスポンシブ画像フォーマットを抽出
🚀 動的クローリング: JSを実行し、非同期または同期を待機して動的コンテンツを抽出
📸 スクリーンショット: デバッグや分析のためにクローリング中にページのスクリーンショットをキャプチャ
📂 生データクローリング: 生HTML(raw:)またはローカルファイル(file://)を直接処理
🔗 包括的なリンク抽出: 内部リンク、外部リンク、および埋め込みiframeコンテンツを抽出
🛠️ カスタマイズ可能なフック: クローリング動作をカスタマイズするためのあらゆるステップでフックを定義
💾 キャッシング: 速度向上と冗長なフェッチを避けるためにデータをキャッシュ
📄 メタデータ抽出: ウェブページから構造化メタデータを取得
📡 IFrameコンテンツ抽出: 埋め込みiframeコンテンツからのシームレスな抽出
🕵️ レイジーロード処理: 画像が完全にロードされるのを待機し、レイジーロードによるコンテンツの見逃しを防止
🔄 フルページスキャン: 無限スクロールページに最適な、すべての動的コンテンツをロードしてキャプチャするためのスクロールをシミュレート

🚀 デプロイメント

🐳 Docker化セットアップ: FastAPIサーバーを備えた最適化されたDockerイメージで簡単なデプロイメント
🔑 セキュアな認証: APIセキュリティのための組み込みJWTトークン認証
🔄 APIゲートウェイ: APIベースのワークフローのためのセキュアなトークン認証を伴うワンクリックデプロイメント
🌐 スケーラブルなアーキテクチャ: 大規模な本番環境向けに設計され、サーバーパフォーマンスが最適化
☁️ クラウドデプロイメント: 主要なクラウドプラットフォーム向けのデプロイメント設定が準備完了

🎯 追加機能

🕶️ ステルスモード: 実際のユーザーを模倣してボット検出を回避
🏷️ タグベースコンテンツ抽出: カスタムタグ、ヘッダー、またはメタデータに基づいてクローリングを洗練
🔗 リンク分析: 詳細なデータ探索のためにすべてのリンクを抽出・分析
🛡️ エラーハンドリング: シームレスな実行のための堅牢なエラー管理
🔐 CORS＆静的提供: ファイルシステムベースのキャッシングとクロスオリジンリクエストをサポート
📖 明確なドキュメント: オンボーディングと高度な使用法のための簡素化され更新されたガイド
🙌 コミュニティ認識: 透明性のために貢献者とプルリクエストを認識

今すぐ試す！

✨ で試してみる

✨ ドキュメントウェブサイトを訪問

インストール 🛠️

Crawl4AIは様々なユースケースに合わせた柔軟なインストールオプションを提供します。Pythonパッケージとしてインストールするか、Dockerを使用できます。

🐍 pipを使用

ニーズに最適なインストールオプションを選択:

基本インストール

基本的なWebクローリングとスクレイピングタスク向け:

pip install crawl4ai
crawl4ai-setup # Setup the browser

デフォルトでは、WebクローリングにPlaywrightを使用するCrawl4AIの非同期バージョンがインストールされます。

👉 注意: Crawl4AIをインストールすると、crawl4ai-setupが自動的にPlaywrightをインストールしてセットアップするはずです。しかし、Playwright関連のエラーが発生した場合、以下のいずれかの方法で手動でインストールできます:

コマンドラインから:
```
playwright install
```
上記がうまくいかない場合、このより具体的なコマンドを試してください:
```
python -m playwright install chromium
```

この2番目の方法は、いくつかのケースでより信頼性が高いことが証明されています。

同期バージョンでのインストール

同期バージョンは非推奨で、将来のバージョンで削除されます。Seleniumを使用する同期バージョンが必要な場合:

pip install crawl4ai[sync]

開発インストール

ソースコードを変更する予定の貢献者向け:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .                    # Basic installation in editable mode

オプション機能をインストール:

pip install -e ".[torch]"           # With PyTorch features
pip install -e ".[transformer]"     # With Transformer features
pip install -e ".[cosine]"          # With cosine similarity features
pip install -e ".[sync]"            # With synchronous crawling (Selenium)
pip install -e ".[all]"             # Install all optional features

🐳 Dockerデプロイメント

🚀 利用可能になりました！ 完全に再設計されたDocker実装が登場！この新しいソリューションは、これまで以上に効率的でシームレスなデプロイメントを実現します。

新しいDocker機能

新しいDocker実装には以下が含まれます:

より速い応答時間のためのページ事前ウォーミングを伴うブラウザプーリング
リクエストコードをテストおよび生成するためのインタラクティブプレイグラウンド
Claude CodeなどのAIツールに直接接続するためのMCP統合
HTML抽出、スクリーンショット、PDF生成、JavaScript実行を含む包括的なAPIエンドポイント
自動検出(AMD64/ARM64)を伴うマルチアーキテクチャサポート
改善されたメモリ管理を伴う最適化されたリソース

はじめに

# Pull and run the latest release candidate
docker pull unclecode/crawl4ai:0.6.0-rN # Use your favorite revision number
docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:0.6.0-rN # Use your favorite revision number

# Visit the playground at http://localhost:11235/playground

完全なドキュメントについては、Dockerデプロイメントガイドを参照してください。

クイックテスト

クイックテストを実行（両方のDockerオプションで動作）:

import requests

# Submit a crawl job
response = requests.post(
    "http://localhost:11235/crawl",
    json={"urls": "https://example.com", "priority": 10}
)
task_id = response.json()["task_id"]

# Continue polling until the task is complete (status="completed")
result = requests.get(f"http://localhost:11235/task/{task_id}")

より多くの例については、Docker例を参照してください。高度な設定、環境変数、および使用例については、Dockerデプロイメントガイドを参照してください。

🔬 高度な使用例 🔬

プロジェクト構造はディレクトリhttps://github.com/unclecode/crawl4ai/docs/examplesで確認できます。そこには様々な例があります。ここでは、いくつかの人気のある例を共有します。

📝 クリーンでフィットしたマークダウンを伴うヒューリスティックマークダウン生成

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode
from crawl4ai.content_filter_strategy import PruningContentFilter, BM25ContentFilter
from crawl4ai.markdown_generation_strategy import DefaultMarkdownGenerator

async def main():
    browser_config = BrowserConfig(
        headless=True,  
        verbose=True,
    )
    run_config = CrawlerRunConfig(
        cache_mode=CacheMode.ENABLED,
        markdown_generator=DefaultMarkdownGenerator(
            content_filter=PruningContentFilter(threshold=0.48, threshold_type="fixed", min_word_threshold=0)
        ),
        # markdown_generator=DefaultMarkdownGenerator(
        #     content_filter=BM25ContentFilter(user_query="WHEN_WE_FOCUS_BASED_ON_A_USER_QUERY", bm25_threshold=1.0)
        # ),
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        result = await crawler.arun(
            url="https://docs.micronaut.io/4.7.6/guide/",
            config=run_config
        )
        print(len(result.markdown.raw_markdown))
        print(len(result.markdown.fit_markdown))

if __name__ == "__main__":
    asyncio.run(main())

🖥️ JavaScriptの実行とLLMなしでの構造化データ抽出

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode
from crawl4ai.extraction_strategy import JsonCssExtractionStrategy
import json

async def main():
    schema = {
    "name": "KidoCode Courses",
    "baseSelector": "section.charge-methodology .w-tab-content > div",
    "fields": [
        {
            "name": "section_title",
            "selector": "h3.heading-50",
            "type": "text",
        },
        {
            "name": "section_description",
            "selector": ".charge-content",
            "type": "text",
        },
        {
            "name": "course_name",
            "selector": ".text-block-93",
            "type": "text",
        },
        {
            "name": "course_description",
            "selector": ".course-content-text",
            "type": "text",
        },
        {
            "name": "course_icon",
            "selector": ".image-92",
            "type": "attribute",
            "attribute": "src"
        }
    }
}

    extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)

    browser_config = BrowserConfig(
        headless=False,
        verbose=True
    )
    run_config = CrawlerRunConfig(
        extraction_strategy=extraction_strategy,
        js_code=["""(async () => {const tabs = document.querySelectorAll("section.charge-methodology .tabs-menu-3 > div");for(let tab of tabs) {tab.scrollIntoView();tab.click();await new Promise(r => setTimeout(r, 500));}})();"""],
        cache_mode=CacheMode.BYPASS
    )
        
    async with AsyncWebCrawler(config=browser_config) as crawler:
        
        result = await crawler.arun(
            url="https://www.kidocode.com/degrees/technology",
            config=run_config
        )

        companies = json.loads(result.extracted_content)
        print(f"Successfully extracted {len(companies)} companies")
        print(json.dumps(companies[0], indent=2))


if __name__ == "__main__":
    asyncio.run(main())

📚 LLMを使用した構造化データ抽出

import os
import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode, LLMConfig
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field

class OpenAIModelFee(BaseModel):
    model_name: str = Field(..., description="Name of the OpenAI model.")
    input_fee: str = Field(..., description="Fee for input token for the OpenAI model.")
    output_fee: str = Field(..., description="Fee for output token for the OpenAI model.")

async def main():
    browser_config = BrowserConfig(verbose=True)
    run_config = CrawlerRunConfig(
        word_count_threshold=1,
        extraction_strategy=LLMExtractionStrategy(
            # Here you can use any provider that Litellm library supports, for instance: ollama/qwen2
            # provider="ollama/qwen2", api_token="no-token", 
            llm_config = LLMConfig(provider="openai/gpt-4o", api_token=os.getenv('OPENAI_API_KEY')), 
            schema=OpenAIModelFee.schema(),
            extraction_type="schema",
            instruction="""From the crawled content, extract all mentioned model names along with their fees for input and output tokens. 
            Do not miss any models in the entire content. One extracted model JSON format should look like this: 
            {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
        ),            
        cache_mode=CacheMode.BYPASS,
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        result = await crawler.arun(
            url='https://openai.com/api/pricing/',
            config=run_config
        )
        print(result.extracted_content)

if __name__ == "__main__":
    asyncio.run(main())

🤖 カスタムユーザープロファイルで独自のブラウザを使用

import os, sys
from pathlib import Path
import asyncio, time
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode

async def test_news_crawl():
    # Create a persistent user data directory
    user_data_dir = os.path.join(Path.home(), ".crawl4ai", "browser_profile")
    os.makedirs(user_data_dir, exist_ok=True)

    browser_config = BrowserConfig(
        verbose=True,
        headless=True,
        user_data_dir=user_data_dir,
        use_persistent_context=True,
    )
    run_config = CrawlerRunConfig(
        cache_mode=CacheMode.BYPASS
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        url = "ADDRESS_OF_A_CHALLENGING_WEBSITE"
        
        result = await crawler.arun(
            url,
            config=run_config,
            magic=True,
        )
        
        print(f"Successfully crawled {url}")
        print(f"Content length: {len(result.markdown)}")

✨ 最近のアップデート

バージョン0.6.0リリースハイライト

🌎 World-awareクローリング: 本物のロケール固有コンテンツのためのジオロケーション、言語、タイムゾーンを設定:

  crun_cfg = CrawlerRunConfig(
      url="https://browserleaks.com/geo",          # あなたの位置を表示するテストページ
      locale="en-US",                              # Accept-Language & UIロケール
      timezone_id="America/Los_Angeles",           # JS Date()/Intlタイムゾーン
      geolocation=GeolocationConfig(                 # GPS座標を上書き
          latitude=34.0522,
          longitude=-118.2437,
          accuracy=10.0,
      )
  )

📊 テーブルからDataFrameへの抽出: HTMLテーブルを直接CSVまたはpandas DataFramesに抽出:

  crawler = AsyncWebCrawler(config=browser_config)
  await crawler.start()

  try:
      # スクレイピングパラメータを設定
      crawl_config = CrawlerRunConfig(
          table_score_threshold=8,  # 厳格なテーブル検出
      )

      # 市場データ抽出を実行
      results: List[CrawlResult] = await crawler.arun(
          url="https://coinmarketcap.com/?page=1", config=crawl_config
      )

      # 結果を処理
      raw_df = pd.DataFrame()
      for result in results:
          if result.success and result.media["tables"]:
              raw_df = pd.DataFrame(
                  result.media["tables"][0]["rows"],
                  columns=result.media["tables"][0]["headers"],
              )
              break
      print(raw_df.head())

  finally:
      await crawler.stop()

🚀 ブラウザプーリング: 事前ウォーミングされたブラウザインスタンスでページを起動し、レイテンシとメモリ使用量を低減
🕸️ ネットワークとコンソールキャプチャ: デバッグのための完全なトラフィックログとMHTMLスナップショット:
```
crawler_config = CrawlerRunConfig(
    capture_network=True,
    capture_console=True,
    mhtml=True
)
```

🔌 MCP統合: Model Context Protocolを通じてClaude CodeなどのAIツールに接続

# Crawl4AIをClaude Codeに追加
claude mcp add --transport sse c4ai-sse http://localhost:11235/mcp/sse

🖥️ インタラクティブプレイグラウンド: 組み込みのWebインターフェースで設定をテストし、APIリクエストを生成 http://localhost:11235//playground
🐳 刷新されたDockerデプロイメント: 改善されたリソース効率を伴う合理化されたマルチアーキテクチャDockerイメージ
📱 マルチステージビルドシステム: プラットフォーム固有のパフォーマンス向上を伴う最適化されたDockerfile

詳細は0.6.0リリースノートまたはCHANGELOGを参照してください。

前バージョン: 0.5.0 メジャーリリースのハイライト

🚀 ディープクローリングシステム: BFS、DFS、BestFirst戦略で初期URLを超えたウェブサイト探索
⚡ メモリ適応型ディスパッチャ: システムメモリに基づき動的に並列処理を調整
🔄 複数クローリング戦略: ブラウザベースと軽量HTTP専用クローラーの選択肢
💻 コマンドラインインターフェース: 新規crwl CLIでターミナルアクセスが可能に
👤 ブラウザプロファイラー: 永続的なブラウザプロファイルの作成・管理
🧠 Crawl4AIコーディングアシスタント: AI搭載のコーディング支援ツール
🏎️ LXMLスクレイピングモード: lxmlライブラリによる高速HTML解析
🌐 プロキシローテーション: プロキシ切り替えの組み込みサポート
🤖 LLMコンテンツフィルター: LLMを活用したインテリジェントなMarkdown生成
📄 PDF処理: PDFファイルからテキスト、画像、メタデータを抽出

詳細は0.5.0リリースノートをご覧ください。

Crawl4AIのバージョン番号体系

Crawl4AIはPythonの標準バージョン番号規則（PEP 440）に従い、各リリースの安定性と機能を明確に示します。

バージョン番号の説明

バージョン番号はMAJOR.MINOR.PATCH形式（例: 0.4.3）です。

プレリリースバージョン

開発段階を表す接尾辞を使用:

dev (0.4.3dev1): 開発版、不安定
a (0.4.3a1): アルファ版、実験的機能
b (0.4.3b1): ベータ版、機能完成だがテスト必要
rc (0.4.3): リリース候補版、最終版候補

インストール方法

安定版インストール:
```
pip install -U crawl4ai
```
プレリリース版インストール:
```
pip install crawl4ai --pre
```
特定バージョンインストール:
```
pip install crawl4ai==0.4.3b1
```

プレリリースの目的

プレリリース版を使用する理由:

新機能の実環境テスト
最終リリース前のフィードバック収集
本番環境向けの安定性確保
早期利用者向け機能提供

本番環境では安定版の使用を推奨します。新機能テストには--preフラグでプレリリース版を選択可能です。

📖 ドキュメント & ロードマップ

🚨 ドキュメント更新予告: 来週、最新アップデートを反映した大規模なドキュメント改訂を実施予定です。より包括的で最新のガイドをお楽しみに！

現在のドキュメント（インストール手順、高度な機能、APIリファレンス）はドキュメントサイトをご覧ください。

開発計画と今後の機能はロードマップで確認できます。

📈 開発TODOリスト

🤝 コントリビューション

オープンソースコミュニティからの貢献を歓迎します。コントリビューションガイドラインをご確認ください。

ライセンスセクションをバッジ付きで更新します。ハーフトーン効果を含むバージョンは以下の通りです:

📄 ライセンス & 帰属表示

本プロジェクトはApache License 2.0でライセンスされており、帰属表示が必須です。詳細はApache 2.0ライセンスファイルをご覧ください。

帰属表示要件

Crawl4AI使用時には以下のいずれかの帰属表示方法が必要です:

1. バッジ表示（推奨）

README、ドキュメント、ウェブサイトに以下のバッジを追加:

テーマ	バッジ
ディスコテーマ（アニメーション）
ナイトテーマ（ネオン調ダーク）
ダークテーマ（クラシック）
ライトテーマ（クラシック）

バッジ追加用HTMLコード:

<!-- Disco Theme (Animated) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-disco.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Night Theme (Dark with Neon) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-night.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Dark Theme (Classic) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-dark.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Light Theme (Classic) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-light.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Simple Shield Badge -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://img.shields.io/badge/Powered%20by-Crawl4AI-blue?style=flat-square" alt="Powered by Crawl4AI"/>
</a>

2. テキスト表示

ドキュメントに以下の行を追加:

This project uses Crawl4AI (https://github.com/unclecode/crawl4ai) for web data extraction.

📚 引用

研究やプロジェクトでCrawl4AIを使用する場合は以下の形式で引用してください:

@software{crawl4ai2024,
  author = {UncleCode},
  title = {Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {\url{https://github.com/unclecode/crawl4ai}},
  commit = {Please use the commit hash you're working with}
}

テキスト引用形式:

UncleCode. (2024). Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper [Computer software]. 
GitHub. https://github.com/unclecode/crawl4ai

📧 連絡先

質問、提案、フィードバックは以下までお気軽に:

GitHub: unclecode
Twitter: @unclecode
ウェブサイト: crawl4ai.com

Happy Crawling! 🕸️🚀

🗾 ミッション

個人・企業データの価値を解放し、デジタルフットプリントを構造化された取引可能な資産へ変換することを使命とします。Crawl4AIはオープンソースツールでデータ抽出・構造化を可能にし、共有データ経済を促進します。

私たちは、実在する人間の知識によって支えられるAIの未来を構想しています。データ民主化と倫理的共有により、真のAI進歩の基盤を築きます。

🔑 主要な機会

データ資本化: デジタルフットプリントを測定可能な価値ある資産へ変換
真正なAIデータ: AIシステムに実在する人間の洞察を提供
共有経済: データ作成者が利益を得る公平なマーケットプレイス創出

🚀 開発パスウェイ

オープンソースツール: 透明性あるデータ抽出のためのコミュニティ駆動型プラットフォーム
デジタル資産構造化: デジタル知識を整理・評価するツール
倫理的データマーケットプレイス: 構造化データ交換の安全で公平なプラットフォーム

詳細は完全なミッションステートメントをご覧ください。

Translation Not Available Yet