🚀🤖 Crawl4AI: 오픈소스 LLM 친화적 웹 크롤러 & 스크래퍼.

Crawl4AI는 #1 트렌딩 GitHub 저장소로, 활발한 커뮤니티에 의해 유지보수되며 LLM, AI 에이전트 및 데이터 파이프라인을 위한 초고속 AI-ready 웹 크롤링을 제공합니다. 오픈소스이며 유연하고 실시간 성능을 위해 구축된 Crawl4AI는 개발자에게 탁월한 속도, 정확성 및 배포 편의성을 제공합니다.

✨ 최신 업데이트 v0.6.0 확인하기

🎉 버전 0.6.0이 출시되었습니다! 이 릴리스 후보에는 지리적 위치 및 로케일 설정을 통한 World-aware 크롤링, 테이블-투-데이터프레임 추출, 브라우저 풀링 및 사전 워밍, 네트워크 및 콘솔 트래� 캡처, AI 도구를 위한 MCP 통합, 완전히 개선된 Docker 배포가 포함됩니다! 릴리스 노트 읽기 →

🤓 개인적인 이야기

제 컴퓨터와의 여정은 어린 시절로 거슬러 올라갑니다. 컴퓨터 과학자이신 아버지가 저에게 Amstrad 컴퓨터를 소개해주셨죠. 그 초기 시절은 기술에 대한 매력을 불러일으켰고, 결국 컴퓨터 과학을 전공하게 되었으며 대학원 시절에는 NLP를 전문화했습니다. 그 당시 웹 크롤링에 처음 발을 들였고, 연구자들이 논문을 정리하고 출판물에서 정보를 추출할 수 있도록 돕는 도구를 만들었습니다. 데이터 추출 기술을 연마하는 도전적이면서도 보람 있는 경험이었죠.

2023년으로 넘어와, 저는 프로젝트를 위한 도구를 작업 중이었고 웹페이지를 마크다운으로 변환할 크롤러가 필요했습니다. 해결책을 찾던 중, 오픈소스라고 주장하지만 계정 생성과 API 토큰 생성이 필요한 것을 발견했습니다. 더 나쁜 것은 SaaS 모델로 $16을 청구했고 품질이 제 기준에 미치지 못했습니다. 좌절감을 느끼며, 이는 더 깊은 문제임을 깨달았습니다. 그 좌절감은 터보 분노 모드로 바뀌었고, 저는 직접 해결책을 만들기로 결정했습니다. 단 며칠 만에 Crawl4AI를 만들었습니다. 놀랍게도, 이 프로젝트는 급속도로 퍼져 수천 개의 GitHub 스타를 얻으며 글로벌 커뮤니티와 공감을 얻었습니다.

저는 Crawl4AI를 오픈소스로 공개한 데 두 가지 이유가 있습니다. 첫째, 제 경력 전반에 걸쳐 저를 지원해준 오픈소스 커뮤니티에 보답하는 방법이기 때문입니다. 둘째, 데이터는 모든 사람이 접근할 수 있어야 하며, 유료 벽 뒤에 갇히거나 소수에 의해 독점되어서는 안 된다고 믿기 때문입니다. 데이터에 대한 개방형 접근은 AI의 민주화를 위한 기반을 마련하며, 개인이 자신의 모델을 훈련하고 정보의 소유권을 가질 수 있는 비전을 실현합니다. 이 라이브러리는 열정적인 커뮤니티가 협력하여 구축한 최고의 오픈소스 데이터 추출 및 생성 도구를 만들기 위한 더 큰 여정의 첫 걸음입니다.

이 프로젝트를 지원하고 사용하며 피드백을 공유해주신 모든 분들께 감사드립니다. 여러분의 격려는 제가 더 큰 꿈을 꾸도록 동기부여합니다. 함께하셔서 이슈를 제출하거나 PR을 제출하거나 소문을 퍼뜨려주세요. 함께라면 사람들이 자신의 데이터에 접근하고 AI의 미래를 재구성할 수 있는 진정한 도구를 만들 수 있습니다.

🧐 Crawl4AI를 선택해야 하는 이유?

LLM을 위해 구축됨: RAG 및 파인튜닝 애플리케이션에 최적화된 스마트하고 간결한 마크다운을 생성합니다.
번개 같은 속도: 실시간으로 비용 효율적인 성능을 제공하며 결과를 6배 더 빠르게 전달합니다.
유연한 브라우저 제어: 원활한 데이터 접근을 위한 세션 관리, 프록시 및 사용자 정의 훅을 제공합니다.
휴리스틱 인텔리전스: 고급 알고리즘을 사용하여 비용이 많이 드는 모델에 대한 의존도를 줄이는 효율적인 추출을 제공합니다.
오픈소스 & 배포 가능: API 키 없이 완전히 오픈소스이며 Docker 및 클라우드 통합이 준비되어 있습니다.
활발한 커뮤니티: 활기찬 커뮤니티와 #1 트렌딩 GitHub 저장소에 의해 적극적으로 유지보수됩니다.

🚀 빠른 시작

Crawl4AI 설치:

# Install the package
pip install -U crawl4ai

# For pre release versions
pip install crawl4ai --pre

# Run post-installation setup
crawl4ai-setup

# Verify your installation
crawl4ai-doctor

브라우저 관련 문제가 발생하면 수동으로 설치할 수 있습니다:

python -m playwright install --with-deps chromium

Python으로 간단한 웹 크롤링 실행:

import asyncio
from crawl4ai import *

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun(
            url="https://www.nbcnews.com/business",
        )
        print(result.markdown)

if __name__ == "__main__":
    asyncio.run(main())

또는 새로운 명령줄 인터페이스 사용:

# Basic crawl with markdown output
crwl https://www.nbcnews.com/business -o markdown

# Deep crawl with BFS strategy, max 10 pages
crwl https://docs.crawl4ai.com --deep-crawl bfs --max-pages 10

# Use LLM extraction with a specific question
crwl https://www.example.com/products -q "Extract all product prices"

✨ 기능

📝 마크다운 생성

🧹 깔끔한 마크다운: 정확한 형식으로 깔끔하고 구조화된 마크다운을 생성합니다.
🎯 적합한 마크다운: AI 친화적인 처리를 위해 노이즈 및 관련 없는 부분을 제거하는 휴리스틱 기반 필터링.
🔗 인용 및 참조: 페이지 링크를 깔끔한 인용이 포함된 번호 매기기 참조 목록으로 변환합니다.
🛠️ 사용자 정의 전략: 특정 요구 사항에 맞춘 사용자 정의 마크다운 생성 전략을 만들 수 있습니다.
📚 BM25 알고리즘: 핵심 정보 추출 및 관련 없는 콘텐츠 제거를 위해 BM25 기반 필터링을 사용합니다.

📊 구조화된 데이터 추출

🤖 LLM 기반 추출: 구조화된 데이터 추출을 위해 모든 LLM(오픈소스 및 독점)을 지원합니다.
🧱 청킹 전략: 대상 콘텐츠 처리를 위한 청킹(주제 기반, 정규식, 문장 수준)을 구현합니다.
🌌 코사인 유사도: 의미론적 추출을 위해 사용자 쿼리 기반 관련 콘텐츠 청크를 찾습니다.
🔎 CSS 기반 추출: XPath 및 CSS 선택자를 사용한 빠른 스키마 기반 데이터 추출.
🔧 스키마 정의: 반복적인 패턴에서 구조화된 JSON을 추출하기 위한 사용자 정의 스키마 정의.

🌐 브라우저 통합

🖥️ 관리형 브라우저: 봇 탐지를 피하면서 사용자 소유의 브라우저를 완전한 제어와 함께 사용합니다.
🔄 원격 브라우저 제어: 대규모 데이터 추출을 위해 Chrome 개발자 도구 프로토콜에 연결합니다.
👤 브라우저 프로파일러: 저장된 인증 상태, 쿠키 및 설정이 포함된 지속적인 프로필 생성 및 관리.
🔒 세션 관리: 브라우저 상태를 보존하고 다단계 크롤링을 위해 재사용합니다.
🧩 프록시 지원: 보안 접근을 위한 인증이 포함된 프록시에 원활하게 연결합니다.
⚙️ 완전한 브라우저 제어: 맞춤형 크롤링 설정을 위해 헤더, 쿠키, 사용자 에이전트 등을 수정합니다.
🌍 다중 브라우저 지원: Chromium, Firefox 및 WebKit과 호환됩니다.
📐 동적 뷰포트 조정: 브라우저 뷰포트를 페이지 콘텐츠에 맞게 자동 조정하여 모든 요소의 완전한 렌더링 및 캡처를 보장합니다.

🔎 크롤링 & 스크래핑

🖼️ 미디어 지원: 이미지, 오디오, 비디오 및 srcset 및 picture와 같은 반응형 이미지 형식을 추출합니다.
🚀 동적 크롤링: JS 실행 및 비동기 또는 동기 대기를 통해 동적 콘텐츠 추출.
📸 스크린샷: 디버깅 또는 분석을 위해 크롤링 중 페이지 스크린샷 캡처.
📂 원시 데이터 크롤링: 원시 HTML(raw:) 또는 로컬 파일(file://)을 직접 처리합니다.
🔗 포괄적인 링크 추출: 내부, 외부 링크 및 임베디드 iframe 콘텐츠를 추출합니다.
🛠️ 사용자 정의 가능한 훅: 크롤링 동작을 사용자 정의하기 위해 모든 단계에서 훅을 정의합니다.
💾 캐싱: 속도 향상 및 중복 페치 방지를 위해 데이터를 캐시합니다.
📄 메타데이터 추출: 웹 페이지에서 구조화된 메타데이터를 검색합니다.
📡 IFrame 콘텐츠 추출: 임베디드 iframe 콘텐츠에서 원활한 추출.
🕵️ 지연 로드 처리: 이미지가 완전히 로드될 때까지 대기하여 지연 로드로 인한 콘텐츠 누락을 방지합니다.
🔄 전체 페이지 스캐닝: 무한 스크롤 페이지에 완벽한 모든 동적 콘텐츠를 로드하고 캡처하기 위해 스크롤을 시뮬레이션합니다.

🚀 배포

🐳 Dockerized 설정: 쉬운 배포를 위한 FastAPI 서버가 포함된 최적화된 Docker 이미지.
🔑 보안 인증: API 보안을 위한 내장 JWT 토큰 인증.
🔄 API 게이트웨이: API 기반 워크플로우를 위한 보안 토큰 인증으로 원클릭 배포.
🌐 확장 가능한 아키텍처: 대규모 생산 및 최적화된 서버 성능을 위해 설계되었습니다.
☁️ 클라우드 배포: 주요 클라우드 플랫폼을 위한 즉시 배포 가능한 구성.

🎯 추가 기능

🕶️ 스텔스 모드: 실제 사용자를 모방하여 봇 탐지를 피합니다.
🏷️ 태그 기반 콘텐츠 추출: 사용자 정의 태그, 헤더 또는 메타데이터를 기반으로 크롤링을 정제합니다.
🔗 링크 분석: 상세한 데이터 탐색을 위해 모든 링크를 추출하고 분석합니다.
🛡️ 오류 처리: 원활한 실행을 위한 강력한 오류 관리.
🔐 CORS & 정적 서빙: 파일 시스템 기반 캐싱 및 교차 출처 요청을 지원합니다.
📖 명확한 문서화: 온보딩 및 고급 사용을 위한 단순화되고 업데이트된 가이드.
🙌 커뮤니티 인정: 투명성을 위해 기여자 및 풀 리퀘스트를 인정합니다.

지금 사용해보세요!

✨ 에서 직접 체험해보세요.

✨ 문서 웹사이트 방문하기.

설치 🛠️

Crawl4AI는 다양한 사용 사례에 맞춰 유연한 설치 옵션을 제공합니다. Python 패키지로 설치하거나 Docker를 사용할 수 있습니다.

🐍 pip 사용

필요에 맞는 설치 옵션을 선택하세요:

기본 설치

기본적인 웹 크롤링 및 스크래핑 작업을 위한:

pip install crawl4ai
crawl4ai-setup # Setup the browser

기본적으로 Playwright를 사용하는 Crawl4AI의 비동기 버전이 설치됩니다.

👉 참고: Crawl4AI를 설치할 때 crawl4ai-setup이 자동으로 Playwright를 설치하고 설정해야 합니다. 그러나 Playwright 관련 오류가 발생하면 다음 방법 중 하나로 수동으로 설치할 수 있습니다:

명령줄을 통해:
```
playwright install
```
위 방법이 작동하지 않으면 더 구체적인 명령어 시도:
```
python -m playwright install chromium
```

이 두 번째 방법이 경우에 따라 더 안정적입니다.

동기 버전 설치

동기 버전은 더 이상 사용되지 않으며 향후 버전에서 제거될 예정입니다. Selenium을 사용하는 동기 버전이 필요한 경우:

pip install crawl4ai[sync]

개발 설치

소스 코드를 수정할 계획인 기여자를 위한:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .                    # Basic installation in editable mode

선택적 기능 설치:

pip install -e ".[torch]"           # With PyTorch features
pip install -e ".[transformer]"     # With Transformer features
pip install -e ".[cosine]"          # With cosine similarity features
pip install -e ".[sync]"            # With synchronous crawling (Selenium)
pip install -e ".[all]"             # Install all optional features

🐳 Docker 배포

🚀 이제 사용 가능! 완전히 재설계된 Docker 구현이 도입되었습니다! 이 새로운 솔루션은 이전보다 더 효율적이고 원활한 배포를 가능하게 합니다.

새로운 Docker 기능

새로운 Docker 구현에는 다음이 포함됩니다:

페이지 사전 워밍을 통한 브라우저 풀링으로 더 빠른 응답 시간
요청 코드를 테스트하고 생성하기 위한 대화형 플레이그라운드
Claude Code와 같은 AI 도구에 직접 연결하기 위한 MCP 통합
HTML 추출, 스크린샷, PDF 생성 및 JavaScript 실행을 포함한 포괄적인 API 엔드포인트
자동 감지(AMD64/ARM64)를 통한 다중 아키텍처 지원
개선된 메모리 관리를 통한 최적화된 리소스

시작하기

# Pull and run the latest release candidate
docker pull unclecode/crawl4ai:0.6.0-rN # Use your favorite revision number
docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai:0.6.0-rN # Use your favorite revision number

# Visit the playground at http://localhost:11235/playground

전체 문서는 Docker 배포 가이드를 참조하세요.

빠른 테스트

빠른 테스트 실행(두 Docker 옵션 모두 작동):

import requests

# Submit a crawl job
response = requests.post(
    "http://localhost:11235/crawl",
    json={"urls": "https://example.com", "priority": 10}
)
task_id = response.json()["task_id"]

# Continue polling until the task is complete (status="completed")
result = requests.get(f"http://localhost:11235/task/{task_id}")

더 많은 예제는 Docker 예제를 참조하세요. 고급 구성, 환경 변수 및 사용 예제는 Docker 배포 가이드를 참조하세요.

🔬 고급 사용 예제 🔬

프로젝트 구조는 https://github.com/unclecode/crawl4ai/docs/examples 디렉토리에서 확인할 수 있습니다. 다양한 예제가 있으며, 여기서는 일부 인기 있는 예제를 공유합니다.

📝 휴리스틱 마크다운 생성 및 깔끔하고 적합한 마크다운

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode
from crawl4ai.content_filter_strategy import PruningContentFilter, BM25ContentFilter
from crawl4ai.markdown_generation_strategy import DefaultMarkdownGenerator

async def main():
    browser_config = BrowserConfig(
        headless=True,  
        verbose=True,
    )
    run_config = CrawlerRunConfig(
        cache_mode=CacheMode.ENABLED,
        markdown_generator=DefaultMarkdownGenerator(
            content_filter=PruningContentFilter(threshold=0.48, threshold_type="fixed", min_word_threshold=0)
        ),
        # markdown_generator=DefaultMarkdownGenerator(
        #     content_filter=BM25ContentFilter(user_query="WHEN_WE_FOCUS_BASED_ON_A_USER_QUERY", bm25_threshold=1.0)
        # ),
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        result = await crawler.arun(
            url="https://docs.micronaut.io/4.7.6/guide/",
            config=run_config
        )
        print(len(result.markdown.raw_markdown))
        print(len(result.markdown.fit_markdown))

if __name__ == "__main__":
    asyncio.run(main())

🖥️ JavaScript 실행 및 LLM 없이 구조화된 데이터 추출

import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode
from crawl4ai.extraction_strategy import JsonCssExtractionStrategy
import json

async def main():
    schema = {
    "name": "KidoCode Courses",
    "baseSelector": "section.charge-methodology .w-tab-content > div",
    "fields": [
        {
            "name": "section_title",
            "selector": "h3.heading-50",
            "type": "text",
        },
        {
            "name": "section_description",
            "selector": ".charge-content",
            "type": "text",
        },
        {
            "name": "course_name",
            "selector": ".text-block-93",
            "type": "text",
        },
        {
            "name": "course_description",
            "selector": ".course-content-text",
            "type": "text",
        },
        {
            "name": "course_icon",
            "selector": ".image-92",
            "type": "attribute",
            "attribute": "src"
        }
    }
}

    extraction_strategy = JsonCssExtractionStrategy(schema, verbose=True)

    browser_config = BrowserConfig(
        headless=False,
        verbose=True
    )
    run_config = CrawlerRunConfig(
        extraction_strategy=extraction_strategy,
        js_code=["""(async () => {const tabs = document.querySelectorAll("section.charge-methodology .tabs-menu-3 > div");for(let tab of tabs) {tab.scrollIntoView();tab.click();await new Promise(r => setTimeout(r, 500));}})();"""],
        cache_mode=CacheMode.BYPASS
    )
        
    async with AsyncWebCrawler(config=browser_config) as crawler:
        
        result = await crawler.arun(
            url="https://www.kidocode.com/degrees/technology",
            config=run_config
        )

        companies = json.loads(result.extracted_content)
        print(f"Successfully extracted {len(companies)} companies")
        print(json.dumps(companies[0], indent=2))


if __name__ == "__main__":
    asyncio.run(main())

📚 LLM으로 구조화된 데이터 추출

import os
import asyncio
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode, LLMConfig
from crawl4ai.extraction_strategy import LLMExtractionStrategy
from pydantic import BaseModel, Field

class OpenAIModelFee(BaseModel):
    model_name: str = Field(..., description="Name of the OpenAI model.")
    input_fee: str = Field(..., description="Fee for input token for the OpenAI model.")
    output_fee: str = Field(..., description="Fee for output token for the OpenAI model.")

async def main():
    browser_config = BrowserConfig(verbose=True)
    run_config = CrawlerRunConfig(
        word_count_threshold=1,
        extraction_strategy=LLMExtractionStrategy(
            # Here you can use any provider that Litellm library supports, for instance: ollama/qwen2
            # provider="ollama/qwen2", api_token="no-token", 
            llm_config = LLMConfig(provider="openai/gpt-4o", api_token=os.getenv('OPENAI_API_KEY')), 
            schema=OpenAIModelFee.schema(),
            extraction_type="schema",
            instruction="""From the crawled content, extract all mentioned model names along with their fees for input and output tokens. 
            Do not miss any models in the entire content. One extracted model JSON format should look like this: 
            {"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""
        ),            
        cache_mode=CacheMode.BYPASS,
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        result = await crawler.arun(
            url='https://openai.com/api/pricing/',
            config=run_config
        )
        print(result.extracted_content)

if __name__ == "__main__":
    asyncio.run(main())

🤖 사용자 정의 사용자 프로필로 자신의 브라우저 사용

import os, sys
from pathlib import Path
import asyncio, time
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode

async def test_news_crawl():
    # Create a persistent user data directory
    user_data_dir = os.path.join(Path.home(), ".crawl4ai", "browser_profile")
    os.makedirs(user_data_dir, exist_ok=True)

    browser_config = BrowserConfig(
        verbose=True,
        headless=True,
        user_data_dir=user_data_dir,
        use_persistent_context=True,
    )
    run_config = CrawlerRunConfig(
        cache_mode=CacheMode.BYPASS
    )
    
    async with AsyncWebCrawler(config=browser_config) as crawler:
        url = "ADDRESS_OF_A_CHALLENGING_WEBSITE"
        
        result = await crawler.arun(
            url,
            config=run_config,
            magic=True,
        )
        
        print(f"Successfully crawled {url}")
        print(f"Content length: {len(result.markdown)}")

✨ 최근 업데이트

버전 0.6.0 릴리스 하이라이트

🌎 World-aware 크롤링: 진정한 로케일별 콘텐츠를 위한 지리적 위치, 언어 및 시간대 설정:

  crun_cfg = CrawlerRunConfig(
      url="https://browserleaks.com/geo",          # 위치를 보여주는 테스트 페이지
      locale="en-US",                              # Accept-Language & UI 로케일
      timezone_id="America/Los_Angeles",           # JS Date()/Intl 시간대
      geolocation=GeolocationConfig(                 # GPS 좌표 재정의
          latitude=34.0522,
          longitude=-118.2437,
          accuracy=10.0,
      )
  )

📊 테이블-투-데이터프레임 추출: HTML 테이블을 직접 CSV 또는 pandas 데이터프레임으로 추출:

  crawler = AsyncWebCrawler(config=browser_config)
  await crawler.start()

  try:
      # 스크래핑 매개변수 설정
      crawl_config = CrawlerRunConfig(
          table_score_threshold=8,  # 엄격한 테이블 감지
      )

      # 시장 데이터 추출 실행
      results: List[CrawlResult] = await crawler.arun(
          url="https://coinmarketcap.com/?page=1", config=crawl_config
      )

      # 결과 처리
      raw_df = pd.DataFrame()
      for result in results:
          if result.success and result.media["tables"]:
              raw_df = pd.DataFrame(
                  result.media["tables"][0]["rows"],
                  columns=result.media["tables"][0]["headers"],
              )
              break
      print(raw_df.head())

  finally:
      await crawler.stop()

🚀 브라우저 풀링: 사전 워밍된 브라우저 인스턴스로 페이지가 뜨거운 상태로 시작되어 지연 시간 및 메모리 사용량 감소

🕸️ 네트워크 및 콘솔 캡처: 디버깅을 위한 전체 트래픽 로그 및 MHTML 스냅샷:

crawler_config = CrawlerRunConfig(
    capture_network=True,
    capture_console=True,
    mhtml=True
)

🔌 MCP 통합: Model Context Protocol을 통해 Claude Code와 같은 AI 도구에 연결

# Claude Code에 Crawl4AI 추가
claude mcp add --transport sse c4ai-sse http://localhost:11235/mcp/sse

🖥️ 대화형 플레이그라운드: http://localhost:11235//playground에서 내장 웹 인터페이스로 구성 테스트 및 API 요청 생성
🐳 개선된 Docker 배포: 향상된 리소스 효율성을 갖춘 간소화된 다중 아키텍처 Docker 이미지
📱 다단계 빌드 시스템: 플랫폼별 성능 향상을 위한 최적화된 Dockerfile

자세한 내용은 0.6.0 릴리스 노트 또는 CHANGELOG에서 확인하세요.

이전 버전: 0.5.0 주요 릴리스 하이라이트

🚀 딥 크롤링 시스템: BFS, DFS, BestFirst 전략으로 초기 URL을 넘어 웹사이트 탐색
⚡ 메모리 적응형 디스패처: 시스템 메모리에 기반해 동적으로 동시성 조정
🔄 다중 크롤링 전략: 브라우저 기반 및 경량 HTTP 전용 크롤러 지원
💻 명령줄 인터페이스: 새로운 crwl CLI로 터미널에서 편리하게 접근
👤 브라우저 프로파일러: 지속적인 브라우저 프로필 생성 및 관리
🧠 Crawl4AI 코딩 어시스턴트: AI 기반 코딩 지원 도구
🏎️ LXML 스크래핑 모드: lxml 라이브러리를 사용한 빠른 HTML 파싱
🌐 프록시 로테이션: 내장 프록시 전환 지원
🤖 LLM 콘텐츠 필터: LLM을 활용한 지능형 마크다운 생성
📄 PDF 처리: PDF 파일에서 텍스트, 이미지, 메타데이터 추출

자세한 내용은 0.5.0 릴리스 노트에서 확인하세요.

Crawl4AI의 버전 번호 체계

Crawl4AI은 각 릴리스의 안정성과 기능을 이해하는 데 도움을 주기 위해 표준 Python 버전 번호 체계(PEP 440)를 따릅니다.

버전 번호 설명

버전 번호는 MAJOR.MINOR.PATCH 패턴을 따릅니다 (예: 0.4.3).

프리릴리스 버전

개발 단계를 나타내기 위해 다양한 접미사를 사용합니다:

dev (0.4.3dev1): 개발 버전, 불안정
a (0.4.3a1): 알파 릴리스, 실험적 기능
b (0.4.3b1): 베타 릴리스, 기능 완성 but 테스트 필요
rc (0.4.3): 릴리스 후보, 최종 버전 가능성

설치 방법

안정 버전 설치:
```
pip install -U crawl4ai
```
프리릴리스 버전 설치:
```
pip install crawl4ai --pre
```
특정 버전 설치:
```
pip install crawl4ai==0.4.3b1
```

프리릴리스의 목적

프리릴리스는 다음과 같은 목적으로 사용됩니다:

실제 환경에서 새 기능 테스트
최종 릴리스 전 피드백 수집
프로덕션 사용자를 위한 안정성 보장
초기 사용자가 새 기능을 시도할 수 있도록 허용

프로덕션 환경에서는 안정 버전 사용을 권장합니다. 새 기능 테스트를 원할 경우 --pre 플래그로 프리릴리스를 선택할 수 있습니다.

📖 문서 & 로드맵

🚨 문서 업데이트 알림: 최근 업데이트와 개선 사항을 반영하기 위해 다음 주에 대규모 문서 개편을 진행할 예정입니다. 보다 포괄적이고 최신 정보를 제공할 예정이니 기대해주세요!

현재 문서(설치 지침, 고급 기능, API 참조 등)는 문서 웹사이트에서 확인하실 수 있습니다.

개발 계획과 예정된 기능은 로드맵에서 확인하세요.

📈 개발 예정 항목

🤝 기여

오픈소스 커뮤니티의 기여를 환영합니다. 자세한 내용은 기여 가이드라인을 참조하세요.

라이선스 섹션을 배지와 함께 수정하겠습니다. 하프톤 효과를 적용한 버전은 다음과 같습니다:

업데이트된 라이선스 섹션:

📄 라이선스 & 저작자 표시

이 프로젝트는 필수 저작자 표시 조항이 포함된 Apache License 2.0으로 라이선스가 부여됩니다. 자세한 내용은 Apache 2.0 라이선스 파일을 참조하세요.

저작자 표시 요구 사항

Crawl4AI을 사용할 때 다음 중 하나의 저작자 표시 방법을 포함해야 합니다:

1. 배지 표시 (권장)

README, 문서 또는 웹사이트에 다음 배지 중 하나를 추가하세요:

테마	배지
디스코 테마 (애니메이션)
나이트 테마 (네온 효과 있는 다크)
다크 테마 (클래식)
라이트 테마 (클래식)

배지 추가 HTML 코드:

<!-- Disco Theme (Animated) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-disco.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Night Theme (Dark with Neon) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-night.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Dark Theme (Classic) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-dark.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Light Theme (Classic) -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://raw.githubusercontent.com/unclecode/crawl4ai/main/docs/assets/powered-by-light.svg" alt="Powered by Crawl4AI" width="200"/>
</a>

<!-- Simple Shield Badge -->
<a href="https://github.com/unclecode/crawl4ai">
  <img src="https://img.shields.io/badge/Powered%20by-Crawl4AI-blue?style=flat-square" alt="Powered by Crawl4AI"/>
</a>

2. 텍스트 표시

문서에 다음 줄을 추가하세요:

This project uses Crawl4AI (https://github.com/unclecode/crawl4ai) for web data extraction.

📚 인용

연구나 프로젝트에서 Crawl4AI을 사용하셨다면 다음을 인용해 주세요:

@software{crawl4ai2024,
  author = {UncleCode},
  title = {Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub Repository},
  howpublished = {\url{https://github.com/unclecode/crawl4ai}},
  commit = {Please use the commit hash you're working with}
}

텍스트 인용 형식:

UncleCode. (2024). Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper [Computer software]. 
GitHub. https://github.com/unclecode/crawl4ai

📧 연락처

질문, 제안 또는 피드백이 있으시면 언제든지 연락주세요:

GitHub: unclecode
Twitter: @unclecode
웹사이트: crawl4ai.com

행복한 크롤링 되세요! 🕸️🚀

🗾 미션

우리의 미션은 개인 및 기업 데이터의 가치를 해제하여 디지털 흔적을 구조화된 거래 가능한 자산으로 변환하는 것입니다. Crawl4AI은 개인과 조직에 오픈소스 도구를 제공하여 데이터를 추출하고 구조화함으로써 공유 데이터 경제를 조성합니다.

우리는 AI가 실제 인간 지식으로 구동되는 미래를 상상하며, 데이터 창작자가 자신의 기여로 직접 혜택을 받을 수 있도록 보장합니다. 데이터 민주화와 윤리적 공유를 가능하게 함으로써 진정한 AI 발전의 기반을 마련하고 있습니다.

🔑 주요 기회

데이터 자본화: 디지털 흔적을 측정 가능하고 가치 있는 자산으로 변환
진정성 있는 AI 데이터: AI 시스템에 실제 인간 통찰력 제공
공유 경제: 데이터 창작자에게 혜택이 돌아가는 공정한 데이터 시장 창출

🚀 개발 경로

오픈소스 도구: 투명한 데이터 추출을 위한 커뮤니티 주도 플랫폼
디지털 자산 구조화: 디지털 지식을 조직하고 가치를 부여하는 도구
윤리적 데이터 시장: 구조화된 데이터를 교환하기 위한 안전하고 공정한 플랫폼

자세한 내용은 전체 미션 설명을 참조하세요.

Translation Not Available Yet