Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

TensorZero Logo

TensorZero

#1 Repository Of The Day

TensorZeroは、_産業グレードのLLMアプリケーション_のためのオープンソーススタックです:

  • ゲートウェイ
    • 主要なLLMプロバイダー(APIまたはセルフホスト)に単一の統一APIでアクセス
    • ストリーミング、ツール使用、構造化生成(JSONモード)、バッチ処理、マルチモーダル(VLM)、ファイル入力、キャッシュなどによる推論
    • プロンプトテンプレートとスキーマを定義し、アプリケーションとLLM間の一貫性のある型付きインターフェースを強制
    • Rustによる極端なスループットとレイテンシーのニーズに対応:10k+ QPSでp99レイテンシーオーバーヘッド<1ms
    • Pythonクライアント、任意のOpenAI SDKまたはOpenAI互換クライアント、またはHTTP APIを使用して統合(任意のプログラミング言語を使用可能)
    • ルーティング、リトライ、フォールバック、負荷分散、細かいタイムアウトなどによる高可用性を確保
    • 近日公開:埋め込み;リアルタイム音声
  • 可観測性
    • 推論とフィードバック(メトリクス、人間の編集など)を独自のデータベースに保存
    • TensorZero UIまたはプログラムで個々の推論または高レベルの集計パターンを調査
    • 最適化、評価、その他のワークフローのためのデータセットを構築
    • 新しいプロンプト、モデル、推論戦略などで過去の推論を再生
    • お気に入りの汎用可観測性ツールにOpenTelemetry(OTLP)トレースをエクスポート
    • 近日公開:AI支援デバッグと根本原因分析;AI支援データラベリング
  • 最適化
    • 教師ありファインチューニング、RLHF、その他の技術でモデルを最適化
    • MIPROv2のような自動プロンプトエンジニアリングアルゴリズムでプロンプトを最適化
    • 動的インコンテキスト学習、思考の連鎖、best/mixture-of-Nサンプリングなどで推論戦略を最適化
    • LLMのためのフィードバックループを有効化:本番データをよりスマートで高速かつ安価なモデルに変えるデータ&学習フライホイール
    • 近日公開:プログラムによる最適化;合成データ生成
  • 評価
    • ヒューリスティックまたはLLMジャッジによる_静的評価_で個々の推論を評価(LLMのユニットテストに相当)
    • 完全な柔軟性を持つ_動的評価_でエンドツーエンドのワークフローを評価(LLMの統合テストに相当)
    • 他のTensorZero関数と同様にLLMジャッジを最適化し、人間の好みに合わせる
    • 近日公開:より多くの組み込み評価器;ヘッドレス評価
  • 実験
    • モデル、プロンプト、プロバイダー、ハイパーパラメータなどに対する組み込みのA/Bテストで自信を持ってリリース
    • マルチターンや複合LLMシステムを含む複雑なワークフローで原則に基づいた実験(RCT)を実施
    • 近日公開:多腕バンディット;AI管理実験
  • その他!
    • GitOpsフレンドリーなオーケストレーションでシンプルなアプリケーションまたは大規模なデプロイを構築
    • 組み込みのエスケープハッチ、プログラムファーストの使用、直接データベースアクセスなどでTensorZeroを拡張
    • サードパーティツールと統合:専門的な可観測性と評価、モデルプロバイダー、エージェントオーケストレーションフレームワークなど
    • 近日公開:UIプレイグラウンド

必要なものを選び、段階的に導入し、他のツールと補完してください。


ウェブサイト · ドキュメント · Twitter · Slack · Discord

クイックスタート(5分) · デプロイガイド · APIリファレンス · 設定リファレンス


TensorZeroとは何ですか?TensorZeroは、産業グレードのLLMアプリケーションのためのオープンソーススタックです。LLMゲートウェイ、可観測性、最適化、評価、実験を統合しています。
他のLLMフレームワークとTensorZeroはどう違いますか? 1. TensorZeroは、本番メトリクスと人間のフィードバックに基づいて複雑なLLMアプリケーションを最適化できます。
2. TensorZeroは、産業グレードのLLMアプリケーションのニーズ(低レイテンシー、高スループット、型安全性、セルフホスト、GitOps、カスタマイズ性など)をサポートします。
3. TensorZeroはLLMOpsスタック全体を統合し、相乗効果を生み出します。例えば、LLM評価はAIジャッジと共にモデルのファインチューニングに使用できます。
TensorZeroは___と一緒に使えますか?はい。すべての主要なプログラミング言語がサポートされています。TensorZero Pythonクライアント、任意のOpenAI SDKまたはOpenAI互換クライアント、またはHTTP APIを使用できます。
TensorZeroは本番環境で使用できますか?はい。事例研究:大規模銀行でのLLMを使用したコード変更ログの自動化
TensorZeroの費用はどれくらいですか?無料です。TensorZeroは100%セルフホストでオープンソースです。有料機能はありません。
TensorZeroは誰が開発していますか?技術チームには、元Rustコンパイラメンテナー、数千の引用を持つ機械学習研究者(スタンフォード、CMU、オックスフォード、コロンビア)、デカコーンスタートアップの最高製品責任者が含まれます。ClickHouse、CockroachDBなどの主要オープンソースプロジェクトやOpenAI、AnthropicなどのAIラボと同じ投資家から支援を受けています。
どのように始めればよいですか?TensorZeroは段階的に導入できます。クイックスタートでは、5分でOpenAIラッパーから本番対応のLLMアプリケーション(可観測性とファインチューニング付き)に移行できます。

機能

🌐 LLMゲートウェイ

TensorZeroと一度統合すれば、すべての主要なLLMプロバイダーにアクセスできます。

モデルプロバイダー機能

TensorZeroゲートウェイはネイティブで以下をサポート:

他のプロバイダーが必要ですか? TensorZeroは任意のOpenAI互換API(例:Ollama)と統合できるため、ほとんどのプロバイダーがサポートされています。

TensorZeroゲートウェイは以下のような高度な機能をサポート:

TensorZeroゲートウェイはRust 🦀で書かれており、パフォーマンスを重視しています(10k QPSでp99レイテンシーオーバーヘッド<1ms)。 ベンチマークを参照してください。

TensorZeroクライアント(推奨)、OpenAIクライアント、またはHTTP APIを使用して推論を実行できます。


使用方法:Python — TensorZeroクライアント(推奨)

TensorZero Pythonクライアントを使用して任意のプロバイダーにアクセスできます。

  1. pip install tensorzero
  2. オプション:TensorZeroの設定を行う
  3. 推論を実行:
from tensorzero import TensorZeroGateway  # or AsyncTensorZeroGateway


with TensorZeroGateway.build_embedded(clickhouse_url="...", config_file="...") as client:
    response = client.inference(
        model_name="openai::gpt-4o-mini",
        # Try other providers easily: "anthropic::claude-3-7-sonnet-20250219"
        input={
            "messages": [
                {
                    "role": "user",
                    "content": "Write a haiku about artificial intelligence.",
                }
            ]
        },
    )

詳細はクイックスタートを参照してください。

使用方法:Python — OpenAIクライアント

OpenAI PythonクライアントとTensorZeroを使用して任意のプロバイダーにアクセスできます。

  1. pip install tensorzero
  2. オプション:TensorZeroの設定を行う
  3. 推論を実行:
from openai import OpenAI  # or AsyncOpenAI
from tensorzero import patch_openai_client

client = OpenAI()

patch_openai_client(
    client,
    clickhouse_url="http://chuser:chpassword@localhost:8123/tensorzero",
    config_file="config/tensorzero.toml",
    async_setup=False,
)

response = client.chat.completions.create(
    model="tensorzero::model_name::openai::gpt-4o-mini",
    # Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
    messages=[
        {
            "role": "user",
            "content": "Write a haiku about artificial intelligence.",
        }
    ],
)

詳細はクイックスタートを参照してください。

使用方法:JavaScript / TypeScript(Node)— OpenAIクライアント

OpenAI NodeクライアントとTensorZeroを使用して任意のプロバイダーにアクセスできます。

  1. Dockerでtensorzero/gatewayをデプロイ 詳細手順→
  2. TensorZeroの設定を行う
  3. 推論を実行:
import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:3000/openai/v1",
});

const response = await client.chat.completions.create({
  model: "tensorzero::model_name::openai::gpt-4o-mini",
  // Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
  messages: [
    {
      role: "user",
      content: "Write a haiku about artificial intelligence.",
    },
  ],
});

詳細はクイックスタートを参照してください。

使用方法:その他の言語&プラットフォーム — HTTP API

TensorZeroはHTTP APIを介して事実上すべてのプログラミング言語やプラットフォームをサポートします。

  1. Dockerでtensorzero/gatewayをデプロイ 詳細手順→
  2. オプション:TensorZeroの設定を行う
  3. 推論を実行:
curl -X POST "http://localhost:3000/inference" \
  -H "Content-Type: application/json" \
  -d '{
    "model_name": "openai::gpt-4o-mini",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": "Write a haiku about artificial intelligence."
        }
      ]
    }
  }'

詳細はクイックスタートを参照してください。


📈 LLM最適化

本番メトリクスと人間のフィードバックを送信し、UIまたはプログラムでプロンプト、モデル、推論戦略を簡単に最適化

モデル最適化

教師ありファインチューニング(SFT)と選好ファインチューニング(DPO)を使用して、クローズドソースおよびオープンソースモデルを最適化します。

教師ありファインチューニング — UI選好ファインチューニング(DPO)— Jupyter Notebook

推論時最適化

関連する例でプロンプトを動的に更新したり、複数の推論から応答を組み合わせたりすることで、パフォーマンスを向上させます。

Best-of-NサンプリングMixture-of-Nサンプリング
動的インコンテキスト学習(DICL)思考の連鎖(CoT)

近日公開予定...


プロンプト最適化

研究に基づいた最適化技術を使用して、プログラムでプロンプトを最適化します。

MIPROv2DSPy 統合
MIPROv2 diagram TensorZeroには複数の最適化レシピが用意されていますが、独自のレシピも簡単に作成できます。 この例では、任意のツール(ここでは自動プロンプトエンジニアリングのための人気ライブラリであるDSPy)を使用してTensorZero関数を最適化する方法を示しています。

近日公開予定...


🔍 LLM オブザーバビリティ

個々のAPI呼び出しをデバッグするためにズームインしたり、時間経過に伴うモデルやプロンプトのメトリクスを監視するためにズームアウトしたりできます ― すべてオープンソースのTensorZero UIを使用して。

オブザーバビリティ » 推論オブザーバビリティ » 関数

📊 LLM 評価

TensorZero Evaluationsを使用して、プロンプト、モデル、推論戦略を比較 ― ヒューリスティックやLLMジャッジのサポート付き。

評価 » UI評価 » CLI
docker compose run --rm evaluations \
  --evaluation-name extract_data \
  --dataset-name hard_test_cases \
  --variant-name gpt_4o \
  --concurrency 5
Run ID: 01961de9-c8a4-7c60-ab8d-15491a9708e4
Number of datapoints: 100
██████████████████████████████████████ 100/100
exact_match: 0.83 ± 0.03
semantic_match: 0.98 ± 0.01
item_count: 7.15 ± 0.39

デモ

TensorZeroでLLMがデータ抽出をリアルタイムで上達する様子をご覧ください!

動的インコンテキスト学習(DICL) は、TensorZeroで標準提供されている強力な推論時最適化手法です。 モデルのファインチューニングなしに、関連する過去の例を自動的にプロンプトに組み込むことでLLMのパフォーマンスを向上させます。

https://github.com/user-attachments/assets/4df1022e-886e-48c2-8f79-6af3cdad79cb

はじめに

今日から構築を始めましょう。 クイックスタート では、TensorZeroでLLMアプリケーションを簡単にセットアップする方法を紹介しています。

質問がありますか? Slack または Discord でお問い合わせください。

業務でTensorZeroをご利用ですか? [email protected] までメールでご連絡いただければ、チーム専用のSlackまたはTeamsチャンネルを無料で設定します。

一緒に働きませんか? NYCで採用中 です。 また、オープンソースへの貢献 も大歓迎です!

サンプル

TensorZeroのデータ&ラーニングフライホイールを説明する完全に実行可能なサンプルシリーズを準備中です。

TensorZeroを使用したデータ抽出(NER)の最適化

この例では、TensorZeroを使用してデータ抽出パイプラインを最適化する方法を示します。 ファインチューニングや動的インコンテキスト学習(DICL)などの技術を実演します。 最終的には、少量のトレーニングデータを使用して最適化されたGPT-4o Miniモデルが、このタスクでGPT-4oを凌駕します ― コストとレイテンシのごく一部で。

エージェント型RAG ― LLMを使用したマルチホップ質問応答

この例では、TensorZeroを使用してマルチホップ検索エージェントを構築する方法を示します。 エージェントはWikipediaを反復的に検索して情報を収集し、複雑な質問に答えるのに十分なコンテキストが得られた時点を判断します。

隠された嗜好を持つ審査員を満足させる俳句の作成

この例では、GPT-4o Miniをファインチューニングして、特定の好みに合わせた俳句を生成します。 TensorZeroの「箱入りデータフライホイール」が実際に動作する様子をご覧いただけます:より良いバリアントはより良いデータを生み、より良いデータはより良いバリアントを生み出します。 LLMを複数回ファインチューニングすることで進歩を確認できます。

Best-of-NサンプリングによるLLMのチェス能力向上

この例では、best-of-Nサンプリングが、複数の生成オプションから最も有望な手を選択することで、LLMのチェスプレイ能力を大幅に向上させる方法を示しています。

自動プロンプトエンジニアリング(DSPy)のカスタムレシピによる数学的推論の改善

TensorZeroは、一般的なLLMエンジニアリングワークフローをカバーする多数の事前構築済み最適化レシピを提供します。 しかし、独自のレシピやワークフローも簡単に作成できます! この例では、任意のツール(ここではDSPy)を使用してTensorZero関数を最適化する方法を示します。

その他多数、近日公開予定!