TensorZero Logo

TensorZero

TensorZero 是一个面向 工业级大语言模型应用 的开源技术栈：

按需取用，渐进式采用，与其他工具互补。

官网 · 文档 · Twitter · Slack · Discord

快速开始（5分钟） · 部署指南 · API参考 · 配置参考

TensorZero是什么？	TensorZero是面向工业级LLM应用的开源技术栈，整合了LLM网关、可观测性、优化、评估和实验平台。
与其他LLM框架有何不同？	1. 支持基于生产指标和人工反馈优化复杂LLM应用 2. 满足工业级需求：低延迟、高吞吐、类型安全、自托管、GitOps、可定制等 3. 统一整个LLMOps技术栈形成复合优势，例如将LLM评估用于模型微调
能否与___集成使用？	支持所有主流编程语言，可通过Python客户端、OpenAI SDK或HTTP API接入。
是否具备生产就绪性？	已通过案例验证：某大型银行使用LLM自动化代码变更日志
费用如何？	完全免费。TensorZero是100%自托管开源项目，无付费功能。
开发团队背景？	技术团队包括前Rust编译器维护者、机器学习研究者（斯坦福/CMU/牛津/哥伦比亚大学，引用数千次）以及独角兽初创公司CPO。投资方包括ClickHouse、CockroachDB等知名开源项目和OpenAI、Anthropic等AI实验室的相同机构。
如何开始？	支持渐进式采用，快速开始指南可在5分钟内从基础OpenAI封装升级为具备可观测性和微调功能的生产级应用。

核心功能

🌐 LLM网关服务

只需集成一次，即可访问所有主流LLM服务商。

模型服务商

功能特性

原生支持的服务商：

需要其他服务商？由于支持任何OpenAI兼容API（如Ollama），绝大多数情况均可满足。

支持的高级功能包括：

采用Rust🦀开发，专注性能优化（10k QPS下P99延迟<1ms）。详见基准测试。

支持TensorZero客户端（推荐）、OpenAI客户端或HTTP API调用推理。

使用方式：Python - TensorZero客户端（推荐）

通过TensorZero Python客户端访问任意服务商：

pip install tensorzero
可选：配置TensorZero
执行推理：

from tensorzero import TensorZeroGateway  # or AsyncTensorZeroGateway


with TensorZeroGateway.build_embedded(clickhouse_url="...", config_file="...") as client:
    response = client.inference(
        model_name="openai::gpt-4o-mini",
        # Try other providers easily: "anthropic::claude-3-7-sonnet-20250219"
        input={
            "messages": [
                {
                    "role": "user",
                    "content": "Write a haiku about artificial intelligence.",
                }
            ]
        },
    )

详见**快速开始**。

使用方式：Python - OpenAI客户端

通过OpenAI Python客户端配合TensorZero访问：

pip install tensorzero
可选：配置TensorZero
执行推理：

from openai import OpenAI  # or AsyncOpenAI
from tensorzero import patch_openai_client

client = OpenAI()

patch_openai_client(
    client,
    clickhouse_url="http://chuser:chpassword@localhost:8123/tensorzero",
    config_file="config/tensorzero.toml",
    async_setup=False,
)

response = client.chat.completions.create(
    model="tensorzero::model_name::openai::gpt-4o-mini",
    # Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
    messages=[
        {
            "role": "user",
            "content": "Write a haiku about artificial intelligence.",
        }
    ],
)

详见**快速开始**。

使用方式：JavaScript/TypeScript(Node) - OpenAI客户端

通过OpenAI Node客户端配合TensorZero访问：

使用Docker部署tensorzero/gateway。 详细指南→
配置TensorZero
执行推理：

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:3000/openai/v1",
});

const response = await client.chat.completions.create({
  model: "tensorzero::model_name::openai::gpt-4o-mini",
  // Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
  messages: [
    {
      role: "user",
      content: "Write a haiku about artificial intelligence.",
    },
  ],
});

详见**快速开始**。

使用方式：其他语言/平台 - HTTP API

通过HTTP API支持几乎所有编程语言和平台：

使用Docker部署tensorzero/gateway。 详细指南→
可选：配置TensorZero
执行推理：

curl -X POST "http://localhost:3000/inference" \
  -H "Content-Type: application/json" \
  -d '{
    "model_name": "openai::gpt-4o-mini",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": "Write a haiku about artificial intelligence."
        }
      ]
    }
  }'

详见**快速开始**。

📈 LLM优化引擎

通过UI或编程方式，利用生产指标和人工反馈轻松优化提示、模型和推理策略。

模型优化

通过监督微调（SFT）和偏好微调（DPO）优化闭源和开源模型。

监督微调 - UI界面	偏好微调(DPO) - Jupyter Notebook

推理时优化

通过动态上下文更新、多推理结果融合等技术提升性能。

N选最佳采样	N混合采样

动态上下文学习(DICL)	思维链(CoT)

更多功能即将推出...

提示优化

通过研究驱动的优化算法程序化优化提示。

MIPROv2	DSPy 集成
	TensorZero 提供多种预设优化方案，同时支持轻松创建自定义方案。本示例展示如何使用任意工具（这里选用流行的自动提示工程库 DSPy）来优化 TensorZero 函数。

更多功能即将推出...

🔍 LLM 可观测性

通过开源的 TensorZero 界面，既可深入调试单个 API 调用，也能宏观监控模型与提示词随时间变化的指标。

可观测性 » 推理	可观测性 » 函数

📊 LLM 评估

通过 TensorZero 评估系统对比提示词、模型和推理策略——支持启发式规则与 LLM 评判员双模式。

评估 » 界面 评估 » 命令行

docker compose run --rm evaluations \
  --evaluation-name extract_data \
  --dataset-name hard_test_cases \
  --variant-name gpt_4o \
  --concurrency 5

Run ID: 01961de9-c8a4-7c60-ab8d-15491a9708e4
Number of datapoints: 100
██████████████████████████████████████ 100/100
exact_match: 0.83 ± 0.03
semantic_match: 0.98 ± 0.01
item_count: 7.15 ± 0.39

演示视频

观看 TensorZero 如何实时提升 LLM 数据抽取能力！

动态上下文学习 (DICL) 是 TensorZero 开箱即用的强大推理时优化技术。它通过自动将相关历史示例融入提示词来增强 LLM 表现，无需模型微调。

https://github.com/user-attachments/assets/4df1022e-886e-48c2-8f79-6af3cdad79cb

快速开始

立即开始构建。 通过 快速入门指南 了解如何轻松搭建 LLM 应用。

有疑问？ 加入 Slack 或 Discord 社区提问。

企业用户？ 发送邮件至 [email protected] 为团队开通专属 Slack/Teams 频道（免费）。

加入我们。 我们正在 纽约招聘，同时欢迎 开源贡献！

案例集

我们正在构建一系列完整可运行案例，展示 TensorZero 的数据与学习飞轮。

使用 TensorZero 优化数据抽取(NER)

本案例演示如何用 TensorZero 优化数据抽取流程，涵盖微调与动态上下文学习(DICL)等技术。最终优化的 GPT-4o Mini 模型以极低成本与延迟超越 GPT-4o 表现——仅需少量训练数据。

智能 RAG——基于 LLM 的多跳问答系统

展示如何用 TensorZero 构建多跳检索智能体。该智能体通过迭代搜索维基百科收集信息，并自主判断何时具备足够上下文回答复杂问题。

生成符合隐藏偏好的俳句

本案例微调 GPT-4o Mini 生成符合特定审美的俳句。您将见证 TensorZero"开箱即用的数据飞轮"：优质变体产生优质数据，优质数据催生更优变体。通过多次微调实现持续进步。

通过最佳N采样提升LLM国际象棋能力

展示如何通过从多个生成选项中筛选最优走法，显著提升LLM的国际象棋水平。

使用自定义提示工程方案(DSPy)增强数学推理

TensorZero 提供多种预设优化方案覆盖常见LLM工程流程，同时也支持自定义工作流。本案例演示如何使用任意工具（此处选用DSPy）优化TensorZero函数。

更多案例即将上线！