Last translated: 16 Jun 2025

Translation Not Available Yet

This repository's README hasn't been translated yet. Once translated, it will be easier to read and understand in your native language (中文).

After translating, add the links to README so others can view it directly.

TensorZero Logo

TensorZero

#1 Repository Of The Day

TensorZero 是一个面向 工业级大语言模型应用 的开源技术栈:

  • 网关服务
    • 通过统一API接入所有主流LLM服务商(API或自托管)
    • 支持流式推理、工具调用、结构化生成(JSON模式)、批量处理、多模态(VLMs)、文件输入、缓存等功能
    • 定义提示模板和模式,确保应用与LLM之间的类型安全接口
    • 基于Rust实现极致性能:在10k+ QPS下P99延迟开销<1ms
    • 支持Python客户端、任意OpenAI SDK、OpenAI兼容客户端或HTTP API接入(可使用任何编程语言)
    • 通过路由、重试、降级、负载均衡、细粒度超时等机制保障高可用性
    • 即将推出:嵌入模型;实时语音
  • 可观测性
    • 将推理结果和反馈(指标、人工修正等)存储到自有数据库
    • 通过TensorZero UI或编程方式分析单次推理或聚合模式
    • 构建用于优化、评估等工作流程的数据集
    • 使用新提示、模型、推理策略等重放历史推理
    • 导出OpenTelemetry(OTLP)追踪数据到通用观测工具
    • 即将推出:AI辅助调试与根因分析;AI辅助数据标注
  • 优化引擎
    • 通过监督微调、RLHF等技术优化模型
    • 使用MIPROv2等自动提示工程算法优化提示
    • 通过动态上下文学习、思维链、最佳/N采样等策略优化推理
    • 建立LLM反馈闭环:将生产数据转化为更智能、快速、经济的模型
    • 即将推出:程序化优化;合成数据生成
  • 评估系统
    • 通过启发式或LLM评判的_静态评估_分析单次推理(≈LLM单元测试)
    • 通过完全灵活的_动态评估_测试端到端工作流(≈LLM集成测试)
    • 像优化其他TensorZero功能一样优化LLM评判器,使其符合人类偏好
    • 即将推出:更多内置评估器;无头评估
  • 实验平台
    • 内置A/B测试功能,安全发布模型、提示、服务商、超参数等变更
    • 在复杂工作流中实施严格实验(RCT),包括多轮和复合LLM系统
    • 即将推出:多臂老虎机;AI管理的实验
  • 更多功能!
    • 通过GitOps友好编排构建简单应用或大规模部署
    • 通过内置逃生舱、程序化优先设计、直接数据库访问等扩展功能
    • 集成第三方工具:专业观测评估、模型服务商、智能体编排框架等
    • 即将推出:UI交互式调试台

按需取用,渐进式采用,与其他工具互补。


官网 · 文档 · Twitter · Slack · Discord

快速开始(5分钟) · 部署指南 · API参考 · 配置参考


TensorZero是什么?TensorZero是面向工业级LLM应用的开源技术栈,整合了LLM网关、可观测性、优化、评估和实验平台。
与其他LLM框架有何不同? 1. 支持基于生产指标和人工反馈优化复杂LLM应用
2. 满足工业级需求:低延迟、高吞吐、类型安全、自托管、GitOps、可定制等
3. 统一整个LLMOps技术栈形成复合优势,例如将LLM评估用于模型微调
能否与___集成使用?支持所有主流编程语言,可通过Python客户端、OpenAI SDK或HTTP API接入。
是否具备生产就绪性?已通过案例验证:某大型银行使用LLM自动化代码变更日志
费用如何?完全免费。TensorZero是100%自托管开源项目,无付费功能。
开发团队背景?技术团队包括前Rust编译器维护者、机器学习研究者(斯坦福/CMU/牛津/哥伦比亚大学,引用数千次)以及独角兽初创公司CPO。投资方包括ClickHouse、CockroachDB等知名开源项目和OpenAI、Anthropic等AI实验室的相同机构。
如何开始?支持渐进式采用,快速开始指南可在5分钟内从基础OpenAI封装升级为具备可观测性和微调功能的生产级应用。

核心功能

🌐 LLM网关服务

只需集成一次,即可访问所有主流LLM服务商。

模型服务商功能特性

原生支持的服务商:

需要其他服务商? 由于支持任何OpenAI兼容API(如Ollama),绝大多数情况均可满足。

支持的高级功能包括:

采用Rust🦀开发,专注性能优化(10k QPS下P99延迟<1ms)。 详见基准测试

支持TensorZero客户端(推荐)、OpenAI客户端HTTP API调用推理。


使用方式:Python - TensorZero客户端(推荐)

通过TensorZero Python客户端访问任意服务商:

  1. pip install tensorzero
  2. 可选:配置TensorZero
  3. 执行推理:
from tensorzero import TensorZeroGateway  # or AsyncTensorZeroGateway


with TensorZeroGateway.build_embedded(clickhouse_url="...", config_file="...") as client:
    response = client.inference(
        model_name="openai::gpt-4o-mini",
        # Try other providers easily: "anthropic::claude-3-7-sonnet-20250219"
        input={
            "messages": [
                {
                    "role": "user",
                    "content": "Write a haiku about artificial intelligence.",
                }
            ]
        },
    )

详见**快速开始**。

使用方式:Python - OpenAI客户端

通过OpenAI Python客户端配合TensorZero访问:

  1. pip install tensorzero
  2. 可选:配置TensorZero
  3. 执行推理:
from openai import OpenAI  # or AsyncOpenAI
from tensorzero import patch_openai_client

client = OpenAI()

patch_openai_client(
    client,
    clickhouse_url="http://chuser:chpassword@localhost:8123/tensorzero",
    config_file="config/tensorzero.toml",
    async_setup=False,
)

response = client.chat.completions.create(
    model="tensorzero::model_name::openai::gpt-4o-mini",
    # Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
    messages=[
        {
            "role": "user",
            "content": "Write a haiku about artificial intelligence.",
        }
    ],
)

详见**快速开始**。

使用方式:JavaScript/TypeScript(Node) - OpenAI客户端

通过OpenAI Node客户端配合TensorZero访问:

  1. 使用Docker部署tensorzero/gateway详细指南→
  2. 配置TensorZero
  3. 执行推理:
import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://localhost:3000/openai/v1",
});

const response = await client.chat.completions.create({
  model: "tensorzero::model_name::openai::gpt-4o-mini",
  // Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
  messages: [
    {
      role: "user",
      content: "Write a haiku about artificial intelligence.",
    },
  ],
});

详见**快速开始**。

使用方式:其他语言/平台 - HTTP API

通过HTTP API支持几乎所有编程语言和平台:

  1. 使用Docker部署tensorzero/gateway详细指南→
  2. 可选:配置TensorZero
  3. 执行推理:
curl -X POST "http://localhost:3000/inference" \
  -H "Content-Type: application/json" \
  -d '{
    "model_name": "openai::gpt-4o-mini",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": "Write a haiku about artificial intelligence."
        }
      ]
    }
  }'

详见**快速开始**。


📈 LLM优化引擎

通过UI或编程方式,利用生产指标和人工反馈轻松优化提示、模型和推理策略。

模型优化

通过监督微调(SFT)和偏好微调(DPO)优化闭源和开源模型。

监督微调 - UI界面偏好微调(DPO) - Jupyter Notebook

推理时优化

通过动态上下文更新、多推理结果融合等技术提升性能。

N选最佳采样N混合采样
动态上下文学习(DICL)思维链(CoT)

更多功能即将推出...


提示优化

通过研究驱动的优化算法程序化优化提示。

MIPROv2DSPy 集成
MIPROv2 架构图 TensorZero 提供多种预设优化方案,同时支持轻松创建自定义方案。 本示例展示如何使用任意工具(这里选用流行的自动提示工程库 DSPy)来优化 TensorZero 函数。

更多功能即将推出...


🔍 LLM 可观测性

通过开源的 TensorZero 界面,既可深入调试单个 API 调用,也能宏观监控模型与提示词随时间变化的指标。

可观测性 » 推理可观测性 » 函数

📊 LLM 评估

通过 TensorZero 评估系统对比提示词、模型和推理策略——支持启发式规则与 LLM 评判员双模式。

评估 » 界面评估 » 命令行
docker compose run --rm evaluations \
  --evaluation-name extract_data \
  --dataset-name hard_test_cases \
  --variant-name gpt_4o \
  --concurrency 5
Run ID: 01961de9-c8a4-7c60-ab8d-15491a9708e4
Number of datapoints: 100
██████████████████████████████████████ 100/100
exact_match: 0.83 ± 0.03
semantic_match: 0.98 ± 0.01
item_count: 7.15 ± 0.39

演示视频

观看 TensorZero 如何实时提升 LLM 数据抽取能力!

动态上下文学习 (DICL) 是 TensorZero 开箱即用的强大推理时优化技术。它通过自动将相关历史示例融入提示词来增强 LLM 表现,无需模型微调。

https://github.com/user-attachments/assets/4df1022e-886e-48c2-8f79-6af3cdad79cb

快速开始

立即开始构建。 通过 快速入门指南 了解如何轻松搭建 LLM 应用。

有疑问? 加入 SlackDiscord 社区提问。

企业用户? 发送邮件至 [email protected] 为团队开通专属 Slack/Teams 频道(免费)。

加入我们。 我们正在 纽约招聘,同时欢迎 开源贡献

案例集

我们正在构建一系列完整可运行案例,展示 TensorZero 的数据与学习飞轮。

使用 TensorZero 优化数据抽取(NER)

本案例演示如何用 TensorZero 优化数据抽取流程,涵盖微调与动态上下文学习(DICL)等技术。最终优化的 GPT-4o Mini 模型以极低成本与延迟超越 GPT-4o 表现——仅需少量训练数据。

智能 RAG——基于 LLM 的多跳问答系统

展示如何用 TensorZero 构建多跳检索智能体。该智能体通过迭代搜索维基百科收集信息,并自主判断何时具备足够上下文回答复杂问题。

生成符合隐藏偏好的俳句

本案例微调 GPT-4o Mini 生成符合特定审美的俳句。您将见证 TensorZero"开箱即用的数据飞轮":优质变体产生优质数据,优质数据催生更优变体。通过多次微调实现持续进步。

通过最佳N采样提升LLM国际象棋能力

展示如何通过从多个生成选项中筛选最优走法,显著提升LLM的国际象棋水平。

使用自定义提示工程方案(DSPy)增强数学推理

TensorZero 提供多种预设优化方案覆盖常见LLM工程流程,同时也支持自定义工作流。本案例演示如何使用任意工具(此处选用DSPy)优化TensorZero函数。

更多案例即将上线!