TensorZero é uma stack open-source para aplicações LLM de nível industrial:
Use o que precisar, adote incrementalmente e complemente com outras ferramentas.
Website
·
Documentação
·
Twitter
·
Slack
·
Discord
Início Rápido (5min)
·
Guia de Implantação
·
Referência da API
·
Referência de Configuração
O que é o TensorZero? | TensorZero é uma stack open-source para aplicações LLM de nível industrial. Ele unifica um gateway LLM, observabilidade, otimização, avaliações e experimentação. |
Como o TensorZero difere de outros frameworks LLM? |
1. TensorZero permite otimizar aplicações LLM complexas baseadas em métricas de produção e feedback humano. 2. TensorZero suporta necessidades de aplicações LLM industriais: baixa latência, alto throughput, type safety, auto-hospedado, GitOps, customização, etc. 3. TensorZero unifica toda a stack LLMOps, criando benefícios compostos. Por exemplo, avaliações LLM podem ser usadas para fine-tuning de modelos junto com juízes IA. |
Posso usar o TensorZero com ___? | Sim. Todas as principais linguagens de programação são suportadas. Você pode usar o TensorZero com nosso cliente Python, qualquer SDK OpenAI ou cliente compatível com OpenAI, ou nossa API HTTP. |
O TensorZero está pronto para produção? | Sim. Aqui está um estudo de caso: Automatizando Changelogs de Código em um Grande Banco com LLMs |
Quanto custa o TensorZero? | Nada. TensorZero é 100% auto-hospedado e open-source. Não há recursos pagos. |
Quem está construindo o TensorZero? | Nossa equipe técnica inclui um ex-mantenedor do compilador Rust, pesquisadores de machine learning (Stanford, CMU, Oxford, Columbia) com milhares de citações, e o chief product officer de uma startup decacorn. Somos apoiados pelos mesmos investidores de projetos open-source líderes (ex. ClickHouse, CockroachDB) e labs de IA (ex. OpenAI, Anthropic). |
Como começar? | Você pode adotar o TensorZero incrementalmente. Nosso Início Rápido vai de um wrapper OpenAI básico para uma aplicação LLM pronta para produção com observabilidade e fine-tuning em apenas 5 minutos. |
Integre com o TensorZero uma vez e acesse todos os principais provedores de LLM.
Você pode acessar qualquer provedor usando o cliente Python do TensorZero.
pip install tensorzero
from tensorzero import TensorZeroGateway # or AsyncTensorZeroGateway
with TensorZeroGateway.build_embedded(clickhouse_url="...", config_file="...") as client:
response = client.inference(
model_name="openai::gpt-4o-mini",
# Try other providers easily: "anthropic::claude-3-7-sonnet-20250219"
input={
"messages": [
{
"role": "user",
"content": "Write a haiku about artificial intelligence.",
}
]
},
)
Veja Início Rápido para mais informações.
Você pode acessar qualquer provedor usando o cliente OpenAI Python com TensorZero.
pip install tensorzero
from openai import OpenAI # or AsyncOpenAI
from tensorzero import patch_openai_client
client = OpenAI()
patch_openai_client(
client,
clickhouse_url="http://chuser:chpassword@localhost:8123/tensorzero",
config_file="config/tensorzero.toml",
async_setup=False,
)
response = client.chat.completions.create(
model="tensorzero::model_name::openai::gpt-4o-mini",
# Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
messages=[
{
"role": "user",
"content": "Write a haiku about artificial intelligence.",
}
],
)
Veja Início Rápido para mais informações.
Você pode acessar qualquer provedor usando o cliente Node OpenAI com TensorZero.
tensorzero/gateway
usando Docker.
Instruções detalhadas →import OpenAI from "openai";
const client = new OpenAI({
baseURL: "http://localhost:3000/openai/v1",
});
const response = await client.chat.completions.create({
model: "tensorzero::model_name::openai::gpt-4o-mini",
// Try other providers easily: "tensorzero::model_name::anthropic::claude-3-7-sonnet-20250219"
messages: [
{
role: "user",
content: "Write a haiku about artificial intelligence.",
},
],
});
Veja Início Rápido para mais informações.
TensorZero suporta virtualmente qualquer linguagem ou plataforma via sua API HTTP.
tensorzero/gateway
usando Docker.
Instruções detalhadas →curl -X POST "http://localhost:3000/inference" \
-H "Content-Type: application/json" \
-d '{
"model_name": "openai::gpt-4o-mini",
"input": {
"messages": [
{
"role": "user",
"content": "Write a haiku about artificial intelligence."
}
]
}
}'
Veja Início Rápido para mais informações.
Envie métricas de produção e feedback humano para otimizar facilmente seus prompts, modelos e estratégias de inferência — usando a UI ou programaticamente.
Otimize modelos closed-source e open-source usando fine-tuning supervisionado (SFT) e fine-tuning por preferência (DPO).
Fine-tuning Supervisionado — UI | Fine-tuning por Preferência (DPO) — Jupyter Notebook |
Aumente performance atualizando dinamicamente seus prompts com exemplos relevantes, combinando respostas de múltiplas inferências e mais.
Best-of-N Sampling | Mixture-of-N Sampling |
Dynamic In-Context Learning (DICL) | Chain-of-Thought (CoT) |
Em breve mais...
Otimize seus prompts programaticamente usando técnicas de otimização baseadas em pesquisa.
MIPROv2 | Integração com DSPy |
O TensorZero vem com várias receitas de otimização prontas, mas você também pode facilmente criar as suas próprias. Este exemplo mostra como otimizar uma função do TensorZero usando uma ferramenta arbitrária — neste caso, o DSPy, uma biblioteca popular para engenharia de prompts automatizada. |
Em breve mais novidades...
Aproxime-se para depurar chamadas individuais de API, ou afaste-se para monitorar métricas entre modelos e prompts ao longo do tempo — tudo usando a interface de usuário open-source do TensorZero.
Observabilidade » Inferência | Observabilidade » Função |
Compare prompts, modelos e estratégias de inferência usando as Avaliações do TensorZero — com suporte para heurísticas e juízes baseados em LLM.
Avaliação » Interface | Avaliação » CLI |
|
Veja os LLMs melhorando em extração de dados em tempo real com o TensorZero!
Aprendizado dinâmico em contexto (DICL) é uma poderosa otimização em tempo de inferência disponível pronta para uso no TensorZero. Ele melhora o desempenho do LLM incorporando automaticamente exemplos históricos relevantes no prompt, sem a necessidade de ajuste fino do modelo.
https://github.com/user-attachments/assets/4df1022e-886e-48c2-8f79-6af3cdad79cb
Comece a construir hoje. O Guia Rápido mostra como é fácil configurar uma aplicação com LLM usando o TensorZero.
Dúvidas? Pergunte-nos no Slack ou Discord.
Usando o TensorZero no trabalho? Envie-nos um e-mail para [email protected] para configurar um canal no Slack ou Teams com sua equipe (gratuito).
Trabalhe conosco. Estamos contratando em NYC. Também adoraríamos receber contribuições open-source!
Estamos trabalhando em uma série de exemplos completos e executáveis que ilustram o ciclo de dados e aprendizado do TensorZero.
Otimizando Extração de Dados (NER) com TensorZero
Este exemplo mostra como usar o TensorZero para otimizar um pipeline de extração de dados. Demonstramos técnicas como fine-tuning e aprendizado dinâmico em contexto (DICL). No final, um modelo otimizado GPT-4o Mini supera o GPT-4o nesta tarefa — com uma fração do custo e latência — usando uma pequena quantidade de dados de treinamento.
RAG Agente — Resposta a Perguntas Multi-Hop com LLMs
Este exemplo mostra como construir um agente de recuperação multi-hop usando o TensorZero. O agente pesquisa iterativamente a Wikipedia para coletar informações e decide quando tem contexto suficiente para responder a uma pergunta complexa.
Escrevendo Haikus para Satisfazer um Juiz com Preferências Ocultas
Este exemplo faz fine-tuning do GPT-4o Mini para gerar haikus adaptados a um gosto específico. Você verá o "ciclo de dados em uma caixa" do TensorZero em ação: variantes melhores levam a dados melhores, e dados melhores levam a variantes melhores. Você verá o progresso ao ajustar o LLM várias vezes.
Melhorando a Habilidade de Xadrez do LLM com Amostragem Best-of-N
Este exemplo mostra como a amostragem best-of-N pode melhorar significativamente as habilidades de xadrez de um LLM, selecionando os movimentos mais promissores entre várias opções geradas.
O TensorZero fornece várias receitas de otimização pré-construídas para fluxos de trabalho comuns de engenharia de LLM. Mas você também pode facilmente criar suas próprias receitas e fluxos de trabalho! Este exemplo mostra como otimizar uma função do TensorZero usando uma ferramenta arbitrária — neste caso, o DSPy.
E muitos outros a caminho!