Inference

Servidor de Inferência NVIDIA Triton

Implante, execute e dimensione IA para qualquer aplicação em qualquer plataforma.

Comece Agora

Vídeo | Ficha Técnica | Para Desenvolvedores

Overview
Features
Benefits
Starting Options
Use Cases
Customer Stories
Adopters
Resources
Next Steps

Overview
Features
Benefits
Starting Options
Use Cases
Customer Stories
Adopters
Resources
Next Steps

Get Started

Visão Geral

Inferência para Cada Carga de Trabalho de IA

Execute inferência em modelos treinados de machine learning ou deep learning de qualquer framework em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. O Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e a execução do modelo de IA em todas as cargas de trabalho. Ele faz parte da plataforma de IA da NVIDIA e está disponível com o NVIDIA AI Enterprise.

Implantando, Otimizando e Comparando LLMs

Receba instruções passo a passo sobre como servir grandes modelos de linguagem (LLMs) com eficiência usando o Servidor de Inferência Triton.

Assista à Sessão

Características

Explore os Recursos e Ferramentas do Servidor de Inferência NVIDIA Triton

Inferência de Grandes Modelos de Linguagem

O Triton oferece baixa latência e alta taxa de transferência para inferência de grandes modelos de linguagem (LLM). Ele é compatível com o TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção.

Conjuntos de Modelos

Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Eles permitem a execução de diferentes partes do conjunto na CPU ou GPU e suporta vários frameworks dentro do conjunto.

NVIDIA PyTriton

O PyTriton permite que os desenvolvedores do Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes.

Analisador de Modelo NVIDIA Triton

O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultânea. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da apçicação.

Vantagens

As Vantagens do Servidor de Inferência Triton

Suporta Todos os Frameworks de Treinamento e Inferência

Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.

Inferência de Alto Desempenho em Qualquer Plataforma

Maximize a taxa de transferência e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia.

Código Aberto e Projetado para DevOps e MLOps

Integre o Servidor de Inferência Triton em soluções de DevOps e MLOps, como Kubernetes para dimensionamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local.

Segurança, Capacidade de Gerenciamento e Estabilidade de API de Nível Empresarial

O NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de retorno com suporte, segurança e estabilidade de API.

Opções Iniciais

Comece a Usar o NVIDIA Triton

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicativo em qualquer plataforma.

Desenvolva

Para indivíduos que desejam acessar o código-fonte aberto do Servidor de Inferência Triton para desenvolvimento.

Acesse o Código

Desenvolva

Para indivíduos que desejam acessar contêineres gratuitos do Servidor de Inferência Triton para desenvolvimento.

Veja os Contêiners

Experimente

Acesse a infraestrutura hospedada pela NVIDIA e os laboratórios práticos guiados que incluem instruções passo a passo e exemplos, disponíveis gratuitamente no NVIDIA LaunchPad.

Acesse os Laboratórios Práticos

Implante

Obtenha uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.

Solicite Uma Licença de 90 Dias

Compare as Opções para Começar

Casos de Uso

Como o Triton Está Sendo Usado

Descubra como os líderes do setor estão impulsionando a inovação com o Servidor de Inferência Triton.

Unificando Servidores de Inferência

O Servidor de Inferência Triton permite que as empresas consolidem seus servidores de inferência específicos do framework em uma única plataforma unificada. Em vez de implantar e gerenciar servidores separados para cada framework de IA, ele atua como um servidor único e unificado, reduzindo os custos de atendimento de inferência. O Servidor de Inferência Triton oferece suporte a todos os principais framework de IA incluindo PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX e OpenVINO.

Saiba Como o Snapchat Está Usando o Triton para Aprimorar a Experiência de Compra

Otimize Implantações de Modelo

O Servidor de Inferência Triton pode executar varreduras automatizadas para testar a latência e a taxa de transferência em muitas configurações de simultaneidade de modelo e tamanho de lote. Isso permite que os desenvolvedores identifiquem rapidamente a configuração mais eficaz que atenda ao seu contrato de nível de serviço sem nenhum trabalho manual. Para modelos de LLM, o Servidor de Inferência Triton automatiza a geração de tokens e fornece métricas de implantação, como latência de primeiro token, latência de token para token e tokens por segundo. Esse recurso acelera a identificação e a implantação da configuração de produção de LLM mais eficiente.

Veja Como o Analisador de Modelos Triton Otimiza a Implantação de Modelos

Leia o Guia do Analisador de Desempenho de IA Generativa

Crie Pipelines de IA Multimodelo Sem Esforço

Com o Servidor de Inferência Triton, as empresas podem criar conjuntos de modelos sem esforço. Ele oferece uma ferramenta low-code que conecta perfeitamente os modelos de IA em um pipeline unificado que pode ser acionado com uma única solicitação de inferência. Isso permite que as empresas incorporem workflows de pré e pós-processamento, sem a necessidade de codificação manual. O Servidor de Inferência Triton também oferece suporte ao agendamento de tarefas de pré e pós-processamento em CPUs, simplificando todo o fluxo de trabalho.

Leia Sobre Como Servir Pipelines de Modelo no Triton com Modelos de Conjunto

Implante em Qualquer Lugar: No Local, No Edge ou Em Qualquer Nuvem

O Servidor de Inferência Triton vem como um contêiner do Docker, adequado para implantação no local, na nuvem ou em dispositivos no edge. Ele está profundamente integrado às principais ferramentas de IA de MLOps de todos os principais provedores de nuvem, como Amazon SageMaker, Azure ML Studio, Google Vertex AI e OCI Data Science. Para implantações em nuvem, o Servidor de Inferência Triton pode ser facilmente ativado com um sinalizador de linha de comando simples, minimizando o tempo de implementação e alinhando-se aos padrões de governança corporativa.

Implante no Amazon SageMaker

Implante no Google Vertex AI

Implantar no Azure ML Studio

Implante no Oracle Cloud

Histórias de Clientes

Saiba Como os Líderes da Indústria Estão Aprimorando a Implantação de Modelos com o Triton

Mais Histórias de Clientes

Snapchat

Aprimorando as Compras de Vestuário com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com reconhecimento de emoji usando o Triton para escalar, reduzir custos e acelerar o tempo de produção.

Saiba Mais

Docusign

Acelerando o Gerenciamento de Contratos com a Plataforma de Inferência da NVIDIA

Explore como a Docusign está usando o Triton e o Azure para desbloquear informações de contratos, transformar dados de contratos em insights e aumentar a produtividade.

Saiba Mais

Oracle Cloud

NVIDIA Triton Acelera a Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados da Oracle Cloud Infrastructure aumentam a velocidade das previsões de IA com o NVIDIA Servidor de Inferência Triton.

Saiba Mais

Usuários

Principais Usuários em Todos os Setores

Clientes
Integradores de Ecossistema

Comece Agora com o NVIDIA Triton

Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicação em qualquer plataforma.

Comece a Desenvolver com Código ou Contêineres

Para pessoas que desejam acessar o código-fonte aberto e os contêineres do Triton para desenvolvimento, há duas opções para começar gratuitamente:

Use Código-Fonte Aberto
Acesse software de código aberto no GitHub com exemplos completos.

Veja o Repositório do GitHub

Faça o Download de um Contêiner
Acesse contêineres do Servidor de Inferência Triton baseados em Linux para x86 e Arm® no NVIDIA NGC™.

Veja os Contêiners

Experimente Antes de Comprar

Para empresas que desejam experimentar o Triton antes de adquirir o NVIDIA AI Enterprise para produção, há duas opções para começar gratuitamente:

Sem Infraestrutura
Para quem não tem infraestrutura existente, a NVIDIA oferece laboratórios práticos gratuitos por meio do NVIDIA LaunchPad.

Acesse os Laboratórios Práticos

Com Infraestrutura
Para aqueles com infraestrutura existente, a NVIDIA oferece uma licença de avaliação gratuita para testar o NVIDIA AI Enterprise por 90 dias.

Solicite Um Teste de 90 Dias

Compare as Opções para Começar

Recursos

O Que Há de Mais Recente em Recursos no NVIDIA Triton

As 5 Principais Razões Pelas Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados a partir de qualquer framework de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Assista Agora

Implante o Pipeline de Stable Diffusion do HuggingFace com Triton

Este vídeo mostra a implantação do pipeline Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Triton para implantar e executar o pipeline.

Assista Agora

Primeiros Passos com o Servidor de Inferência NVIDIA Triton

O Servidor de Inferência Triton é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalonável na produção. Devido aos seus muitos recursos, uma pergunta natural a ser feita é: por onde devo começar? Assista para descobrir.

Assista Agora

Guia Rápido

É novo no Servidor de Inferência Triton e deseja implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Triton.

Leia Agora

Tutoriais

Começar a usar o Triton pode levar a muitas perguntas. Explore este repositório para se familiarizar com os recursos do Triton e encontrar guias e exemplos que podem ajudar a facilitar a migração.

Leia Agora

NVIDIA LaunchPad

Em laboratórios práticos, experimente IA rápida e escalável usando o Servidor de Inferência NVIDIA Triton. Você poderá aproveitar imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

Explore Agora

Receba as Últimas Notícias

Leia sobre as últimas atualizações e anúncios de inferência do Servidor de Inferência Triton.

Veja Todos os Blogs do Triton

Explore Blogs Técnicos

Leia orientações técnicas sobre como começar a inferência.

Veja Todos os Blogs Técnicos de LLM

Aprofunde-se

Receba dicas e práticas recomendadas para implantar, executar e dimensionar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Leia Agora

Implantando, Otimizando e Comparando LLMs

Aprenda como servir LLMs de forma eficiente usando o Servidor de Inferência Triton com instruções passo a passo. Abordaremos como implantar facilmente um LLM em vários back-ends e comparar seu desempenho, bem como ajustar as configurações de implantação para obter desempenho ideal.

Assista à Sessão GTC On Demand

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Aprenda o que é inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA full-stack é necessária para enfrentar esses desafios, os principais componentes de uma solução full-stack plataforma e como implantar sua primeira solução de inferência de IA.

Assista à Sessão On Demand

Aproveite o Poder das Soluções de Inferência de IA Prontas para Nuvem

Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços em nuvem, simplificando a implantação e agilizando o lançamento de casos de uso de IA com tecnologia LLM.

Assista à Sessão On Demand

Oracle Cloud

NVIDIA Triton Acelera Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados do Oracle Cloud Infrastructure melhoram a velocidade das previsões de IA com o Servidor de Inferência NVIDIA Triton.

Saiba Mais

ControlExpert

Revolucionando o Gerenciamento de Sinistros Automotivos

Saiba como a ControlExpert recorreu à IA da NVIDIA para desenvolver uma solução completa de gerenciamento de sinistros que permite que seus clientes recebam atendimento 24 horas por dia.

Saiba Mais

Wealthsimple

Acelerando a Entrega e Inferência de Modelos de Machine Learning

Descubra como a Wealthsimple usou a plataforma de inferência de IA da NVIDIA para reduzir com sucesso a duração da implantação do modelo de vários meses para apenas 15 minutos.

Saiba Mais

Explore More Customer Stories

Fórum Online Triton

Explore a comunidade on-line do Servidor de Inferência NVIDIA Triton, onde você pode navegar por perguntas de instruções, aprender práticas recomendadas, interagir com outros desenvolvedores e relatar bugs.

Junte-se à Comunidade

Programa de Desenvolvedores NVIDIA

Conecte-se com milhões de desenvolvedores com ideias semelhantes e acesse centenas de contêineres, modelos e SDKs acelerados por GPU, todas as ferramentas necessárias para criar aplicações com sucesso com a tecnologia NVIDIA, por meio do Programa de Desenvolvedores NVIDIA.

Participe do Programa para Desenvolvedores

Acelere Sua Startup

NVIDIA Inception é um programa gratuito para startups de ponta que oferece acesso crítico a suporte de entrada no mercado, conhecimento técnico, treinamento e oportunidades de financiamento.

Saiba Mais e Inscreva-se

Próximos Passos

Pronto para Começar?

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicação em qualquer plataforma.

Para Desenvolvedores

Explore tudo o que você precisa para começar a desenvolver com o NVIDIA Triton, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Comece a Desenvolver

Entre em Contato

Fale com um especialista em produtos NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte de NVIDIA AI Enterprise.

Fale Conosco›