Os grandes modelos de linguagem (LLMs) representam um grande avanço na AI, com a promessa de transformar domínios através do conhecimento aprendido. Os tamanhos dos LLMs têm aumentado 10X a cada ano nos últimos anos, e à medida que esses modelos crescem em complexidade e tamanho, suas capacidades também crescem.
No entanto, as LLMs são difíceis de desenvolver e manter, tornando as LLMs inacessíveis para a maioria das empresas.
for para a criação de cópias de marketing e de storyline.
para notícias e e-mail
para criação de marcas e personagens de jogos.
para perguntas e respostas inteligentes e suporte ao cliente em tempo real.
para comentários dinâmicos e geração de funções.
para idiomas e Wikipedia.
O serviço NeMo LLM executado na plataforma NVIDIA AI fornece às empresas o caminho mais rápido para personalizar e implantar LLMs em nuvens privadas e públicas ou acessá-las através do serviço API.
O serviço NeMo LLM expõe o modelo NVIDIA Megatron 530B como uma API em nuvem. Experimente as capacidades do modelo 530B através do Playground ou através das APIs de transferência de estado representacional (REST).
O NeMo Megatron é uma estrutura de ponta a ponta para treinamento e implementação de LLMs com bilhões ou trilhões de parâmetros.
A estrutura contentorizada proporciona alta eficiência de treinamento em milhares de GPUs e torna prático para as empresas construir e implantar modelos em larga escala. Ela fornece recursos para curar dados de treinamento, treinar modelos de larga escala até trilhões de parâmetros, personalizar usando aprendizado imediato e implantar usando o Servidor de Inferência NVIDIA Triton™ para executar modelos de larga escala em várias GPUs e vários nós.
NeMo Megaton é otimizado para rodar na NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure, e Oracle Cloud Infrastructure.
Os cientistas e engenheiros de dados estão começando a ultrapassar os limites do que é possível com grandes modelos linguísticos. O NVIDIA Triton Inference Server é um software de código aberto que pode ser usado para implantar, executar e escalar LLMs. Ele suporta multi-GPU, inferência multi-nó para modelos de linguagem de grande porte usando um backend FasterTransformer. O Triton usa paralelismo tensor e pipeline e interface de passagem de mensagens (MPI) e a Biblioteca de comunicação coletiva (NCCL) da NVIDIA para inferência distribuída de alta performance e suporta GPT, T5 e outras LLMs. A funcionalidade de inferência de LLM está em beta.
BioNeMo é um serviço e estrutura de nuvem de descoberta de drogas alimentado por IA construído em NVIDIA NeMo Megatron para treinamento e implantação de grandes modelos de IA de transformador biomolecular em escala de supercomputação. O serviço inclui LLMs pré-treinados e suporte nativo para formatos de arquivo comuns para proteínas, DNA, RNA e química, fornecendo carregadores de dados para SMILES para estruturas moleculares e FASTA para seqüências de aminoácidos e nucleotídeos. A estrutura BioNeMo também estará disponível para download para rodar em sua própria infra-estrutura.
Mantenha-se atualizado sobre as últimas atualizações do NVIDIA Triton Inference Server e do produto NVIDIA® TensorRT™, conteúdo, notícias e muito mais.
Confira as últimas sessões on-demand sobre LLMs dos GTCs da NVIDIA.
Leia sobre a evolução do panorama inferência-utilização, considerações para uma inferência ótima, e a plataforma NVIDIA AI.
Experimente hoje o serviço NVIDIA NeMo LLM.