I modelli linguistici di grandi dimensioni (LLM) rappresentano un importante progresso nell'IA e promettono di trasformare i domini attraverso l'apprendimento di nuove capacità. Negli ultimi anni le dimensioni degli LLM sono aumentate di 10 volte all'anno e di pari passo sono aumentate le loro capacità.
Tuttavia, gli LLM sono difficili da sviluppare e gestire, il che li rende inaccessibili alla maggior parte delle imprese.
per il marketing e la narrazione.
per notizie e email.
per la creazione di brand e i personaggi di giochi.
per domande e risposte intelligenti e assistenza clienti in tempo reale.
per la generazione dinamica di commenti e funzioni.
per le lingue e Wikipedia.
Il servizio NeMo LLM in esecuzione sulla piattaforma NVIDIA AI offre alle aziende il percorso più rapido per personalizzare e distribuire LLM su cloud privati e pubblici o accedervi tramite il servizio API.
Il servizio NeMo LLM espone il modello NVIDIA Megatron 530B come API cloud. Prova le funzionalità del modello 530B tramite Playground o tramite API REST (Representational State Transfer).
NeMo Megatron è un framework completo per il training e la distribuzione di LLM con miliardi di parametri.
Il framework containerizzato offre un'elevata efficienza di training su migliaia di GPU e rende più pratica la creazione e la distribuzione di modelli su larga scala. Offre la capacità di gestire i dati di training, di addestrare modelli su larga scala con milioni di miliardi di parametri, di personalizzarli con il training rapido e di distribuirli con NVIDIA Triton™ Inference Server per eseguirli su larga scala su più GPU e più nodi.
NeMo Megaton è ottimizzato per l'esecuzione su NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure e Oracle Cloud Infrastructure.
Scienziati e ingegneri stanno iniziando a superare i confini del possibile con modelli linguistici di grandi dimensioni. NVIDIA Triton™ Inference Server è un software di inferenza open source che può essere utilizzato per distribuire, eseguire e scalare LLM. Supporta l'inferenza multi-GPU e multi-nodo per modelli linguistici di grandi dimensioni utilizzando un backend FasterTransformer. Triton usa il parallelismo di tensori e pipeline, l'interfaccia MPI e la NVIDIA Collective Communication Library (NCCL) per inferenza distribuita ad alte prestazioni e supporta GPT, T5 e altri LLM. La funzionalità di inferenza per LLM è in versione beta.
BioNeMo è un servizio e framework di ricerca farmacologica basato su IA costruito su NVIDIA NeMo Megatron per addestrare e distribuire modelli IA di trasformatori biomolecolari di livello supercomputing. Il servizio include LLM pre-addestrati e supporto nativo per formati di file comuni per proteine, DNA, RNA e chimica, fornendo caricatori di dati per SMILES per strutture molecolari e FASTA per sequenze di aminoacidi e nucleotidi. Il framework BioNeMo sarà disponibile in download per l'esecuzione sulla tua infrastruttura.
Resta aggiornato con le ultime notizie, le novità, i contenuti e non solo su NVIDIA Triton Inference Server e NVIDIA® TensorRT™.
Guarda le recenti sessioni on-demand sugli LLM dalla NVIDIA GTC.
Scopri l'evoluzione dell'uso dell'inferenza, gli aspetti da considerare per un'inferenza ottimale e la piattaforma NVIDIA AI.
Prova subito il servizio NVIDIA NeMo LLM.