Los modelos de lenguaje de gran tamaño (LLM) representan un gran avance en IA gracias a su capacidad para transformar dominios a través del conocimiento aprendido. El tamaño de los LLM lleva un tiempo multiplicándose por 10 cada año y, a medida que estos modelos crecen en complejidad y alcance, también lo hacen sus capacidades.
Sin embargo, los LLM son difíciles de desarrollar y mantener, lo que los deja fuera del alcance de la mayoría de las empresas.
para la creación de argumentos y elementos de marketing.
para noticias y correo electrónico.
para la creación de marcas y personajes de gaming.
para la asistencia al cliente en tiempo real mediante preguntas y respuestas inteligentes.
para la generación dinámica de comentarios y funciones.
para idiomas y Wikipedia.
El servicio NeMo LLM se ejecuta en la plataforma de IA de NVIDIA y proporciona a las empresas la forma más rápida de personalizar e implementar LLM en nubes privadas y públicas, o de acceder a ellas a través del servicio API.
El servicio NeMo LLM ofrece el modelo NVIDIA Megatron 530B como API en la nube. Prueba las capacidades del modelo 530B a través de Playground o las API de transferencia de estado de representación (REST).
NeMo Megatron es un marco integral para el entrenamiento y la implementación de LLM con miles de millones o billones de parámetros.
Este marco en contenedores ofrece una alta eficiencia de entrenamiento en miles de GPU, de modo que las empresas pueden crear e implementar modelos a gran escala de forma práctica. Proporciona capacidades para organizar datos de entrenamiento, entrenar modelos a gran escala con hasta billones de parámetros, personalizar mediante el aprendizaje rápido e implementar con el servidor de inferencia NVIDIA Triton™, que permite ejecutar modelos a gran escala en múltiples GPU y nodos.
NeMo Megaton se ha optimizado para ejecutarse en NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure y Oracle Cloud Infrastructure.
Los científicos e ingenieros de datos están empezando a explorar todas las posibilidades de los modelos de lenguaje de gran tamaño. El servidor de inferencia NVIDIA Triton™ es un software de servicio de inferencia de código abierto que se puede utilizar para implementar, ejecutar y escalar estos modelos LLM. Es compatible con la inferencia multi-GPU y multi-nodo para modelos de lenguaje de gran tamaño que utilizan un backend FasterTransformer. Triton utiliza el paralelismo de tensores y canalizaciones, la interfaz de paso de mensajes (MPI) y la biblioteca de comunicación colectiva de NVIDIA (NCCL) para lograr una inferencia distribuida de alto rendimiento, y es compatible con GPT, T5 y otros LLM. La funcionalidad de inferencia LLM se encuentra en fase beta.
BioNeMo, un servicio en la nube de detección de fármacos y marco de aplicaciones con tecnología de IA basado en NVIDIA NeMo Megatron, permite entrenar e implementar modelos de IA de grandes transformadores biomoleculares a escala de supercomputación. El servicio incluye LLM preentrenados y compatibilidad nativa con los formatos de archivo más comunes para proteínas, ADN, ARN y otros compuestos químicos, además de proporcionar cargadores de datos para SMILES (estructuras moleculares) y FASTA (secuencias de aminoácidos y nucleótidos). El marco BioNeMo también estará disponible para su descarga, de modo que puedas ejecutarlo en tu propia infraestructura.
Mantente al día de las últimas actualizaciones de productos, contenidos y noticias acerca del servidor de inferencia NVIDIA Triton y NVIDIA® TensorRT™.
Echa un vistazo a las últimas sesiones bajo demanda sobre LLM de las GTC de NVIDIA.
Infórmate sobre la evolución del panorama del uso de la inferencia, las consideraciones para una inferencia óptima y la plataforma de IA de NVIDIA.
Prueba hoy mismo el servicio NVIDIA NeMo LLM.