Los modelos lingüísticos de gran tamaño (LLM) representan un gran avance en la IA, con la promesa de transformar los dominios a través del conocimiento aprendido. El tamaño de los LLM se ha multiplicado por 10 cada año en los últimos años, y a medida que estos modelos crecen en complejidad y tamaño, también lo hacen sus capacidades.
Sin embargo, los LLM son difíciles de desarrollar y mantener, lo que los hace inaccesibles para la mayoría de las empresas.
para la creación de textos de marketing y argumentos.
para las noticias y el correo electrónico.
para la creación de marcas y personajes de juegos.
para la realización de preguntas y respuestas inteligentes y la atención al cliente en tiempo real.
para el comentario dinámico y la generación de funciones.
para los idiomas y Wikipedia.
El servicio NeMo LLM que se ejecuta en la plataforma de IA de NVIDIA proporciona a las empresas la vía más rápida para personalizar e implantar los LLM en nubes privadas y públicas o acceder a ellos a través del servicio API.
El servicio NeMo LLM expone el modelo NVIDIA Megatron 530B como una API en la nube. Prueba las capacidades del modelo 530B a través de Playground o de las APIs de transferencia de estado representacional (REST).
NeMo Megatron es un marco integral para el entrenamiento y el despliegue de LLM con miles de millones o trillones de parámetros.
El marco de trabajo en contenedores ofrece una alta eficiencia de entrenamiento en miles de GPUs y hace que sea práctico para las empresas construir y desplegar modelos a gran escala. Proporciona capacidades para curar los datos de entrenamiento, entrenar modelos a gran escala de hasta billones de parámetros, personalizar usando el aprendizaje rápido e implementar usando el NVIDIA Triton™ Inference Server para ejecutar modelos a gran escala en múltiples GPUs y múltiples nodos.
NeMo Megaton está optimizado para ejecutarse en NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure y Oracle Cloud Infrastructure.
Los científicos e ingenieros de datos están empezando a superar los límites de lo que es posible con los grandes modelos lingüísticos. El servidor de inferencia NVIDIA Triton es un software de inferencia de código abierto que puede utilizarse para implementar, ejecutar y escalar modelos lingüísticos. Admite la inferencia en múltiples GPUs y nodos para modelos lingüísticos de gran tamaño utilizando un backend FasterTransformer. Triton utiliza el paralelismo tensorial y de canalización y la interfaz de paso de mensajes (MPI) y la biblioteca de comunicación colectiva de NVIDIA (NCCL) para la inferencia distribuida de alto rendimiento y admite GPT, T5 y otros LLM. La funcionalidad de inferencia de LLM está en fase beta
BioNeMo es un servicio en la nube para el descubrimiento de fármacos impulsado por la IA y un marco de trabajo basado en NVIDIA NeMo Megatron para el entrenamiento y la implementación de grandes modelos de IA de transformadores biomoleculares a escala de supercomputación. El servicio incluye LLMs preentrenados y soporte nativo para formatos de archivo comunes para proteínas, ADN, ARN y química, proporcionando cargadores de datos para SMILES para estructuras moleculares y FASTA para secuencias de aminoácidos y nucleótidos. El marco de trabajo de BioNeMo también estará disponible para su descarga para ser ejecutado en su propia infraestructura.
Mantente al día de las últimas actualizaciones de los productos NVIDIA Triton Inference Server y NVIDIA® TensorRT™, contenidos, noticias y mucho más.
Consulta las últimas sesiones a la carta sobre LLM de las GTC de NVIDIA.
Lea sobre la evolución del uso de la inferencia, las consideraciones para una inferencia óptima y la plataforma de IA de NVIDIA.
Prueba el servicio NVIDIA NeMo LLM hoy mismo.