"Debido a que queríamos mejorar continuamente nuestra representación invertible del espacio químico, necesitábamos una plataforma que permitiera una rápida experimentación junto con facilidad de gestión" , dijo John Parkhill , director de aprendizaje automático en Terray". DGX Cloud nos ofreció una solución que funcionaba a la perfección con la facilidad y la simplicidad de la nube. Su red de alta velocidad, diseñada especialmente para el entrenamiento de múltiples nodos, fue particularmente crucial para nuestras necesidades. Debido a que estamos tratando con conjuntos de datos de terabytes o más, necesitamos recursos computacionales significativos para entrenar nuestros modelos de manera efectiva. "
Además, la capacidad de realizar experimentos de prueba y error es muy valiosa en nuestra investigación de desarrollo de modelos, ya que identificar los hiperparámetros más
efectivos es a menudo una tarea desafiante
. La ejecución rápida
de trabajos en DGX Cloud nos
permitió identificar rápidamente los fallos y hacer los ajustes necesarios en los modelos . Por ejemplo, pude realizar numerosos estudios de ablación, como deshabilitar las características del modelo, para determinar si, por ejemplo, alterar elementos del tokenizador del transformador es impactante o intrascendente " , dijo Williams".
"Nuestro proceso de configurar los trabajos de entrenamiento iban desde la incomodidad de introducir el código manualmente a máquinas remotas y asegurar la sincronización hasta la simplicidad de presionar "ejecutar" en DGX Cloud. Ni siguiera teníamos que modificar mucho nuestro código ya existente. Con la plataforma de comando Base Command, la orquestación de los trabajos de entrenamiento multinodo era principalmente automatizada para nosotros. Esto nos permitía escalar de una forma que no hubiera sido posible". Tener una asignación de nodos fija en DGX Cloud también creó mayor rendimiento. "Resulta una experiencia pésima el tener que pedir ejemplos de GPU a los servicios de la nube tradicionales que parecen incapaces de poner a disposición. Si necesito un nuevo nodo para un experimento en el que estoy trabajando, no sabría ni si, ni cuándo podría tener uno. Con DGX Cloud, no me tengo que preocupar por eso", afirmó Williams. "Como científico de datos, mi límite ya no está en una pequeña estación de trabajo GPU; es la capacidad de la nube íntegra de Terray. DGX Cloud con Base Command Platform me permite ir de un único nodo a un clúster de 32 GPU con solo pulsar un botón".
Parkhill añadíó. “DGX Cloud nos ofrece el nivel abstracción que necesitan nuestros desarrolladores para que se puedan centrar en la innovación en vez de hacerlo en la infraestructura” Terray aprovecha el enfoque de una solución híbrida, donde pueden entrenar y crear sus modelos en DGX Cloud e implementar y ejecutar inferencia en su clúster in situ con GPU de NVIDIA RTX™ A6000. Conforme las cargas de trabajo aumentan, DGX Cloud ofrece elasticidad y liquidez de recursos. "Los expertos de NVIDIA AI fueron parte fundamental para nuestro éxito", afirmó. "Contamos con un experto especializado que inspeccionaba nuestros registros para asegurar que todo se ejecutaba de forma correcta e identificaba cualquier posible problema. Al identificar optimizaciones de forma directa en PyTorch y CUDA® en las que no habíamos pensado, mejoraron de forma relevante la eficiencia de nuestras cargas de trabajo. Además, nos asistieron en el desarrollo de scripts que aportaron información valiosa a los datos de telemetría, y nos permitieron controlar la actividad de memoria y aumentar el rendimiento. El soporte de los expertos de NVIDIA AI nos permitió cambiar nuestro foco de la optimización del proceso a realizar experimentos, ya que este es principalmente un proyecto de I+D".