Comercios

Búsqueda visual más rápida e inteligente con tecnología de GPU

Objetivo

Bing implementa la tecnología NVIDIA para acelerar la detección de objetos y ofrecer resultados pertinentes en tiempo real.

Cliente

Bing, búsqueda de Microsoft

Partner

Búsqueda visual

Tecnología

cuDNN de NVIDIA, NVIDIA Tesla K40, GPU NVIDIA Tesla M60

Búsqueda visual: una buena causa

La búsqueda visual se considera la próxima gran frontera de las búsquedas, y Bing de Microsoft ha utilizado la potencia de las GPU de NVIDIA para hacerla realidad. Al mismo tiempo, ha utilizado el conjunto de herramientas de generación de perfiles NVIDIA® CUDA® y cuDNN para que el sistema sea más económico. Sin embargo, la búsqueda visual a gran escala no es tarea fácil: ofrecer resultados pertinentes de forma instantánea cuando los usuarios pasan el ratón por encima de objetos dentro de las fotos requiere cálculos masivos por parte de algoritmos entrenados para clasificar, detectar y relacionar las imágenes dentro de las imágenes.

Bing: detección de objetos en grupo

Bing: detección de objetos en grupo

La búsqueda visual se considera la próxima gran frontera de las búsquedas, y Bing de Microsoft ha utilizado la potencia de las GPU de NVIDIA para hacerla realidad. Al mismo tiempo, ha utilizado el conjunto de herramientas de generación de perfiles NVIDIA® CUDA® y cuDNN para que el sistema sea más económico. Sin embargo, la búsqueda visual a gran escala no es tarea fácil: ofrecer resultados pertinentes de forma instantánea cuando los usuarios pasan el ratón por encima de objetos dentro de las fotos requiere cálculos masivos por parte de algoritmos entrenados para clasificar, detectar y relacionar las imágenes dentro de las imágenes.
No obstante, el esfuerzo merece la pena.

"Una imagen vale más que mil palabras", afirma Yan Wang, ingeniero jefe de Bing.
"Si tienes una imagen, estás mucho más cerca de lo que buscas".

Antes, sin embargo, había que esperar mucho para encontrar lo que se buscaba. En 2015, Bing introdujo funciones de búsqueda de imágenes que permitían a los usuarios dibujar recuadros alrededor de subimágenes o hacer clic en recuadros de subimágenes ya detectadas por la plataforma; después podían utilizar esas imágenes como base de una nueva búsqueda.

Bing buscaba una solución lo suficientemente rápida como para satisfacer las expectativas de los usuarios. Para ello, cambió su plataforma de detección de objetos de CPU a máquinas virtuales Azure de la serie NV con aceleradores GPU NVIDIA Tesla® M60. De este modo, Bing redujo notablemente la latencia de detección de objetos de 2,5 segundos en la CPU a 200 milisegundos. Otras optimizaciones con cuDNN de NVIDIA redujeron esa latencia a 40 milisegundos, muy por debajo del umbral para una excelente experiencia de usuario en la mayoría de las aplicaciones.

Bing: búsqueda de camisas de vestir

Bing: búsqueda de camisas de vestir

Creación de una experiencia superior

El cambio a las GPU de NVIDIA fue instantáneo, ya que la latencia de las inferencias se redujo de inmediato 10 veces. A pesar de ello, los ingenieros de Bing no iban a detenerse ahí.

Incorporaron a su código la biblioteca de deep learning acelerado por GPU cuDNN de NVIDIA y actualizaron su modo de controlador de Windows Display Driver Model a Tesla Compute Cluster, lo que redujo la latencia a 40 milisegundos con una mejora total del rendimiento equivalente a 60 veces. Para detectar más categorías de objetos en una imagen, pasaron de un rápido proceso R-CNN de dos etapas a un proceso de "detección de una sola pasada" en una sola etapa. De este modo, la función se multiplica por 10 y es posible detectar más de 80 categorías de imágenes.

El equipo de Bing también utiliza un modelo de activación de filtros y el almacén de valores clave ObjectStore de Microsoft para limitar la cantidad de datos que necesita procesar y almacenar en caché los resultados para su uso futuro. De este modo, ahorra más del 90 % de sus costes, lo que le permite prestar un servicio más económico al volumen de solicitudes que recibe a diario.

La experiencia de usuario que ofrece Bing Visual Search refleja estos esfuerzos adicionales. En la página de búsqueda de Bing, el usuario puede seleccionar "búsqueda de imágenes", escribir un texto o cargar una imagen y, a continuación, seleccionar los puntos clave detectados automáticamente en la imagen o dibujar un recuadro en las partes de interés para obtener resultados de búsqueda casi instantáneos. Al dibujar el recuadro sobre, por ejemplo, un bolso, se generan numerosas oportunidades de compra de bolsos, con sus precios correspondientes.

En cuanto al desarrollo y la implementación, el cambio a las GPU de NVIDIA ha permitido al equipo de Bing ganar agilidad y aumentar su ritmo de aprendizaje e innovación. Con las CPU, llevaría meses ejecutar modelos actualizados en todo el conjunto de datos de miles de millones de imágenes con cada cambio significativo. Ahora, con las GPU, este proceso es instantáneo, lo que permite actualizar los modelos con frecuencia y ofrecer más funciones a los usuarios de Bing.

"Una imagen vale más que mil palabras. Si tienes una imagen, estás mucho más cerca de lo que buscas".

Yan Wang
ingeniero jefe de Bing

Creación de una experiencia superior

Momento decisivo para la búsqueda visual

La detección de objetos y la búsqueda visual en tiempo real son ya posibles, lo que convierte a Bing Visual Search en un momento revolucionario. Gracias a la capacidad de procesar modelos más profundos y complejos, Bing Visual Search puede admitir más categorías de objetos detectables. Además, las actualizaciones más rápidas de los modelos de back-end permiten a Bing subir la apuesta en el ámbito del desarrollo.

"Reduce considerablemente nuestro ciclo de innovación y producción, de más de un mes en cada actualización a casi instantáneo", afirma Wang.

El impacto potencial de Bing Visual Search podría ser revolucionario para los minoristas en línea, que podrán ofrecer sus productos directamente tras la búsqueda por parte de los consumidores en lugar de esperar a que estos los encuentren. Sin embargo, no cuesta mucho imaginar lo que Bing Visual Search puede hacer también para otros sectores, como los viajes y la educación.

Por ejemplo, un usuario impresionado por una foto de una playa podría relacionarla inmediatamente con un lugar real y reservar unas vacaciones. O un estudiante de arte podría hacer una foto de un cuadro en un museo e identificar al instante otros cuadros que podrían haber influido o estar influidos por el cuadro en cuestión. Las posibilidades son infinitas.

"Un proceso de actualización de modelos más rápido reduce considerablemente nuestro ciclo de innovación y producción, de más de un mes en cada actualización a casi instantáneo".

Yan Wang
ingeniero jefe de Bing