Bing déploie la technologie NVIDIA pour accélérer la détection des objets et fournir des résultats pertinents en temps rée
l.Bing, Recherche de Microsoft
Recherche visuelle
NVIDIA cuDNN, NVIDIA Tesla K40s, GPU NVIDIA Tesla M60
La recherche visuelle est considérée comme la prochaine révolution dans le domaine de la recherche, et Bing de Microsoft a exploité la puissance des GPU NVIDIA pour la rendre possible. Dans le même temps, ils ont tiré parti de la chaîne d’outils de profilage NVIDIA® CUDA® et de cuDNN pour rendre le système plus rentable. Cependant, la recherche visuelle à grande échelle n'est pas une mince affaire. En effet, fournir instantanément des résultats pertinents lorsque les utilisateurs survolent des objets sur des photos nécessite un traitement massif par des algorithmes formés pour classer, détecter et faire correspondre les images entre elles.
Bing : détection d'objets de groupe
La recherche visuelle est considérée comme la prochaine révolution dans le domaine de la recherche, et Bing de Microsoft a exploité la puissance des GPU NVIDIA pour la rendre possible. Dans le même temps, ils ont tiré parti de la chaîne d’outils de profilage NVIDIA® CUDA® et de cuDNN pour rendre le système plus rentable. Cependant, la recherche visuelle à grande échelle n'est pas une mince affaire. En effet, fournir instantanément des résultats pertinents lorsque les utilisateurs survolent des objets sur des photos nécessite un traitement massif par des algorithmes formés pour classer, détecter et faire correspondre les images entre elles.
Mais ça en vaut vraiment la peine.
"Une image vaut mille mots", déclare Yan Wang, ingénieur principal chez Bing.
"Si vous disposez d'une image, vous vous rapprochez encore plus de ce que vous recherchez."
Mais auparavant, il fallait attendre longtemps pour trouver ce que vous recherchiez. En 2015, Bing a introduit des capacités de recherche d’images qui permettaient aux utilisateurs de dessiner des cadres autour de sous-images ou de cliquer sur des cadres de sous-images déjà détectées par la plateforme, ils pouvaient ensuite baser de nouvelles rechercher sur ces images.
Bing recherchait une solution assez rapide pour répondre aux attentes des utilisateurs. L'entreprise a abandonné les processeurs pour passer à des machines virtuelles Azure NV exécutant des accélérateurs GPU NVIDIA Tesla® M60 pour leur plateforme de détection d'objets. Ce faisant, Bing a réduit la latence de sa détection d'objets de 2,5 secondes sur le CPU à 200 millisecondes. Des optimisations supplémentaires avec NVIDIA cuDNN ont réduit ce seuil à 40 millisecondes, bien en dessous du seuil correspondant à excellente expérience utilisateur sur la plupart des applications.
Bing : recherche de chemise habillée
Mais les ingénieurs de Bing ne se sont pas arrêtés là.
Ils ont incorporé la bibliothèque de deep learning accélérée par GPU NVIDIA cuDNN dans leur code et mis à jour leur mode pilote passant du modèle Windows Display Driver au cluster Tesla Compute, ce qui a permi une réduction de la latence de 40 millisecondes pour des performances totales multipliées par 60. Pour détecter plus de catégories d’objets sur une image, ils sont passés d’un processus rapide en deux étapes R-CNN à un processus de "Single-Shot Detection". Cela a permis de décupler la vitesse de cette fonctionnalité et de détecter plus de 80 catégories d'images.
L’équipe Bing exploite également un modèle de déclenchement de filtre et le magasin de clés/valeurs ObjectStore de Microsoft pour limiter la quantité de données dont elle a besoin pour traiter et mettre en cache les résultats pour une utilisation ultérieure. Cela leur permet d'économiser plus de 90 % de leurs coûts, ce qui rend plus économique le traitement du volume de demandes qu'ils reçoivent chaque jour.
L’expérience utilisateur qu'offre Bing Visual Search reflète ces efforts supplémentaires. À partir de la page de recherche Bing, un utilisateur peut sélectionner "recherche d'image", taper du texte ou charger une image, puis sélectionner des zones cibles automatiquement détectées sur l'image ou dessiner un cadre sur les parties intéressantes pour déclencher une recherche et obtenir des résultats quasi instantanés. Dessiner un cadre, autour d'un sac à main, génère de nombreuses opportunités d'achat de sac, accompagnées de leur prix.
En matière de développement et de déploiement, le passage aux GPU NVIDIA a permis à l'équipe Bing d'être plus agile et d'accroître son rythme d'entraînement et d'innovation. Avec des CPU, il faudrait des mois pour exécuter les modèles mis à jour sur tout le jeu de données constitué de milliards d'images après chaque modification importante. Avec des GPU, ce processus est désormais instantané, ce qui permet d'actualiser fréquemment les modèles et de proposer davantage de fonctionnalités aux utilisateurs de Bing.
"Une image vaut mille mots. Si vous disposez d'une image, vous vous rapprochez encore plus de ce que vous recherchez."
Yan Wang
Ingénieur principal, Bing
La détection d’objets en temps réel et la recherche visuelle sont maintenant possibles, conférant à Bing Visual Search une dimension novatrice. Grâce à sa capacité à traiter des modèles plus profonds et plus complexes, Bing Visual Search peut prendre en charge plus de catégories d’objets détectables. De plus, les mises à jour plus rapides des modèles de base permettent à Bing de se concentrer sur le développement.
"Cela nous permet de réduire notre cycle d'innovation et de production, qui est passé de plus d'un mois pour chaque mise à jour à un cycle presque instantané.", déclare Wang.
Les répercussions potentielles de la recherche visuelle de Bing pourraient bouleverser la donne pour les détaillants en ligne, qui pourront proposer leurs produits directement aux consommateurs plutôt que d'attendre que ceux-ci les trouvent. Il n'est pas difficile d'imaginer ce que Bing Visual Search peut apporter à d'autres secteurs, tels que le tourisme et l'éducation.
Par exemple, un utilisateur subjugué par la photo d’une plage pourrait immédiatement faire correspondre cette photo à un emplacement réel et réserver des vacances. Un étudiant en art pourrait prendre une peinture en photo dans un musée et identifier instantanément d’autres peintures qui pourraient avoir influencé ou avoir été influencées par la peinture en question. Les possibilités sont infinies.
"Un processus plus rapide de mise à jour des modèles réduit considérablement notre cycle d'innovation et de production, qui passe d'un mois pour chaque mise à jour à un cycle quasi instantané."
Yan Wang
Ingénieur principal, Bing