Bing setzt NVIDIA Technologie ein zur Beschleunigung der Objekterkennung und Bereitstellung relevanter Ergebnisse in E
chtzeit.Bing, Suchmaschine von Microsoft
Visuelle Suche
NVIDIA cuDNN, NVIDIA Tesla K40s, NVIDIA Tesla M60 GPUs
Die visuelle Suche gilt als der nächste große Schritt im Bereich der Suchmaschinen und Bing nutzt die Leistung von NVIDIA GPUs, um sie Realität werden zu lassen. Zudem nutzt das Unternehmen die NVIDIA® CUDA® Profiling Toolchain und cuDNN, um das System kostengünstiger zu machen. Visuelle Suche in großem Maßstab ist jedoch keine leichte Angelegenheit: Die sofortige Bereitstellung relevanter Ergebnisse, wenn Benutzer mit der Maus über Objekte in Fotos fahren, erfordert massive Berechnungen durch Algorithmen, die trainiert wurden, um die Bilder in Bildern zu klassifizieren, zu erkennen und anderen ähnlichen Bildern zuzuordnen.
Bing: Erkennung von Gruppenobjekten
Die visuelle Suche gilt als der nächste große Schritt im Bereich der Suche und Bing nutzt die Leistung von NVIDIA GPUs, um sie Realität werden zu lassen. Zudem nutzt das Unternehmen die NVIDIA® CUDA® Profiling Toolchain und cuDNN, um das System kostengünstiger zu machen. Visuelle Suche in großem Maßstab ist jedoch keine leichte Angelegenheit: Die sofortige Bereitstellung relevanter Ergebnisse, wenn Benutzer mit der Maus über Objekte in Fotos fahren, erfordert massive Berechnungen durch Algorithmen, die trainiert wurden, um die Bilder in Bildern zu klassifizieren, zu erkennen und anderen ähnlichen Bildern zuzuordnen.
Der Aufwand lohnt sich jedoch sehr.
„Ein Bild sagt mehr als tausend Worte“, sagte Yan Wang, Senior Engineer bei Bing.
„Wenn man ein Bild hat, ist man dem Gesuchten viel näher.“
Bisher war es jedoch ein langes Warten auf das, was man suchte. Im Jahr 2015 führte Bing Funktionen für die Bildsuche ein, die es Benutzern ermöglichten, Felder um Teilbilder zu zeichnen oder auf Felder von Teilbildern zu klicken, die bereits von der Plattform erkannt wurden. Diese Bilder konnten dann als Grundlage für eine neue Suche genutzt werden.
Bing suchte nach einer Lösung, die schnell genug war, um die Erwartungen der Nutzer zu erfüllen. Das Unternehmen wechselte bei seiner Objekterkennungsplattform von CPUs auf virtuelle Maschinen der Azure-NV-Serie mit NVIDIA Tesla® M60 GPU-Beschleunigern. Bing konnte so die Latenz für die Objekterkennung von 2,5 Sekunden bei CPUs auf 200 Millisekunden reduzieren. Weitere Optimierungen mit NVIDIA cuDNN reduzierten die Zeit auf 40 Millisekunden, was deutlich unter dem Schwellenwert für ein hervorragendes Benutzererlebnis bei den meisten Anwendungen liegt.
Bing: Kleidungshemd-Suc
heDie Umstellung auf NVIDIA GPUs machte sich sofort bezahlt. Die Inferenz-Latenz wurde sofort um das 10-fache reduziert. Die Ingenieure von Bing waren jedoch noch lange nicht fertig.
Sie übernahmen die NVIDIA cuDNN GPU-beschleunigte Deep-Learning-Bibliothek in ihren Code und aktualisierten ihren Treibermodus vom Windows-Display-Treibermodell auf den Tesla-Compute-Cluster, wobei die Latenz auf 40 Millisekunden gesenkt werden konnte – eine insgesamt 60-fache Leistungsverbesserung. Um mehr Objektkategorien auf einem Bild zu erkennen, wechselte das Unternehmen von einem schnellen zweistufigen R-CNN-Prozess zu einem einstufigen Erkennungsprozess. Dies beschleunigte die Funktion um das 10-fache und ermöglicht die Erkennung von über 80 Bildkategorien.
Das Bing-Team nutzt zudem ein Filter-Trigger-Modell und den ObjectStore-Key-Value-Store von Microsoft, um die Anzahl von Daten zu begrenzen, die für die Verarbeitung und Zwischenspeicherung von Ergebnissen für die zukünftige Verwendung erforderlich ist. Dadurch kann Bing über 90 Prozent seiner Kosten einsparen, was die Verwaltung des Volumens der täglich erhaltenen Anfragen wirtschaftlicher macht.
Das von Bing angebotene Benutzererlebnis für die visuelle Suche spiegelt diese zusätzlichen Bemühungen wider. Auf der Bing-Suchseite kann ein Benutzer „Bildsuche“ auswählen, Text eingeben oder ein Bild hochladen und dann entweder automatisch erkannte Hotspots auf dem Bild auswählen oder ein Feld um die vom Benutzer gewünschten Stellen ziehen, um nahezu sofortige Suchergebnisse angezeigt zu kriegen. Wenn das Feld beispielsweise über eine Geldbeutel gezogen wird, werden zahlreiche Möglichkeiten zum Kauf von Geldbeuteln mit den entsprechenden Preisen angezeigt.
Im Bereich der Entwicklung und Bereitstellung hat die Umstellung auf NVIDIA GPUs das Bing-Team in die Lage versetzt, agiler zu sein und die Lern- und Innovationsrate zu erhöhen. Mit CPUs hätte es Monate gedauert, um aktualisierte Modelle auf der gesamten Datenmenge von Milliarden von Bildern nach jeder bedeutenden Änderung auszuführen. Mit GPUs ist dieser Prozess jetzt sofort möglich, was eine regelmäßige Aktualisierung der Modelle und die Bereitstellung weiterer Funktionen für Bing-Nutzer begünstigt.
„Ein Bild sagt mehr als tausend Worte. „Wenn man ein Bild hat, ist man dem Gesuchten viel näher.“
Yan Wang
Senior Engineer, Bing
Die Objekterkennung und visuelle Suche in Echtzeit sind jetzt möglich, was die visuelle Suche von Bing zu einem bahnbrechenden Meilenstein macht. Die visuelle Suche von Bing kann detailreichere und komplexere Modelle verarbeiten und so mehr Kategorien von erkennbaren Objekten unterstützen. Und aufgrund von schnelleren Updates für Back-End-Modelle kann Bing jetzt mehr seiner Ressourcen der Entwicklung widmen.
„Unser Innovations- und Produktionszyklus wird dadurch drastisch verkürzt, von über einem Monat für jedes Update zu fast sofortigen Updates“, sagte Wang.
Die potenziellen Auswirkungen der visuellen Suche von Bing könnten für Online-Händler revolutionär sein, da ihre Produkte direkt bei der Suche der Verbraucher angeboten werden können, anstatt über den Weg einer klassischen Suchanfrage. Es ist jedoch nicht schwer, sich vorzustellen, was die Bing Visual Search auch für andere Bereiche wie die Reise- und Bildungsbranche leisten kann.
So könnte beispielsweise ein Nutzer, der von einem Strandfoto begeistert ist, dieses Foto sofort einem realen Ort zuordnen und einen Urlaub buchen. Ebenso könnte ein Kunststudent ein Foto eines Gemäldes in einem Museum machen und sofort andere Gemälde finden, die das betreffende Gemälde beeinflusst haben könnten oder von ihm beeinflusst wurden. Die Möglichkeiten sind grenzenlos.
„Ein schnellerer Modell-Update-Prozess verkürzt unseren Innovations- und Produktionszyklus drastisch, von über einem Monat für jedes Update zu fast sofortigen Updates.“
Yan Wang
Senior Engineer, Bing