Tutti i settori
Perplexity intende personalizzare rapidamente modelli innovativi al fine di migliorare l'accuratezza e la qualità dei risultati di ricerca e ottimizzarli per una latenza inferiore e un throughput elevato per una migliore esperienza utente.
Perplexity
IA generativa / LLM
NVIDIA NeMo
Perplexity è un motore di risposte innovativo basato sull'IA che fornisce risposte accurate, affidabili e in tempo reale a qualsiasi domanda.
Sebbene Internet abbia reso possibile l'accesso a una miriade di informazioni e consenta di porre innumerevoli domande ogni anno, nell'approccio convenzionale alla ricerca di informazioni gli utenti devono passare al vaglio più fonti per trovare ed elaborare le informazioni di cui hanno bisogno.
Per affrontare questo problema, Perplexity ha creato un "motore di risposte", che offre un modo più efficiente per ottenere informazioni. Quando viene posta una domanda, il motore di risposte di Perplexity offre direttamente una risposta concisa, risparmiando tempo e migliorando l'esperienza utente grazie a informazioni dirette e pertinenti fornite rapidamente.
Poiché ogni ricerca ha un intento diverso, Perplexity si basa su una rete di modelli linguistici di grandi dimensioni (LLM) per generare risultati fondati. A tale scopo, il team di Perplexity aveva bisogno di strumenti che consentissero di scalare in modo semplice ed efficiente la personalizzazione dei modelli grazie a tecniche di ottimizzazione avanzate.
Punti chiave
Perplexity ha adottato NVIDIA NeMo, facendo affidamento sulla sua affidabilità, flessibilità e facilità d'uso per creare modelli personalizzati per il proprio motore di risposte online. Sono state utilizzate diverse tecniche di elaborazione dati e di allineamento avanzato dei modelli supportate da NeMo:
Nel giro di pochi giorni dal lancio di una nuova versione open source, il team ha potuto ottenere un nuovo modello Sonar migliorato del 20% rispetto al modello di ricerca di base.
Perplexity ha applicato l'ottimizzazione a modelli innovativi, tra cui le famiglie di modelli Llama e Mistral, e sfrutta la generazione aumentata di recupero per fornire risposte precise e concise basate sui dati recuperati. Questo livello di personalizzazione ha permesso a Perplexity di ottenere un'elevata precisione e pertinenza nelle proprie applicazioni IA.
Inoltre, la facilità d'uso di NeMo, l'ampia gamma di architetture di modelli supportate e l'elevato throughput di addestramento hanno consentito a Perplexity di sperimentare e trovare rapidamente i modelli più ottimizzati per le proprie applicazioni.
NeMo ha permesso a Perplexity di scalare l'ottimizzazione degli LLM da 0,5 miliardi a oltre 400 miliardi di parametri sfruttando al contempo i dati distribuiti su larga scala e il parallelismo dei modelli.
Weihua Hu, l'ingegnere e ricercatore IA che ha condotto le attività per migliorare le capacità di recupero di Perplexity, sostiene che: "NeMo consente a Perplexity di ottimizzare rapidamente una serie di modelli open source di incorporazione. Questo ha migliorato notevolmente il nostro stack di recupero e ha determinato un incremento significativo della qualità delle risposte. ”
Weihua ha inoltre osservato che: ”Siamo stati in grado di sperimentare diverse tecniche post-addestramento e di trovare il giusto mix di ottimizzazione supervisionata (supervised fine-tuning o SFT) e ottimizzazione delle preferenze dirette (direct preference optimization o DPO)”.
Ridefinendo il modo di accedere alle informazioni, Perplexity intende trasformare come gli utenti interagiscono con il Web, rendendolo più intuitivo e facile da usare.
“NeMo consente a Perplexity di ottimizzare rapidamente una serie di modelli open source di incorporazione. Questo ha migliorato notevolmente il nostro stack di recupero e ha determinato un incremento significativo della qualità delle risposte."
Weihua Hu,
ingegnere e ricercatore IA