語音人工智慧

為對話式人工智慧應用程式提供語音介面。


什麼是語音人工智慧?

語音人工智慧讓人們能夠與裝置、機器和電腦透過語音交談,從此簡化溝通流程,進而改善生活。對話式人工智慧的子技術包含自動語音辨識 (ASR) 和文字轉語音 (TTS),可將人類的聲音轉換成文字,並依據書面文字產生類似人類的聲音,因此讓虛擬助理、即時轉錄、語音搜尋和問答系統等強大的技術得以實現。

語音人工智慧的優勢

世界級準確度

透過語音人工智慧模型自訂達到一流的準確度,將客戶體驗提升至卓越境界。

多語言支援

提供消費者常用語言的語音應用程式,藉此擴大客戶群。

高效能且可擴充

以低延遲、高輸送量的應用程式為更多客戶提供服務,這些應用程式可立即於任何基礎架構上擴充,包含本機、雲端、邊緣端或嵌入式。

為品牌打造的獨特自然語音

透過品牌獨特的語音,以快速且富含意義的互動,大幅提升客戶服務品質。

免費電子書:打造語音人工智慧應用程式

瞭解如何為對話式人工智慧應用程式建立和部署即時語音人工智慧流程。

語音人工智慧的使用方式

Multi-Speaker Transcription

多位講者同時轉譯

現代的語音轉文字演算法可轉譯會議、課程和日常對話,同時辨識說話者並標示其分享內容。透過 NVIDIA 語音人工智慧技術和 SDK,您可以為客服中心對話和視訊會議建立精準的轉譯,抑或是在醫師與病患互動時,自動記錄臨床資訊。

Virtual Assistant Applications

讓助理虛擬化。

虛擬助理透過語音介面與使用者溝通,並協助處理各種工作,包括解決客服中心的客戶問題、作為智慧家庭助理協助打開電視、以車內智慧助理身分導航到最近的加油站等。利用 NVIDIA Omniverse 虛擬角色雲端引擎 (ACE),將 NVIDIA 語音人工智慧技術整合至互動式虛擬角色應用程式,以提供準確、快速且自然的互動。

NVIDIA Custom Voice

創造語音品牌特色

企業可以透過知名的品牌語音,打造能與客戶建立關係的應用程式,無論是否缺乏語音或是語言的客戶,皆全面支援。透過語音人工智慧其中一部分的 NVIDIA 自訂語音,您可以在數小時內為品牌輕鬆建立獨特、高品質的語音特質,且不需花費數週的時間,只需 30 分鐘即可錄製語音資料。

開發可自訂的語音人工智慧介面

使用預先訓練的模型縮短訓練時間

現代語音人工智慧系統使用在大型資料集上訓練的深度神經網路 (DNN) 模型。隨著時間推移,語音人工智慧模型的規模大幅增加,因此即使在高效能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度學習架構,訓練這些模型也可能需要數週密集的運算時間。

NVIDIA 語音人工智慧在 NVIDIA NGC™ 目錄中提供預先訓練的生產品質模型,這些模型在多個公開和專屬的資料集上接受訓練,在 NVIDIA DGX™ 系統上的訓練時數超過數十萬小時。

圖 1:高度準確的預先訓練模型

圖 2:TAO 端對端工作流程

自訂模型以獲得更高的準確度

許多企業必須自訂語音人工智慧模型,才能達到特定對話式應用程式所需的準確度。然而,從零開始自訂語音人工智慧模型,通常需要大量的訓練資料集和人工智慧專業知識。

若要加速開發並高度自訂語音模型,而無需先前的人工智慧體驗,可使用低程式碼人工智慧模型開發 NVIDIA TAO 工具套件。該工具套件將經過驗證的遷移學習方法應用在預先訓練的模型上,並針對您的使用案例微調語音人工智慧模型。NVIDIA 也提供 NeMo 這個開放原始碼工具組,讓研究人員能夠打造最先進的 (SOTA) 語音人工智慧模型。使用 NeMo 和 TAO 工具套件的最佳化模型皆可輕鬆匯出,並部署於本機或雲端的 NVIDIA® Riva 作為語音服務之用。

開發即時技能,實現自然互動

在語音人工智慧技術方面,公司總是必須在準確度和即時效能之間做出選擇。舉例來說,他們無法在提出問題後等待數秒才得到回應。此外,他們也不希望對話式人工智慧應用程式曲解語意或產生無意義的內容。

有了 NVIDIA Riva 語音人工智慧 SDK,公司就能達到世界級的準確度,並在幾毫秒內即時執行語音人工智慧流程。Riva 語音人工智慧SDK 在 NGC 上提供 SOTA 預先訓練的模型,以及適用於微調的 TAO 工具套件等低程式碼工具,可達到世界級的準確度,並透過最佳化技術提供即時效能。

圖 3:NVIDIA Riva 語音人工智慧技術功能

探索語音人工智慧的最新突破

語音人工智慧將採用多種語系

語音人工智慧應用程式和流程必須瞭解多種語言、方言和口音,才能部署於世界各地。舉例來說,美國和大多數其他國家的人會使用不同語言。在客服中心等使用案例中,有時客戶會使用多種語言來描述當下情況。下一步是讓語音人工智慧應用程式能夠處理這些狀況。

開發人員可以在每種語言或單一模型上分別使用語音模型,以此處理多種語言。在語音辨識集合頁面深入瞭解不同語言的 ASR 模型。

將語音人工智慧從雲端帶入裝置

當公司剛開始使用語音人工智慧時,每個人都會因為易於設定與上手而使用雲端服務。公司慢慢開始切換到本機解決方案,以避免資料出現隱私問題。現今,裝置解決方案是最新突破,不僅能讓資料保持私密,還能加快推論速度並且降低成本。 

NVIDIA Riva 可讓應用程式部署在嵌入式、資料中心和雲端環境中,為對話式人工智慧應用程式開發可自訂的語音人工智慧介面。

取得教育資源

獲得語音人工智慧簡介

瞭解語音人工智慧的核心概念,以及如何打造和部署語音技術應用程式。

解密對話式人工智慧

瞭解如何將語音人工智慧新增至對話式人工智慧應用程式,以及如何在訓練和推論時間自訂語音人工智慧。

瀏覽語音人工智慧部落格文章

瞭解語音人工智慧是什麼、如何隨時間而改變、關鍵元件的相關內容、挑戰和使用案例,以及 NVIDIA 語音人工智慧 SDK。

深入瞭解 NVIDIA Riva

瞭解 NVIDIA Riva 中有助於打造語音人工智慧服務的關鍵功能。

訂閱以接收 NVIDIA 的語音人工智慧最新消息。