[ 分享 ]  文本轉語音?你的語音助手做了這些......
  回覆文章總數:

文本轉語音?你的語音助手做了這些......

  By : Leadtek AI Expert     449

語音 AI 使人們能夠與設備、機器和電腦交談,從而簡化並改善生活。語音 AI 是對話式 AI 的一個子集,它包括自動語音辨識(ASR)和文本轉語音(TTS),可將人類語音轉換為文本,並從書面詞句中生成類似人類的聲音,從而實現虛擬助理、即時轉錄、語音搜索和問答系統等強大技術。


在之前的文章中,我們已經介紹了語音 AI 的相關概念:


本篇文章將視野轉向實現語音 AI 的另一關鍵技術——文本轉語音(TTS)。



什麼是文本轉語音(TTS)?

文本轉語音(TTS)是一種語音合成形式,可將任何文本字串轉換為語音輸出。


將文本低延遲轉換為高品質、自然發音的語音,這是數十年來一直頗具挑戰性的任務。起初專為具有視覺障礙或閱讀障礙的人群而開發,為使其能夠聆聽書面文字。如今,文本轉語音已經發展至各種用例,這些用例以前需要人工作業,或者無法讀取,缺乏實用性。其中包括提供駕駛指導、在呼叫中心與客戶進行聯繫,以及為虛擬助理提供動力支援。


常見系統使用即時拼湊的預先錄製好的語音元素。近期,神經網路已用於創建完全由機器生成的自然發音的語音。



為何選擇文本轉語音?

無論是語音鬧鐘,還是將文本資訊轉換為語音的汽車助手,或者是 Apple 的 Siri 和亞馬遜的 Echo 等複雜的查詢和響應系統,文本轉語音早已融入到我們的日常生活之中。這解決了看螢幕讀取的不實際或不方便等諸多用例問題。


文本轉語音正在逐漸深入對話式 AI 領域,這些領域包括自動語音辨識(ASR)和自然語言處理(NLP),例如語言之間的翻譯。客戶服務領域日益發展,語音辨識系統能夠處理複雜查詢,在資料庫中搜索答案,還能夠通過文本轉語音實現回應。現在,電話銷售員借助這些系統,使用對話式機器人取代人工呼叫者,這些機器人可以類比真實對話,無需人工作業員。

 

研究表明,以類似人類的聲音做出回應時,人們會更自在地交流。神經網路使文本轉語音系統產生的聲音領域得以擴充,而無連接合成的用度或發音合成的複雜性。



文本轉語音的工作原理

先進的語音合成模型均以參數神經網路為基礎。文本轉語音(TTS)合成通常分兩步完成。

  • 第一步,合成網路將文本轉換為時間對齊的特徵,例如頻譜圖或基本頻率,這些特徵是聲帶在語音中振動的頻率。
  • 第二步,聲碼器網路將時間對齊的特徵轉換為音訊波形。

 

準備用於合成的輸入文本需要文本分析,例如將文本轉換為單詞和句子,識別和擴展縮寫以及辨認和分析運算式。運算式包含日期、金額和機場代碼。


將文本分析的輸出傳遞到語言分析中,用於改進發音、計算單詞的持續時間、破譯語音的音期結構,以及理解語法資訊。


然後,將語言分析的輸出輸入到語音合成神經網路模型,例如 Tacotron2,該模型將文本轉換為梅爾頻譜圖,然後輸入到 Wave Glow 等神經聲碼器模型,從而生成自然發音的語音。


熱門的 TTS 深度學習模型包括 Wavenet、Tacotron 2 和 WaveGlow。


2006 年,Google WaveNet 引入了深度學習技術,採用一種新方法,一次直接對音訊信號的原始波形進行一個樣本建模。其模型為概率和自回歸,且每個音訊樣本的預測分佈均以所有之前的樣本為條件。WaveNet 是一個全卷積神經網路,卷積層具有各種膨脹因數,允許其感受野隨深度呈指數增長。輸入序列是人類說話者記錄的波形。


Tacotron 2 是一種神經網路架構,用於從文本中使用帶有注意力的迴圈序列到序列模型直接進行語音合成。編碼器(下圖中的藍色塊)將整個文本轉換為固定大小的隱藏特徵表示。然後,自回歸解碼器(橙色塊)使用此特徵表示,一次生成一個頻譜圖幀。在 NVIDIA Tacotron 2 和 WaveGlow for PyTorch 模型中,自回歸 WaveNet(綠色塊)由基於流生成的 WaveGlow 所取代。

 

WaveGlow 是一個基於流的模型,它使用梅爾頻譜圖來生成語音。在訓練過程中,模型通過一系列流程學習將資料集分佈轉換為球形高斯分佈。流的一個步驟包含一個可逆卷積,然後是一個修改後的 WaveNet 架構,該架構用作仿射耦合層。在推理期間,網路為反向網路,音訊樣本則從高斯分佈中生成。

 



行業應用


醫療健康

醫療健康面臨的困難之一是難以獲得。打醫生辦公室電話並一直等待的情況十分常見,與索賠代表聯繫可能同樣困難。通過實施自然語言處理(NLP)來訓練聊天機器人是醫療健康行業的一項新興技術,可以解決醫療專業人員的短缺問題,並開創與患者的溝通管道。

在《NGC 中的 NVIDIA Clara Guardian 和 NVIDIA Fleet Command 為智慧醫院助力》這篇博客中,你可以瞭解如何構建虛擬患者助手用戶端應用程式,該應用程式用於接收來自患者的輸入查詢、通過提取意圖和相關位置來解釋查詢,並以自然聲音即時計算回應:

https://developer.nvidia.com/blog/empowering-smart-hospitals-with-nvidia-clara-guardian-from-ngc-and-nvidia-fleet-command/


金融服務

NLP 是為金融服務公司構建更好的聊天機器人和 AI 助理的關鍵組成部分。


零售

聊天機器人技術也常用于零售應用程式,能夠準確分析客戶查詢,並生成回覆或建議。這可簡化客戶流程,並提高商店運營效率。



GPU:加速深度學習

Tacotron 2 等近期的創新已將文本轉語音技術融入到了深度學習領域。先進的深度學習神經網路可能有數百萬乃至十億以上的參數需要通過反向傳播進行調整。


此外,它們需要大量的訓練資料才能實現較高的準確度,這意味著成千上萬乃至數百萬的輸入樣本必須同時進行向前和向後傳輸。由於神經網路由大量相同的神經元構建而成,因此本質上具有高度並行性。這種並行性會自然映射到 GPU,因此相比僅依賴 CPU 的訓練,計算速度會大幅提高。


因此,GPU 已成為訓練基於神經網路的大型複雜系統的首選平臺,推理運算的並行性質也有助於在 GPU 上執行。



NVIDIA GPU 加速文本轉語音

借助對話式 AI 部署服務似乎比較困難,但 NVIDIA 現已具備能夠簡化這一流程的工具,包括神經模組(簡稱 NeMo)、NVIDIA® TensorRT™ 和一項名為 NVIDIA Riva 的新技術。NGC 中的多個預訓練模型可用於 ASR、NLP 和 TTS,例如 BERT、Tacotron2 和 WaveGlow。這些模型使用數千小時的開源和專有資料進行訓練,以獲得高準確度,並在 NVIDIA DGX™ 系統上訓練超過 10 萬小時。GPU 加速的 Tacotron2 和 Waveglow 利用 NVIDIA GPU 執行推理的速度比僅使用 CPU 的解決方案快 9 倍。


NVIDIA NeMo 是一個帶有 PyTorch 後端的開源工具包,使開發者能夠使用三行代碼快速構建和訓練複雜的、先進的神經網路架構。NeMo 還附帶有適用於 ASR、NLP 和 TTS 的可擴展模型集合。這些集合提供了輕鬆構建先進網路架構(例如 QuartzNet、BERT、Tacotron 2 和 WaveGlow)的方法。借助 NeMo,你還可以使用現有 API 從 NVIDIA NGC 自動下載和產生實體這些模型,從而在自訂資料集上微調這些模型。

 

NVIDIA Riva 是一種應用程式框架,能夠為完成對話式 AI 任務提供多個流程。將文本低延遲轉換為高品質、自然發音的語音可能是頗具挑戰性的任務之一。借助 Riva 文本轉語音(TTS)流程,對話式 AI 能夠在盡可能短的時間內用自然發音的語音做出回應,從而提供沉浸式的用戶體驗。



NVIDIA GPU 加速的端到端資料科學

NVIDIA RAPIDS™ 軟體庫套件基於 CUDA-X AI™ 而構建,你可借此在 GPU 上完全自由地執行端到端資料科學和分析流程。此套件依靠 NVIDIA CUDA® 基元進行低級別計算優化,但通過使用者友好型 Python 介面能夠實現 GPU 並行化和高頻寬顯存速度。

 




NVIDIA GPU 加速的深度學習框架

GPU 加速的深度學習框架能夠為設計和訓練自訂深度神經網路帶來靈活性,並為 Python 和 C/C++ 等常用程式設計語言提供程式設計介面。MXNet、PyTorch、TensorFlow 等廣泛使用的深度學習框架依賴於 NVIDIA GPU 加速庫,能夠提供高性能的多 GPU 加速訓練。

 



*與NVIDIA產品相關的圖片或影片(完整或部分)的版權均歸NVIDIA Corporation所有。


 




以下是回覆文