自訂語言模型 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

自訂語言模型

自訂語言模型旨在提高領域特定語音的轉錄準確性。這包括您在正常日常對話中聽到的內容以外的任何內容。例如,如果您正在轉錄科學會議的論文集,則標準轉錄不太可能識別主持人使用的許多科學術語。在這種情況下,您可以訓練自訂語言模型,以辨識您學科中使用的專業術語。

與自訂字彙不同,它會透過提供提示 (例如發音) 來增加字詞的辨識度,自訂語言模型會學習與特定字詞相關聯的上下文。這包括單詞的使用方式和時間,以及單詞與其他詞語的關係。例如,如果您使用氣候科學研究論文訓練模型,您的模型可能會了解到「浮冰」比「冰流」更可能是單詞對。

若要檢視自訂語言模型支援的語言,請參閱支援的語言和特定語言功能。請注意,如果您在要求中包含自訂語言模型,就無法啟用語言識別 (您必須指定語言代碼)。

資料來源

您可以使用任何類型的文字資料來訓練模型。但是,您的文本內容越接近音頻內容,您的模型就越準確。因此,選擇在與音訊相同環境中使用相同術語的文字資料非常重要。

訓練模型的最佳資料是準確的成績單。這被認為是域內數據。網域內文字資料與您要轉錄的音訊具有完全相同的術語、用法和上下文。

如果您沒有準確的成績單,請使用期刊文章、技術報告、白皮書、會議論文集、說明手冊、新聞文章、網站內容,以及任何其他文字,這些文字包含與您音訊相似的內容中使用的所需詞彙。這被視為與網域相關的資料。

建立健全的自訂語言模型可能需要大量的文字資料,其中必須包含音訊中所說的術語。您最多可以Amazon Transcribe提供 2 GB 的文字資料來訓練模型 — 這稱為訓練資料。或者,當您沒有 (或很少) 網域內的文字記錄時,您可以提Amazon Transcribe供最多 200 MB 的文字資料來調整模型 — 這稱為調整資料。

訓練與調整資料

訓練資料的目的在於教導如Amazon Transcribe何辨識新術語,並學習使用這些術語的上下文。為了創建一個強大的模型,Amazon Transcribe可能需要大量的相關文本數據。強烈建議提供盡可能多的訓練資料,最多可達 2 GB 的限制。

調整資料的目的在於協助精簡和最佳化從訓練資料中學到的情境關係。許可,以建立自訂語言模型,不需要調整資料。

您可以決定如何最佳選擇訓練,以及選擇性地調整資料的方式。每種情況都是獨一無二的,取決於您擁有的數據類型和數量。如果缺少網域內訓練資料,建議您調整資料。

如果您選擇同時包含這兩種資料類型,請重疊訓練和調整資料;訓練和調整資料應該是唯一的。重疊的資料可能會偏差和歪斜您的自訂語言模型,從而影響其準確性。

作為一般指導,我們建議盡可能使用準確的網域內文字作為訓練資料。以下是一些一般案例,依偏好設定順序列出:

  • 如果您有超過 10,000 個字的準確網域內成績單文字,請將其用作訓練資料。在這種情況下,不需要包括調整數據。這是許可,以訓練自訂語言模型。

  • 如果您的網域內部文字成績單文字包含少於 10,000 個字,但沒有得到理想的結果,請考慮使用與網域相關的書面文字 (例如技術報告) 來增強訓練資料。在這種情況下,請保留一小部分 (10-25%) 的網域內成績單資料作為調整資料使用。

  • 如果您沒有網域內的成績單文字,請將所有與網域相關的文字上傳為訓練資料。在這種情況下,轉錄文本樣式的文本比書面文本更好。這是訓練自訂語言模型最不有效的案例。

當您準備好建立模型時,請參閱建立自訂語言模型