本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
轉錄串流音訊
使用 Amazon Transcribe 串流,您可以為媒體內容產生即時轉錄。與涉及上傳媒體檔案的批次轉錄不同,串流媒體會 Amazon Transcribe 即時交付至 。 Amazon Transcribe 然後, 也會即時傳回文字記錄。
串流媒體可以包括預先錄製的媒體 (電影、音樂和播客) 和即時媒體 (實況新聞廣播)。的常見串流使用案例 Amazon Transcribe 包括運動賽事的即時隱藏式字幕,以及即時監控呼叫中心音訊。
串流內容會以一系列連續資料封包或 Amazon Transcribe 即時轉錄的「區塊」形式提供。批次使用串流的優點包括應用程式中的即時語音轉文字功能,以及更快的轉錄時間。但是,在某些情況下,轉錄速度加快可能導致準確性有限。
Amazon Transcribe 提供下列串流選項:
若要轉錄 中的串流音訊 AWS Management Console,請對著電腦麥克風說話。
提示
如需 SDK 程式碼範例,請參閱 GitHub 上的AWS 範例儲存庫
串流轉錄支援的音訊格式為:
FLAC
Ogg 容器中的 OPUS 編碼音訊
PCM(僅簽名 16 位小端序音訊格式,不包括 WAV)
建議使用無失真格式 (FLAC 或 PCM)。
注意
並非所有語言都支援串流轉錄。請參閱支援語言表格中的「資料輸入」欄,了解詳細資訊。
若要檢視串流轉錄的區域 Amazon Transcribe 可用性,請參閱:Amazon Transcribe 端點和配額。
最佳實務
以下建議可提高串流轉錄效率:
-
如果可能,請使用 PCM 編碼的音訊。
-
確保您的串流盡可能即時取得。
-
延遲需視音訊塊的大小。如果您可以依據音訊類型 (例如 PCM) 指定塊大小,請將每塊設定為 50 ms 和 200 ms 間。您可以利用下列公式計算音訊區塊大小:
chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
-
使用統一的塊大小。
-
確保您正確指定音訊聲道的數量。
-
對於單聲道 PCM 音訊,每個樣本由兩個位元組組成,因此每個塊應由偶數位元組組成。
-
對於雙聲道 PCM 音訊,每個樣本由四個位元組組成,因此每個塊應該是 4 個位元組的倍數。
-
您的音訊串流不包含語音時,請編碼並傳送相同數量的靜音。例如,PCM 的靜音是零位元組的串流。
-
請務必為您的音訊指定正確的取樣率。如果可能,請以 16,000 Hz 的取樣率錄製;在品質和透過網路傳送的資料量間取得最佳平衡。請注意,多數高階麥克風的錄音速度為 44,100 Hz 或 48,000 Hz。