轉錄串流音訊 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

轉錄串流音訊

使用 Amazon Transcribe 流媒體,您可以為媒體內容生成實時轉錄。與包括上傳媒體檔案的批次轉錄不同,串流媒體會即時傳送至 Amazon Transcribe 。 Amazon Transcribe 然後返回成績單,也是實時的。

串流媒體可以包括預先錄製的媒體 (電影、音樂和播客) 和即時媒體 (實況新聞廣播)。常見的串流使用案例 Amazon Transcribe 包括體育賽事的即時隱藏式字幕,以及對話務中心音訊的即時監控。

串流內容會以一系列連續資料封包或 Amazon Transcribe 即時轉錄的「區塊」形式提供。批次使用串流的優點包括應用程式中的即時 speech-to-text 功能和更快的轉錄時間。但是,在某些情況下,轉錄速度加快可能導致準確性有限。

Amazon Transcribe 提供以下串流選項:

若要在中轉錄串流音訊 AWS Management Console,請對著電腦麥克風說話。

提示

如需SDK程式碼範例,請參閱上的AWS 範例儲存庫 GitHub。

串流轉錄支援的音訊格式為:

  • FLAC

  • OPUSOgg 容器中的編碼音頻

  • PCM(僅簽名 16 位小端音頻格式,不包括)WAV

建議使用不失真格式 (FLAC或PCM)。

注意

並非所有語言都支援串流轉錄。請參閱支援語言表格中的「資料輸入」欄,了解詳細資訊。

若要檢視串流轉錄的 Amazon Transcribe 區域可用性,請參閱:Amazon Transcribe 端點和配額。

最佳實務

以下建議可提高串流轉錄效率:

  • 如果可能的話,請使用PCM編碼的音訊。

  • 確保您的串流盡可能即時取得。

  • 延遲需視音訊塊的大小。如果您能夠使用音頻類型(例如使用PCM)指定塊大小,請將每個塊設置為 50 ms 和 200 ms 之間。您可以利用下列公式計算音訊區塊大小:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 使用統一的塊大小。

  • 確保您正確指定音訊聲道的數量。

  • 對於單PCM聲道音頻,每個樣本由兩個字節組成,因此每個塊應由偶數字節組成。

  • 對於雙PCM聲道音頻,每個樣本由四個字節組成,因此每個塊應該是 4 個字節的倍數。

  • 您的音訊串流不包含語音時,請編碼並傳送相同數量的靜音。例如,靜音的PCM是零字節的流。

  • 請務必為您的音訊指定正確的取樣率。如果可能,請以 16,000 Hz 的取樣率錄製;在品質和透過網路傳送的資料量間取得最佳平衡。請注意,多數高階麥克風的錄音速度為 44,100 Hz 或 48,000 Hz。