轉錄串流音訊 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

轉錄串流音訊

使用 Amazon Transcribe 串流,您可以為媒體內容產生即時轉錄。與涉及上傳媒體檔案的批次轉錄不同,串流媒體會 Amazon Transcribe 即時交付至 。 Amazon Transcribe 然後, 也會即時傳回文字記錄。

串流媒體可以包括預先錄製的媒體 (電影、音樂和播客) 和即時媒體 (實況新聞廣播)。的常見串流使用案例 Amazon Transcribe 包括運動賽事的即時隱藏式字幕,以及呼叫中心音訊的即時監控。

串流內容會以一系列連續資料封包或 Amazon Transcribe 即時轉錄的「區塊」形式提供。使用批次串流的優勢包括應用程式中的即時 speech-to-text功能和更快的轉錄時間。但是,在某些情況下,轉錄速度加快可能導致準確性有限。

Amazon Transcribe 提供下列串流選項:

若要轉錄 中的串流音訊 AWS Management Console,請對著電腦麥克風說話。

提示

如需SDK程式碼範例,請參閱 上的AWS 範例儲存庫 GitHub。

串流轉錄支援的音訊格式為:

  • FLAC

  • OPUSOgg 容器中的 編碼音訊

  • PCM (僅簽署的 16 位元小端點音訊格式,不包含 WAV)

建議使用無失真格式 (FLAC 或 PCM)。

注意

並非所有語言都支援串流轉錄。請參閱支援語言表格中的「資料輸入」欄,了解詳細資訊。

若要檢視串流轉錄的區域 Amazon Transcribe 可用性,請參閱:Amazon Transcribe 端點和配額

最佳實務

以下建議可提高串流轉錄效率:

  • 如果可能,請使用 PCM編碼的音訊。

  • 確保您的串流盡可能即時取得。

  • 延遲需視音訊塊的大小。如果您可以使用音訊類型指定區塊大小 (例如使用 PCM),請將每個區塊設定為 50 毫秒到 200 毫秒之間。您可以利用下列公式計算音訊區塊大小:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 使用統一的塊大小。

  • 確保您正確指定音訊聲道的數量。

  • 使用單聲道PCM音訊時,每個範例包含兩個位元組,因此每個區塊應該包含偶數位元組。

  • 使用雙聲道PCM音訊時,每個範例包含四個位元組,因此每個區塊應該是 4 個位元組的倍數。

  • 您的音訊串流不包含語音時,請編碼並傳送相同數量的靜音。例如, 的靜音PCM是零位元組的串流。

  • 請務必為您的音訊指定正確的取樣率。如果可能,請以 16,000 Hz 的取樣率錄製;在品質和透過網路傳送的資料量間取得最佳平衡。請注意,多數高階麥克風的錄音速度為 44,100 Hz 或 48,000 Hz。