資料輸入和輸出 - Amazon Transcribe

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料輸入和輸出

Amazon Transcribe 將音頻數據作為 Amazon S3 存儲桶或媒體流中的媒體文件,並將其轉換為文本數據。

如果您要轉錄儲存在 Amazon S3 值區中的媒體檔案,表示您正在執行批次轉錄。如果您要轉錄媒體串流,您要執行的是串流轉錄。這兩個流程有不同的規則和要求。

如果是批次轉錄,如果您不需要同時處理所有的轉錄任務,請使用 Job 佇列。這允許 Amazon Transcribe 跟踪您的轉錄作業,並在可用插槽時進行處理。

注意

Amazon Transcribe 可能會暫時儲存您的內容,以持續改善其分析模型的品質。請參閱Amazon Transcribe FAQ以瞭解更多資訊。若要要求刪除可能儲存的內容 Amazon Transcribe,請使用開啟案例AWS Support

媒體格式

批次轉錄和串流轉錄的支援媒體類型會不同,但兩者都建議使用無失真格式。請參閱下列資料表,了解詳細資訊:

批次

串流

支援的格式

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCM編碼

建議格式

  • FLAC

  • WAV使用 PCM 16 位元編碼

  • FLAC

  • PCM簽名 16 位小端音頻(請注意,這不包括)WAV

若要取得最佳結果,請使用無失真格式,例如FLAC或WAV搭配 PCM 16 位元編碼。

注意

並非所有語言都支援串流轉錄。請參閱支援語言表格中的「資料輸入」欄,了解詳細資訊。

音訊聲道

Amazon Transcribe 支援單通道和雙通道媒體。目前不支援超過兩個聲道的媒體。

如果您的音訊在一個聲道上包含多個發言者,而您想要在轉錄輸出中進行每個發言者的分隔和標記,則可以使用發言者分隔 (日記)

如果您的音訊包含兩個不同聲道的語音,您可以使用聲道識別功能,在文字記錄中分別轉錄每個聲道。

這兩個選項都會產生文字記錄檔案。

注意

如果您未啟用發言者分隔聲道識別,您的文字記錄文字會以連續區段的形式提供。

取樣率:

使用批次轉錄作業時,您可以選擇提供取樣率,但此參數是選擇性提供。如果您將其包含在請求中,請確定您提供的值與音訊中的實際取樣率相符。如果您提供的取樣率與音訊不相符,您的工作可能會失敗。

使用串流轉錄時,您必須在請求中包含取樣率。與批次轉錄作業相同,請確定您提供的值與音訊中的實際取樣率相符。

低保真度音訊 (例如電話錄音) 的取樣率通常使用 8,000 Hz。對於高保真音頻, Amazon Transcribe 支持 16,000 赫茲和 48,000 赫茲之間的數值。

輸出

轉錄輸出為JSON格式。文字記錄的第一部分以段落形式包含文字記錄本身,後面接著每個單字和標點符號的其他資料。所提供的資料須視您請求中包含的功能。您的文字記錄至少會包含每個單字的開始時間、結束時間和可信度分數。以下章節顯示不包含任何其他選項或功能的基本轉錄請求的範例輸出。

所有批次記錄都儲存在 Amazon S3 值區中。您可以選擇將成績單儲存在自己的 Amazon S3 值區中,或 Amazon Transcribe 使用安全的預設值區。若要了解如何建立和使用 Amazon S3 儲存貯體的詳細資訊,請參閱使用儲存貯體

如果您希望將成績單儲存在您擁有的儲存 Amazon S3 貯體中,請在轉錄請求URI中指定該值區。在開始批次轉錄工作之前,請確定您已授予此儲存貯體的 Amazon Transcribe 寫入權限。如果您指定自己的儲存貯體,您的文字記錄會保留在該儲存貯體中,直到您移除為止。

如果您未指定 Amazon S3 值區,請 Amazon Transcribe 使用安全的服務管理值區,並提供URI您可用來下載成績單的臨時值區。請注意,臨時URIs有效期為 15 分鐘。如果您在使用提供的功能時AccessDenied發生錯誤URI,請提出GetTranscriptionJob要求,為您的成績單取得新URI的暫時性。

如果您選擇預設儲存貯體,則會在工作到期時 (90 天) 刪除您的文字記錄。如果您想在超過到期日仍保留文字記錄,您必須下載。

串流文字記錄會透過您在串流中使用的相同方法傳回。

提示

如果要將JSON輸出轉換為 Word 格式的成 turn-by-turn 績單,請參閱此GitHub 示例(適用於 Pyth on3)。此指令碼可搭配通話後分析文字記錄和啟用日記的標準批次文字記錄使用。

範例輸出

謄本以段落形式提供完整的轉錄,後面接著 word-for-word 劃分,提供每個字詞和標點符號的資料。這包括開始時間、結束時間、可信度分數和類型 (pronunciationpunctuation)。

下列範例來自不包含任何其他功能的簡單批次轉錄作業。您套用至轉錄請求的每個其他功能時,可以取得文字記錄輸出檔案中的額外資料。

基本批次文字記錄包含兩個主要部分:

  1. transcripts:一個文字區塊中包含整個文字記錄。

  2. items:包含 transcripts 部分中每個單字和標點符號的資訊。

  3. audio_segments: 音訊區段是錄音的特定部分,其中包含不間斷的語言,可將暫停或中斷的情況降至最低。此區段會擷取自然的語音流程,並以開始時間和結束時間擷取。audio_segments音頻段中的items元素是對應於段中的每個項目的標識符序列。

您在轉錄請求中包含的每個其他功能都會在您的文字記錄中產生額外的資訊。

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }