本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料輸入和輸出
Amazon Transcribe 會將音訊資料作為 Amazon S3 儲存貯體或媒體串流中的媒體檔案,並將其轉換為文字資料。
如果您要轉錄存放在 Amazon S3 儲存貯體中的媒體檔案,則您要執行批次轉錄。如果您要轉錄媒體串流,您要執行的是串流轉錄。這兩個流程有不同的規則和要求。
如果是批次轉錄,如果您不需要同時處理所有的轉錄任務,請使用 工作佇列。這可讓 追蹤您的轉錄任務 Amazon Transcribe ,並在有可用插槽時處理它們。
注意
Amazon Transcribe 可能會暫時存放您的內容,以持續改善其分析模型的品質。請參閱 Amazon Transcribe 常見問答集
媒體格式
批次轉錄和串流轉錄的支援媒體類型會不同,但兩者都建議使用無失真格式。請參閱下列資料表,了解詳細資訊:
批次 |
串流 |
|
---|---|---|
支援的格式 |
|
|
建議格式 |
|
|
為了獲得最佳結果,您應該使用不失真的格式,例如 FLAC 或以 PCM 16 位元編碼的 WAV。
注意
並非所有語言都支援串流轉錄。請參閱支援語言表格中的「資料輸入」欄,了解詳細資訊。
音訊聲道
Amazon Transcribe 支援單通道和雙通道媒體。目前不支援超過兩個聲道的媒體。
如果您的音訊在一個聲道上包含多個發言者,而您想要在轉錄輸出中進行每個發言者的分隔和標記,則可以使用發言者分隔 (日記)。
如果您的音訊包含兩個不同聲道的語音,您可以使用聲道識別功能,在文字記錄中分別轉錄每個聲道。
這兩個選項都會產生文字記錄檔案。
取樣率:
使用批次轉錄作業時,您可以選擇提供取樣率,但此參數是選擇性提供。如果您將其包含在請求中,請確定您提供的值與音訊中的實際取樣率相符。如果您提供的取樣率與音訊不相符,您的工作可能會失敗。
使用串流轉錄時,您必須在請求中包含取樣率。與批次轉錄作業相同,請確定您提供的值與音訊中的實際取樣率相符。
低保真度音訊 (例如電話錄音) 的取樣率通常使用 8,000 Hz。對於高保真音訊, Amazon Transcribe 支援介於 16,000 Hz 和 48,000 Hz 之間的值。
輸出
轉錄輸出為 JSON 格式。文字記錄的第一部分以段落形式包含文字記錄本身,後面接著每個單字和標點符號的其他資料。所提供的資料須視您請求中包含的功能。您的文字記錄至少會包含每個單字的開始時間、結束時間和可信度分數。以下章節顯示不包含任何其他選項或功能的基本轉錄請求的範例輸出。
所有批次文字記錄都存放在 Amazon S3 儲存貯體中。您可以選擇將文字記錄儲存在自己的 Amazon S3 儲存貯體中,或使用安全的預設儲存貯 Amazon Transcribe 體。若要了解如何建立和使用 Amazon S3 儲存貯體的詳細資訊,請參閱使用儲存貯體。
如果您想要將文字記錄存放在您擁有的 Amazon S3 儲存貯體中,請在您的文字記錄請求中指定儲存貯體的 URI。在開始批次轉錄任務之前,請確定您授予此儲存貯體的 Amazon Transcribe 寫入許可。如果您指定自己的儲存貯體,您的文字記錄會保留在該儲存貯體中,直到您移除為止。
如果您未指定 儲存 Amazon S3 貯體, Amazon Transcribe 會使用安全的服務管理儲存貯體,並為您提供暫時 URI,供您用來下載文字記錄。請注意,臨時 URI 的有效期限為 15 分鐘。如果您使用提供的 URI 時發生 AccessDenied
錯誤,請提出 GetTranscriptionJob
請求以取得文字記錄的新臨時 URI。
如果您選擇預設儲存貯體,則會在工作到期時 (90 天) 刪除您的文字記錄。如果您想在超過到期日仍保留文字記錄,您必須下載。
串流文字記錄會透過您在串流中使用的相同方法傳回。
提示
如果您想將 JSON 輸出轉換為 Word 格式的逐段文字記錄,請參閱此 GitHub 範例 (適用於 Python3)
範例輸出
文字記錄以段落形式提供完整的轉錄,後面接著逐字劃分,提供每個單字和標點符號的資料。這包括開始時間、結束時間、可信度分數和類型 (pronunciation
或 punctuation
)。
下列範例來自不包含任何其他功能的簡單批次轉錄作業。您套用至轉錄請求的每個其他功能時,可以取得文字記錄輸出檔案中的額外資料。
基本批次文字記錄包含兩個主要部分:
-
transcripts
:一個文字區塊中包含整個文字記錄。 -
items
:包含transcripts
部分中每個單字和標點符號的資訊。 -
audio_segments
:音訊區段是音訊錄音的特定部分,其中包含不中斷的口語語言,且停頓或休息時間最少。此區段會擷取自然的語音流程,並在 中audio_segments
以開始時間和結束時間擷取。音訊區段中的items
元素是一系列與區段中每個項目對應的識別符。
您在轉錄請求中包含的每個其他功能都會在您的文字記錄中產生額外的資訊。
{
"jobName": "my-first-transcription-job",
"accountId": "111122223333",
"results": {
"transcripts": [
{
"transcript": "Welcome to Amazon Transcribe."
}
],
"items": [
{
"id": 0,
"start_time": "0.64",
"end_time": "1.09",
"alternatives": [
{
"confidence": "1.0",
"content": "Welcome"
}
],
"type": "pronunciation"
},
{
"id": 1,
"start_time": "1.09",
"end_time": "1.21",
"alternatives": [
{
"confidence": "1.0",
"content": "to"
}
],
"type": "pronunciation"
},
{
"id": 2,
"start_time": "1.21",
"end_time": "1.74",
"alternatives": [
{
"confidence": "1.0",
"content": "Amazon"
}
],
"type": "pronunciation"
},
{
"id": 3,
"start_time": "1.74",
"end_time": "2.56",
"alternatives": [
{
"confidence": "1.0",
"content": "Transcribe"
}
],
"type": "pronunciation"
},
{
"id": 4,
"alternatives": [
{
"confidence": "0.0",
"content": "."
}
],
"type": "punctuation"
}
],
"audio_segments": [
{
"id": 0,
"transcript": "Welcome to Amazon Transcribe.",
"start_time": "0.64",
"end_time": "2.56",
"items": [
0,
1,
2,
3,
4
]
}
]
},
"status": "COMPLETED"
}