本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据输入和输出
Amazon Transcribe 将音频数据作为 Amazon S3 存储桶或媒体流中的媒体文件,然后将其转换为文本数据。
如果您正在转录存储在存储 Amazon S3 桶中的媒体文件,则是在执行批量转录。如果您要转录媒体流,则将执行流式转录。这两个过程有不同的规则和要求。
对于批量转录,如果您不需要并发处理所有转录作业,请使用任务队列列任务队列。这样可以 Amazon Transcribe 跟踪您的转录作业,并在空位可用时对其进行处理。
注意
Amazon Transcribe 可能会临时存储您的内容,以持续提高其分析模型的质量。Amazon Transcribe FAQ
媒体格式
批量转录和流式转录支持的媒体类型有所不同,但建议两者都使用无损格式。有关详细信息,请参见下表:
批处理 |
流式处理 |
|
---|---|---|
支持的格式 |
|
|
建议的格式 |
|
|
为获得最佳效果,请使用无损格式,例如FLAC或使用 PCM 16 WAV 位编码。
注意
并非所有语言都支持流式转录。有关详细信息,请参阅支持的语言表中的“数据输入”列。
音频声道
Amazon Transcribe 支持单通道和双通道媒体。目前不支持包含两个以上声道的媒体。
如果您的音频在一个声道上包含多个发言者,并且您想在转录输出中对每个发言者进行划分和标记,则可以使用发言者划分(分类)。
如果您的音频在两个独立声道上都有语音,则可以使用声道识别在转录中分别转录每个声道。
这两个选项都会生成一个转录文件。
采样率
对于批量转录作业,您可以选择提供采样率,尽管此参数是可选参数。如果您在请求中包含该值,请确保您提供的值与音频中的实际采样率相匹配。如果您提供的采样率与您的音频不匹配,则您的作业可能会失败。
对于流式转录,您必须在请求中包含采样率。与批量转录作业一样,请确保您提供的值与音频中的实际采样率相匹配。
低保真音频(例如电话录音)的采样率通常使用 8000 Hz。对于高保真音频, Amazon Transcribe 支持 16,000 Hz 到 48,000 Hz 之间的值。
输出
转录输出是JSON格式化的。转录的第一部分包含转录本身(段落形式),然后是关于每个单词和标点符号的其它数据。提供的数据取决于您在请求中包含的特征。您的转录至少包含每个单词的开始时间、结束时间和置信度分数。以下部分显示了基本转录请求的输出示例,其中不包含任何其它选项或特征。
所有批处理记录都存储在存储 Amazon S3 桶中。您可以选择将成绩单保存在自己的 Amazon S3 存储桶中,也可以 Amazon Transcribe 使用安全的默认存储桶。要了解有关创建和使用 Amazon S3 存储桶的更多信息,请参阅使用存储桶。
如果您希望将成绩单存储在您拥有的存储 Amazon S3 桶中,请在转录请求URI中指定该存储桶。在开始批量转录作业之前,请务必授予此存储桶的 Amazon Transcribe 写入权限。如果您指定自己的存储桶,则您的转录将保留在该存储桶中,直到您将其删除。
如果您未指定 Amazon S3 存储桶,则 Amazon Transcribe 使用安全的服务托管存储桶,并为您提供一个临时存储桶,供URI您用来下载成绩单。请注意,临时有效期URIs为 15 分钟。如果您在使用提供的AccessDenied
文件时遇到错误URI,请GetTranscriptionJob
请求获取新的临时URI成绩单。
如果您选择默认存储桶,则转录会在作业到期(90 天)时删除。如果您想在到期日期之后继续保留转录,则必须进行下载。
流式转录通过与音频流相同的方法返回。
提示
如果要将JSON输出转换为 Word 格式的 turn-by-turn 脚本,请参阅此GitHub 示例(适用于 Python3)
示例输出
笔录以段落形式提供完整的转录,然后是 word-for-word 细分,其中提供了每个单词和标点符号的数据。这包括开始时间、结束时间、置信度分数和类型(pronunciation
或 punctuation
)。
以下示例来自一个简单的批量转录作业,其中不包含任何其它特征。在转录请求中每额外应用一项特征,您就可以在转录输出文件中获得额外的数据。
基本批量转录分为两个主要部分:
-
transcripts
: 将整个转录包含在一个文本块中。 -
items
:包含transcripts
部分中每个单词和标点符号的信息。 -
audio_segments
:音频片段是录音的特定部分,包含不间断的口语,最少的停顿或中断。该片段捕捉自然的语音流,并audio_segments
以开始时间和结束时间进行捕获。音频片段中的items
元素是一系列标识符,这些标识符对应于该片段中的每个项目。
您在转录请求每额外包含一项特征,都将会在您的转录中产生额外的信息。
{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }