数据输入和输出 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据输入和输出

Amazon Transcribe 将音频数据作为 Amazon S3 存储桶或媒体流中的媒体文件,然后将其转换为文本数据。

如果您正在转录存储在存储 Amazon S3 桶中的媒体文件,则是在执行批量转录。如果您要转录媒体流,则将执行流式转录。这两个过程有不同的规则和要求。

对于批量转录,如果您不需要并发处理所有转录作业,请使用任务队列列任务队列。这样可以 Amazon Transcribe 跟踪您的转录作业,并在空位可用时对其进行处理。

注意

Amazon Transcribe 可能会临时存储您的内容,以持续提高其分析模型的质量。Amazon Transcribe FAQ要了解更多信息,请参阅。要请求删除可能已由存储的内容 Amazon Transcribe,请使用打开案例AWS Support

媒体格式

批量转录和流式转录支持的媒体类型有所不同,但建议两者都使用无损格式。有关详细信息,请参见下表:

批处理

流式处理

支持的格式

  • AMR

  • FLAC

  • M4A

  • MP3

  • MP4

  • Ogg

  • WebM

  • WAV

  • FLAC

  • Ogg Opus

  • PCM编码

建议的格式

  • FLAC

  • WAV采用 PCM 16 位编码

  • FLAC

  • PCM带符号的 16 位小端音频(请注意,这不包括)WAV

为获得最佳效果,请使用无损格式,例如FLAC或使用 PCM 16 WAV 位编码。

注意

并非所有语言都支持流式转录。有关详细信息,请参阅支持的语言表中的“数据输入”列。

音频声道

Amazon Transcribe 支持单通道和双通道媒体。目前不支持包含两个以上声道的媒体。

如果您的音频在一个声道上包含多个发言者,并且您想在转录输出中对每个发言者进行划分和标记,则可以使用发言者划分(分类)

如果您的音频在两个独立声道上都有语音,则可以使用声道识别在转录中分别转录每个声道。

这两个选项都会生成一个转录文件。

注意

如果您未启用发言者划分声道识别,则您的转录文本将作为一个连续的部分提供。

采样率

对于批量转录作业,您可以选择提供采样率,尽管此参数是可选参数。如果您在请求中包含该值,请确保您提供的值与音频中的实际采样率相匹配。如果您提供的采样率与您的音频不匹配,则您的作业可能会失败。

对于流式转录,您必须在请求中包含采样率。与批量转录作业一样,请确保您提供的值与音频中的实际采样率相匹配。

低保真音频(例如电话录音)的采样率通常使用 8000 Hz。对于高保真音频, Amazon Transcribe 支持 16,000 Hz 到 48,000 Hz 之间的值。

输出

转录输出是JSON格式化的。转录的第一部分包含转录本身(段落形式),然后是关于每个单词和标点符号的其它数据。提供的数据取决于您在请求中包含的特征。您的转录至少包含每个单词的开始时间、结束时间和置信度分数。以下部分显示了基本转录请求的输出示例,其中不包含任何其它选项或特征。

所有批处理记录都存储在存储 Amazon S3 桶中。您可以选择将成绩单保存在自己的 Amazon S3 存储桶中,也可以 Amazon Transcribe 使用安全的默认存储桶。要了解有关创建和使用 Amazon S3 存储桶的更多信息,请参阅使用存储桶

如果您希望将成绩单存储在您拥有的存储 Amazon S3 桶中,请在转录请求URI中指定该存储桶。在开始批量转录作业之前,请务必授予此存储桶的 Amazon Transcribe 写入权限。如果您指定自己的存储桶,则您的转录将保留在该存储桶中,直到您将其删除。

如果您未指定 Amazon S3 存储桶,则 Amazon Transcribe 使用安全的服务托管存储桶,并为您提供一个临时存储桶,供URI您用来下载成绩单。请注意,临时有效期URIs为 15 分钟。如果您在使用提供的AccessDenied文件时遇到错误URI,请GetTranscriptionJob请求获取新的临时URI成绩单。

如果您选择默认存储桶,则转录会在作业到期(90 天)时删除。如果您想在到期日期之后继续保留转录,则必须进行下载。

流式转录通过与音频流相同的方法返回。

提示

如果要将JSON输出转换为 Word 格式的 turn-by-turn 脚本,请参阅此GitHub 示例(适用于 Python3)。此脚本适用于通话后分析转录和标准批量转录,并启用了分类功能。

示例输出

笔录以段落形式提供完整的转录,然后是 word-for-word 细分,其中提供了每个单词和标点符号的数据。这包括开始时间、结束时间、置信度分数和类型(pronunciationpunctuation)。

以下示例来自一个简单的批量转录作业,其中不包含任何其它特征。在转录请求中每额外应用一项特征,您就可以在转录输出文件中获得额外的数据。

基本批量转录分为两个主要部分:

  1. transcripts: 将整个转录包含在一个文本块中。

  2. items:包含 transcripts 部分中每个单词和标点符号的信息。

  3. audio_segments:音频片段是录音的特定部分,包含不间断的口语,最少的停顿或中断。该片段捕捉自然的语音流,并audio_segments以开始时间和结束时间进行捕获。音频片段中的items元素是一系列标识符,这些标识符对应于该片段中的每个项目。

您在转录请求每额外包含一项特征,都将会在您的转录中产生额外的信息。

{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }