转录流式音频 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

转录流式音频

使用 Amazon Transcribe 流媒体,您可以为媒体内容制作实时转录。与涉及上传媒体文件的批量转录不同,流媒体是实时传送到 Amazon Transcribe 的。 Amazon Transcribe 然后返回笔录,也是实时的。

流式媒体可以包括预先录制的媒体(电影、音乐和播客)和实时媒体(新闻直播)。常见的直播用例 Amazon Transcribe 包括体育赛事的直播隐藏式字幕和呼叫中心音频的实时监控。

流式媒体内容以一系列顺序数据包或“组块”的形式传送, Amazon Transcribe 即时转录这些内容。与批处理相比,使用流媒体的优势包括应用程序中的实时 speech-to-text 功能和更快的转录时间。但是,在某些情况下,这种速度的提高可能会影响准确性。

Amazon Transcribe 提供以下直播选项:

要在中转录流式音频 AWS Management Console,请对着电脑麦克风说话。

提示

有关SDK代码示例,请参阅上的AWS 示例存储库 GitHub。

流式转录支持的音频格式有:

  • FLAC

  • OPUS-在 Ogg 容器中编码的音频

  • PCM(仅限带符号的 16 位小端音频格式,其中不包括)WAV

建议使用无损格式(FLAC或PCM)。

注意

并非所有语言都支持流式转录。有关详细信息,请参阅支持的语言表中的“数据输入”列。

要查看流媒体转录的 Amazon Transcribe 区域可用性,请参阅:Amazon Transcribe 终端节点和配额。

最佳实践

以下建议可提高流式转录的效率:

  • 如果可能,请使用 PCM-编码的音频。

  • 请确保您的音频流尽可能接近实时传输。

  • 延迟取决于音频组块的大小。如果您能够使用音频类型指定区块大小(例如 withPCM),请将每个区块设置为 50 ms 到 200 ms 之间。您可以通过以下公式计算音频块大小:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 使用统一的组块大小。

  • 确保正确指定了音频声道的数量。

  • 对于单PCM声道音频,每个样本由两个字节组成,因此每个区块应由偶数字节组成。

  • 对于双PCM声道音频,每个样本由四个字节组成,因此每个区块应该是 4 字节的倍数。

  • 当您的音频流不包含语音时,请编码并发送相同数量的无声音频。例如,silenc PCM e for 是一个零字节的流。

  • 确保为音频指定正确的采样率。如果可能,请以 16000 Hz 的采样率进行录制;这在通过网络发送的质量和数据量之间做到了最佳折衷。请注意,大多数高端麦克风的录音频率为 44100 Hz 或 48000 Hz。