选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

转录流式音频

聚焦模式
转录流式音频 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Transcribe 流媒体,您可以为媒体内容制作实时转录。与涉及上传媒体文件的批量转录不同,流媒体是实时传送到 Amazon Transcribe 的。 Amazon Transcribe 然后返回笔录,也是实时的。

流式媒体可以包括预先录制的媒体(电影、音乐和播客)和实时媒体(新闻直播)。常见的直播用例 Amazon Transcribe 包括体育赛事的直播隐藏式字幕和呼叫中心音频的实时监控。

流式媒体内容以一系列顺序数据包或“组块”的形式传送, Amazon Transcribe 即时转录这些内容。与批处理相比,使用流媒体的优势包括应用程序中的实时 speech-to-text功能和更快的转录时间。但是,在某些情况下,这种速度的提高可能会影响准确性。

Amazon Transcribe 提供以下直播选项:

要在中转录流式音频 AWS Management Console,请对着电脑麦克风说话。

提示

有关 SDK 代码示例,请参阅上的AWS 示例存储库 GitHub。

流式转录支持的音频格式有:

  • FLAC

  • Ogg 容器中的 Opus 编码音频

  • PCM(仅带签名的 16 位小端音频格式,不包括 WAV)

建议使用无损格式(FLAC 或 PCM)。

注意

并非所有语言都支持流式转录。有关详细信息,请参阅支持的语言表中的“数据输入”列。

要查看流媒体转录的 Amazon Transcribe 区域可用性,请参阅:Amazon Transcribe 终端节点和配额。

最佳实践

以下建议可提高流式转录的效率:

  • 如果可能,请使用 PCM 编码的音频。

  • 请确保您的音频流尽可能接近实时传输。

  • 延迟取决于音频组块的大小。如果您能够使用音频类型(例如使用 PCM)指定组块大小,请将每个组块设置为 50 毫秒到 200 毫秒之间。您可以通过以下公式计算音频块大小:

    chunk_size_in_bytes = chunk_duration_in_millisecond / 1000 * audio_sample_rate * 2
  • 使用统一的组块大小。

  • 确保正确指定了音频声道的数量。

  • 对于单声道 PCM 音频,每个样本由两个字节组成,因此每个组块应由偶数字节组成。

  • 对于双声道 PCM 音频,每个样本由四个字节组成,因此每个组块应是 4 字节的倍数。

  • 当您的音频流不包含语音时,请编码并发送相同数量的无声音频。例如,PCM 的无声音频是一个零字节的音频流。

  • 确保为音频指定正确的采样率。如果可能,请以 16000 Hz 的采样率进行录制;这在通过网络发送的质量和数据量之间做到了最佳折衷。请注意,大多数高端麦克风的录音频率为 44100 Hz 或 48000 Hz。

本页内容

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。