使用自定义词汇表过滤器删除、屏蔽或标记单词 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用自定义词汇表过滤器删除、屏蔽或标记单词

自定义词汇表过滤器是一个文本文件,其中包含要在转录输出中修改的各个单词的自定义列表。

一个常见的用例是删除攻击性或亵渎性用语;但是,自定义词汇表过滤器是完全自定义的,因此您可以根据需要选择任何单词。例如,如果您有一款新产品即将发布,则可以在会议转录中屏蔽产品名称。在这种情况下,您可以对利益相关者保密, up-to-date同时在产品发布之前对产品名称保密。

词汇表过滤有三种显示方法:maskremovetag。请参阅以下示例,了解每个示例的工作原理。

  • 屏蔽:用三个星号 (***) 替换指定的单词。

    "transcript": "You can specify a list of *** or *** words, and *** *** removes them from transcripts automatically."
  • 移除:删除指定的单词,不在原处留下任何内容。

    "transcript": "You can specify a list of or words, and removes them from transcripts automatically."
  • 标签:为每个指定的单词添加标签 ("vocabularyFilterMatch": true),但不更改单词本身。标记允许快速替换和编辑转录。

    "transcript": "You can specify a list of profane or offensive words, and amazon transcribe removes them from transcripts automatically." ... "alternatives": [ { "confidence": "1.0", "content": "profane" } ], "type": "pronunciation", "vocabularyFilterMatch": true

提交转录请求时,您可以指定自定义词汇过滤器和要应用的过滤方法。 Amazon Transcribe 然后,根据您指定的过滤方法,修改成绩单中出现的精确单词匹配项。

自定义词汇表过滤器可以应用于批量转录和流式转录请求。要了解如何创建自定义词汇表过滤器,请参阅创建词汇表过滤器。要了解如何应用自定义词汇表过滤器,请参阅使用自定义词汇表过滤器

注意

Amazon Transcribe 会自动屏蔽对种族敏感的术语,但您可以通过联系AWS Technical Su pp ort 选择退出此默认过滤器。

有关词汇表过滤的视频演练,请参阅: