使用文本文件创建医学自定义词汇 - Amazon Transcribe

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用文本文件创建医学自定义词汇

要创建自定义词汇表,您必须准备好一个包含单词或短语集合的文本文件。 Amazon TranscribeMedical 使用此文本文件创建自定义词汇表,可使用此词汇表提高这些单词或短语的转录准确度。您可以使用 CreateMedicalVocabularyAPI 或 MAmazon Transcribe edical 控制台创建自定义词汇表。

要使用创建自定义词汇表,您需要提供包含您的单词或短语的文本文件的Amazon S3 URI。AWS Management Console

  1. 登录到 AWS Management Console

  2. 在导航窗格中的 Medical 项下Amazon Transcribe,选择自定义词汇表

  3. 对于 “名称”,在 “词汇设置” 下,为您的自定义词汇表选择一个名称。

  4. 指定音频文件或视频文件在 Amazon S3 中的位置:

    • 对于词汇设置下的 S3 上的词汇输入文件位置,指定用于识别您将用于创建自定义词汇表的文本文件的Amazon S3 URI。

    • 对于词汇输入文件在 S3 中的位置,选择 Browse S3 浏览文本文件并将其选中。

  5. 选择 “创建词汇表”。

您可以在中查看自定义词汇表的处理状态AWS Management Console。

创建医学自定义词汇 (API)
  • 对于 StartTranscriptionJobAPI,指定以下内容。

    1. 对于 LanguageCode,请指定 en-US

    2. 对于VocabularyFileUri,请指定用于定义自定义词汇表的文本文件Amazon S3的位置。

    3. 对于VocabularyName,请为您的自定义词汇表指定一个名称。您指定的名称在您的中必须是唯一的AWS 账户。

要查看自定义词汇表的处理状态,请使用 GetMedicalVocabularyAPI。

以下是使用此词汇表AWS SDK for Python (Boto3)创建自定义词汇表。

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_medical_vocabulary( VocabularyName = job_name, VocabularyFileUri = 's3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-table.txt' LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
在批量转录作业中启用扬声器分区 (AWS CLI)
  • 运行以下代码。

    aws transcribe create-medical-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://DOC-EXAMPLE-BUCKET/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US