本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用医学自定义词汇表转录音频文件
使用StartMedicalTranscriptionJob
或开始使用自定义词汇 AWS Management Console 来提高转录准确性的转录作业。
-
在导航窗格的 “ Amazon Transcribe 医疗” 下,选择 “转录作业”。
-
请选择创建任务。
-
在指定作业详细信息页面上,提供有关您的转录作业的信息。
-
选择下一步。
-
在自定义下,启用自定义词汇表。
-
在词汇表选择下,选择一个自定义词汇表。
-
选择创建。
使用批量转录作业 (API) 在音频文件中启用发言者划分
-
对于
StartMedicalTranscriptionJob
API,请指定以下内容。-
对于
MedicalTranscriptionJobName
,请指定在您 AWS 账户中是唯一的名称。 -
对于
LanguageCode
,指定与音频文件中所用语言和词汇表筛选条件的语言对应的语言代码。 -
在
Media
对象的MediaFileUri
参数中,指定要转录的音频文件的名称。 -
对于
Specialty
,请指定音频文件中说话的临床医生的医学专科。 -
对于
Type
,请指定音频文件是对话还是口述。 -
对于
OutputBucketName
,请指定要将转录结果存储到的 Amazon S3 存储桶。 -
对于
Settings
对象,指定以下内容。-
VocabularyName
– 您的自定义词汇表的名称。
-
-
以下请求使用使用自定义词汇启动批量转录作业。 适用于 Python (Boto3) 的 AWS SDK
from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe', 'us-west-2
')
job_name = "my-first-med-transcription-job
"
job_uri = "s3://amzn-s3-demo-bucket
/my-input-files
/my-media-file
.flac
"
transcribe.start_medical_transcription_job(
MedicalTranscriptionJobName = job_name,
Media = {
'MediaFileUri': job_uri
},
OutputBucketName = 'amzn-s3-demo-bucket
',
OutputKey = 'my-output-files
/',
LanguageCode = 'en-US',
Specialty = 'PRIMARYCARE',
Type = 'CONVERSATION',
Settings = {
'VocabularyName': 'example-med-custom-vocab'
}
)
while True:
status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name)
if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
break
print("Not ready yet...")
time.sleep(5)
print(status)