本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在音频文件中识别 PHI
使用批量转录作业来转录音频文件并识别其中的个人健康信息 (PHI)。当您激活个人健康信息 (PHI) 识别时,M Amazon Transcribe edical 会对其在转录结果中识别的 PHI 进行标记。有关 Medic Amazon Transcribe al 可以识别的 PHI 的信息,请参阅识别转录中的个人健康信息(PHI)。
您可以使用 StartMedicalTranscriptionJob
API 或 AWS Management Console来启动批量转录作业。
要使用转录临床医生与患者的对话,请创建转录作业,然后选择对话作为音频输入类型。 AWS Management Console
转录音频文件并识别其 PHI (AWS Management Console)
-
在导航窗格的 “ Amazon Transcribe 医疗” 下,选择 “转录作业”。
-
请选择创建任务。
-
在指定作业详细信息页面上的作业设置下,指定以下设置。
-
名称-您的 AWS 账户专属转录作业的名称。
-
音频输入类型 - 对话或口述。
-
-
对于其余字段,请指定音频文件的 Amazon S3 位置以及要存储转录作业输出的位置。
-
选择下一步。
-
在音频设置 下,选择 PHI 识别。
-
选择创建。
使用批量转录作业转录音频文件并识别其 PHI (API)
-
对于
StartMedicalTranscriptionJob
API,请指定以下内容。-
对于
MedicalTranscriptionJobName
,请指定对于您 AWS 账户而言唯一的名称。 -
对于
LanguageCode
,指定与音频文件中所用语言对应的语言代码。 -
在
Media
对象的MediaFileUri
参数中,指定要转录的音频文件的名称。 -
对于
Specialty
,请将音频文件中说话的临床医生的医学专科指定为PRIMARYCARE
。 -
对于
Type
,请指定CONVERSATION
或DICTATION
。 -
对于
OutputBucketName
,请指定要将转录结果存储到的 Amazon S3 存储桶。
以下是使用转录音频文件并识别患者的 PHI 的请求示例。 适用于 Python (Boto3) 的 AWS SDK
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe') job_name = "
my-first-transcription-job
" job_uri = "s3://amzn-s3-demo-bucket
/my-input-files
/my-audio-file
.flac
" transcribe.start_medical_transcription_job( MedicalTranscriptionJobName = job_name, Media = {'MediaFileUri': job_uri}, LanguageCode = 'en-US', ContentIdentificationType = 'PHI', Specialty = 'PRIMARYCARE', Type = 'type
', # Specify 'CONVERSATION' for a medical conversation. Specify 'DICTATION' for a medical dictation. OutputBucketName = 'amzn-s3-demo-bucket
' ) while True: status = transcribe.get_medical_transcription_job(MedicalTranscriptionJobName = job_name) if status['MedicalTranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status) -
以下示例代码演示了识别患者 PHI 的转录结果。
{
"jobName": "my-medical-transcription-job-name",
"accountId": "111122223333",
"results": {
"transcripts": [{
"transcript": "The patient's name is Bertrand."
}],
"items": [{
"id": 0,
"start_time": "0.0",
"end_time": "0.37",
"alternatives": [{
"confidence": "0.9993",
"content": "The"
}],
"type": "pronunciation"
}, {
"id": 1,
"start_time": "0.37",
"end_time": "0.44",
"alternatives": [{
"confidence": "0.9981",
"content": "patient's"
}],
"type": "pronunciation"
}, {
"id": 2,
"start_time": "0.44",
"end_time": "0.52",
"alternatives": [{
"confidence": "1.0",
"content": "name"
}],
"type": "pronunciation"
}, {
"id": 3,
"start_time": "0.52",
"end_time": "0.92",
"alternatives": [{
"confidence": "1.0",
"content": "is"
}],
"type": "pronunciation"
}, {
"id": 4,
"start_time": "0.92",
"end_time": "0.9989",
"alternatives": [{
"confidence": "1.0",
"content": "Bertrand"
}],
"type": "pronunciation"
}, {
"id": 5,
"alternatives": [{
"confidence": "0.0",
"content": "."
}],
"type": "punctuation"
}],
"entities": [{
"content": "Bertrand",
"category": "PHI*-Personal*",
"startTime": 0.92,
"endTime": 1.2,
"confidence": 0.9989
}],
"audio_segments": [
{
"id": 0,
"transcript": "The patient's name is Bertrand.",
"start_time": "0.0",
"end_time": "0.9989",
"items": [
0,
1,
2,
3,
4,
5
]
}
]
},
"status": "COMPLETED"
}
使用批量转录作业转录音频文件并识别 PHI (AWS CLI)
-
运行以下代码。
aws transcribe start-medical-transcription-job \ --medical-transcription-job-name
my-medical-transcription-job-name
\ --language-code en-US \ --media MediaFileUri="s3://amzn-s3-demo-bucket
/my-input-files
/my-audio-file
.flac
" \ --output-bucket-nameamzn-s3-demo-bucket
\ --specialty PRIMARYCARE \ --typetype
\ # ChooseCONVERSATION
to transcribe a medical conversation. ChooseDICTATION
to transcribe a medical dictation. --content-identification-type PHI