本体链接批次分析 - Amazon Comprehend Medical

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本体链接批次分析

使用 Amazon Comprehend Medical 檢測存放在 Amazon 簡單儲存服務 (Amazon S3) 儲存貯體中的臨床文字中的實體,並將這些實體連結至標準化本體。您可以使用本體連結批次分析來分析文件集合或最多 20,000 個字元的單一文件。透過使用主控台或本體連結批次 API 作業,您可以執行作業以啟動、停止、列出和描述進行中的批次分析工作。

如需批次分析和其他 Amazon Comprehend Medical 作業的定價資訊,請參閱 Amazon Comprehend M edical 定價。

執行批次分析

您可以使用亞馬遜醫療控制台或亞馬遜醫療批次 API 操作 Amazon Comprehend Medical 執行批次分析任務。

使用 API 作業執行批次分析

先決條件

當您使用 Amazon Comprehend Medical API 時,請建立 AWS Identity 存取和管理 (IAM) 政策,並將其附加到 IAM 角色。若要進一步了解 IAM 角色和信任政策,請參閱 IAM 政策和許可。

  1. 將您的資料上傳到 S3 儲存貯體。

  2. 若要開始新的分析工作,請使用 S tarticd10cm InferenceJob、開始InferenceJob測試或操作。StartRxNormInferenceJob提供 Amazon S3 儲存貯體的名稱,該儲存貯體包含輸入檔案,以及您要在其中傳送輸出檔案的 Amazon S3 儲存貯體名稱。

  3. 使用描述 D10cm InferenceJob、描述或作業來監視工作進度。InferenceJob DescribeRxNormInferenceJob此外,您可以使用 ListId10cm InferenceJobs、L istSnoMedct InferenceJobs,並ListRxNormInferenceJobs查看所有本體連結批次分析工作的狀態。

  4. 如果您需要停止進行中的工作,請使用 S topicD10cm InferenceJob、停止測試或停止分析。InferenceJob StopRxNormInferenceJob

  5. 若要檢視分析任務的結果,請參閱開始工作時設定的輸出 S3 儲存貯體。

使用主控台執行批次分析

  1. 將您的資料上傳到 S3 儲存貯體。

  2. 若要開始新的分析工作,請選取您要執行的分析類型。然後,提供包含輸入檔案的 S3 儲存貯體的名稱,以及要傳送輸出檔案的 S3 儲存貯體名稱。

  3. 監視工作進行中的狀態。您可以從主控台檢視所有批次分析作業及其狀態,包括分析的開始和結束時間。

  4. 若要查看分析任務的結果,請參閱開始工作時設定的輸出 S3 儲存貯體。

批次作業的 IAM 政策

呼叫 Amazon Comprehend Medical 批次 API 作業的 IAM 角色必須具有政策,以授予存取包含輸入和輸出檔案的 S3 儲存貯體。IAM 角色也必須指派信任關係,以便 Amazon Comprehend Medical 服務可以擔任該角色。若要進一步了解 IAM 角色和信任政策,請參閱 IAM 角色

該角色必須具有以下策略:

{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::input-bucket/*" ], "Effect": "Allow" }, { "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::input-bucket", "arn:aws:s3:::output-bucket", ], "Effect": "Allow" }, { "Action": [ "s3:PutObject" ], "Resource": [ " arn:aws:s3:::output-bucket/*" ], "Effect": "Allow" } ] }

角色必須具有下列信任關係。建議您使用aws:SourceAccount aws:SourceArn條件鍵來避免混淆的副安全性問題。要進一步了解混淆的副問題以及如何保護您的 AWS 帳戶,請參閱 IAM 文檔中的混淆副問題

{ "Version":"2012-10-17", "Statement":[ { "Effect":"Allow", "Principal":{ "Service":[ "comprehendmedical.amazonaws.com" ] }, "Action":"sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "account_id" }, "ArnLike": { "aws:SourceArn": "arn:aws:comprehendmedical:region:account_id:*" } } } ] }

Batch 分析輸出檔

Amazon Comprehend Medical 批次中的每個輸入檔案建立一個輸出檔案。檔案的副檔名為.out。Amazon Comprehend Medical 首先使用 AwsAccountIdJobType-JobId作為名稱,在輸出 S3 儲存貯體中建立一個目錄,然後將批次的所有輸出檔案寫入此目錄。Amazon Comprehend Medical 會建立這個新目錄,這樣一個任務的輸出就不會覆寫另一個工作的輸出。

批次作業會產生與同步作業相同的輸出。

每個批次作業都會產生下列三個資訊清單檔案,其中包含工作的相關資訊:

  • Manifest— 總結工作。提供工作所使用的參數、工作總大小以及已處理檔案數目的相關資訊。

  • Success— 提供已成功處理之檔案的相關資訊。包括輸入和輸出檔案名稱以及輸入檔案的大小。

  • Unprocessed— 列出批次工作未處理的檔案,以及每個檔案的錯誤代碼和錯誤訊息。

Amazon Comprehend Medical 會將檔案寫入您為批次任務指定的輸出目錄。摘要資訊清單檔案將與標題為的資料夾一起寫入輸出資料夾Manifest_AccountId-Operation-JobId。資訊清單資料夾內包含成功success資訊清單的資failed料夾,以及包含未處理檔案資訊清單的資料夾。以下各節顯示資訊清單檔案的結構。

Batch 清單文件

以下是批次資訊清單檔案的 JSON 結構。

{"Summary" : {"Status" : "COMPLETED | FAILED | PARTIAL_SUCCESS | STOPPED", "JobType" : "ICD10CMInference | RxNormInference | SNOMEDCTInference", "InputDataConfiguration" : { "Bucket" : "input bucket", "Path" : "path to files/account ID-job type-job ID" }, "OutputDataConfiguration" : { "Bucket" : "output bucket", "Path" : "path to files" }, "InputFileCount" : number of files in input bucket, "TotalMeteredCharacters" : total characters processed from all files, "UnprocessedFilesCount" : number of files not processed, "SuccessFilesCount" : total number of files processed, "TotalDurationSeconds" : time required for processing, "SuccessfulFilesListLocation" : "path to file", "UnprocessedFilesListLocation" : "path to file", "FailedJobErrorMessage": "error message or if not applicable, The status of the job is completed" } }

成功清單文件

以下是文件的 JSON 結構,其中包含有關成功處理的文件的信息。

{ "Files": [{ "Input": "input path/input file name", "Output": "output path/output file name", "InputSize": size in bytes of input file }, { "Input": "input path/input file name", "Output": "output path/output file name", "InputSize": size in bytes of input file }] }

未處理的資訊清單檔

以下是包含有關未處理文件的信息清單文件的 JSON 結構。

{ "Files" : [ { "Input": "file_name_that_failed", "ErrorCode": "error code for exception", "ErrorMessage": "explanation of the error code and suggestions" }, { ...} ] }