本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
執行自訂實體辨識的分析工作
您可以執行非同步分析工作,以偵測一或多個文件集中的自訂實體。
開始之前
您需要自訂實體辨識模型 (也稱為辨識器),才能偵測自訂實體。如需這些模型的詳細資訊,請參閱訓練自訂實體辨識器模型。
使用純文字註解訓練的辨識器僅支援純文字文件的實體偵測。使用 PDF 文件註釋訓練的辨識器支援純文字文件、影像、PDF 檔案和 Word 文件的實體偵測。對於文字檔案以外的檔案,Amazon Comprehend 會在執行分析之前執行文字擷取。若要取得有關輸入檔案的資訊,請參閱非同步自訂分析的輸入。
如果您打算分析影像檔案或掃描的 PDF 文件,您的 IAM 政策必須授予許可,才能使用兩種 Amazon Textract API 方法 (DetectDocumentText 和 AnalyzeDocument)。Amazon Comprehend 文本提取過程中調用這些方法。如需政策範例,請參閱 執行文件分析動作所需的許可。
若要執行非同步分析工作,請執行下列整體步驟:
-
將文件存放在 Amazon S3 儲存貯體中。
-
使用 API 或主控台開始分析工作。
-
監視分析工作的進度。
-
任務執行完成後,從您開始工作時指定的 S3 儲存貯體擷取分析結果。