本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
訓練自訂辨識器 (主控台)
您可以使用 Amazon Comprehend 主控台建立自訂實體辨識器。本節說明如何建立和訓練自訂實體辨識器。
主題
若要建立自訂實體辨識器,請先提供資料集來訓練模型。在此資料集中,包括下列其中一項:一組已註解的文件或實體清單及其類型標籤,以及包含這些實體的一組文件。如需更多資訊,請參閱自訂實體辨識
使用 CSV 檔案訓練自訂實體辨識器
-
從左側功能表中選擇 [自訂],然後選擇 [自訂實體辨識]。
-
選擇「建立新模型」。
-
給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。
-
選取語言。
-
在 [自訂實體類型] 下,輸入您希望辨識器在資料集中尋找的自訂標籤。
實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。
-
選擇 [新增類型]。
-
如果您要新增其他實體類型,請輸入它,然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型,請選擇 [移除類型],然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。
-
若要加密訓練工作,請選擇辨識器加密,然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。
如果您使用與目前帳戶相關聯的金鑰,請針對 KMS 金鑰識別碼選擇金鑰識別碼。
如果您使用與其他帳戶相關聯的金鑰,請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。
注意
如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱AWS Key Management Service。
-
在「資料規格」下,選擇訓練文件的格式:
-
CSV 檔案 — 補充訓練文件的 CSV 檔案。CSV 檔案包含訓練過的模型將偵測到的自訂實體的相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。
-
增強清單 — 由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。每一行都是完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。
若要取得有關可用格式的更多資訊,以及範例,請參閱〈〉訓練自訂實體辨識器模型。
-
-
在訓練類型下,選擇要使用的訓練類型:
使用註釋和訓練文件
使用實體清單和訓練文件
如果選擇註釋,請在 Amazon S3 中輸入註釋檔案的網址。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇瀏覽 S3。
如果選擇實體清單,請在 Amazon S3 中輸入實體清單的網址。您也可以導覽至實體清單所在的 Amazon S3 儲存貯體或資料夾,然後選擇瀏覽 S3。
-
輸入包含 Amazon S3 中訓練文件之輸入資料集的 URL。您也可以導覽至 Amazon S3 中訓練文件所在的儲存貯體或資料夾,然後選擇 [選取資料夾]。
-
在「測試資料集」下,選取您要如何評估訓練模型的效能-您可以針對註釋和實體清單訓練類型執行此操作。
-
自動拆分:自動拆分自動選擇您提供的培訓數據的 10% 用作測試數據
-
(可選)客戶提供:當您選擇提供的客戶時,您可以準確指定要使用的測試數據。
-
-
如果您選取客戶提供的測試資料集,請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇「選取資料夾」。
-
在「選擇 IAM 角色」區段中,選取現有的 IAM 角色或建立新角色。
-
選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色,請選取此選項。
-
建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。
注意
如果輸入文件已加密,則使用的 IAM 角色必須具有
kms:Decrypt
權限。如需詳細資訊,請參閱 使用KMS加密所需的許可。
-
(選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下拉式清單中選擇識別碼。
在 [子網路] 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。
在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。
注意
當您將 VPC 與自訂實體辨識工作搭配使用時,
DataAccessRole
用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。-
(選擇性) 若要將標籤新增至自訂實體辨識器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇 [移除標籤]。
-
選擇「火車」。
然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted
。然後,它將顯示Training
正在處理訓練文檔的分類器,Trained
準備使用的分類器以及In error
發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。
若要使用純文字、PDF 或 Word 文件訓練自訂實體辨識器
-
登入 AWS Management Console 並開啟 Amazon Comprehend
主控台。 -
從左側功能表中選擇 [自訂],然後選擇 [自訂實體辨識]。
-
選擇火車辨識器。
-
給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。
-
選取語言。注意:如果您正在訓練 PDF 或 Word 文件,則支援英文的語言為英文。
-
在 [自訂實體類型] 下,輸入您希望辨識器在資料集中尋找的自訂標籤。
實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。
-
選擇 [新增類型]。
-
如果您要新增其他實體類型,請輸入它,然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型,請選擇 [移除類型],然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。
-
若要加密訓練工作,請選擇辨識器加密,然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。
-
如果您使用與目前帳戶相關聯的金鑰,請針對 KMS 金鑰識別碼選擇金鑰識別碼。
-
如果您使用與其他帳戶相關聯的金鑰,請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。
注意
如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱AWS Key Management Service。
-
-
在 [訓練資料] 下,選擇 [增強資訊清單] 做為資料格式
-
增強清單-是由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。檔案中的每一行都是完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。如果您將 PDF 文件用於訓練資料,則必須選取「增強資訊清單」。您最多可以提供 5 個擴增資訊清單檔案。對於每個檔案,您最多可以命名 5 個屬性作為訓練資料。
若要取得有關可用格式的更多資訊,以及範例,請參閱〈〉訓練自訂實體辨識器模型。
-
-
選取訓練模型類型。
如果您選取了純文字文件,請在「輸入位置」下輸入 Amazon SageMakerGround 真相增強資訊清單檔案的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇 [選取資料夾]。
-
在「屬性名稱」下,輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋,請為每個工作新增一個屬性。在這種情況下,每個屬性都包含來自標籤工作的一組註釋。附註:每個檔案最多可以提供 5 個屬性名稱。
-
選取新增。
-
如果您在輸入位置下選擇 PDF,Word 文檔,請輸入 Amazon SageMaker Ground Truth 增強清單文件的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇 [選取資料夾]。
-
輸入註釋資料檔案的 S3 前置詞。這些是您標記的 PDF 文件。
-
輸入來源文件的 S3 前置詞。這些是您為標籤工作提供給 Ground Truth 的原始 PDF 文檔(數據對象)。
-
輸入包含註釋的屬性名稱。附註:每個檔案最多可以提供 5 個屬性名稱。系統會忽略檔案中未指定的任何屬性。
-
在 IAM 角色區段中,選取現有的 IAM 角色或建立新角色。
-
選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色,請選取此選項。
-
建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。
注意
如果輸入文件已加密,則使用的 IAM 角色必須具有
kms:Decrypt
權限。如需詳細資訊,請參閱 使用KMS加密所需的許可。
-
-
(選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下拉式清單中選擇識別碼。
-
在 [子網路] 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。
-
在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。
注意
當您將 VPC 與自訂實體辨識工作搭配使用時,
DataAccessRole
用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。 -
-
(選擇性) 若要將標籤新增至自訂實體辨識器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇 [移除標籤]。
-
選擇「火車」。
然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted
。然後,它將顯示Training
正在處理訓練文檔的分類器,Trained
準備使用的分類器以及In error
發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。