訓練自訂辨識器 (主控台) - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

訓練自訂辨識器 (主控台)

您可以使用 Amazon Comprehend 主控台建立自訂實體辨識器。本節說明如何建立和訓練自訂實體辨識器。

主題

    若要建立自訂實體辨識器,請先提供資料集來訓練模型。在此資料集中,包括下列其中一項:一組已註解的文件或實體清單及其類型標籤,以及包含這些實體的一組文件。如需更多資訊,請參閱自訂實體辨識

    使用 CSV 檔案訓練自訂實體辨識器
    1. 登入 AWS Management Console 並開啟亞馬遜主控台,網址為 https://console.aws.amazon.com/comprehend/

    2. 從左側功能表中選擇 [自],然後選擇 [自訂實體辨識]。

    3. 選擇「建立新模型」。

    4. 給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。

    5. 選取語言。

    6. 在 [自訂實體類型] 下,輸入您希望辨識器在資料集中尋找的自訂標籤。

      實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。

    7. 選擇 [新增類型]。

    8. 如果您要新增其他實體類型,請輸入它,然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型,請選擇 [移除類型],然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。

    9. 若要加密訓練工作,請選擇辨識器加密,然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。

      • 如果您使用與目前帳戶相關聯的金鑰,請針對 KMS 金鑰識別碼選擇金鑰識別碼。

      • 如果您使用與其他帳戶相關聯的金鑰,請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。

      注意

      如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱AWS Key Management Service

    10. 在「資料規格」下,選擇訓練文件的格式:

      • CSV 檔案 — 補充訓練文件的 CSV 檔案。CSV 檔案包含訓練過的模型將偵測到的自訂實體的相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。

      • 增強清單 — 由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。每一行都是完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。

      若要取得有關可用格式的更多資訊,以及範例,請參閱〈〉訓練自訂實體辨識器模型

    11. 訓練類型下,選擇要使用的訓練類型:

      • 使用註釋和訓練文件

      • 使用實體清單和訓練文件

      如果選擇註釋,請在 Amazon S3 中輸入註釋檔案的網址。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇瀏覽 S3

      如果選擇實體清單,請在 Amazon S3 中輸入實體清單的網址。您也可以導覽至實體清單所在的 Amazon S3 儲存貯體或資料夾,然後選擇瀏覽 S3

    12. 輸入包含 Amazon S3 中訓練文件之輸入資料集的 URL。您也可以導覽至 Amazon S3 中訓練文件所在的儲存貯體或資料夾,然後選擇 [選取資料夾]

    13. 在「測試資料集」下,選取您要如何評估訓練模型的效能-您可以針對註釋和實體清單訓練類型執行此操作。

      • 自動拆分:自動拆分自動選擇您提供的培訓數據的 10% 用作測試數據

      • (可選)客戶提供:當您選擇提供的客戶時,您可以準確指定要使用的測試數據。

    14. 如果您選取客戶提供的測試資料集,請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾,然後選擇「選取資料夾」

    15. 在「選擇 IAM 角色」區段中,選取現有的 IAM 角色或建立新角色。

      • 選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色,請選取此選項。

      • 建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。

        注意

        如果輸入文件已加密,則使用的 IAM 角色必須具有kms:Decrypt權限。如需詳細資訊,請參閱 使用KMS加密所需的許可

    16. (選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下式清單中選擇識別碼。

      1. 在 [子網路] 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。

      2. 在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。

      注意

      當您將 VPC 與自訂實體辨識工作搭配使用時,DataAccessRole用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。

    17. (選擇性) 若要將標籤新增至自訂實體辨識器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇 [移除標籤]。

    18. 選擇「火車」。

    然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted。然後,它將顯示Training正在處理訓練文檔的分類器,Trained準備使用的分類器以及In error發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。

    若要使用純文字、PDF 或 Word 文件訓練自訂實體辨識器
    1. 登入 AWS Management Console 並開啟 Amazon Comprehend 主控台。

    2. 從左側功能表中選擇 [自],然後選擇 [自訂實體辨識]。

    3. 選擇火車辨識器

    4. 給識別器一個名字。該名稱在「地區」和帳戶中必須是唯一的。

    5. 選取語言。注意:如果您正在訓練 PDF 或 Word 文件,則支援英文的語言為英文。

    6. 在 [自訂實體類型] 下,輸入您希望辨識器在資料集中尋找的自訂標籤。

      實體類型必須是大寫的,如果它由一個以上的單詞組成,則用底線分隔單詞。

    7. 選擇 [新增類型]。

    8. 如果您要新增其他實體類型,請輸入它,然後選擇 [新增類型]。如果您要移除其中一個已新增的實體類型,請選擇 [移除類型],然後選擇要從清單中移除的實體類型。最多可列出 25 個圖元類型。

    9. 若要加密訓練工作,請選擇辨識器加密,然後選擇要使用與目前帳戶相關聯的 KMS 金鑰,還是使用另一個帳戶的 KMS 金鑰。

      • 如果您使用與目前帳戶相關聯的金鑰,請針對 KMS 金鑰識別碼選擇金鑰識別碼。

      • 如果您使用與其他帳戶相關聯的金鑰,請針對 KMS 金鑰 ARN 輸入金鑰識別碼的 ARN。

      注意

      如需建立和使用 KMS 金鑰及相關加密的詳細資訊,請參閱AWS Key Management Service

    10. 在 [訓練資料] 下,選擇 [增強資訊清單] 做為資料格式

      • 增強清單-是由 Amazon SageMaker Ground Truth 生成的標籤數據集。這個文件是 JSON 行格式。檔案中的每一行都是完整的 JSON 物件,其中包含訓練文件及其標籤。每個標籤都會在訓練文件中註解一個具名實體。您最多可以提供 5 個擴增資訊清單檔案。如果您將 PDF 文件用於訓練資料,則必須選取「增強資訊清單」。您最多可以提供 5 個擴增資訊清單檔案。對於每個檔案,您最多可以命名 5 個屬性作為訓練資料。

      若要取得有關可用格式的更多資訊,以及範例,請參閱〈〉訓練自訂實體辨識器模型

    11. 選取訓練模型類型。

      如果您選取了純文字文件,請在「輸入位置」下輸入 Amazon SageMakerGround 真相增強資訊清單檔案的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇 [選取資料夾]

    12. 在「屬性名稱」下,輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤工作的註釋,請為每個工作新增一個屬性。在這種情況下,每個屬性都包含來自標籤工作的一組註釋。附註:每個檔案最多可以提供 5 個屬性名稱。

    13. 選取新增

    14. 如果您在輸入位置下選擇 PDF,Word 文檔,請輸入 Amazon SageMaker Ground Truth 增強清單文件的 Amazon S3URL。您也可以導覽至 Amazon S3 中增強資訊清單所在的儲存貯體或資料夾,然後選擇 [選取資料夾]

    15. 輸入註釋資料檔案的 S3 前置詞。這些是您標記的 PDF 文件。

    16. 輸入來源文件的 S3 前置詞。這些是您為標籤工作提供給 Ground Truth 的原始 PDF 文檔(數據對象)。

    17. 輸入包含註釋的屬性名稱。附註:每個檔案最多可以提供 5 個屬性名稱。系統會忽略檔案中未指定的任何屬性。

    18. 在 IAM 角色區段中,選取現有的 IAM 角色或建立新角色。

      • 選擇現有的 IAM 角色 — 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色,請選取此選項。

      • 建立新的 IAM 角色 — 當您想要建立具有適當許可的新 IAM 角色,讓 Amazon Comprehend 存取輸入和輸出值區時,請選取此選項。

        注意

        如果輸入文件已加密,則使用的 IAM 角色必須具有kms:Decrypt權限。如需詳細資訊,請參閱 使用KMS加密所需的許可

    19. (選擇性) 若要從 VPC 將資源啟動至 Amazon Comprehend,請在 VPC 下輸入虛擬私人雲端識別碼,或從下式清單中選擇識別碼。

      1. 在 [子網路] 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。

      2. 在「安全性群組」下,選擇要使用的安全性群組 (如果您已指定安全性群組)。選取第一個安全性群組後,您可以選擇其他群組。

      注意

      當您將 VPC 與自訂實體辨識工作搭配使用時,DataAccessRole用於「建立」和「開始」作業的 VPC 必須具有存取輸入文件和輸出值區的 VPC 權限。

    20. (選擇性) 若要將標籤新增至自訂實體辨識器,請在「標籤」下輸入鍵值配對。選擇 Add tag (新增標籤)。若要在建立辨識器之前移除此配對,請選擇 [移除標籤]。

    21. 選擇「火車」。

    然後,新的辨識器會出現在清單中,並顯示其狀態。它將首先顯示為Submitted。然後,它將顯示Training正在處理訓練文檔的分類器,Trained準備使用的分類器以及In error發生錯誤的分類器。您可以按一下工作以取得有關辨識器的詳細資訊,包括任何錯誤訊息。