訓練自訂分類器 (主控台) - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

訓練自訂分類器 (主控台)

您可以使用主控台建立和訓練自訂分類器,然後使用自訂分類器來分析文件。

若要訓練自訂分類器,您需要一組訓練文件。您可以將這些文件標記為您希望文件分類器識別的類別。如需有關準備訓練文件的資訊,請參閱 準備分類器訓練資料

建立和訓練文件分類器模型
  1. 登入 AWS Management Console ,並在 開啟 Amazon Comprehend 主控台 https://console.aws.amazon.com/comprehend/

  2. 從左側選單中,選擇自訂,然後選擇自訂分類

  3. 選擇建立新模型

  4. 模型設定 下,輸入分類器的模型名稱。名稱在您的帳戶和目前區域中必須是唯一的。

    (選用) 輸入版本名稱。名稱在您的帳戶和目前區域中必須是唯一的。

  5. 選取訓練文件的語言。若要查看分類器支援的語言,請參閱 訓練分類模型

  6. (選用) 如果您想要在 Amazon Comprehend 處理訓練工作時加密儲存磁碟區中的資料,請選擇分類器加密 。然後選擇使用與目前帳戶相關聯的KMS金鑰,還是使用來自另一個帳戶的金鑰。

    • 如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰 ID KMS 的金鑰 ID

    • 如果您使用與不同帳戶相關聯的金鑰,請在金鑰 下輸入金鑰 ID ARN的 KMS ARN

    注意

    如需建立和使用KMS金鑰和相關加密的詳細資訊,請參閱 AWS Key Management Service (AWS KMS)

  7. 資料規格 下,選擇要使用的訓練模型類型

    • 純文字文件:選擇此選項可建立純文字模型。使用純文字文件訓練模型。

    • 原生文件:選擇此選項可建立原生文件模型。使用原生文件 (PDF、Word、影像) 訓練模型。

  8. 選擇訓練資料的資料格式。如需有關資料格式的資訊,請參閱 分類器訓練檔案格式

    • CSV 檔案:如果您的訓練資料使用CSV檔案格式,請選擇此選項。

    • 增強型資訊清單:如果您使用 Ground Truth 為訓練資料建立增強型資訊清單檔案,請選擇此選項。如果您選擇純文字文件作為訓練模型類型,則此格式可用。

  9. 選擇要使用的分類器模式

    • 單一標籤模式:如果您指派給文件的類別是相互排斥的,而且您正在訓練分類器為每個文件指派一個標籤,請選擇此模式。在 Amazon Comprehend 中API,單一標籤模式稱為多類別模式。

    • 多標籤模式:如果可同時將多個類別套用至文件,且您正在訓練分類器為每個文件指派一或多個標籤,請選擇此模式。

  10. 如果您選擇多標籤模式 ,您可以選取標籤 的分隔符號。當訓練文件有多個類別時,使用此分隔符號字元來分隔標籤。預設分隔符號是管道字元。

  11. (選用) 如果您選擇增強型資訊清單作為資料格式,您最多可以輸入五個增強型資訊清單檔案。每個增強型資訊清單檔案都包含訓練資料集或測試資料集。您必須提供至少一個訓練資料集。測試資料集為選用。使用下列步驟來設定增強型資訊清單檔案:

    1. 訓練和測試資料集 下,展開輸入位置面板。

    2. 資料集類型 中,選擇訓練資料測試資料

    3. 針對 SageMaker Ground Truth 增強型資訊清單檔案 S3 位置 ,輸入包含資訊清單檔案的 Amazon S3 儲存貯體位置,或選擇瀏覽 S3 導覽至該儲存貯體。您用於訓練任務存取許可IAM的角色必須具有 S3 儲存貯體的讀取許可。

    4. 針對屬性名稱 ,輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤任務的註釋,請為每個任務新增屬性。

    5. 若要新增其他輸入位置,請選擇新增輸入位置,然後設定下一個位置。

  12. (選用) 如果您選擇CSV檔案作為資料格式,請使用下列步驟來設定訓練資料集和選用測試資料集:

    1. 訓練資料集 下,輸入包含訓練資料CSV檔案的 Amazon S3 儲存貯體位置,或選擇瀏覽 S3 導覽至該儲存貯體。您用於訓練任務存取許可IAM的角色必須具有 S3 儲存貯體的讀取許可。

      (選用) 如果您選擇原生文件作為訓練模型類型,您也可以提供包含訓練範例檔案URL的 Amazon S3 資料夾的 。

    2. 測試資料集 下,選取您是否為 Amazon Comprehend 提供額外的資料,以測試訓練過的模型。

      • Autosplit :Autosplit 會自動選取 10% 的訓練資料,以保留做為測試資料。

      • (選用) 客戶提供 :在 Amazon S3 中輸入測試資料CSV檔案URL的 。您也可以導覽至 Amazon S3 中的位置,然後選擇選取資料夾

        (選用) 如果您選擇原生文件作為訓練模型類型,您也可以提供包含測試檔案URL的 Amazon S3 資料夾的 。

  13. (選用) 對於文件讀取模式 ,您可以覆寫預設的文字擷取動作。純文字模型不需要此選項,因為它適用於掃描文件的文字擷取。如需詳細資訊,請參閱設定文字擷取選項

  14. (純文字模型為選用) 針對輸出資料 ,輸入 Amazon S3 儲存貯體的位置以儲存訓練輸出資料,例如混淆矩陣。如需詳細資訊,請參閱混淆矩陣

    (選用) 如果您選擇加密訓練任務的輸出結果,請選擇加密 。然後選擇要使用與目前帳戶相關聯的KMS金鑰,還是使用來自另一個帳戶的金鑰。

    • 如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰 KMS ID 的金鑰別名。

    • 如果您使用與不同帳戶相關聯的金鑰,請在金鑰 ID 下輸入金鑰別名或 ID ARN的 KMS

  15. 針對IAM角色 ,選擇選擇現有IAM角色 ,然後選擇具有包含訓練文件之 S3 儲存貯體讀取許可的現有IAM角色。角色必須具有以 開頭的信任政策comprehend.amazonaws.com,才能有效。

    如果您還沒有具有這些許可IAM的角色,請選擇建立IAM角色以建立。選擇授予此角色的存取許可,然後選擇名稱尾碼,以區分角色與您帳戶中IAM的角色。

    注意

    對於加密的輸入文件,使用IAM的角色也必須具有kms:Decrypt許可。如需詳細資訊,請參閱使用KMS加密所需的許可

  16. (選用) 若要從 將資源啟動至 Amazon ComprehendVPC,請在 下輸入 VPC ID,VPC或從下拉式清單中選擇 ID。

    1. 在子網路 (子網路) 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。

    2. 安全群組 (Security Group) 下,選擇指定安全群組時要使用的安全群組。選取第一個安全群組後,您可以選擇其他群組。

    注意

    當您將 VPC 與分類任務搭配使用時,DataAccessRole用於建立和啟動操作的 必須具有存取輸入文件和輸出儲存貯體的 VPC 許可。

  17. (選用) 若要將標籤新增至自訂分類器,請在標籤 下輸入鍵值對。選擇 Add tag (新增標籤)。若要在建立分類器之前移除此對,請選擇移除標籤 。如需詳細資訊,請參閱標記您的  資源

  18. 選擇 Create (建立)。

主控台會顯示分類器頁面。新的分類器會出現在資料表中,顯示Submitted為其狀態。當分類器開始處理訓練文件時,狀態會變更為 Training。當分類器準備好使用時,狀態會變更為 TrainedTrained with warnings。如果狀態為 TRAINED_WITH_WARNINGS,請檢閱 中的略過檔案資料夾分類器訓練輸出

如果 Amazon Comprehend 在建立或訓練期間遇到錯誤,狀態會變更為 In error。您可以在資料表中選擇分類器任務,以取得有關分類器的詳細資訊,包括任何錯誤訊息。

自訂分類器清單。