本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
訓練自訂分類器 (主控台)
您可以使用主控台建立和訓練自訂分類器,然後使用自訂分類器來分析文件。
若要訓練自訂分類器,您需要一組訓練文件。您可以將這些文件標記為您希望文件分類器識別的類別。如需有關準備訓練文件的資訊,請參閱 準備分類器訓練資料。
建立和訓練文件分類器模型
-
登入 AWS Management Console ,並在 開啟 Amazon Comprehend 主控台 https://console.aws.amazon.com/comprehend/
-
從左側選單中,選擇自訂,然後選擇自訂分類 。
-
選擇建立新模型 。
-
在模型設定 下,輸入分類器的模型名稱。名稱在您的帳戶和目前區域中必須是唯一的。
(選用) 輸入版本名稱。名稱在您的帳戶和目前區域中必須是唯一的。
-
選取訓練文件的語言。若要查看分類器支援的語言,請參閱 訓練分類模型。
-
(選用) 如果您想要在 Amazon Comprehend 處理訓練工作時加密儲存磁碟區中的資料,請選擇分類器加密 。然後選擇使用與目前帳戶相關聯的KMS金鑰,還是使用來自另一個帳戶的金鑰。
如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰 ID KMS 的金鑰 ID。
如果您使用與不同帳戶相關聯的金鑰,請在金鑰 下輸入金鑰 ID ARN的 KMS ARN。
注意
如需建立和使用KMS金鑰和相關加密的詳細資訊,請參閱 AWS Key Management Service (AWS KMS)。
-
在資料規格 下,選擇要使用的訓練模型類型。
純文字文件:選擇此選項可建立純文字模型。使用純文字文件訓練模型。
原生文件:選擇此選項可建立原生文件模型。使用原生文件 (PDF、Word、影像) 訓練模型。
-
選擇訓練資料的資料格式。如需有關資料格式的資訊,請參閱 分類器訓練檔案格式。
CSV 檔案:如果您的訓練資料使用CSV檔案格式,請選擇此選項。
增強型資訊清單:如果您使用 Ground Truth 為訓練資料建立增強型資訊清單檔案,請選擇此選項。如果您選擇純文字文件作為訓練模型類型,則此格式可用。
-
選擇要使用的分類器模式。
單一標籤模式:如果您指派給文件的類別是相互排斥的,而且您正在訓練分類器為每個文件指派一個標籤,請選擇此模式。在 Amazon Comprehend 中API,單一標籤模式稱為多類別模式。
多標籤模式:如果可同時將多個類別套用至文件,且您正在訓練分類器為每個文件指派一或多個標籤,請選擇此模式。
-
如果您選擇多標籤模式 ,您可以選取標籤 的分隔符號。當訓練文件有多個類別時,使用此分隔符號字元來分隔標籤。預設分隔符號是管道字元。
-
(選用) 如果您選擇增強型資訊清單作為資料格式,您最多可以輸入五個增強型資訊清單檔案。每個增強型資訊清單檔案都包含訓練資料集或測試資料集。您必須提供至少一個訓練資料集。測試資料集為選用。使用下列步驟來設定增強型資訊清單檔案:
-
在訓練和測試資料集 下,展開輸入位置面板。
-
在資料集類型 中,選擇訓練資料或測試資料 。
-
針對 SageMaker Ground Truth 增強型資訊清單檔案 S3 位置 ,輸入包含資訊清單檔案的 Amazon S3 儲存貯體位置,或選擇瀏覽 S3 導覽至該儲存貯體。您用於訓練任務存取許可IAM的角色必須具有 S3 儲存貯體的讀取許可。
-
針對屬性名稱 ,輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標籤任務的註釋,請為每個任務新增屬性。
若要新增其他輸入位置,請選擇新增輸入位置,然後設定下一個位置。
-
-
(選用) 如果您選擇CSV檔案作為資料格式,請使用下列步驟來設定訓練資料集和選用測試資料集:
-
在訓練資料集 下,輸入包含訓練資料CSV檔案的 Amazon S3 儲存貯體位置,或選擇瀏覽 S3 導覽至該儲存貯體。您用於訓練任務存取許可IAM的角色必須具有 S3 儲存貯體的讀取許可。
(選用) 如果您選擇原生文件作為訓練模型類型,您也可以提供包含訓練範例檔案URL的 Amazon S3 資料夾的 。
-
在測試資料集 下,選取您是否為 Amazon Comprehend 提供額外的資料,以測試訓練過的模型。
-
Autosplit :Autosplit 會自動選取 10% 的訓練資料,以保留做為測試資料。
(選用) 客戶提供 :在 Amazon S3 中輸入測試資料CSV檔案URL的 。您也可以導覽至 Amazon S3 中的位置,然後選擇選取資料夾 。
(選用) 如果您選擇原生文件作為訓練模型類型,您也可以提供包含測試檔案URL的 Amazon S3 資料夾的 。
-
-
-
(選用) 對於文件讀取模式 ,您可以覆寫預設的文字擷取動作。純文字模型不需要此選項,因為它適用於掃描文件的文字擷取。如需詳細資訊,請參閱設定文字擷取選項。
-
(純文字模型為選用) 針對輸出資料 ,輸入 Amazon S3 儲存貯體的位置以儲存訓練輸出資料,例如混淆矩陣。如需詳細資訊,請參閱混淆矩陣。
(選用) 如果您選擇加密訓練任務的輸出結果,請選擇加密 。然後選擇要使用與目前帳戶相關聯的KMS金鑰,還是使用來自另一個帳戶的金鑰。
如果您使用與目前帳戶相關聯的金鑰,請選擇金鑰 KMS ID 的金鑰別名。
如果您使用與不同帳戶相關聯的金鑰,請在金鑰 ID 下輸入金鑰別名或 ID ARN的 KMS 。
-
針對IAM角色 ,選擇選擇現有IAM角色 ,然後選擇具有包含訓練文件之 S3 儲存貯體讀取許可的現有IAM角色。角色必須具有以 開頭的信任政策
comprehend.amazonaws.com
,才能有效。如果您還沒有具有這些許可IAM的角色,請選擇建立IAM角色以建立。選擇授予此角色的存取許可,然後選擇名稱尾碼,以區分角色與您帳戶中IAM的角色。
注意
對於加密的輸入文件,使用IAM的角色也必須具有
kms:Decrypt
許可。如需詳細資訊,請參閱使用KMS加密所需的許可。 -
(選用) 若要從 將資源啟動至 Amazon ComprehendVPC,請在 下輸入 VPC ID,VPC或從下拉式清單中選擇 ID。
在子網路 (子網路) 下選擇子網路。選取第一個子網路後,您可以選擇其他子網路。
在安全群組 (Security Group) 下,選擇指定安全群組時要使用的安全群組。選取第一個安全群組後,您可以選擇其他群組。
注意
當您將 VPC 與分類任務搭配使用時,
DataAccessRole
用於建立和啟動操作的 必須具有存取輸入文件和輸出儲存貯體的 VPC 許可。 -
(選用) 若要將標籤新增至自訂分類器,請在標籤 下輸入鍵值對。選擇 Add tag (新增標籤)。若要在建立分類器之前移除此對,請選擇移除標籤 。如需詳細資訊,請參閱標記您的 資源。
-
選擇 Create (建立)。
主控台會顯示分類器頁面。新的分類器會出現在資料表中,顯示Submitted
為其狀態。當分類器開始處理訓練文件時,狀態會變更為 Training
。當分類器準備好使用時,狀態會變更為 Trained
或 Trained with warnings
。如果狀態為 TRAINED_WITH_WARNINGS
,請檢閱 中的略過檔案資料夾分類器訓練輸出。
如果 Amazon Comprehend 在建立或訓練期間遇到錯誤,狀態會變更為 In error
。您可以在資料表中選擇分類器任務,以取得有關分類器的詳細資訊,包括任何錯誤訊息。