カスタム分類子の調教 (コンソール) - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

カスタム分類子の調教 (コンソール)

コンソールを使用してカスタム分類子を作成して調教し、そのカスタム分類子を使用して文書を分析できます。

カスタム分類子を調教するには、一連の調教文書が必要です。これらの文書には、文書分類子に認識させたいカテゴリのラベルを付けます。調教文書の作成については、「分類子調教データの作成」を参照してください。

文書分類モデルを作成して調教するには
  1. にサインイン AWS Management Console し、 で Amazon Comprehend コンソールを開きます。 https://console.aws.amazon.com/comprehend/

  2. 左側のメニューから [カスタマイズ] を選択し、[カスタム分類] を選択します。

  3. [モデルの作成] を選択します。

  4. [モデルの設定] に分類子のモデル名を入力します。この名前は、自分のアカウント内と現在のリージョンで一意でなければなりません。

    (オプション) バージョン名を入力します。この名前は、自分のアカウント内と現在のリージョンで一意でなければなりません。

  5. 調教文書の言語を選択します。分類子がサポートする言語については、「調教分類モデル」を参照してください。

  6. (オプション) Amazon Comprehend が調教ジョブを処理している間にストレージボリューム内のデータを暗号化する場合は、[分類子の暗号化]を選択します。次に、現在のアカウントに関連付けられたKMSキーを使用するか、別のアカウントからキーを使用するかを選択します。

    • 現在のアカウントに関連付けられているキーを使用している場合は、キー ID のKMSキー ID を選択します。

    • 別のアカウントに関連付けられたキーを使用している場合は、キー の下のキー ID ARNに KMS ARNを入力します。

    注記

    KMS キーの作成と使用、および関連する暗号化の詳細については、AWS Key Management Service 「 (AWS KMS)」を参照してください。

  7. データ仕様」で、使用する [調教モデルタイプ] を選択します。

    • プレーンテキスト文書:このオプションを選択すると、プレーンテキストモデルが作成されます。プレーンテキスト文書を使用してモデルを調教します。

    • ネイティブ文書:ネイティブ文書モデルを作成するには、このオプションを選択します。ネイティブドキュメント (PDF、Word、イメージ) を使用してモデルをトレーニングします。

  8. 調教データの [データ形式] を選択します。データ形式の詳細については、「分類子調教ファイルの形式」を参照してください。

    • CSV file: トレーニングデータが CSV ファイル形式を使用している場合は、このオプションを選択します。

    • 拡張マニフェスト:Ground Truth を使用して調教データ用の拡張マニフェストファイルを作成した場合は、このオプションを選択してください。この形式は、調教モデルタイプとして [プレーンテキスト文書] を選択した場合に使用できます。

  9. 使用する [分類子モード] を選択します。

    • シングルラベルモード:文書に割り当てるカテゴリが相互に排他的であり、各文書に 1 つのラベルを割り当てるように分類子を学習させる場合は、このモードを選択します。Amazon Comprehend ではAPI、シングルラベルモードはマルチクラスモードと呼ばれます。

    • マルチラベルモード:1 つの文書に複数のカテゴリを同時に適用でき、各文書に 1 つまたは複数のラベルを割り当てるように分類子を調教する場合は、このモードを選択します。

  10. マルチラベルモードを選択すると、ラベルの区切り文字を選択できます。調教文書に複数のクラスがある場合は、この区切り文字を使用してラベルを区切ります。デフォルトの区切り文字はパイプ文字です。

  11. (オプション) データ形式として拡張マニフェストを選択した場合、最大 5 つの拡張マニフェストファイルを入力できます。各拡張マニフェストファイルには、調教データセットまたはテストデータセットが含まれます。少なくとも 1 つの調教データセットを指定する必要があります。テストデータセットは任意です。次の手順に従って、拡張マニフェストファイルを設定します。

    1. 調教とテストデータセット」で、「入力場所」パネルを展開します。

    2. [データセットタイプ] で [調教データ] または [テストデータ] を選択します。

    3. SageMaker AI Ground Truth 拡張マニフェストファイル S3 の場所については、マニフェストファイルを含む Amazon S3 バケットの場所を入力するか、Browse S3 を選択してそこに移動します。トレーニングジョブのアクセス許可に使用するIAMロールには、S3 バケットの読み取り許可が必要です。

    4. [属性名] に、注釈を含む属性の名前を入力します。ファイルに複数のチェーンラベリングジョブのアノテーションが含まれている場合は、ジョブごとに属性を追加します。

    5. 別の入力場所を追加するには、[入力場所を追加] を選択し、次の場所を設定します。

  12. (オプション) データ形式として CSV ファイルを選択した場合は、次のステップを使用してトレーニングデータセットとオプションのテストデータセットを設定します。

    1. 「トレーニングデータセット」で、トレーニングデータCSVファイルを含む Amazon S3 バケットの場所を入力するか、「S3 を参照」を選択して移動します。トレーニングジョブのアクセス許可に使用するIAMロールには、S3 バケットの読み取り許可が必要です。

      (オプション) トレーニングモデルタイプとしてネイティブドキュメントを選択した場合は、トレーニングサンプルファイルを含む Amazon S3 フォルダURLの も指定します。

    2. [テストデータセット] で、調教済みモデルをテストするための追加データを Amazon Comprehend に提供するかどうかを選択します。

      • Autosplit: Autosplit は調教データの 10% を自動的に選択し、テストデータとして使用するために確保します。

      • (オプション) 顧客提供: Amazon S3 のURLテストデータCSVファイルの を入力します。 Amazon S3 Amazon S3 内のその場所に移動して [フォルダを選択] を選択することもできます。

        (オプション) トレーニングモデルタイプとしてネイティブドキュメントを選択した場合は、テストファイルを含む Amazon S3 フォルダURLの も指定します。

  13. (オプション) 文書読み取りモードでは、デフォルトのテキスト抽出アクションをオーバーライドできます。このオプションはスキャンされた文書のテキスト抽出に適用されるため、プレーンテキストモデルには必要ありません。詳細については、「テキスト抽出オプションの設定」を参照してください。

  14. (プレーンテキストモデルの場合はオプション) [出力データ] には、混同行列などの調教出力データを保存する Amazon S3 バケットの場所を入力します。詳細については、「混同行列」を参照してください。

    (オプション) 調教ジョブの出力結果を暗号化する場合は、[暗号化] を選択します。次に、現在のアカウントに関連付けられたKMSキーを使用するか、別のアカウントからキーを使用するかを選択します。

    • 現在のアカウントに関連付けられているキーを使用している場合は、キー KMS ID のキーエイリアスを選択します。

    • 別のアカウントに関連付けられたキーを使用している場合は、キーエイリアスまたはキー ID の ID ARNに を入力しますKMS

  15. IAM ロール で、既存のIAMロールを選択 を選択し、トレーニングドキュメントを含む S3 バケットの読み取りアクセス許可を持つ既存のIAMロールを選択します。ロールには、comprehend.amazonaws.comで始まる信頼ポリシーが必要です。

    これらのアクセス許可を持つ IAMロールがまだない場合は、ロールの作成を選択してIAMロールを作成します。このロールを付与するアクセス許可を選択し、名前のサフィックスを選択して、ロールとアカウントのIAMロールを区別します。

    注記

    暗号化された入力ドキュメントの場合、使用するIAMロールには アクセスkms:Decrypt許可も必要です。詳細については、「KMS 暗号化を使用するために必要なアクセス許可」を参照してください。

  16. (オプション) から Amazon Comprehend にリソースを起動するにはVPC、 の下に VPC ID を入力するVPCか、ドロップダウンリストから ID を選択します。

    1. [サブネット] でサブネットを選択します。最初のサブネットを選択すると、追加のサブネットを選択できます。

    2. セキュリティグループを指定した場合は、[セキュリティグループ] で、使用するセキュリティグループを選択します。最初のセキュリティグループを選択すると、追加のセキュリティグループを選択できます。

    注記

    分類ジョブVPCで を使用する場合、作成および開始オペレーションDataAccessRoleに使用される には、入力ドキュメントと出力バケットVPCにアクセスする に対するアクセス許可が必要です。

  17. (オプション) カスタム分類子にタグを追加するには、[タグ] にキーと値のペアを入力します。[タグを追加] を選択します。分類子を作成する前にこのペアを削除するには、[タグを削除] を選択します。詳細については、「リソースのタグ付け」を参照してください。

  18. [Create] (作成) を選択します。

コンソールに「分類子」ページが表示されます。新しい分類子が表で表示され、そのステータス Submitted が表示されます。分類子が調教文書の処理を開始すると、ステータスが Training に変わります。分類子が使用できるようになると、ステータスが Trained または Trained with warnings に変わります。ステータスが TRAINED_WITH_WARNINGS の場合、分類子の調教出力 のスキップしたファイルのフォルダを確認してください。

Amazon Comprehend の作成中または調教中にエラーが発生した場合、ステータスは In error に変わります。表中の分類子ジョブを選択すると、エラーメッセージを含む分類子に関する詳細情報を取得できます。

カスタム分類子リスト。