データセットの設定 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットの設定

ラベル付きのトレーニング用データまたはテスト用データをフライホイールに追加するには、Amazon Comprehend コンソールまたは API を使用してデータセットを作成します。 

各データセットは、トレーニング用にもテスト用にも設定できます。  データセットは、特定のフライホイールおよびカスタムモデルに関連付けることができます。  データセットが作成されると、Amazon Comprehend はフライホイールのデータレイクにそのデータをアップロードします。  トレーニング用データのファイル形式の詳細については、「分類子調教データの作成」または「エンティティレコグナイザーのトレーニングデータの準備」を参照してください。

フライホイールが削除されると、Amazon Comprehend はデータセットを削除します。データレイクにアップロードされたデータは、引き続き利用できます。

データセットの作成 (コンソール)

データセットを作成する
  1. にサインイン AWS Management Console し、Amazon Comprehend コンソールを開きます。

  2. 左側のメニューから [フライホイール] を選択し、データを追加するフライホイールを選択します。

  3. [データセット] タブを選択します。

  4. [トレーニング用データセット] または [テスト用データセット] テーブルで、[データセットの作成] を選択します。

  5. [データセットの詳細] で、データセットの名前とオプションの説明を入力します。

  6. [データ仕様] で、データ形式およびデータセットタイプの設定フィールドを選択します。

  7. (オプション) 入力形式では、入力文書の形式を選択できます。

  8. [S3 上のアノテーションの場所] で、Amazon S3 上のアノテーションファイルの場所を入力します。

  9. [S3 上のトレーニングデータの場所] で、Amazon S3 上のドキュメントファイルの場所を入力します。

  10. [Create] (作成) を選択します。

データセットの作成 (API)

データセットは、CreateDataset オペレーションを使用して作成できます。

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json ファイルには次のコンテンツが含まれます。

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

データセットでタグを追加または削除するには、TagResource および UntagResource オペレーションを使用します。

データセットを記述します

Amazon Comprehend の DescribeDataset オペレーションを使用すると、フライホイールに関する設定情報を取得できます。

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

レスポンスの内容は次のとおりです。

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }