翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットの設定
ラベル付きのトレーニング用データまたはテスト用データをフライホイールに追加するには、Amazon Comprehend コンソールまたは API を使用してデータセットを作成します。
各データセットは、トレーニング用にもテスト用にも設定できます。 データセットは、特定のフライホイールおよびカスタムモデルに関連付けることができます。 データセットが作成されると、Amazon Comprehend はフライホイールのデータレイクにそのデータをアップロードします。 トレーニング用データのファイル形式の詳細については、「分類子調教データの作成」または「エンティティレコグナイザーのトレーニングデータの準備」を参照してください。
フライホイールが削除されると、Amazon Comprehend はデータセットを削除します。データレイクにアップロードされたデータは、引き続き利用できます。
データセットの作成 (コンソール)
データセットを作成する
-
にサインイン AWS Management Console し、Amazon Comprehend コンソール
を開きます。 -
左側のメニューから [フライホイール] を選択し、データを追加するフライホイールを選択します。
-
[データセット] タブを選択します。
-
[トレーニング用データセット] または [テスト用データセット] テーブルで、[データセットの作成] を選択します。
-
[データセットの詳細] で、データセットの名前とオプションの説明を入力します。
-
[データ仕様] で、データ形式およびデータセットタイプの設定フィールドを選択します。
-
(オプション) 入力形式では、入力文書の形式を選択できます。
-
[S3 上のアノテーションの場所] で、Amazon S3 上のアノテーションファイルの場所を入力します。
-
[S3 上のトレーニングデータの場所] で、Amazon S3 上のドキュメントファイルの場所を入力します。
-
[Create] (作成) を選択します。
データセットの作成 (API)
データセットは、CreateDataset オペレーションを使用して作成できます。
aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }
inputConfig.json
ファイルには次のコンテンツが含まれます。
{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }
データセットでタグを追加または削除するには、TagResource および UntagResource オペレーションを使用します。
データセットを記述します
Amazon Comprehend の DescribeDataset オペレーションを使用すると、フライホイールに関する設定情報を取得できます。
aws comprehend describe-dataset \ --dataset-arn "datasetARN"
レスポンスの内容は次のとおりです。
{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:
aws-region
:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }