設定資料集 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定資料集

若要將標記的訓練或測試資料新增至飛輪,請使用 Amazon Comprehend 主控台或 API 來建立資料集。

您可以將每個資料集設定為訓練資料或測試資料。您可以將資料集與特定飛輪和自訂模型建立關聯。當您建立資料集時,Amazon Comprehend 會將資料上傳至飛輪的資料湖。如需訓練資料檔案格式的詳細資訊,請參閱 準備分類器訓練資料準備實體識別器訓練資料

當您刪除飛輪時,Amazon Comprehend 會刪除資料集。上傳的資料在資料湖中仍然可用。

建立資料集 (主控台)

建立資料集
  1. 登入 AWS Management Console 並開啟 Amazon Comprehend 主控台

  2. 從左側選單中,選擇飛輪,然後選擇您要新增資料的飛輪。

  3. 選擇資料集索引標籤。

  4. 訓練資料集測試資料集資料表中,選擇建立資料集

  5. 資料集詳細資訊下,輸入資料集的名稱和選用的描述。

  6. 資料規格下,選擇資料格式資料集類型組態欄位。

  7. (選用) 在輸入格式下,選擇輸入文件的格式。

  8. S3 的註釋位置下,輸入註釋檔案的 Amazon S3 位置。

  9. S3 的訓練資料位置下,輸入文件檔案的 Amazon S3 位置。

  10. 選擇 Create (建立)。

建立資料集 (API)

您可以使用 CreateDataset 操作來建立資料集。

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

inputConfig.json 檔案包含下列內容。

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

若要在資料集上新增或移除標籤,請使用 TagResourceUntagResource 操作。

描述資料集

使用 Amazon Comprehend DescribeDataset 操作來擷取有關飛輪的設定資訊。

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

回應包含下列內容。

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }