本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定資料集
若要將標記的訓練或測試資料新增至飛輪,請使用 Amazon Comprehend 主控台或 API 來建立資料集。
您可以將每個資料集設定為訓練資料或測試資料。您可以將資料集與特定飛輪和自訂模型建立關聯。當您建立資料集時,Amazon Comprehend 會將資料上傳至飛輪的資料湖。如需訓練資料檔案格式的詳細資訊,請參閱 準備分類器訓練資料或 準備實體識別器訓練資料。
當您刪除飛輪時,Amazon Comprehend 會刪除資料集。上傳的資料在資料湖中仍然可用。
建立資料集 (主控台)
建立資料集
-
登入 AWS Management Console 並開啟 Amazon Comprehend 主控台
。 -
從左側選單中,選擇飛輪,然後選擇您要新增資料的飛輪。
-
選擇資料集索引標籤。
-
在訓練資料集或測試資料集資料表中,選擇建立資料集。
-
在資料集詳細資訊下,輸入資料集的名稱和選用的描述。
-
在資料規格下,選擇資料格式和資料集類型組態欄位。
-
(選用) 在輸入格式下,選擇輸入文件的格式。
-
在 S3 的註釋位置下,輸入註釋檔案的 Amazon S3 位置。
-
在 S3 的訓練資料位置下,輸入文件檔案的 Amazon S3 位置。
-
選擇 Create (建立)。
建立資料集 (API)
您可以使用 CreateDataset 操作來建立資料集。
aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }
inputConfig.json
檔案包含下列內容。
{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }
若要在資料集上新增或移除標籤,請使用 TagResource 和 UntagResource 操作。
描述資料集
使用 Amazon Comprehend DescribeDataset 操作來擷取有關飛輪的設定資訊。
aws comprehend describe-dataset \ --dataset-arn "datasetARN"
回應包含下列內容。
{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:
aws-region
:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }