Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione dei set di dati
Per aggiungere dati di addestramento o test etichettati a un volano, usa la console o l'API Amazon Comprehend per creare un set di dati.
Puoi configurare ogni set di dati come dati di addestramento o dati di test. Il set di dati viene associato a un volano specifico e a un modello personalizzato. Quando crei un set di dati, Amazon Comprehend carica i dati nel data lake del flywheel. Per dettagli sui formati di file per i dati di addestramento, consulta o. Preparazione dei dati di addestramento del classificatore Preparazione dei dati di formazione di Entity Recognizer
Quando elimini il flywheel, Amazon Comprehend elimina i set di dati. I dati caricati rimangono disponibili nel data lake.
Creazione di un set di dati (console)
Crea un set di dati
-
Accedi AWS Management Console e apri la console Amazon Comprehend
. -
Dal menu a sinistra, scegli Flywheels e scegli il volano a cui desideri aggiungere i dati.
-
Scegli la scheda Datasets.
-
Nella tabella Set di dati di addestramento o Set di dati di test, scegli Crea set di dati.
-
In Dettagli del set di dati, inserisci un nome per il set di dati e una descrizione opzionale.
-
In Specifiche dei dati, scegli i campi Formato dati e Configurazione del tipo di set di dati.
-
(Facoltativo) In Formato di input, scegliete il formato dei documenti di input.
-
In Posizione delle annotazioni su S3, inserisci la posizione Amazon S3 del file delle annotazioni.
-
In Posizione dei dati di formazione su S3, inserisci la posizione Amazon S3 dei file dei documenti.
-
Scegli Crea.
Creazione di un set di dati (API)
È possibile utilizzare l'CreateDatasetoperazione per creare un set di dati.
aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }
Il file inputConfig.json
contiene il seguente contenuto.
{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }
Per aggiungere o rimuovere tag sul set di dati, usa le operazioni TagResourceand UntagResource.
Descrivi un set di dati
Usa l'DescribeDatasetoperazione Amazon Comprehend per recuperare informazioni configurate su un volano.
aws comprehend describe-dataset \ --dataset-arn "datasetARN"
La risposta contiene il seguente contenuto.
{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:
aws-region
:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }