Configurazione dei set di dati - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione dei set di dati

Per aggiungere dati di addestramento o test etichettati a un volano, usa la console o l'API Amazon Comprehend per creare un set di dati.

Puoi configurare ogni set di dati come dati di addestramento o dati di test. Il set di dati viene associato a un volano specifico e a un modello personalizzato. Quando crei un set di dati, Amazon Comprehend carica i dati nel data lake del flywheel. Per dettagli sui formati di file per i dati di addestramento, consulta o. Preparazione dei dati di addestramento del classificatore Preparazione dei dati di formazione di Entity Recognizer

Quando elimini il flywheel, Amazon Comprehend elimina i set di dati. I dati caricati rimangono disponibili nel data lake.

Creazione di un set di dati (console)

Crea un set di dati
  1. Accedi AWS Management Console e apri la console Amazon Comprehend.

  2. Dal menu a sinistra, scegli Flywheels e scegli il volano a cui desideri aggiungere i dati.

  3. Scegli la scheda Datasets.

  4. Nella tabella Set di dati di addestramento o Set di dati di test, scegli Crea set di dati.

  5. In Dettagli del set di dati, inserisci un nome per il set di dati e una descrizione opzionale.

  6. In Specifiche dei dati, scegli i campi Formato dati e Configurazione del tipo di set di dati.

  7. (Facoltativo) In Formato di input, scegliete il formato dei documenti di input.

  8. In Posizione delle annotazioni su S3, inserisci la posizione Amazon S3 del file delle annotazioni.

  9. In Posizione dei dati di formazione su S3, inserisci la posizione Amazon S3 dei file dei documenti.

  10. Scegli Crea.

Creazione di un set di dati (API)

È possibile utilizzare l'CreateDatasetoperazione per creare un set di dati.

aws comprehend create-dataset \ --flywheel-arn "myFlywheel2" \ --dataset-name "my-training-dataset" --dataset-type "TRAIN" --description "my training dataset" --cli-input-json file://inputConfig.json }

Il file inputConfig.json contiene il seguente contenuto.

{ "DataFormat": "COMPREHEND_CSV", "DocumentClassifierInputDataConfig": { "S3Uri": "s3://my-comprehend-datasets/multilabel_train.csv" } }

Per aggiungere o rimuovere tag sul set di dati, usa le operazioni TagResourceand UntagResource.

Descrivi un set di dati

Usa l'DescribeDatasetoperazione Amazon Comprehend per recuperare informazioni configurate su un volano.

aws comprehend describe-dataset \ --dataset-arn "datasetARN"

La risposta contiene il seguente contenuto.

{ "DatasetProperties": { "DatasetArn": "arn:aws::comprehend:aws-region:111122223333:flywheel/myTestFlywheel/dataset/train-dataset", "DatasetName": "train-dataset", "DatasetType": "TRAIN", "DatasetS3Uri": "s3://my-test-datalake/flywheelbasictest/myTestFlywheel/schemaVersion=1/20220801T014326Z/datasets/train-dataset/20220801T194844Z", "Description": "Good Dataset", "Status": "COMPLETED", "NumberOfDocuments": 90, "CreationTime": 1659383324.297 } }