Classifier: formati di file di addestramento - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Classifier: formati di file di addestramento

Per un modello in testo semplice, puoi fornire i dati di addestramento dei classificatori come CSV file o come file manifest aumentato creato utilizzando AI Ground Truth. SageMaker Il CSV file o file manifesto aumentato include il testo di ogni documento di formazione e le etichette associate.

Per un modello di documento nativo, fornite i dati di addestramento di Classifier come CSV file. Il CSV file include il nome di ogni documento di formazione e le etichette associate. Includi i documenti di formazione nella cartella di input di Amazon S3 per il lavoro di formazione.

CSVfile

Fornisci dati di addestramento etichettati come testo codificato UTF -8 in un CSV file. Non includere una riga di intestazione. L'aggiunta di una riga di intestazione nel file può causare errori di runtime.

Per ogni riga del CSV file, la prima colonna contiene una o più etichette di classe. Un'etichetta di classe può essere una qualsiasi stringa UTF -8 valida. Ti consigliamo di utilizzare nomi di classe chiari che non si sovrappongano nel significato. Il nome può includere spazi bianchi e può essere composto da più parole collegate da caratteri di sottolineatura o trattini.

Non lasciate spazi prima o dopo le virgole che separano i valori in una riga.

Il contenuto esatto del CSV file dipende dalla modalità di classificazione e dal tipo di dati di allenamento. Per i dettagli, consulta le sezioni relative a Modalità multiclasse eModalità multi-etichetta.

File manifesto aumentato

Un file manifest aumentato è un set di dati etichettato creato utilizzando AI Ground SageMaker Truth. Ground Truth è un servizio di etichettatura dei dati che aiuta te, o la forza lavoro che impieghi, a creare set di dati di formazione per modelli di apprendimento automatico.

Per ulteriori informazioni su Ground Truth e sull'output che produce, consulta Use SageMaker AI Ground Truth to Label Data nella Amazon SageMaker AI Developer Guide.

I file manifest aumentati sono in formato JSON righe. In questi file, ogni riga è un JSON oggetto completo che contiene un documento di formazione e le etichette associate. Il contenuto esatto di ogni riga dipende dalla modalità di classificazione. Per i dettagli, consulta le sezioni relative a Modalità multiclasse eModalità multi-etichetta.

Quando fornisci i dati di addestramento ad Amazon Comprehend, specifichi uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.

Se il file è l'output di un singolo lavoro di etichettatura, specifica il nome dell'attributo dell'etichetta singola dal lavoro Ground Truth.

Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo di etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati provenienti da processi di etichettatura concatenati.

Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dei risultati che producono, consulta Chaining Labeling Jobs nella Amazon SageMaker AI Developer Guide.