Formati di file di formazione Classifier

Per un modello in testo semplice, puoi fornire i dati di addestramento del classificatore come file CSV o come file manifest aumentato creato utilizzando AI Ground Truth. SageMaker Il file CSV o file manifesto aumentato include il testo di ogni documento di formazione e le etichette associate.

Per un modello di documento nativo, fornisci i dati di formazione di Classifier come file CSV. Il file CSV include il nome del file per ogni documento di formazione e le etichette associate. Includi i documenti di formazione nella cartella di input di Amazon S3 per il lavoro di formazione.

File CSV

Fornisci dati di allenamento etichettati come testo UTF-8 codificato in un file CSV. Non includere una riga di intestazione. L'aggiunta di una riga di intestazione nel file può causare errori di runtime.

Per ogni riga del file CSV, la prima colonna contiene una o più etichette di classe. Un'etichetta di classe può essere qualsiasi stringa valida UTF-8 . Ti consigliamo di utilizzare nomi di classe chiari che non si sovrappongano nel significato. Il nome può includere spazi bianchi e può essere composto da più parole collegate da caratteri di sottolineatura o trattini.

Non lasciate spazi prima o dopo le virgole che separano i valori in una riga.

Il contenuto esatto del file CSV dipende dalla modalità di classificazione e dal tipo di dati di allenamento. Per i dettagli, consulta le sezioni relative a Multi-class modalità e. Multi-label modalità

File manifesto aumentato

Un file manifest aumentato è un set di dati etichettato creato utilizzando AI Ground SageMaker Truth. Ground Truth è un servizio di etichettatura dei dati che aiuta te, o la forza lavoro che impieghi, a creare set di dati di formazione per modelli di apprendimento automatico.

Per ulteriori informazioni su Ground Truth e sull'output che produce, consulta Use SageMaker AI Ground Truth to Label Data nella Amazon SageMaker AI Developer Guide.

I file manifest aumentati sono in formato righe JSON. In questi file, ogni riga è un oggetto JSON completo che contiene un documento di formazione e le etichette associate. Il contenuto esatto di ogni riga dipende dalla modalità di classificazione. Per i dettagli, consulta le sezioni relative a Multi-class modalità eMulti-label modalità.

Quando fornisci i dati di addestramento ad Amazon Comprehend, specifichi uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.

Se il file è l'output di un singolo lavoro di etichettatura, specifica il nome dell'attributo dell'etichetta singola dal lavoro Ground Truth.

Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo di etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati provenienti da processi di etichettatura concatenati.

Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dei risultati che producono, consulta Chaining Labeling Jobs nella Amazon SageMaker AI Developer Guide.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Preparazione dei dati di allenamento

Multi-class modalità