

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Preparazione dei dati di addestramento del classificatore
<a name="prep-classifier-data"></a>

Per una classificazione personalizzata, si addestra il modello in modalità multiclasse o in modalità multietichetta. La modalità multiclasse associa una singola classe a ciascun documento. La modalità multi-etichetta associa una o più classi a ciascun documento. I formati dei file di input sono diversi per ogni modalità, quindi scegliete la modalità da utilizzare prima di creare i dati di allenamento. 

**Nota**  
La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

La classificazione personalizzata supporta modelli addestrati con documenti di testo semplice e modelli addestrati con documenti nativi (come PDF, Word o immagini). Per ulteriori informazioni sui modelli di classificazione e sui tipi di documenti supportati, vedere. [Modelli di classificazione della formazione](training-classifier-model.md)

Per preparare i dati per addestrare un modello di classificatore personalizzato: 

1. Identifica le classi che desideri che questo classificatore analizzi. Decidi quale modalità usare (multiclasse o multi-etichetta).

1. Decidi il tipo di modello di classificatore, in base al fatto che il modello sia destinato all'analisi di documenti di testo semplice o di documenti semistrutturati. 

1. Raccogli esempi di documenti per ciascuna classe. Per i requisiti minimi di formazione, consulta[Quote generali per la classificazione dei documenti](guidelines-and-limits.md#limits-class-general).

1. Per un modello in testo semplice, scegliete il formato del file di addestramento da utilizzare (file CSV o file manifesto aumentato). Per addestrare un modello di documento nativo, utilizzate sempre un file CSV. 

**Topics**
+ [Formati di file di formazione Classifier](prep-class-data-format.md)
+ [Modalità multiclasse](prep-classifier-data-multi-class.md)
+ [Modalità multi-etichetta](prep-classifier-data-multi-label.md)

# Formati di file di formazione Classifier
<a name="prep-class-data-format"></a>

Per un modello in testo semplice, puoi fornire i dati di addestramento del classificatore come file CSV o come file manifest aumentato creato utilizzando AI Ground Truth. SageMaker Il file CSV o file manifesto aumentato include il testo di ogni documento di formazione e le etichette associate.

Per un modello di documento nativo, fornisci i dati di formazione di Classifier come file CSV. Il file CSV include il nome del file per ogni documento di formazione e le etichette associate. Includi i documenti di formazione nella cartella di input di Amazon S3 per il lavoro di formazione.

## File CSV
<a name="prep-data-csv"></a>

Fornisci dati di allenamento etichettati come testo con codifica UTF-8 in un file CSV. Non includere una riga di intestazione. L'aggiunta di una riga di intestazione nel file può causare errori di runtime.

Per ogni riga del file CSV, la prima colonna contiene una o più etichette di classe. Un'etichetta di classe può essere qualsiasi stringa UTF-8 valida. Ti consigliamo di utilizzare nomi di classe chiari che non si sovrappongano nel significato. Il nome può includere spazi bianchi e può essere composto da più parole collegate da caratteri di sottolineatura o trattini.

Non lasciate spazi prima o dopo le virgole che separano i valori in una riga. 

Il contenuto esatto del file CSV dipende dalla modalità di classificazione e dal tipo di dati di allenamento. Per i dettagli, consulta le sezioni relative a [Modalità multiclasse](prep-classifier-data-multi-class.md) e. [Modalità multi-etichetta](prep-classifier-data-multi-label.md)

## File manifesto aumentato
<a name="prep-data-annotations"></a>

Un file manifest aumentato è un set di dati etichettato creato utilizzando AI Ground SageMaker Truth. Ground Truth è un servizio di etichettatura dei dati che aiuta te, o la forza lavoro che impieghi, a creare set di dati di formazione per modelli di apprendimento automatico. 

Per ulteriori informazioni su Ground Truth e sull'output che produce, consulta [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) nella *Amazon SageMaker AI Developer Guide*.

I file manifest aumentati sono in formato righe JSON. In questi file, ogni riga è un oggetto JSON completo che contiene un documento di formazione e le etichette associate. Il contenuto esatto di ogni riga dipende dalla modalità di classificazione. Per i dettagli, consulta le sezioni relative a [Modalità multiclasse](prep-classifier-data-multi-class.md) e[Modalità multi-etichetta](prep-classifier-data-multi-label.md).

Quando fornisci i dati di addestramento ad Amazon Comprehend, specifichi uno o più nomi di attributi dell'etichetta. Il numero di nomi di attributi che specifichi dipende dal fatto che il file manifesto aumentato sia l'output di un singolo processo di etichettatura o di un processo di etichettatura concatenato.

Se il file è l'output di un singolo lavoro di etichettatura, specifica il nome dell'attributo dell'etichetta singola dal lavoro Ground Truth. 

Se il file è l'output di un lavoro di etichettatura concatenato, specifica il nome dell'attributo di etichetta per uno o più lavori della catena. Il nome di ogni attributo dell'etichetta fornisce le annotazioni di un singolo lavoro. È possibile specificare fino a 5 di questi attributi per i file manifest aumentati provenienti da processi di etichettatura concatenati. 

Per ulteriori informazioni sui lavori di etichettatura concatenati e per esempi dei risultati che producono, consulta [Chaining Labeling Jobs nella](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) Amazon SageMaker AI Developer Guide.

# Modalità multiclasse
<a name="prep-classifier-data-multi-class"></a>

In modalità multiclasse, la classificazione assegna una classe per ogni documento. Le singole classi si escludono a vicenda. Ad esempio, puoi classificare un film come commedia o fantascienza, ma non entrambi. 

**Nota**  
La console Amazon Comprehend fa riferimento alla modalità multiclasse come modalità a etichetta singola.

**Topics**
+ [Modelli in testo semplice](#prep-multi-class-plaintext)
+ [Modelli di documenti nativi](#prep-multi-class-structured)

## Modelli in testo semplice
<a name="prep-multi-class-plaintext"></a>

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come file CSV o come file manifest aumentato da AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-class-plaintext-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a due colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene un documento di testo di esempio per quella classe. Ogni riga deve terminare con\$1no\$1 r\$1ncaratteri.

L'esempio seguente mostra un file CSV contenente tre documenti.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### File manifesto aumentato
<a name="prep-multi-class-plaintext-manifest"></a>

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. [File manifesto aumentato](prep-class-data-format.md#prep-data-annotations)

Per i documenti di testo semplice, ogni riga del file manifest aumentato è un oggetto JSON completo che contiene un documento di formazione, un nome di classe singolo e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a riconoscere i messaggi e-mail di spam:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 L'esempio seguente mostra un oggetto JSON del file manifest aumentato, formattato per la leggibilità: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

In questo esempio, l'`source`attributo fornisce il testo del documento di formazione e assegna l'`MultiClassJob`indice di una classe da un elenco di classificazione. L'`job-name`attributo è il nome che hai definito per il lavoro di etichettatura in Ground Truth. 

 Quando inizi il processo di formazione sui classificatori in Amazon Comprehend, specifichi lo stesso nome del processo di etichettatura. 

## Modelli di documenti nativi
<a name="prep-multi-class-structured"></a>

Un modello di documento nativo è un modello che si addestra con documenti nativi (come PDF, DOCX e immagini). I dati di addestramento vengono forniti come file CSV.

### File CSV
<a name="prep-multi-class-structured-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a tre colonne. Per ogni riga, la prima colonna contiene il valore dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per questa classe. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

L'esempio seguente mostra un file CSV che fa riferimento a tre documenti di input. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare se un messaggio di posta elettronica è spam. La pagina 2 del file PDF contiene l'esempio di spam. 

```
SPAM,email-content-3.pdf,2
```

# Modalità multi-etichetta
<a name="prep-classifier-data-multi-label"></a>

In modalità multietichetta, le singole classi rappresentano categorie diverse che non si escludono a vicenda. La classificazione multietichetta assegna una o più classi a ciascun documento. Ad esempio, puoi classificare un film come documentario e un altro film come fantascienza, azione e commedia. 

Per quanto riguarda la formazione, la modalità multi-etichetta supporta fino a 1 milione di esempi contenenti fino a 100 classi uniche.

**Topics**
+ [Modelli in testo semplice](#prep-multi-label-plaintext)
+ [Modelli di documenti nativi](#prep-multi-label-structured)

## Modelli in testo semplice
<a name="prep-multi-label-plaintext"></a>

Per addestrare un modello in testo semplice, puoi fornire dati di addestramento etichettati come file CSV o come file manifest aumentato da AI Ground Truth. SageMaker 

### File CSV
<a name="prep-multi-label-plaintext-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a due colonne. Per ogni riga, la prima colonna contiene i valori delle etichette delle classi e la seconda contiene un documento di testo di esempio per queste classi. Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un \$1) tra ogni classe.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare i generi negli abstract dei film:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Il delimitatore predefinito tra i nomi delle classi è una pipe (\$1). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. **Ad esempio, se le classi sono CLASS\$11, CLASS\$12 e CLASS\$13, il carattere di sottolineatura (\$1) fa parte del nome della classe.** Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.

### File manifesto aumentato
<a name="prep-multi-label-plaintext-manifest"></a>

Per informazioni generali sull'utilizzo dei file manifest aumentati per i classificatori di addestramento, vedere. [File manifesto aumentato](prep-class-data-format.md#prep-data-annotations)

Per i documenti in testo semplice, ogni riga del file manifest aumentato è un oggetto JSON completo. Contiene un documento di formazione, i nomi delle classi e altri metadati di Ground Truth. L'esempio seguente è un file manifest aumentato per addestrare un classificatore personalizzato a rilevare i generi negli abstract dei film:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 L'esempio seguente mostra un oggetto JSON del file manifest aumentato, formattato per la leggibilità: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

In questo esempio, l'`source`attributo fornisce il testo del documento di formazione e assegna gli `MultiLabelJob` indici di diverse classi da un elenco di classificazione. Il nome del lavoro nei `MultiLabelJob` metadati è il nome che hai definito per il lavoro di etichettatura in Ground Truth. 

## Modelli di documenti nativi
<a name="prep-multi-label-structured"></a>

Un modello di documento nativo è un modello che si addestra con documenti nativi (come PDF, DOCX e file di immagine). Fornisci dati di addestramento etichettati come file CSV.

### File CSV
<a name="prep-multi-label-structured-csv"></a>

Per informazioni generali sull'utilizzo dei file CSV per i classificatori di formazione, consulta. [File CSV](prep-class-data-format.md#prep-data-csv)

Fornisci i dati di formazione come file CSV a tre colonne. Per ogni riga, la prima colonna contiene i valori dell'etichetta della classe. La seconda colonna contiene il nome di file di un documento di esempio per queste classi. La terza colonna contiene il numero di pagina. Il numero di pagina è facoltativo se il documento di esempio è un'immagine.

Per inserire più di una classe nella prima colonna, utilizzate un delimitatore (ad esempio un \$1) tra ogni classe.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

L'esempio seguente mostra una riga di un file CSV che addestra un classificatore personalizzato per rilevare i generi negli abstract dei film. La pagina 2 del file PDF contiene l'esempio di un film. comedy/teen 

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Il delimitatore predefinito tra i nomi delle classi è una pipe (\$1). Tuttavia, è possibile utilizzare un carattere diverso come delimitatore. Il delimitatore deve essere distinto da tutti i caratteri dei nomi delle classi. **Ad esempio, se le classi sono CLASS\$11, CLASS\$12 e CLASS\$13, il carattere di sottolineatura (\$1) fa parte del nome della classe.** Quindi non usate un carattere di sottolineatura come delimitatore per separare i nomi delle classi.