

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Préparation des données d'entraînement du classificateur
<a name="prep-classifier-data"></a>

Pour une classification personnalisée, vous entraînez le modèle en mode multi-classes ou en mode multi-étiquettes. Le mode multi-classes associe une seule classe à chaque document. Le mode multi-étiquettes associe une ou plusieurs classes à chaque document. Les formats de fichier d'entrée étant différents pour chaque mode, choisissez le mode à utiliser avant de créer les données d'entraînement. 

**Note**  
La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

La classification personnalisée prend en charge les modèles que vous entraînez avec des documents en texte brut et les modèles que vous entraînez avec des documents natifs (tels que PDF, Word ou images). Pour plus d'informations sur les modèles de classificateur et les types de documents pris en charge, consultez[Modèles de classification des formations](training-classifier-model.md).

Pour préparer les données afin d'entraîner un modèle de classificateur personnalisé, procédez comme suit : 

1. Identifiez les classes que vous souhaitez que ce classificateur analyse. Décidez quel mode utiliser (multi-classes ou multi-étiquettes).

1. Choisissez le type de modèle de classificateur, selon que le modèle est destiné à l'analyse de documents en texte brut ou de documents semi-structurés. 

1. Rassemblez des exemples de documents pour chacune des classes. Pour les exigences de formation minimales, voir[Quotas généraux pour le classement des documents](guidelines-and-limits.md#limits-class-general).

1. Pour un modèle en texte brut, choisissez le format de fichier de formation à utiliser (fichier CSV ou fichier manifeste augmenté). Pour entraîner un modèle de document natif, vous devez toujours utiliser un fichier CSV. 

**Topics**
+ [Formats de fichiers d'entraînement du classificateur](prep-class-data-format.md)
+ [Mode multi-classes](prep-classifier-data-multi-class.md)
+ [Mode multi-étiquettes](prep-classifier-data-multi-label.md)

# Formats de fichiers d'entraînement du classificateur
<a name="prep-class-data-format"></a>

Pour un modèle en texte brut, vous pouvez fournir les données d'entraînement du classificateur sous forme de fichier CSV ou de fichier manifeste augmenté que vous créez à l'aide d'AI Ground SageMaker Truth. Le fichier CSV ou le fichier manifeste augmenté inclut le texte de chaque document de formation et ses étiquettes associées.

Pour un modèle de document natif, vous fournissez les données d'entraînement de Classifier sous forme de fichier CSV. Le fichier CSV inclut le nom de fichier de chaque document de formation, ainsi que les libellés associés. Vous incluez les documents de formation dans le dossier de saisie Amazon S3 correspondant à la tâche de formation.

## fichiers CSV
<a name="prep-data-csv"></a>

Vous fournissez des données d'entraînement étiquetées sous forme de texte codé en UTF-8 dans un fichier CSV. N'incluez pas de ligne d'en-tête. L'ajout d'une ligne d'en-tête dans votre fichier peut provoquer des erreurs d'exécution.

Pour chaque ligne du fichier CSV, la première colonne contient une ou plusieurs étiquettes de classe. Une étiquette de classe peut être n'importe quelle chaîne UTF-8 valide. Nous vous recommandons d'utiliser des noms de classe clairs dont la signification ne se chevauche pas. Le nom peut inclure des espaces blancs et peut être composé de plusieurs mots reliés par des traits de soulignement ou des traits d'union.

Ne laissez aucun espace avant ou après les virgules séparant les valeurs d'une ligne. 

Le contenu exact du fichier CSV dépend du mode de classification et du type de données d'entraînement. Pour plus de détails, consultez les sections sur [Mode multi-classes](prep-classifier-data-multi-class.md) et[Mode multi-étiquettes](prep-classifier-data-multi-label.md).

## Fichier manifeste augmenté
<a name="prep-data-annotations"></a>

Un fichier manifeste augmenté est un ensemble de données étiqueté que vous créez à l'aide d' SageMaker AI Ground Truth. Ground Truth est un service d'étiquetage des données qui vous aide, ou qui aide le personnel que vous employez, à créer des ensembles de données de formation pour les modèles d'apprentissage automatique. 

Pour plus d'informations sur Ground Truth et les résultats qu'il produit, consultez la section [Utiliser SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) dans le manuel *Amazon SageMaker AI Developer Guide*.

Les fichiers manifestes augmentés sont au format de lignes JSON. Dans ces fichiers, chaque ligne est un objet JSON complet qui contient un document de formation et ses étiquettes associées. Le contenu exact de chaque ligne dépend du mode de classification. Pour plus de détails, consultez les sections sur [Mode multi-classes](prep-classifier-data-multi-class.md) et[Mode multi-étiquettes](prep-classifier-data-multi-label.md).

Lorsque vous fournissez vos données de formation à Amazon Comprehend, vous spécifiez un ou plusieurs noms d'attributs d'étiquette. Le nombre de noms d'attributs que vous spécifiez varie selon que votre fichier manifeste augmenté est le résultat d'une tâche d'étiquetage unique ou d'une tâche d'étiquetage en chaîne.

Si votre fichier est le résultat d'une seule tâche d'étiquetage, spécifiez le nom de l'attribut d'étiquette unique issu de la tâche Ground Truth. 

Si votre fichier est le résultat d'une tâche d'étiquetage en chaîne, spécifiez le nom de l'attribut d'étiquette pour une ou plusieurs tâches de la chaîne. Chaque nom d'attribut d'étiquette fournit les annotations d'une tâche individuelle. Vous pouvez spécifier jusqu'à 5 de ces attributs pour les fichiers manifestes augmentés issus de tâches d'étiquetage en chaîne. 

Pour plus d'informations sur les tâches d'étiquetage en chaîne et pour obtenir des exemples des résultats qu'elles produisent, consultez la section [Chaining Labeling Jobs](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) dans le manuel Amazon SageMaker AI Developer Guide.

# Mode multi-classes
<a name="prep-classifier-data-multi-class"></a>

En mode multiclasse, la classification attribue une classe à chaque document. Les cours individuels s'excluent mutuellement. Par exemple, vous pouvez classer un film dans la catégorie comédie ou science-fiction, mais pas dans les deux catégories. 

**Note**  
La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

**Topics**
+ [Modèles en texte brut](#prep-multi-class-plaintext)
+ [Modèles de documents natifs](#prep-multi-class-structured)

## Modèles en texte brut
<a name="prep-multi-class-plaintext"></a>

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de fichier CSV ou de fichier manifeste augmenté à partir d' SageMaker AI Ground Truth.

### Fichier CSV
<a name="prep-multi-class-plaintext-csv"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultez[fichiers CSV](prep-class-data-format.md#prep-data-csv).

Fournissez les données d'entraînement sous forme de fichier CSV à deux colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient un exemple de document texte pour cette classe. Chaque ligne doit se terminer par \$1 n ou \$1 r\$1ncaractères.

L'exemple suivant montre un fichier CSV contenant trois documents.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam :

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### Fichier manifeste augmenté
<a name="prep-multi-class-plaintext-manifest"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultez[Fichier manifeste augmenté](prep-class-data-format.md#prep-data-annotations).

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet JSON complet qui contient un document de formation, un nom de classe unique et d'autres métadonnées provenant de Ground Truth. L'exemple suivant est un fichier manifeste augmenté destiné à entraîner un classificateur personnalisé à reconnaître les spams :

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 L'exemple suivant montre un objet JSON issu du fichier manifeste augmenté, formaté dans un souci de lisibilité : 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

Dans cet exemple, l'`source`attribut fournit le texte du document de formation, et l'`MultiClassJob`attribut attribue l'index d'une classe à partir d'une liste de classification. L'`job-name`attribut est le nom que vous avez défini pour la tâche d'étiquetage dans Ground Truth. 

 Lorsque vous démarrez la tâche de formation au classificateur dans Amazon Comprehend, vous spécifiez le même nom de tâche d'étiquetage. 

## Modèles de documents natifs
<a name="prep-multi-class-structured"></a>

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels que PDF, DOCX et images). Vous fournissez les données d'entraînement sous forme de fichier CSV.

### Fichier CSV
<a name="prep-multi-class-structured-csv"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultez[fichiers CSV](prep-class-data-format.md#prep-data-csv).

Fournissez les données d'entraînement sous forme de fichier CSV à trois colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour cette classe. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

L'exemple suivant montre un fichier CSV qui fait référence à trois documents d'entrée. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam. La page 2 du fichier PDF contient l'exemple de spam. 

```
SPAM,email-content-3.pdf,2
```

# Mode multi-étiquettes
<a name="prep-classifier-data-multi-label"></a>

En mode multi-étiquettes, les classes individuelles représentent différentes catégories qui ne s'excluent pas mutuellement. La classification à étiquettes multiples attribue une ou plusieurs classes à chaque document. Par exemple, vous pouvez classer un film en tant que documentaire et un autre en tant que film de science-fiction, d'action et de comédie. 

Pour la formation, le mode multi-étiquettes prend en charge jusqu'à 1 million d'exemples contenant jusqu'à 100 classes uniques.

**Topics**
+ [Modèles en texte brut](#prep-multi-label-plaintext)
+ [Modèles de documents natifs](#prep-multi-label-structured)

## Modèles en texte brut
<a name="prep-multi-label-plaintext"></a>

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de fichier CSV ou de fichier manifeste augmenté à partir d' SageMaker AI Ground Truth.

### Fichier CSV
<a name="prep-multi-label-plaintext-csv"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultez[fichiers CSV](prep-class-data-format.md#prep-data-csv).

Fournissez les données d'entraînement sous forme de fichier CSV à deux colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe, et la seconde contient un exemple de document texte pour ces classes. Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un \$1) entre chaque classe.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films :

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Le séparateur par défaut entre les noms de classes est un tube (\$1). Toutefois, vous pouvez utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères de vos noms de classe. Par exemple, si vos classes sont CLASS\$11, CLASS\$12 et CLASS\$13, le trait de soulignement (**\$1**) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme délimiteur pour séparer les noms de classe.

### Fichier manifeste augmenté
<a name="prep-multi-label-plaintext-manifest"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultez[Fichier manifeste augmenté](prep-class-data-format.md#prep-data-annotations).

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet JSON complet. Il contient un document de formation, des noms de classes et d'autres métadonnées de Ground Truth. L'exemple suivant est un fichier manifeste augmenté permettant d'entraîner un classificateur personnalisé à détecter les genres dans les résumés de films :

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 L'exemple suivant montre un objet JSON issu du fichier manifeste augmenté, formaté dans un souci de lisibilité : 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

Dans cet exemple, l'`source`attribut fournit le texte du document de formation et `MultiLabelJob` attribue les index de plusieurs classes à partir d'une liste de classification. Le nom de tâche indiqué dans les `MultiLabelJob` métadonnées est le nom que vous avez défini pour le travail d'étiquetage dans Ground Truth. 

## Modèles de documents natifs
<a name="prep-multi-label-structured"></a>

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels que des fichiers PDF, DOCX et images). Vous fournissez des données d'entraînement étiquetées sous forme de fichier CSV.

### Fichier CSV
<a name="prep-multi-label-structured-csv"></a>

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultez[fichiers CSV](prep-class-data-format.md#prep-data-csv).

Fournissez les données d'entraînement sous forme de fichier CSV à trois colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour ces classes. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un \$1) entre chaque classe.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films. La page 2 du fichier PDF contient un exemple de comedy/teen film.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Le séparateur par défaut entre les noms de classes est un tube (\$1). Toutefois, vous pouvez utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères de vos noms de classe. Par exemple, si vos classes sont CLASS\$11, CLASS\$12 et CLASS\$13, le trait de soulignement (**\$1**) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme délimiteur pour séparer les noms de classe.