

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Preparación de los datos de entrenamiento del clasificador
<a name="prep-classifier-data"></a>

Para una clasificación personalizada, se entrena el modelo en modo multiclase o en modo multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento. Los formatos de archivo de entrada son diferentes para cada modo, por lo que debe elegir el modo que desea utilizar antes de crear los datos de entrenamiento. 

**nota**  
La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.

La clasificación personalizada admite los modelos que se entrenan con documentos de texto sin formato y los modelos que se entrenan con documentos nativos (como PDF, Word o imágenes). Para obtener más información sobre los modelos de clasificadores y los tipos de documentos compatibles, consulte [Modelos de clasificación de entrenamiento](training-classifier-model.md).

Cómo preparar los datos para entrenar un modelo de clasificador personalizado: 

1. Identifique las clases que desea que analice este clasificador. Decida qué modo utilizar (multiclase o multietiqueta).

1. Decida el tipo de modelo de clasificador, en función de si el modelo es para analizar documentos de texto sin formato o documentos semiestructurados. 

1. Reúna ejemplos de documentos para cada una de las clases. Para conocer los requisitos mínimos del entrenamiento, consulte [Cuotas generales para la clasificación de documentos](guidelines-and-limits.md#limits-class-general).

1. Para un modelo de texto sin formato, elija el formato de archivo de entrenamiento que desee utilizar (archivo CSV o archivo de manifiesto aumentado). Para entrenar un modelo de documento nativo, siempre debe utilizar un archivo CSV. 

**Topics**
+ [Formatos de archivos de entrenamiento del clasificador](prep-class-data-format.md)
+ [Modo multiclase](prep-classifier-data-multi-class.md)
+ [Modo multietiqueta](prep-classifier-data-multi-label.md)

# Formatos de archivos de entrenamiento del clasificador
<a name="prep-class-data-format"></a>

Para un modelo de texto sin formato, puedes proporcionar los datos de entrenamiento del clasificador como un archivo CSV o como un archivo de manifiesto aumentado que crees con AI Ground SageMaker Truth. El archivo CSV o el archivo de manifiesto aumentado incluyen el texto de cada documento de entrenamiento y sus etiquetas asociadas.

En el caso de un modelo de documento nativo, los datos de entrenamiento del clasificador se proporcionan en un archivo CSV. El archivo CSV incluye el nombre de archivo de cada documento de entrenamiento y sus etiquetas asociadas. Debe incluir los documentos de entrenamiento en la carpeta de entrada de Amazon S3 para el trabajo de entrenamiento.

## Archivo CSV
<a name="prep-data-csv"></a>

Los datos de entrenamiento etiquetados se proporcionan como texto codificado en UTF-8 en un archivo CSV. No incluya una fila de encabezado. Agregar una fila de encabezado al archivo puede provocar errores en el tiempo de ejecución.

Para cada fila del archivo CSV, la primera columna contiene una o más etiquetas de clase. Una etiqueta de clase puede ser cualquier cadena UTF-8 válida. Recomendamos utilizar nombres de clase claros y donde no se superpongan en sus significados. El nombre puede incluir espacios en blanco y puede consistir en varias palabras conectadas por guiones bajos o guiones.

No deje ningún espacio antes o después de las comas que separan los valores de una fila. 

El contenido exacto del archivo CSV depende del modo de clasificación y del tipo de datos de entrenamiento. Para obtener más información, consulte las secciones en [Modo multiclase](prep-classifier-data-multi-class.md) y [Modo multietiqueta](prep-classifier-data-multi-label.md).

## Archivo de manifiesto aumentado
<a name="prep-data-annotations"></a>

Un archivo de manifiesto aumentado es un conjunto de datos etiquetado que se crea con SageMaker AI Ground Truth. Ground Truth es un servicio de etiquetado de datos que le ayuda a usted —o al personal que emplee— a crear conjuntos de datos de entrenamiento para modelos de machine learning. 

Para obtener más información sobre Ground Truth y los resultados que produce, consulte [Use SageMaker AI Ground Truth para etiquetar datos](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) en la *Guía para desarrolladores de Amazon SageMaker AI*.

Los archivos de manifiesto aumentados están en formato de líneas JSON. En estos archivos, cada línea es un objeto JSON completo que contiene un documento de entrenamiento y sus etiquetas asociadas. El contenido exacto de cada línea depende del modo del clasificador. Para obtener más información, consulte las secciones en [Modo multiclase](prep-classifier-data-multi-class.md) y [Modo multietiqueta](prep-classifier-data-multi-label.md).

Cuando proporciona sus datos de entrenamiento a Amazon Comprehend, especifica uno o más nombres de atributos de etiqueta. El número de nombres de atributos que especifique depende de si el archivo de manifiesto aumentado es el resultado de un único trabajo de etiquetado o de un trabajo de etiquetado encadenado.

Si el archivo es el resultado de un único trabajo de etiquetado, especifique el nombre del atributo de etiqueta único del trabajo Ground Truth. 

Si el archivo es el resultado de un trabajo de etiquetado encadenado, especifique el nombre del atributo de etiqueta para uno o más trabajos de la cadena. Cada nombre de atributo de etiqueta proporciona las anotaciones de un trabajo individual. Puede especificar hasta cinco de estos atributos para los archivos de manifiesto aumentados procedentes de trabajos de etiquetado encadenados. 

Para obtener más información sobre los trabajos de etiquetado encadenado y ver ejemplos del resultado que producen, consulte [Chaining Labeling Jobs](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) en la Guía para desarrolladores de Amazon SageMaker AI.

# Modo multiclase
<a name="prep-classifier-data-multi-class"></a>

En el modo multiclase, la clasificación asigna una clase a cada documento. Las clases individuales se excluyen mutuamente. Por ejemplo, puede clasificar una película como comedia o ciencia ficción, pero no ambas. 

**nota**  
La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.

**Topics**
+ [Modelos de texto sin formato](#prep-multi-class-plaintext)
+ [Modelos de documentos nativos](#prep-multi-class-structured)

## Modelos de texto sin formato
<a name="prep-multi-class-plaintext"></a>

Para entrenar un modelo de texto sin formato, puedes proporcionar datos de entrenamiento etiquetados como un archivo CSV o como un archivo de manifiesto aumentado de SageMaker AI Ground Truth.

### archivo CSV
<a name="prep-multi-class-plaintext-csv"></a>

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte [Archivo CSV](prep-class-data-format.md#prep-data-csv).

Proporcione los datos de entrenamiento en un archivo CSV de dos columnas. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene un documento de texto de ejemplo para esa clase. Cada fila debe terminar con caracteres \$1n o \$1r\$1n.

El siguiente ejemplo muestra un archivo CSV que contiene tres documentos.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

El siguiente ejemplo muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar si un mensaje de correo electrónico es correo no deseado:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### Archivo de manifiesto aumentado
<a name="prep-multi-class-plaintext-manifest"></a>

Para obtener información general sobre el uso de archivos de manifiesto aumentados para entrenar clasificadores, consulte [Archivo de manifiesto aumentado](prep-class-data-format.md#prep-data-annotations).

En el caso de los documentos de texto sin formato, cada línea del archivo de manifiesto aumentado es un objeto JSON completo que contiene un documento de entrenamiento, un nombre de clase único y otros metadatos de Ground Truth. El siguiente ejemplo es un archivo de manifiesto aumentado para entrenar un clasificador personalizado para que reconozca los mensajes de correo no deseado:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 El siguiente ejemplo muestra un objeto JSON del archivo de manifiesto aumentado, formateado para facilitar la lectura: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

En este ejemplo, el atributo `source` proporciona el texto del documento de entrenamiento y el atributo `MultiClassJob` asigna el índice de una clase de una lista de clasificación. El atributo `job-name` es el nombre que ha definido para el trabajo de etiquetado en Ground Truth. 

 Al iniciar el trabajo de entrenamiento sobre clasificadores en Amazon Comprehend, debe especificar el mismo nombre del trabajo de etiquetado. 

## Modelos de documentos nativos
<a name="prep-multi-class-structured"></a>

Un modelo de documento nativo es un modelo que se entrena con documentos nativos (como PDF, DOCX e imágenes). Los datos de entrenamiento se proporcionan como un archivo CSV.

### archivo CSV
<a name="prep-multi-class-structured-csv"></a>

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte [Archivo CSV](prep-class-data-format.md#prep-data-csv).

Proporcione los datos de entrenamiento en un archivo CSV de tres columnas. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene el nombre de archivo de un documento de ejemplo para esta clase. La tercera columna contiene el número de página. El número de página es opcional si el documento de ejemplo es una imagen.

El siguiente ejemplo muestra un archivo CSV que hace referencia a tres documentos de entrada. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

El siguiente ejemplo muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar si un mensaje de correo electrónico es correo no deseado. La página 2 del archivo PDF contiene el ejemplo de correo no deseado. 

```
SPAM,email-content-3.pdf,2
```

# Modo multietiqueta
<a name="prep-classifier-data-multi-label"></a>

En el modo multietiqueta, las clases individuales representan categorías diferentes que no se excluyen mutuamente. La clasificación multietiqueta asigna una o más clases a cada documento. Por ejemplo, puede clasificar una película como documental y otra como de ciencia ficción, acción y comedia. 

Para el entrenamiento, el modo multietiqueta admite hasta 1 millón de ejemplos que contienen hasta 100 clases únicas.

**Topics**
+ [Modelos de texto sin formato](#prep-multi-label-plaintext)
+ [Modelos de documentos nativos](#prep-multi-label-structured)

## Modelos de texto sin formato
<a name="prep-multi-label-plaintext"></a>

Para entrenar un modelo de texto sin formato, puedes proporcionar datos de entrenamiento etiquetados como un archivo CSV o como un archivo de manifiesto aumentado de SageMaker AI Ground Truth.

### archivo CSV
<a name="prep-multi-label-plaintext-csv"></a>

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte [Archivo CSV](prep-class-data-format.md#prep-data-csv).

Proporcione los datos de entrenamiento en un archivo CSV de dos columnas. Para cada fila, la primera columna contiene los valores de las etiquetas de clase y la segunda columna contiene un documento de texto de ejemplo para estas clases. Para introducir más de una clase en la primera columna, utilice un delimitador (como \$1) entre cada clase.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

En el siguiente ejemplo, se muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar los géneros en los resúmenes de películas:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

El delimitador predeterminado entre los nombres de las clases es una barra vertical (\$1). Ahora bien, puede utilizar un carácter distinto como delimitador. El delimitador debe ser distinto de todos los caracteres de los nombres de las clases. Por ejemplo, si las clases son CLASS\$11, CLASS\$12 y CLASS\$13, el guion bajo (**\$1**) forma parte del nombre de la clase. Por lo tanto, no utilice un guion bajo como delimitador para separar los nombres de las clases.

### Archivo de manifiesto aumentado
<a name="prep-multi-label-plaintext-manifest"></a>

Para obtener información general sobre el uso de archivos de manifiesto aumentados para entrenar clasificadores, consulte [Archivo de manifiesto aumentado](prep-class-data-format.md#prep-data-annotations).

En el caso de los documentos de texto sin formato, cada línea del archivo de manifiesto aumentado es un objeto JSON completo. Contiene un documento de entrenamiento, nombres de clases y otros metadatos de Ground Truth. El siguiente ejemplo es un archivo de manifiesto aumentado para entrenar un clasificador personalizado para detectar géneros en los resúmenes de películas:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 El siguiente ejemplo muestra un objeto JSON del archivo de manifiesto aumentado, formateado para facilitar la lectura: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

En este ejemplo, el atributo `source` proporciona el texto del documento de entrenamiento y el atributo `MultiLabelJob` asigna los índices de varias clases de una lista de clasificación. El nombre del trabajo en los metadatos `MultiLabelJob` es el nombre que definió para el trabajo de etiquetado en Ground Truth. 

## Modelos de documentos nativos
<a name="prep-multi-label-structured"></a>

Un modelo de documento nativo es un modelo que se entrena con documentos nativos (como PDF, DOCX y archivos de imagen). Proporciona datos de entrenamiento etiquetados como un archivo CSV.

### archivo CSV
<a name="prep-multi-label-structured-csv"></a>

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte [Archivo CSV](prep-class-data-format.md#prep-data-csv).

Proporcione los datos de entrenamiento en un archivo CSV de tres columnas. Para cada fila, la primera columna contiene los valores de las etiquetas de clase. La segunda columna contiene el nombre de archivo de un documento de ejemplo para estas clases. La tercera columna contiene el número de página. El número de página es opcional si el documento de ejemplo es una imagen.

Para introducir más de una clase en la primera columna, utilice un delimitador (como \$1) entre cada clase.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

En el siguiente ejemplo, se muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar los géneros en los resúmenes de películas. La página 2 del archivo PDF contiene el ejemplo de una comedy/teen película.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

El delimitador predeterminado entre los nombres de las clases es una barra vertical (\$1). Ahora bien, puede utilizar un carácter distinto como delimitador. El delimitador debe ser distinto de todos los caracteres de los nombres de las clases. Por ejemplo, si las clases son CLASS\$11, CLASS\$12 y CLASS\$13, el guion bajo (**\$1**) forma parte del nombre de la clase. Por lo tanto, no utilice un guion bajo como delimitador para separar los nombres de las clases.