Preparación de los datos de entrenamiento del clasificador - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de los datos de entrenamiento del clasificador

Para una clasificación personalizada, se entrena el modelo en modo multiclase o en modo multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento. Los formatos de archivo de entrada son diferentes para cada modo, por lo que debe elegir el modo que desea utilizar antes de crear los datos de entrenamiento.

nota

La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.

La clasificación personalizada admite los modelos que se entrenan con documentos de texto sin formato y los modelos que se entrenan con documentos nativos (como PDF, Word o imágenes). Para obtener más información sobre los modelos de clasificadores y los tipos de documentos compatibles, consulte Modelos de clasificación de entrenamiento.

Cómo preparar los datos para entrenar un modelo de clasificador personalizado:

  1. Identifique las clases que desea que analice este clasificador. Decida qué modo utilizar (multiclase o multietiqueta).

  2. Decida el tipo de modelo de clasificador, en función de si el modelo es para analizar documentos de texto sin formato o documentos semiestructurados.

  3. Reúna ejemplos de documentos para cada una de las clases. Para conocer los requisitos mínimos del entrenamiento, consulte Cuotas generales para la clasificación de documentos.

  4. Para un modelo de texto sin formato, elija el formato de archivo de entrenamiento que desee utilizar (archivo CSV o archivo de manifiesto aumentado). Para entrenar un modelo de documento nativo, siempre debe utilizar un archivo CSV.