Preparación de los datos de entrenamiento del clasificador

Para una clasificación personalizada, se entrena el modelo en modo multiclase o en modo multietiqueta. Multi-class el modo asocia una sola clase a cada documento. Multi-label el modo asocia una o más clases a cada documento. Los formatos de archivo de entrada son diferentes para cada modo, por lo que debe elegir el modo que desea utilizar antes de crear los datos de entrenamiento.

nota

La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.

La clasificación personalizada admite los modelos que se entrenan con documentos de texto sin formato y los modelos que se entrenan con documentos nativos (como PDF, Word o imágenes). Para obtener más información sobre los modelos de clasificadores y los tipos de documentos compatibles, consulte Modelos de clasificación de entrenamiento.

Cómo preparar los datos para entrenar un modelo de clasificador personalizado:

Identifique las clases que desea que analice este clasificador. Decida qué modo utilizar (multiclase o multietiqueta).
Decida el tipo de modelo de clasificador, en función de si el modelo es para analizar documentos de texto sin formato o documentos semiestructurados.
Reúna ejemplos de documentos para cada una de las clases. Para conocer los requisitos mínimos del entrenamiento, consulte Cuotas generales para la clasificación de documentos.
Para un modelo de texto sin formato, elija el formato de archivo de entrenamiento que desee utilizar (archivo CSV o archivo de manifiesto aumentado). Para entrenar un modelo de documento nativo, siempre debe utilizar un archivo CSV.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Clasificación personalizada

Formatos de archivos de entrenamiento