Formatos de archivos de entrenamiento del clasificador - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formatos de archivos de entrenamiento del clasificador

Para un modelo de texto sin formato, puedes proporcionar los datos de entrenamiento del clasificador como un CSV archivo o como un archivo de manifiesto aumentado que crees con AI Ground SageMaker Truth. El CSV archivo o el archivo de manifiesto aumentado incluyen el texto de cada documento de formación y sus etiquetas asociadas.

En el caso de un modelo de documento nativo, los datos de entrenamiento de Classifier se proporcionan en forma de CSV archivo. El CSV archivo incluye el nombre de archivo de cada documento de formación y sus etiquetas asociadas. Debe incluir los documentos de entrenamiento en la carpeta de entrada de Amazon S3 para el trabajo de entrenamiento.

Archivos de CSV

Los datos de entrenamiento etiquetados se proporcionan como texto codificado en forma de UTF -8 en un CSV archivo. No incluya una fila de encabezado. Agregar una fila de encabezado al archivo puede provocar errores en el tiempo de ejecución.

Para cada fila del CSV archivo, la primera columna contiene una o más etiquetas de clase. Una etiqueta de clase puede ser cualquier cadena UTF -8 válida. Recomendamos utilizar nombres de clase claros y donde no se superpongan en sus significados. El nombre puede incluir espacios en blanco y puede consistir en varias palabras conectadas por guiones bajos o guiones.

No deje ningún espacio antes o después de las comas que separan los valores de una fila.

El contenido exacto del CSV archivo depende del modo clasificador y del tipo de datos de entrenamiento. Para obtener más información, consulte las secciones en Modo multiclase y Modo multietiqueta.

Archivo de manifiesto aumentado

Un archivo de manifiesto aumentado es un conjunto de datos etiquetado que se crea con SageMaker AI Ground Truth. Ground Truth es un servicio de etiquetado de datos que le ayuda a usted —o al personal que emplee— a crear conjuntos de datos de entrenamiento para modelos de machine learning.

Para obtener más información sobre Ground Truth y los resultados que produce, consulte Use SageMaker AI Ground Truth para etiquetar datos en la Guía para desarrolladores de Amazon SageMaker AI.

Los archivos de manifiesto aumentados están en formato de JSON líneas. En estos archivos, cada línea es un JSON objeto completo que contiene un documento de formación y sus etiquetas asociadas. El contenido exacto de cada línea depende del modo del clasificador. Para obtener más información, consulte las secciones en Modo multiclase y Modo multietiqueta.

Cuando proporciona sus datos de entrenamiento a Amazon Comprehend, especifica uno o más nombres de atributos de etiqueta. El número de nombres de atributos que especifique depende de si el archivo de manifiesto aumentado es el resultado de un único trabajo de etiquetado o de un trabajo de etiquetado encadenado.

Si el archivo es el resultado de un único trabajo de etiquetado, especifique el nombre del atributo de etiqueta único del trabajo Ground Truth.

Si el archivo es el resultado de un trabajo de etiquetado encadenado, especifique el nombre del atributo de etiqueta para uno o más trabajos de la cadena. Cada nombre de atributo de etiqueta proporciona las anotaciones de un trabajo individual. Puede especificar hasta cinco de estos atributos para los archivos de manifiesto aumentados procedentes de trabajos de etiquetado encadenados.

Para obtener más información sobre los trabajos de etiquetado encadenado y ver ejemplos del resultado que producen, consulte Chaining Labeling Jobs en la Guía para desarrolladores de Amazon SageMaker AI.