Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Para entrenar un modelo para una clasificación personalizada, debe definir las categorías y proporcionar documentos de ejemplo para entrenar el modelo personalizado. El modelo se entrena en modo multiclase o multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento.
La clasificación personalizada admite dos tipos de modelos de clasificadores: modelos de texto sin formato y modelos de documentos nativos. Un modelo de texto sin formato clasifica los documentos en función de su contenido de texto. Un modelo de documento nativo también clasifica los documentos en función del contenido del texto. Un modelo de documento nativo también puede utilizar señales adicionales, como las del diseño del documento. Se entrena un modelo de documento nativo con documentos nativos para que el modelo aprenda la información de diseño.
Los modelos de texto sin formato tienen las siguientes características:
-
El modelo se entrena con documentos de texto codificados en UTF-8.
-
Puede entrenar el modelo con documentos en uno de los siguientes idiomas: inglés, español, alemán, italiano, francés o portugués.
-
Todos los documentos de entrenamiento de un clasificador determinado deben utilizar el mismo idioma.
-
Los documentos de entrenamiento son texto sin formato, por lo que no hay cargos adicionales por la extracción del texto.
Los modelos de documentos nativos tienen las siguientes características:
-
El modelo se entrena con documentos semiestructurados que incluyen los siguientes tipos de documentos:
-
Documentos PDF digitales y escaneados.
-
Documentos Word (DOCX).
-
Imágenes: archivos JPG, archivos PNG y archivos TIFF de una sola página.
-
La API Textract genera archivos JSON.
-
-
El modelo se entrena con documentos redactados en inglés.
-
Si sus documentos de entrenamiento incluyen archivos de documentos escaneados, incurrirá en cargos adicionales por la extracción del texto. Consulte la página de precios de Amazon Comprehend
para obtener más información.
Puede clasificar cualquiera de los tipos de documentos admitidos utilizando cualquier tipo de modelo. Sin embargo, para obtener resultados más precisos, se recomienda utilizar un modelo de texto sin formato para clasificar los documentos de texto sin formato y un modelo de documento nativo para clasificar los documentos semiestructurados.