Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Modelos de clasificación de entrenamiento

Modo de enfoque
Modelos de clasificación de entrenamiento - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Para entrenar un modelo para una clasificación personalizada, debe definir las categorías y proporcionar documentos de ejemplo para entrenar el modelo personalizado. El modelo se entrena en modo multiclase o multietiqueta. El modo multiclase asocia una sola clase a cada documento. El modo multietiqueta asocia una o más clases a cada documento.

La clasificación personalizada admite dos tipos de modelos de clasificadores: modelos de texto sin formato y modelos de documentos nativos. Un modelo de texto sin formato clasifica los documentos en función de su contenido de texto. Un modelo de documento nativo también clasifica los documentos en función del contenido del texto. Un modelo de documento nativo también puede utilizar señales adicionales, como las del diseño del documento. Se entrena un modelo de documento nativo con documentos nativos para que el modelo aprenda la información de diseño.

Los modelos de texto sin formato tienen las siguientes características:

  • El modelo se entrena con documentos de texto codificados en UTF-8.

  • Puede entrenar el modelo con documentos en uno de los siguientes idiomas: inglés, español, alemán, italiano, francés o portugués.

  • Todos los documentos de entrenamiento de un clasificador determinado deben utilizar el mismo idioma.

  • Los documentos de entrenamiento son texto sin formato, por lo que no hay cargos adicionales por la extracción del texto.

Los modelos de documentos nativos tienen las siguientes características:

  • El modelo se entrena con documentos semiestructurados que incluyen los siguientes tipos de documentos:

    • Documentos PDF digitales y escaneados.

    • Documentos Word (DOCX).

    • Imágenes: archivos JPG, archivos PNG y archivos TIFF de una sola página.

    • La API Textract genera archivos JSON.

  • El modelo se entrena con documentos redactados en inglés.

  • Si sus documentos de entrenamiento incluyen archivos de documentos escaneados, incurrirá en cargos adicionales por la extracción del texto. Consulte la página de precios de Amazon Comprehend para obtener más información.

Puede clasificar cualquiera de los tipos de documentos admitidos utilizando cualquier tipo de modelo. Sin embargo, para obtener resultados más precisos, se recomienda utilizar un modelo de texto sin formato para clasificar los documentos de texto sin formato y un modelo de documento nativo para clasificar los documentos semiestructurados.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.