Plain-text modelos Modelos de documentos nativos

Multi-class modo

En el modo multiclase, la clasificación asigna una clase a cada documento. Las clases individuales se excluyen mutuamente. Por ejemplo, puede clasificar una película como comedia o ciencia ficción, pero no ambas.

nota

La consola Amazon Comprehend se refiere al modo multiclase como modo de etiqueta única.

Plain-text modelos

Para entrenar un modelo de texto sin formato, puedes proporcionar datos de entrenamiento etiquetados como un archivo CSV o como un archivo de manifiesto aumentado de SageMaker AI Ground Truth.

archivo CSV

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte Archivo CSV.

Proporcione los datos de entrenamiento en un archivo CSV de dos columnas. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene un documento de texto de ejemplo para esa clase. Cada fila debe terminar con caracteres \n o \r\n.

El siguiente ejemplo muestra un archivo CSV que contiene tres documentos.


CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3

El siguiente ejemplo muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar si un mensaje de correo electrónico es correo no deseado:


SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

Archivo de manifiesto aumentado

Para obtener información general sobre el uso de archivos de manifiesto aumentados para entrenar clasificadores, consulte Archivo de manifiesto aumentado.

En el caso de los documentos de texto sin formato, cada línea del archivo de manifiesto aumentado es un objeto JSON completo que contiene un documento de entrenamiento, un nombre de clase único y otros metadatos de Ground Truth. El siguiente ejemplo es un archivo de manifiesto aumentado para entrenar un clasificador personalizado para que reconozca los mensajes de correo no deseado:


{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

El siguiente ejemplo muestra un objeto JSON del archivo de manifiesto aumentado, formateado para facilitar la lectura:


{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}

En este ejemplo, el atributo source proporciona el texto del documento de entrenamiento y el atributo MultiClassJob asigna el índice de una clase de una lista de clasificación. El atributo job-name es el nombre que ha definido para el trabajo de etiquetado en Ground Truth.

Al iniciar el trabajo de entrenamiento sobre clasificadores en Amazon Comprehend, debe especificar el mismo nombre del trabajo de etiquetado.

Modelos de documentos nativos

Un modelo de documento nativo es un modelo que se entrena con documentos nativos (como PDF, DOCX e imágenes). Los datos de entrenamiento se proporcionan como un archivo CSV.

archivo CSV

Para obtener información general sobre el uso de archivos CSV para entrenar clasificadores, consulte Archivo CSV.

Proporcione los datos de entrenamiento en un archivo CSV de tres columnas. Para cada fila, la primera columna contiene el valor de la etiqueta de la clase. La segunda columna contiene el nombre de archivo de un documento de ejemplo para esta clase. La tercera columna contiene el número de página. El número de página es opcional si el documento de ejemplo es una imagen.

El siguiente ejemplo muestra un archivo CSV que hace referencia a tres documentos de entrada.


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png

El siguiente ejemplo muestra una fila de un archivo CSV que entrena un clasificador personalizado para detectar si un mensaje de correo electrónico es correo no deseado. La página 2 del archivo PDF contiene el ejemplo de correo no deseado.


SPAM,email-content-3.pdf,2

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Formatos de archivos de entrenamiento

Multi-label modo