Salidas para entradas de texto Salidas para documentos de entrada semiestructurados

Salidas para trabajos de análisis asíncronos

Una vez finalizado un trabajo de análisis, almacena los resultados en el bucket de S3 que especificó en la solicitud.

Salidas para entradas de texto

Para cualquier formato de documentos de entrada de texto (multiclase o multietiqueta), el resultado del trabajo consiste en un único archivo denominado output.tar.gz. Es un archivo comprimido que contiene un archivo de texto con la salida.

Multi-class salida

Cuando utiliza un clasificador entrenado en modo multiclase, sus resultados muestran classes. Cada una de estas classes es la clase que se utiliza para crear el conjunto de categorías al entrenar al clasificador.

Para obtener más información sobre estos campos de salida, consulte la referencia ClassifyDocumentde la API de Amazon Comprehend.

En los ejemplos siguientes se utilizan las siguientes clases que se excluyen mutuamente.


DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER

Si el formato de datos de entrada es un documento por línea, el archivo de salida contiene una línea por cada línea de la entrada. Cada línea incluye el nombre del archivo, el número de línea basado en cero de la línea de entrada y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó correctamente la instancia individual.

Por ejemplo:


{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Si el formato de datos de entrada es un documento por archivo, el archivo de salida contiene una línea para cada documento. Cada línea tiene el nombre del archivo y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó la instancia individual con precisión.

Por ejemplo:


{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}

Multi-label salida

Cuando se utiliza un clasificador entrenado en modo multietiqueta, sus resultados muestran labels. Cada una de estas labels es la etiqueta que se utiliza para crear el conjunto de categorías al entrenar al clasificador.

En los ejemplos siguientes se utilizan estas etiquetas únicas.


SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE

Por ejemplo:


{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Por ejemplo:


{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}

Salidas para documentos de entrada semiestructurados

En el caso de los documentos de entrada semiestructurados, la salida puede incluir los siguientes campos adicionales:

DocumentMetadata — Información de extracción sobre el documento. Los metadatos incluyen una lista de páginas del documento, con el número de caracteres extraídos de cada página. Este campo está presente en la respuesta si la solicitud incluía el parámetro Byte.
DocumentType — El tipo de documento para cada página del documento de entrada. Este campo está presente en la respuesta si la solicitud incluía el parámetro Byte.
Errores: Page-level errores que el sistema detectó al procesar el documento de entrada. El campo está vacío si el sistema no ha detectado ningún error.

Para obtener más información sobre estos campos de salida, consulte la referencia ClassifyDocumentde la API de Amazon Comprehend.

El siguiente ejemplo muestra el resultado de un archivo PDF de dos páginas escaneado.



[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Trabajos de análisis (API)

Reconocimiento de entidades personalizado