Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Salidas para trabajos de análisis asíncronos
Una vez finalizado un trabajo de análisis, almacena los resultados en el bucket de S3 que especificó en la solicitud.
Salidas para entradas de texto
Para cualquier formato de documentos de entrada de texto (multiclase o multietiqueta), el resultado del trabajo consiste en un único archivo denominado output.tar.gz
. Es un archivo comprimido que contiene un archivo de texto con la salida.
Salida multiclase
Cuando utiliza un clasificador entrenado en modo multiclase, sus resultados muestran classes
. Cada una de estas classes
es la clase que se utiliza para crear el conjunto de categorías al entrenar al clasificador.
Para obtener más información sobre estos campos de salida, consulte la referencia ClassifyDocumentde la API de Amazon Comprehend.
En los ejemplos siguientes se utilizan las siguientes clases que se excluyen mutuamente.
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
Si el formato de datos de entrada es un documento por línea, el archivo de salida contiene una línea por cada línea de la entrada. Cada línea incluye el nombre del archivo, el número de línea basado en cero de la línea de entrada y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó correctamente la instancia individual.
Por ejemplo:
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]} {"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
Si el formato de datos de entrada es un documento por archivo, el archivo de salida contiene una línea para cada documento. Cada línea tiene el nombre del archivo y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó la instancia individual con precisión.
Por ejemplo:
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]} {"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]} {"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]} {"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
Salida multietiqueta
Cuando se utiliza un clasificador entrenado en modo multietiqueta, sus resultados muestran labels
. Cada una de estas labels
es la etiqueta que se utiliza para crear el conjunto de categorías al entrenar al clasificador.
En los ejemplos siguientes se utilizan estas etiquetas únicas.
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
Si el formato de datos de entrada es un documento por línea, el archivo de salida contiene una línea por cada línea de la entrada. Cada línea incluye el nombre del archivo, el número de línea basado en cero de la línea de entrada y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó correctamente la instancia individual.
Por ejemplo:
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
Si el formato de datos de entrada es un documento por archivo, el archivo de salida contiene una línea para cada documento. Cada línea tiene el nombre del archivo y la clase o clases que se encuentran en el documento. Esto termina con la confianza de que Amazon Comprehend clasificó la instancia individual con precisión.
Por ejemplo:
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]} {"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]} {"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]} {"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
Salidas para documentos de entrada semiestructurados
En el caso de los documentos de entrada semiestructurados, la salida puede incluir los siguientes campos adicionales:
DocumentMetadata — Información de extracción sobre el documento. Los metadatos incluyen una lista de páginas del documento, con el número de caracteres extraídos de cada página. Este campo está presente en la respuesta si la solicitud incluía el parámetro
Byte
.DocumentType — El tipo de documento para cada página del documento de entrada. Este campo está presente en la respuesta si la solicitud incluía el parámetro
Byte
.Errores: errores a nivel de la página que el sistema detectó al procesar el documento de entrada. El campo está vacío si el sistema no ha detectado ningún error.
Para obtener más información sobre estos campos de salida, consulte la referencia ClassifyDocumentde la API de Amazon Comprehend.
El siguiente ejemplo muestra el resultado de un archivo PDF de dos páginas escaneado.
[{ #First page output "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }, #Second page output { "Classes": [ { "Name": "__label__2 ", "Score": 0.9993996620178223 }, { "Name": "__label__3 ", "Score": 0.0004330444789957255 } ], "DocumentMetadata": { "PageNumber": 2, "Pages": 2 }, "DocumentType": "ScannedPDF", "File": "file.pdf", "Version": "VERSION_NUMBER" }]