Formatos de archivo para análisis asíncrono

Cuando ejecuta un análisis asíncrono con su modelo, puede elegir entre varios formatos para los documentos de entrada: One document per line o one document per file. El formato que utilice depende del tipo de documentos que desee analizar, tal como se describe en la tabla siguiente.

Description (Descripción)	Formato
La entrada contiene varios archivos. Cada archivo contiene un documento de entrada. Este formato es el mejor para colecciones de documentos grandes, como artículos de periódicos o artículos científicos. Utilice también este formato para documentos semiestructurados (archivos de imagen, PDF o Docx) mediante un clasificador de documentos nativo.	Un documento por archivo
La entrada comprende uno o más archivos. Cada línea del archivo es un documento de entrada independiente. Este formato es el mejor para documentos cortos, como mensajes de texto o publicaciones en redes sociales.	Un documento por línea

Description (Descripción)

Formato

La entrada contiene varios archivos. Cada archivo contiene un documento de entrada. Este formato es el mejor para colecciones de documentos grandes, como artículos de periódicos o artículos científicos.

Utilice también este formato para documentos semiestructurados (archivos de imagen, PDF o Docx) mediante un clasificador de documentos nativo.

Un documento por archivo

La entrada comprende uno o más archivos. Cada línea del archivo es un documento de entrada independiente. Este formato es el mejor para documentos cortos, como mensajes de texto o publicaciones en redes sociales.

Un documento por línea

Un documento por archivo

Con el formato one document per file, cada archivo representa un documento de entrada.

Un documento por línea

Con el formato One document per line, cada documento se coloca en una línea independiente y no se utiliza ningún encabezado. La etiqueta no está incluida en cada línea (ya que aún no conoce la etiqueta del documento). Cada línea del archivo (el final del documento individual) debe terminar con un salto de línea (LF, \n), un retorno de carro (CR, \r) o ambas (CRLF, \r\n). No utilices el separador UTF-8 de líneas (u+2028) para terminar una línea.

En el ejemplo siguiente se muestra el formato del archivo de entrada.


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

Para cualquiera de los dos formatos, utilice la UTF-8 codificación para los archivos de texto. Después de preparar los archivos, colóquelos en el bucket de S3 que está utilizando para introducir los datos de entrada.

Al iniciar un trabajo de clasificación, debe especificar esta ubicación de Amazon S3 para los datos de entrada. El URI debe estar situado en la misma región que el punto de conexión al que está llamando. El URI puede apuntar a un único archivo (como cuando se utiliza el método “un documento por línea”), o puede ser el prefijo de un conjunto de archivos de datos.

Por ejemplo, si utiliza el URI S3://bucketName/prefix y si el prefijo es un único archivo, Amazon Comprehend utilizará ese archivo como entrada. Si más de un archivo comienza con el prefijo, Amazon Comprehend los utiliza a todos como entrada.

Conceda a Amazon Comprehend acceso al bucket de S3 que contiene la colección de documentos y los archivos de salida. Para obtener más información, consulte Role-based permisos necesarios para las operaciones asíncronas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejecución de trabajos de análisis asíncrono

Trabajos de análisis (consola)