Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Formatos de archivo para análisis asíncrono
Cuando ejecuta un análisis asíncrono con su modelo, puede elegir entre varios formatos para los documentos de entrada: One document per line
o one document per file
. El formato que utilice depende del tipo de documentos que desee analizar, tal como se describe en la tabla siguiente.
Descripción | Formato |
---|---|
La entrada contiene varios archivos. Cada archivo contiene un documento de entrada. Este formato es el mejor para colecciones de documentos grandes, como artículos de periódicos o artículos científicos. Utilice también este formato para documentos semiestructurados (archivos de imagen o Docx) mediante un clasificador de documentos nativo. PDF |
Un documento por archivo |
La entrada comprende uno o más archivos. Cada línea del archivo es un documento de entrada independiente. Este formato es el mejor para documentos cortos, como mensajes de texto o publicaciones en redes sociales. |
Un documento por línea |
Un documento por archivo
Con el formato one document per file
, cada archivo representa un documento de entrada.
Un documento por línea
Con el formato One document per line
, cada documento se coloca en una línea independiente y no se utiliza ningún encabezado. La etiqueta no está incluida en cada línea (ya que aún no conoce la etiqueta del documento). Cada línea del archivo (el final del documento individual) debe terminar con una entrada de líneas (LF,\n), una devolución de transporte (CR,\ r) o ambas (CRLF,\ r\n). No utilices el separador de UTF -8 líneas (u+2028) para terminar una línea.
En el ejemplo siguiente se muestra el formato del archivo de entrada.
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
Para cualquiera de los dos formatos, utilice la codificación UTF -8 para los archivos de texto. Después de preparar los archivos, colóquelos en el bucket de S3 que está utilizando para introducir los datos de entrada.
Al iniciar un trabajo de clasificación, debe especificar esta ubicación de Amazon S3 para los datos de entrada. URIDebe estar en la misma región que el API punto final al que llama. URIPuede apuntar a un único archivo (como cuando se utiliza el método «un documento por línea») o puede ser el prefijo de un conjunto de archivos de datos.
Por ejemplo, si utiliza el prefijo URIS3://bucketName/prefix
, si el prefijo es un único archivo, Amazon Comprehend utilizará ese archivo como entrada. Si más de un archivo comienza con el prefijo, Amazon Comprehend los utiliza a todos como entrada.
Conceda a Amazon Comprehend acceso al bucket de S3 que contiene la colección de documentos y los archivos de salida. Para obtener más información, consulte Se requieren permisos basados en roles para las operaciones asíncronas.