Tipos o formatos de documentos - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos o formatos de documentos

Amazon Kendra admite los tipos o formatos de documentos más populares PDFHTML, como Word y PowerPoint más. Un índice puede contener varios formatos de documento.

Amazon Kendra extrae el contenido del interior de los documentos para que se puedan buscar en ellos. Los documentos se analizan de forma que se optimice la búsqueda en el texto extraído y en cualquier contenido tabular (HTMLtablas) de los documentos. Esto significa estructurar los documentos en campos o atributos que se utilizan para la búsqueda. Los metadatos del documento, como la fecha de la última modificación, pueden ser campos útiles para la búsqueda.

Los documentos se pueden organizar en filas y columnas. Por ejemplo, cada documento es una fila y cada campo/atributo del documento, como el título y el contenido del cuerpo, es una columna. Por ejemplo, si utiliza una base de datos como origen de datos, los datos deben estructurarse u organizarse en filas y columnas.

Puede añadir documentos al índice de las siguientes maneras:

Si desea añadir un FAQ archivo, utilice el CreateFaqAPIpara añadir el archivo almacenado en un Amazon S3 cubo. Puede elegir entre un CSV formato básico, un CSV formato que incluye campos o atributos personalizados en un encabezado y un JSON formato que incluye campos personalizados. El formato predeterminado es básico. CSV

A continuación se proporciona información sobre cada formato de documento compatible y cómo Amazon Kendra trata cada formato al indexar documentos.

Formato del documento Tratado como Cómo se trata el documento Estructura original
Formato de documento portátil () PDF HTML Se convierte en HTML y, a continuación, se extrae el contenido. No estructurado
HyperText Lenguaje de marcado () HTML HTML HTMLlas etiquetas se filtran para extraer el contenido. El contenido debe estar entre las etiquetas HTML principales de inicio y cierre (<HTML>content</HTML>). Semiestructurado
Lenguaje de marcado extensible () XML XML XMLlas etiquetas se filtran para extraer el contenido. Semiestructurado
Transformación del lenguaje de hojas de estilo extensible () XSLT XSLT Las etiquetas se filtran para extraer el contenido. Semiestructurado
MarkDown (MD) Texto no cifrado El contenido se extrae con MarkDown la sintaxis incluida. Semiestructurado
Valores separados por comas () CSV CSV Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. Estructurado para FAQ archivos, de lo contrario semiestructurado
Microsoft Excel (XLSyXLSX) XLSy XLSX Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. Semiestructurado
JavaScript Notación de objetos (JSON) Texto no cifrado El contenido se extrae con JSON la sintaxis incluida. Semiestructurado
Formato de texto enriquecido (RTF) RTF RTFla sintaxis se filtra para extraer el contenido. Semiestructurado
Microsoft PowerPoint (PPT) PPT, PPTX Solo se extrae el contenido de texto de PowerPoint las diapositivas para su búsqueda. Las imágenes y otros contenidos no se extraen. No estructurado
Microsoft Word DOC, DOCX Solo se extrae el contenido de texto de las páginas de Word para su búsqueda. Las imágenes y otros contenidos no se extraen. No estructurado
Texto sin formato (TXT) TXT Se extrae todo el texto del documento de texto. No estructurado