Tipos o formatos de documentos

Amazon Kendra admite los tipos o formatos de documentos más populares PDFHTML, como Word y PowerPoint más. Un índice puede contener varios formatos de documento.

Amazon Kendra extrae el contenido del interior de los documentos para que se puedan buscar en ellos. Los documentos se analizan de forma que se optimice la búsqueda en el texto extraído y en cualquier contenido tabular (HTMLtablas) de los documentos. Esto significa estructurar los documentos en campos o atributos que se utilizan para la búsqueda. Los metadatos del documento, como la fecha de la última modificación, pueden ser campos útiles para la búsqueda.

Los documentos se pueden organizar en filas y columnas. Por ejemplo, cada documento es una fila y cada campo/atributo del documento, como el título y el contenido del cuerpo, es una columna. Por ejemplo, si utiliza una base de datos como origen de datos, los datos deben estructurarse u organizarse en filas y columnas.

Puede añadir documentos al índice de las siguientes maneras:

Si desea añadir un FAQ archivo, utilice el CreateFaqAPIpara añadir el archivo almacenado en un Amazon S3 cubo. Puede elegir entre un CSV formato básico, un CSV formato que incluye campos o atributos personalizados en un encabezado y un JSON formato que incluye campos personalizados. El formato predeterminado es básico. CSV

A continuación se proporciona información sobre cada formato de documento compatible y cómo Amazon Kendra trata cada formato al indexar documentos.

Formato del documento	Tratado como	Cómo se trata el documento	Estructura original
Formato de documento portátil () PDF	HTML	Se convierte en HTML y, a continuación, se extrae el contenido.	No estructurado
HyperText Lenguaje de marcado () HTML	HTML	HTMLlas etiquetas se filtran para extraer el contenido. El contenido debe estar entre las etiquetas `HTML` principales de inicio y cierre (`<HTML>content</HTML>`).	Semiestructurado
Lenguaje de marcado extensible () XML	XML	XMLlas etiquetas se filtran para extraer el contenido.	Semiestructurado
Transformación del lenguaje de hojas de estilo extensible () XSLT	XSLT	Las etiquetas se filtran para extraer el contenido.	Semiestructurado
MarkDown (MD)	Texto no cifrado	El contenido se extrae con MarkDown la sintaxis incluida.	Semiestructurado
Valores separados por comas () CSV	CSV	Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento.	Estructurado para FAQ archivos, de lo contrario semiestructurado
Microsoft Excel (XLSyXLSX)	XLSy XLSX	Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento.	Semiestructurado
JavaScript Notación de objetos (JSON)	Texto no cifrado	El contenido se extrae con JSON la sintaxis incluida.	Semiestructurado
Formato de texto enriquecido (RTF)	RTF	RTFla sintaxis se filtra para extraer el contenido.	Semiestructurado
Microsoft PowerPoint (PPT)	PPT, PPTX	Solo se extrae el contenido de texto de PowerPoint las diapositivas para su búsqueda. Las imágenes y otros contenidos no se extraen.	No estructurado
Microsoft Word	DOC, DOCX	Solo se extrae el contenido de texto de las páginas de Word para su búsqueda. Las imágenes y otros contenidos no se extraen.	No estructurado
Texto sin formato (TXT)	TXT	Se extrae todo el texto del documento de texto.	No estructurado

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documentos

Atributos o campos del documento