Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Tipos o formatos de documentos
Amazon Kendra admite los tipos o formatos de documentos más populares PDFHTML, como Word y PowerPoint más. Un índice puede contener varios formatos de documento.
Amazon Kendra extrae el contenido del interior de los documentos para que se puedan buscar en ellos. Los documentos se analizan de forma que se optimice la búsqueda en el texto extraído y en cualquier contenido tabular (HTMLtablas) de los documentos. Esto significa estructurar los documentos en campos o atributos que se utilizan para la búsqueda. Los metadatos del documento, como la fecha de la última modificación, pueden ser campos útiles para la búsqueda.
Los documentos se pueden organizar en filas y columnas. Por ejemplo, cada documento es una fila y cada campo/atributo del documento, como el título y el contenido del cuerpo, es una columna. Por ejemplo, si utiliza una base de datos como origen de datos, los datos deben estructurarse u organizarse en filas y columnas.
Puede añadir documentos al índice de las siguientes maneras:
Si desea añadir un FAQ archivo, utilice el CreateFaqAPIpara añadir el archivo almacenado en un Amazon S3 cubo. Puede elegir entre un CSV formato básico, un CSV formato que incluye campos o atributos personalizados en un encabezado y un JSON formato que incluye campos personalizados. El formato predeterminado es básico. CSV
A continuación se proporciona información sobre cada formato de documento compatible y cómo Amazon Kendra trata cada formato al indexar documentos.
Formato del documento | Tratado como | Cómo se trata el documento | Estructura original |
---|---|---|---|
Formato de documento portátil () PDF | HTML | Se convierte en HTML y, a continuación, se extrae el contenido. | No estructurado |
HyperText Lenguaje de marcado () HTML | HTML | HTMLlas etiquetas se filtran para extraer el contenido. El contenido debe estar entre las etiquetas HTML principales de inicio y cierre (<HTML>content</HTML> ). |
Semiestructurado |
Lenguaje de marcado extensible () XML | XML | XMLlas etiquetas se filtran para extraer el contenido. | Semiestructurado |
Transformación del lenguaje de hojas de estilo extensible () XSLT | XSLT | Las etiquetas se filtran para extraer el contenido. | Semiestructurado |
MarkDown (MD) | Texto no cifrado | El contenido se extrae con MarkDown la sintaxis incluida. | Semiestructurado |
Valores separados por comas () CSV | CSV | Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. | Estructurado para FAQ archivos, de lo contrario semiestructurado |
Microsoft Excel (XLSyXLSX) | XLSy XLSX | Contenido extraído de cada celda, con un único archivo tratado como resultado de un único documento. | Semiestructurado |
JavaScript Notación de objetos (JSON) | Texto no cifrado | El contenido se extrae con JSON la sintaxis incluida. | Semiestructurado |
Formato de texto enriquecido (RTF) | RTF | RTFla sintaxis se filtra para extraer el contenido. | Semiestructurado |
Microsoft PowerPoint (PPT) | PPT, PPTX | Solo se extrae el contenido de texto de PowerPoint las diapositivas para su búsqueda. Las imágenes y otros contenidos no se extraen. | No estructurado |
Microsoft Word | DOC, DOCX | Solo se extrae el contenido de texto de las páginas de Word para su búsqueda. Las imágenes y otros contenidos no se extraen. | No estructurado |
Texto sin formato (TXT) | TXT | Se extrae todo el texto del documento de texto. | No estructurado |