Tipos ou formatos de documentos - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tipos ou formatos de documentos

Amazon Kendra oferece suporte a tipos ou formatos de documentos popularesPDF, comoHTML, PowerPoint, Word e muito mais. Um índice pode conter vários formatos de documento.

Amazon Kendra extrai o conteúdo dentro dos documentos para tornar os documentos pesquisáveis. Os documentos são analisados de forma a otimizar a pesquisa no texto extraído e em qualquer conteúdo tabular (HTMLtabelas) dentro dos documentos. Isso significa estruturar os documentos em campos ou atributos que são usados para pesquisa. Os metadados do documento, como a data da última modificação, podem ser campos úteis para pesquisa.

Os documentos podem ser organizados em linhas e colunas. Por exemplo, cada documento é uma linha e cada campo/atributo do documento, como o título e o conteúdo do corpo, é uma coluna. Por exemplo, se você usa um banco de dados como fonte de dados, os dados devem ser estruturados ou organizados em linhas e colunas.

Você pode adicionar documentos ao índice das seguintes formas:

Se você quiser adicionar um FAQ arquivo, use o CreateFaqAPIpara adicionar o arquivo armazenado em um Amazon S3 balde. Você pode escolher entre um CSV formato básico, um CSV formato que inclua campos/atributos personalizados em um cabeçalho e um JSON formato que inclua campos personalizados. O formato padrão é básicoCSV.

A seguir, são apresentadas informações sobre cada formato de documento compatível e como Amazon Kendra trata cada formato ao indexar documentos.

Formato do documento Tratado como Como o documento é tratado Estrutura original
Formato de documento portátil (PDF) HTML Convertido em HTML e, em seguida, o conteúdo é extraído. Não estruturado
HyperText Linguagem de marcação () HTML HTML HTMLas tags são filtradas para extrair conteúdo. O conteúdo deve estar entre as tags principais de HTML início e fim (<HTML>content</HTML>). Semiestruturado
Linguagem de marcação extensível () XML XML XMLas tags são filtradas para extrair conteúdo. Semiestruturado
Transformação de linguagem de folha de estilo extensível () XSLT XSLT As tags HTML são filtradas para extrair conteúdo. Semiestruturado
MarkDown (Maryland) Texto sem formatação O conteúdo é extraído com a MarkDown sintaxe incluída. Semiestruturado
Valores separados por vírgula () CSV CSV Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. Estruturado para FAQ arquivos, caso contrário, semiestruturado
Microsoft Excel (XLSeXLSX) XLSe XLSX Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. Semiestruturado
JavaScript Notação de objeto () JSON Texto sem formatação O conteúdo é extraído com a JSON sintaxe incluída. Semiestruturado
Formato de texto rico (RTF) RTF RTFa sintaxe é filtrada para extrair o conteúdo. Semiestruturado
Microsoft PowerPoint (PPT) PPT, PPTX Somente o conteúdo de texto é extraído dos PowerPoint slides para pesquisa. Imagens e outros conteúdos não são extraídos. Não estruturado
Microsoft Word DOC, DOCX Somente o conteúdo de texto é extraído das páginas do Word para pesquisa. Imagens e outros conteúdos não são extraídos. Não estruturado
Texto sem formatação (TXT) TXT Todo o texto no documento de texto é extraído. Não estruturado