As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tipos ou formatos de documentos
Amazon Kendra oferece suporte a tipos ou formatos de documentos popularesPDF, comoHTML, PowerPoint, Word e muito mais. Um índice pode conter vários formatos de documento.
Amazon Kendra extrai o conteúdo dentro dos documentos para tornar os documentos pesquisáveis. Os documentos são analisados de forma a otimizar a pesquisa no texto extraído e em qualquer conteúdo tabular (HTMLtabelas) dentro dos documentos. Isso significa estruturar os documentos em campos ou atributos que são usados para pesquisa. Os metadados do documento, como a data da última modificação, podem ser campos úteis para pesquisa.
Os documentos podem ser organizados em linhas e colunas. Por exemplo, cada documento é uma linha e cada campo/atributo do documento, como o título e o conteúdo do corpo, é uma coluna. Por exemplo, se você usa um banco de dados como fonte de dados, os dados devem ser estruturados ou organizados em linhas e colunas.
Você pode adicionar documentos ao índice das seguintes formas:
Se você quiser adicionar um FAQ arquivo, use o CreateFaqAPIpara adicionar o arquivo armazenado em um Amazon S3 balde. Você pode escolher entre um CSV formato básico, um CSV formato que inclua campos/atributos personalizados em um cabeçalho e um JSON formato que inclua campos personalizados. O formato padrão é básicoCSV.
A seguir, são apresentadas informações sobre cada formato de documento compatível e como Amazon Kendra trata cada formato ao indexar documentos.
Formato do documento | Tratado como | Como o documento é tratado | Estrutura original |
---|---|---|---|
Formato de documento portátil (PDF) | HTML | Convertido em HTML e, em seguida, o conteúdo é extraído. | Não estruturado |
HyperText Linguagem de marcação () HTML | HTML | HTMLas tags são filtradas para extrair conteúdo. O conteúdo deve estar entre as tags principais de HTML início e fim (<HTML>content</HTML> ). |
Semiestruturado |
Linguagem de marcação extensível () XML | XML | XMLas tags são filtradas para extrair conteúdo. | Semiestruturado |
Transformação de linguagem de folha de estilo extensível () XSLT | XSLT | As tags HTML são filtradas para extrair conteúdo. | Semiestruturado |
MarkDown (Maryland) | Texto sem formatação | O conteúdo é extraído com a MarkDown sintaxe incluída. | Semiestruturado |
Valores separados por vírgula () CSV | CSV | Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. | Estruturado para FAQ arquivos, caso contrário, semiestruturado |
Microsoft Excel (XLSeXLSX) | XLSe XLSX | Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. | Semiestruturado |
JavaScript Notação de objeto () JSON | Texto sem formatação | O conteúdo é extraído com a JSON sintaxe incluída. | Semiestruturado |
Formato de texto rico (RTF) | RTF | RTFa sintaxe é filtrada para extrair o conteúdo. | Semiestruturado |
Microsoft PowerPoint (PPT) | PPT, PPTX | Somente o conteúdo de texto é extraído dos PowerPoint slides para pesquisa. Imagens e outros conteúdos não são extraídos. | Não estruturado |
Microsoft Word | DOC, DOCX | Somente o conteúdo de texto é extraído das páginas do Word para pesquisa. Imagens e outros conteúdos não são extraídos. | Não estruturado |
Texto sem formatação (TXT) | TXT | Todo o texto no documento de texto é extraído. | Não estruturado |