Tipos ou formatos de documentos

Amazon Kendra oferece suporte a tipos ou formatos de documentos popularesPDF, comoHTML, PowerPoint, Word e muito mais. Um índice pode conter vários formatos de documento.

Amazon Kendra extrai o conteúdo dentro dos documentos para tornar os documentos pesquisáveis. Os documentos são analisados de forma a otimizar a pesquisa no texto extraído e em qualquer conteúdo tabular (HTMLtabelas) dentro dos documentos. Isso significa estruturar os documentos em campos ou atributos que são usados para pesquisa. Os metadados do documento, como a data da última modificação, podem ser campos úteis para pesquisa.

Os documentos podem ser organizados em linhas e colunas. Por exemplo, cada documento é uma linha e cada campo/atributo do documento, como o título e o conteúdo do corpo, é uma coluna. Por exemplo, se você usa um banco de dados como fonte de dados, os dados devem ser estruturados ou organizados em linhas e colunas.

Você pode adicionar documentos ao índice das seguintes formas:

Se você quiser adicionar um FAQ arquivo, use o CreateFaqAPIpara adicionar o arquivo armazenado em um Amazon S3 balde. Você pode escolher entre um CSV formato básico, um CSV formato que inclua campos/atributos personalizados em um cabeçalho e um JSON formato que inclua campos personalizados. O formato padrão é básicoCSV.

A seguir, são apresentadas informações sobre cada formato de documento compatível e como Amazon Kendra trata cada formato ao indexar documentos.

Formato do documento	Tratado como	Como o documento é tratado	Estrutura original
Formato de documento portátil (PDF)	HTML	Convertido em HTML e, em seguida, o conteúdo é extraído.	Não estruturado
HyperText Linguagem de marcação () HTML	HTML	HTMLas tags são filtradas para extrair conteúdo. O conteúdo deve estar entre as tags principais de `HTML` início e fim (`<HTML>content</HTML>`).	Semiestruturado
Linguagem de marcação extensível () XML	XML	XMLas tags são filtradas para extrair conteúdo.	Semiestruturado
Transformação de linguagem de folha de estilo extensível () XSLT	XSLT	As tags HTML são filtradas para extrair conteúdo.	Semiestruturado
MarkDown (Maryland)	Texto sem formatação	O conteúdo é extraído com a MarkDown sintaxe incluída.	Semiestruturado
Valores separados por vírgula () CSV	CSV	Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento.	Estruturado para FAQ arquivos, caso contrário, semiestruturado
Microsoft Excel (XLSeXLSX)	XLSe XLSX	Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento.	Semiestruturado
JavaScript Notação de objeto () JSON	Texto sem formatação	O conteúdo é extraído com a JSON sintaxe incluída.	Semiestruturado
Formato de texto rico (RTF)	RTF	RTFa sintaxe é filtrada para extrair o conteúdo.	Semiestruturado
Microsoft PowerPoint (PPT)	PPT, PPTX	Somente o conteúdo de texto é extraído dos PowerPoint slides para pesquisa. Imagens e outros conteúdos não são extraídos.	Não estruturado
Microsoft Word	DOC, DOCX	Somente o conteúdo de texto é extraído das páginas do Word para pesquisa. Imagens e outros conteúdos não são extraídos.	Não estruturado
Texto sem formatação (TXT)	TXT	Todo o texto no documento de texto é extraído.	Não estruturado

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Documentos

Atributos ou campos do documento