Dokumenttypen oder -formate

Amazon Kendra unterstützt gängige Dokumenttypen oder Formate wie PDFHTML, PowerPoint, Word und mehr. Ein Index kann mehrere Dokumentformate enthalten.

Amazon Kendra extrahiert den Inhalt der Dokumente, um die Dokumente durchsuchbar zu machen. Die Dokumente werden so analysiert, dass die Suche nach dem extrahierten Text und allen tabellarischen Inhalten (HTMLTabellen) in den Dokumenten optimiert wird. Das bedeutet, die Dokumente in Felder oder Attribute zu strukturieren, die für die Suche verwendet werden. Die Metadaten des Dokuments, z. B. das Datum der letzten Änderung, können nützliche Felder für die Suche sein.

Dokumente können in Zeilen und Spalten organisiert werden. Beispielsweise ist jedes Dokument eine Zeile und jedes Dokumentfeld/jedes Dokumentattribut, z. B. der Titel und der Hauptteil, ist eine Spalte. Wenn Sie beispielsweise eine Datenbank als Datenquelle verwenden, sollten die Daten strukturiert oder in Zeilen und Spalten organisiert sein.

Sie können Ihrem Index auf folgende Weise Dokumente hinzufügen:

Wenn Sie eine FAQ Datei hinzufügen möchten, verwenden Sie den, CreateFaqAPIum die Datei hinzuzufügen, die in einem Amazon S3 Eimer. Sie können zwischen einem CSV Basisformat, einem CSV Format, das benutzerdefinierte Felder/Attribute in einer Kopfzeile enthält, und einem JSON Format, das benutzerdefinierte Felder enthält, wählen. Das Standardformat ist Basic. CSV

Im Folgenden finden Sie Informationen zu den einzelnen unterstützten Dokumentformaten und zu deren Vorgehensweise Amazon Kendra behandelt jedes Format bei der Indizierung von Dokumenten.

Format des Dokuments	Behandelt als	Wie wird das Dokument behandelt	Ursprüngliche Struktur
Tragbares Dokumentenformat (PDF)	HTML	Konvertiert inHTML, dann wird der Inhalt extrahiert.	Unstrukturiert
HyperText Markup-Sprache () HTML	HTML	HTMLTags werden herausgefiltert, um Inhalt zu extrahieren. Der Inhalt muss zwischen den `HTML` Haupt-Start- und Schlusstags liegen (`<HTML>content</HTML>`).	Semistrukturiert
Erweiterbare Auszeichnungssprache () XML	XML	XMLTags werden herausgefiltert, um Inhalte zu extrahieren.	Halbstrukturiert
Transformation einer erweiterbaren Stylesheet-Sprache () XSLT	XSLT	Tags werden herausgefiltert, um Inhalte zu extrahieren.	Halbstrukturiert
MarkDown (MD)	Klartext	Der Inhalt wird mit der enthaltenen MarkDown Syntax extrahiert.	Halbstrukturiert
Durch Kommas getrennte Werte () CSV	CSV	Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird.	Strukturiert für FAQ Dateien, ansonsten halbstrukturiert
Microsoft Excel (XLSundXLSX)	XLSund XLSX	Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird.	Teilweise strukturiert
JavaScript Objektnotation () JSON	Klarer Text	Der Inhalt wird mit der enthaltenen JSON Syntax extrahiert.	Halbstrukturiert
Rich-Text-Format () RTF	RTF	RTFDie Syntax wird herausgefiltert, um Inhalt zu extrahieren.	Semistrukturiert
Microsoft PowerPoint (PPT)	PPT, PPTX	Nur Textinhalte werden für die Suche aus PowerPoint Folien extrahiert. Bilder und andere Inhalte werden nicht extrahiert.	Unstrukturiert
Microsoft Word	DOC, DOCX	Nur Textinhalte werden für die Suche aus Word-Seiten extrahiert. Bilder und andere Inhalte werden nicht extrahiert.	Unstrukturiert
Klartext () TXT	TXT	Der gesamte Text im Textdokument wird extrahiert.	Unstrukturiert

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

-Documents

Attribute oder Felder des Dokuments