Dokumenttypen oder -formate - Amazon Kendra

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dokumenttypen oder -formate

Amazon Kendra unterstützt gängige Dokumenttypen oder Formate wie PDFHTML, PowerPoint, Word und mehr. Ein Index kann mehrere Dokumentformate enthalten.

Amazon Kendra extrahiert den Inhalt der Dokumente, um die Dokumente durchsuchbar zu machen. Die Dokumente werden so analysiert, dass die Suche nach dem extrahierten Text und allen tabellarischen Inhalten (HTMLTabellen) in den Dokumenten optimiert wird. Das bedeutet, die Dokumente in Felder oder Attribute zu strukturieren, die für die Suche verwendet werden. Die Metadaten des Dokuments, z. B. das Datum der letzten Änderung, können nützliche Felder für die Suche sein.

Dokumente können in Zeilen und Spalten organisiert werden. Beispielsweise ist jedes Dokument eine Zeile und jedes Dokumentfeld/jedes Dokumentattribut, z. B. der Titel und der Hauptteil, ist eine Spalte. Wenn Sie beispielsweise eine Datenbank als Datenquelle verwenden, sollten die Daten strukturiert oder in Zeilen und Spalten organisiert sein.

Sie können Ihrem Index auf folgende Weise Dokumente hinzufügen:

Wenn Sie eine FAQ Datei hinzufügen möchten, verwenden Sie den, CreateFaqAPIum die Datei hinzuzufügen, die in einem Amazon S3 Eimer. Sie können zwischen einem CSV Basisformat, einem CSV Format, das benutzerdefinierte Felder/Attribute in einer Kopfzeile enthält, und einem JSON Format, das benutzerdefinierte Felder enthält, wählen. Das Standardformat ist Basic. CSV

Im Folgenden finden Sie Informationen zu den einzelnen unterstützten Dokumentformaten und zu deren Vorgehensweise Amazon Kendra behandelt jedes Format bei der Indizierung von Dokumenten.

Format des Dokuments Behandelt als Wie wird das Dokument behandelt Ursprüngliche Struktur
Tragbares Dokumentenformat (PDF) HTML Konvertiert inHTML, dann wird der Inhalt extrahiert. Unstrukturiert
HyperText Markup-Sprache () HTML HTML HTMLTags werden herausgefiltert, um Inhalt zu extrahieren. Der Inhalt muss zwischen den HTML Haupt-Start- und Schlusstags liegen (<HTML>content</HTML>). Semistrukturiert
Erweiterbare Auszeichnungssprache () XML XML XMLTags werden herausgefiltert, um Inhalte zu extrahieren. Halbstrukturiert
Transformation einer erweiterbaren Stylesheet-Sprache () XSLT XSLT Tags werden herausgefiltert, um Inhalte zu extrahieren. Halbstrukturiert
MarkDown (MD) Klartext Der Inhalt wird mit der enthaltenen MarkDown Syntax extrahiert. Halbstrukturiert
Durch Kommas getrennte Werte () CSV CSV Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. Strukturiert für FAQ Dateien, ansonsten halbstrukturiert
Microsoft Excel (XLSundXLSX) XLSund XLSX Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. Teilweise strukturiert
JavaScript Objektnotation () JSON Klarer Text Der Inhalt wird mit der enthaltenen JSON Syntax extrahiert. Halbstrukturiert
Rich-Text-Format () RTF RTF RTFDie Syntax wird herausgefiltert, um Inhalt zu extrahieren. Semistrukturiert
Microsoft PowerPoint (PPT) PPT, PPTX Nur Textinhalte werden für die Suche aus PowerPoint Folien extrahiert. Bilder und andere Inhalte werden nicht extrahiert. Unstrukturiert
Microsoft Word DOC, DOCX Nur Textinhalte werden für die Suche aus Word-Seiten extrahiert. Bilder und andere Inhalte werden nicht extrahiert. Unstrukturiert
Klartext () TXT TXT Der gesamte Text im Textdokument wird extrahiert. Unstrukturiert