Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dokumenttypen oder -formate
Amazon Kendra unterstützt gängige Dokumenttypen oder Formate wie PDFHTML, PowerPoint, Word und mehr. Ein Index kann mehrere Dokumentformate enthalten.
Amazon Kendra extrahiert den Inhalt der Dokumente, um die Dokumente durchsuchbar zu machen. Die Dokumente werden so analysiert, dass die Suche nach dem extrahierten Text und allen tabellarischen Inhalten (HTMLTabellen) in den Dokumenten optimiert wird. Das bedeutet, die Dokumente in Felder oder Attribute zu strukturieren, die für die Suche verwendet werden. Die Metadaten des Dokuments, z. B. das Datum der letzten Änderung, können nützliche Felder für die Suche sein.
Dokumente können in Zeilen und Spalten organisiert werden. Beispielsweise ist jedes Dokument eine Zeile und jedes Dokumentfeld/jedes Dokumentattribut, z. B. der Titel und der Hauptteil, ist eine Spalte. Wenn Sie beispielsweise eine Datenbank als Datenquelle verwenden, sollten die Daten strukturiert oder in Zeilen und Spalten organisiert sein.
Sie können Ihrem Index auf folgende Weise Dokumente hinzufügen:
Wenn Sie eine FAQ Datei hinzufügen möchten, verwenden Sie den, CreateFaqAPIum die Datei hinzuzufügen, die in einem Amazon S3 Eimer. Sie können zwischen einem CSV Basisformat, einem CSV Format, das benutzerdefinierte Felder/Attribute in einer Kopfzeile enthält, und einem JSON Format, das benutzerdefinierte Felder enthält, wählen. Das Standardformat ist Basic. CSV
Im Folgenden finden Sie Informationen zu den einzelnen unterstützten Dokumentformaten und zu deren Vorgehensweise Amazon Kendra behandelt jedes Format bei der Indizierung von Dokumenten.
Format des Dokuments | Behandelt als | Wie wird das Dokument behandelt | Ursprüngliche Struktur |
---|---|---|---|
Tragbares Dokumentenformat (PDF) | HTML | Konvertiert inHTML, dann wird der Inhalt extrahiert. | Unstrukturiert |
HyperText Markup-Sprache () HTML | HTML | HTMLTags werden herausgefiltert, um Inhalt zu extrahieren. Der Inhalt muss zwischen den HTML Haupt-Start- und Schlusstags liegen (<HTML>content</HTML> ). |
Semistrukturiert |
Erweiterbare Auszeichnungssprache () XML | XML | XMLTags werden herausgefiltert, um Inhalte zu extrahieren. | Halbstrukturiert |
Transformation einer erweiterbaren Stylesheet-Sprache () XSLT | XSLT | Tags werden herausgefiltert, um Inhalte zu extrahieren. | Halbstrukturiert |
MarkDown (MD) | Klartext | Der Inhalt wird mit der enthaltenen MarkDown Syntax extrahiert. | Halbstrukturiert |
Durch Kommas getrennte Werte () CSV | CSV | Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. | Strukturiert für FAQ Dateien, ansonsten halbstrukturiert |
Microsoft Excel (XLSundXLSX) | XLSund XLSX | Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. | Teilweise strukturiert |
JavaScript Objektnotation () JSON | Klarer Text | Der Inhalt wird mit der enthaltenen JSON Syntax extrahiert. | Halbstrukturiert |
Rich-Text-Format () RTF | RTF | RTFDie Syntax wird herausgefiltert, um Inhalt zu extrahieren. | Semistrukturiert |
Microsoft PowerPoint (PPT) | PPT, PPTX | Nur Textinhalte werden für die Suche aus PowerPoint Folien extrahiert. Bilder und andere Inhalte werden nicht extrahiert. | Unstrukturiert |
Microsoft Word | DOC, DOCX | Nur Textinhalte werden für die Suche aus Word-Seiten extrahiert. Bilder und andere Inhalte werden nicht extrahiert. | Unstrukturiert |
Klartext () TXT | TXT | Der gesamte Text im Textdokument wird extrahiert. | Unstrukturiert |