-Documents - Amazon Kendra

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

-Documents

In diesem Abschnitt wird erklärt, wie die vielen unterstützten Dokumentformate und die verschiedenen Felder/Attribute von Dokumenten Amazon Kendra indexiert werden.

Dokumenttypen oder Formate

Amazon Kendra unterstützt gängige Dokumenttypen oder Formate wie PDF, HTML PowerPoint, Word und mehr. Ein Index kann mehrere Dokumentformate enthalten.

Amazon Kendra extrahiert den Inhalt der Dokumente, um die Dokumente durchsuchbar zu machen. Die Dokumente werden so analysiert, dass die Suche nach dem extrahierten Text und allen tabellarischen Inhalten (HTML-Tabellen) in den Dokumenten optimiert wird. Das bedeutet, die Dokumente in Felder oder Attribute zu strukturieren, die für die Suche verwendet werden. Die Metadaten des Dokuments, z. B. das Datum der letzten Änderung, können nützliche Felder für die Suche sein.

Dokumente können in Zeilen und Spalten organisiert werden. Beispielsweise ist jedes Dokument eine Zeile und jedes Dokumentfeld/jedes Dokumentattribut, z. B. der Titel und der Hauptteil, ist eine Spalte. Wenn Sie beispielsweise eine Datenbank als Datenquelle verwenden, sollten die Daten strukturiert oder in Zeilen und Spalten organisiert sein.

Sie können Ihrem Index auf folgende Weise Dokumente hinzufügen:

Wenn Sie eine FAQ-Datei hinzufügen möchten, verwenden Sie die CreateFaqAPI, um die in einem Amazon S3 Bucket gespeicherte Datei hinzuzufügen. Sie können zwischen einem grundlegenden CSV-Format, einem CSV-Format, das benutzerdefinierte Felder/Attribute in einer Kopfzeile enthält, und einem JSON-Format, das benutzerdefinierte Felder enthält, wählen. Das Standardformat ist das grundlegende CSV-Format.

Im Folgenden finden Sie Informationen zu den einzelnen unterstützten Dokumentformaten und dazu, wie die einzelnen Formate bei der Indizierung von Dokumenten Amazon Kendra behandelt werden.

Format des Dokuments Behandelt als Wie wird das Dokument behandelt Ursprüngliche Struktur
Tragbares Dokumentenformat (PDF) HTML In HTML konvertiert, dann wird der Inhalt extrahiert. Unstrukturiert
HyperText Auszeichnungssprache (HTML) HTML HTML-Tags werden herausgefiltert, um Inhalte zu extrahieren. Der Inhalt muss zwischen den HTML Haupt-Start- und Schlusstags (<HTML>content</HTML>) liegen. Semistrukturiert
Erweiterbare Markup Language (XML) XML XML-Tags werden herausgefiltert, um Inhalte zu extrahieren. Semistrukturiert
Erweiterbare Stylesheet-Sprachtransformation (XSLT) XSLT Tags werden herausgefiltert, um Inhalte zu extrahieren. Halbstrukturiert
MarkDown (MD) Klartext Der Inhalt wird mit der enthaltenen MarkDown Syntax extrahiert. Halbstrukturiert
Comma Separated Values (CSV) CSV Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. Strukturiert für FAQ-Dateien, ansonsten halbstrukturiert
Microsoft Excel (XLS und XLSX) XLS und XLSX Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. Teilweise strukturiert
JavaScript Objektnotation (JSON) Klarer Text Der Inhalt wird inklusive JSON-Syntax extrahiert. Semistrukturiert
Rich-Text-Format (RTF) RTF Die RTF-Syntax wird herausgefiltert, um Inhalte zu extrahieren. Semistrukturiert
Microsoft PowerPoint (PPT) PPT, PPTX Nur Textinhalte werden für die Suche aus PowerPoint Folien extrahiert. Bilder und andere Inhalte werden nicht extrahiert. Unstrukturiert
Microsoft Word DOC, DOCX Nur Textinhalte werden für die Suche aus Word-Seiten extrahiert. Bilder und andere Inhalte werden nicht extrahiert. Unstrukturiert
Klartext (TXT) TXT Der gesamte Text im Textdokument wird extrahiert. Unstrukturiert

Attribute oder Felder des Dokuments

Einem Dokument sind Attribute oder Felder zugeordnet. Felder eines Dokuments sind die Eigenschaften eines Dokuments oder das, was in der Struktur eines Dokuments enthalten ist. Beispielsweise kann jedes Ihrer Dokumente Titel, Haupttext und Autor enthalten. Sie können auch benutzerdefinierte Felder für Ihre speziellen Dokumente hinzufügen. Wenn Ihr Index beispielsweise nach Steuerdokumenten sucht, können Sie ein benutzerdefiniertes Feld für den Typ des Steuerdokuments angeben, z. B. W-2, 1099 usw.

Bevor Sie ein Dokumentfeld in einer Abfrage verwenden können, muss es einem Indexfeld zugeordnet werden. Beispielsweise kann das Titelfeld dem Feld zugeordnet werden. _document_title Weitere Informationen finden Sie unter Felder zuordnen. Um ein neues Feld hinzuzufügen, müssen Sie ein Indexfeld erstellen, dem das Feld zugeordnet werden soll. Sie erstellen Indexfelder mithilfe der Konsole oder mithilfe der UpdateIndexAPI.

Sie können Dokumentfelder verwenden, um Antworten zu filtern und facettierte Suchergebnisse zu erstellen. Sie können beispielsweise eine Antwort so filtern, dass nur eine bestimmte Version eines Dokuments zurückgegeben wird, oder Sie können Suchanfragen so filtern, dass nur Steuerdokumente vom Typ 1099 zurückgegeben werden, die dem Suchbegriff entsprechen. Weitere Informationen finden Sie unter Filtern und Facettensuche.

Sie können auch Dokumentfelder verwenden, um die Abfrageantwort manuell zu optimieren. Sie können sich beispielsweise dafür entscheiden, die Bedeutung des Titelfeldes zu erhöhen, um die Gewichtung zu erhöhen, die dem Feld Amazon Kendra zugewiesen wird, wenn es darum geht, zu bestimmen, welche Dokumente in der Antwort zurückgegeben werden sollen. Weitere Informationen finden Sie unter Suchrelevanz optimieren.

Wenn Sie ein Dokument direkt zu einem Index hinzufügen, geben Sie die Felder im Eingabeparameter Dokument für die BatchPutDocumentAPI an. Sie geben die benutzerdefinierten Feldwerte in einem DocumentAttributeObjekt-Array an. Wenn Sie eine Datenquelle verwenden, hängt die Methode, mit der Sie die Dokumentfelder hinzufügen, von der Datenquelle ab. Weitere Informationen finden Sie unter Zuweisen von Datenquellenfeldern.

Verwenden von Amazon Kendra reservierten oder gemeinsamen Dokumentfeldern

Mit der UpdateIndex API können Sie reservierte oder allgemeine Felder erstellen, indem Sie den Namen des Amazon Kendra reservierten Indexfeldes verwenden DocumentMetadataConfigurationUpdates und angeben, um ihn Ihrem entsprechenden Dokumentattribut/Feldnamen zuzuordnen. Sie können auch benutzerdefinierte Felder erstellen. Wenn Sie einen Datenquellenconnector verwenden, enthalten die meisten Feldzuordnungen, die die Felder Ihres Datenquellendokuments Amazon Kendra Indexfeldern zuordnen. Wenn Sie die Konsole verwenden, aktualisieren Sie Felder, indem Sie Ihre Datenquelle auswählen, die Aktion Bearbeiten auswählen und dann mit dem Abschnitt Feldzuordnungen zur Konfiguration der Datenquelle fortfahren.

Sie können das Search Objekt so konfigurieren, dass ein Feld entweder als anzeigbar, facettierbar, durchsuchbar oder sortierbar festgelegt wird. Sie können das Relevance Objekt so konfigurieren, dass die Rangfolge, die Boost-Dauer oder der Zeitraum eines Felds so festgelegt werden, dass sie auf Boosting, Aktualität, Wichtigkeitswert und Wichtigkeitswerte angewendet werden, die bestimmten Feldwerten zugeordnet sind. Wenn Sie die Konsole verwenden, können Sie die Sucheinstellungen für ein Feld festlegen, indem Sie im Navigationsmenü die Option Facette auswählen. Um die Relevanzoptimierung einzustellen, wählen Sie im Navigationsmenü die Option zum Durchsuchen Ihres Index aus, geben Sie eine Abfrage ein und verwenden Sie die Optionen im Seitenbereich, um die Suchrelevanz zu optimieren. Sie können den Feldtyp nicht mehr ändern, nachdem Sie das Feld erstellt haben.

Amazon Kendra hat die folgenden reservierten oder allgemeinen Dokumentfelder, die Sie verwenden können:

  • _authors—Eine Liste mit einem oder mehreren Autoren, die für den Inhalt des Dokuments verantwortlich sind.

  • _category— Eine Kategorie, die ein Dokument einer bestimmten Gruppe zuordnet.

  • _created_at— Datum und Uhrzeit im ISO 8601-Format, an dem das Dokument erstellt wurde. Beispiel: 2012-03-25T12:30:10+01:00 ist das ISO-8601-Datums-/Uhrzeitformat für den 25. März 2012 um 12:30 Uhr (plus 10 Sekunden) in mitteleuropäischer Zeit (CET).

  • _data_source_id— Der Bezeichner der Datenquelle, die das Dokument enthält.

  • _document_body— Der Inhalt des Dokuments.

  • _document_id— Eine eindeutige Kennung für das Dokument.

  • _document_title— Der Titel des Dokuments.

  • _excerpt_page_number— Die Seitenzahl in einer PDF-Datei, auf der der Dokumentauszug erscheint. Wenn Ihr Index vor dem 8. September 2020 erstellt wurde, müssen Sie Ihre Dokumente erneut indizieren, bevor Sie dieses Attribut verwenden können.

  • _faq_id— Wenn es sich um ein Dokument vom Typ Frage-Antwort (FAQ) handelt, eine eindeutige Kennung für die häufig gestellten Fragen.

  • _file_type— Der Dateityp des Dokuments, z. B. PDF oder Dokument.

  • _last_updated_at— Datum und Uhrzeit der letzten Aktualisierung des Dokuments im Format ISO 8601. Beispiel: 2012-03-25T12:30:10+01:00 ist das ISO-8601-Datums-/Uhrzeitformat für den 25. März 2012 um 12:30 Uhr (plus 10 Sekunden) in mitteleuropäischer Zeit (CET).

  • _source_uri— Die URI, unter der das Dokument verfügbar ist. Zum Beispiel der URI des Dokuments auf einer Unternehmenswebsite.

  • _version— Ein Bezeichner für die spezifische Version eines Dokuments.

  • _view_count— Wie oft das Dokument angesehen wurde.

  • _language_code(String) — Der Code für eine Sprache, die für das Dokument gilt. Dies ist standardmäßig Englisch, wenn Sie keine Sprache angeben. Weitere Informationen zu den unterstützten Sprachen, einschließlich ihrer Codes, finden Sie unter Dokumente in anderen Sprachen als Englisch hinzufügen.

Bei benutzerdefinierten Feldern erstellen Sie diese Felder DocumentMetadataConfigurationUpdates mithilfe der UpdateIndex API, genau wie bei der Erstellung eines reservierten oder gemeinsamen Felds. Sie müssen den entsprechenden Datentyp für Ihr benutzerdefiniertes Feld festlegen. Wenn Sie die Konsole verwenden, aktualisieren Sie Felder, indem Sie Ihre Datenquelle auswählen, die Aktion Bearbeiten auswählen und dann mit dem Abschnitt Feldzuordnungen zur Konfiguration der Datenquelle fortfahren. Einige Datenquellen unterstützen das Hinzufügen neuer Felder oder benutzerdefinierter Felder nicht. Sie können den Feldtyp nicht mehr ändern, nachdem Sie das Feld erstellt haben.

Die folgenden Typen können Sie für benutzerdefinierte Felder festlegen:

  • Datum

  • Anzahl

  • String

  • Zeichenfolgenliste

Wenn Sie dem Index mithilfe der BatchPutDocumentAPI Dokumente hinzugefügt haben, Attributes listet die Felder/Attribute Ihrer Dokumente auf und Sie erstellen Felder mithilfe des DocumentAttribute Objekts.

Für Dokumente, die aus einer Amazon S3 Datenquelle indexiert wurden, erstellen Sie Felder mithilfe einer JSON-Metadatendatei, die die Feldinformationen enthält.

Wenn Sie eine unterstützte Datenbank als Datenquelle verwenden, können Sie Ihre Felder mithilfe der Option Feldzuordnungen konfigurieren.