Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
-Documents
In diesem Abschnitt wird erklärt, wie die vielen unterstützten Dokumentformate und die verschiedenen Felder/Attribute von Dokumenten Amazon Kendra indexiert werden.
Dokumenttypen oder Formate
Amazon Kendra unterstützt gängige Dokumenttypen oder Formate wie PDF, HTML PowerPoint, Word und mehr. Ein Index kann mehrere Dokumentformate enthalten.
Amazon Kendra extrahiert den Inhalt der Dokumente, um die Dokumente durchsuchbar zu machen. Die Dokumente werden so analysiert, dass die Suche nach dem extrahierten Text und allen tabellarischen Inhalten (HTML-Tabellen) in den Dokumenten optimiert wird. Das bedeutet, die Dokumente in Felder oder Attribute zu strukturieren, die für die Suche verwendet werden. Die Metadaten des Dokuments, z. B. das Datum der letzten Änderung, können nützliche Felder für die Suche sein.
Dokumente können in Zeilen und Spalten organisiert werden. Beispielsweise ist jedes Dokument eine Zeile und jedes Dokumentfeld/jedes Dokumentattribut, z. B. der Titel und der Hauptteil, ist eine Spalte. Wenn Sie beispielsweise eine Datenbank als Datenquelle verwenden, sollten die Daten strukturiert oder in Zeilen und Spalten organisiert sein.
Sie können Ihrem Index auf folgende Weise Dokumente hinzufügen:
Wenn Sie eine FAQ-Datei hinzufügen möchten, verwenden Sie die CreateFaqAPI, um die in einem Amazon S3 Bucket gespeicherte Datei hinzuzufügen. Sie können zwischen einem grundlegenden CSV-Format, einem CSV-Format, das benutzerdefinierte Felder/Attribute in einer Kopfzeile enthält, und einem JSON-Format, das benutzerdefinierte Felder enthält, wählen. Das Standardformat ist das grundlegende CSV-Format.
Im Folgenden finden Sie Informationen zu den einzelnen unterstützten Dokumentformaten und dazu, wie die einzelnen Formate bei der Indizierung von Dokumenten Amazon Kendra behandelt werden.
Format des Dokuments | Behandelt als | Wie wird das Dokument behandelt | Ursprüngliche Struktur |
---|---|---|---|
Tragbares Dokumentenformat (PDF) | HTML | In HTML konvertiert, dann wird der Inhalt extrahiert. | Unstrukturiert |
HyperText Auszeichnungssprache (HTML) | HTML | HTML-Tags werden herausgefiltert, um Inhalte zu extrahieren. Der Inhalt muss zwischen den HTML Haupt-Start- und Schlusstags (<HTML>content</HTML> ) liegen. |
Semistrukturiert |
Erweiterbare Markup Language (XML) | XML | XML-Tags werden herausgefiltert, um Inhalte zu extrahieren. | Semistrukturiert |
Erweiterbare Stylesheet-Sprachtransformation (XSLT) | XSLT | Tags werden herausgefiltert, um Inhalte zu extrahieren. | Halbstrukturiert |
MarkDown (MD) | Klartext | Der Inhalt wird mit der enthaltenen MarkDown Syntax extrahiert. | Halbstrukturiert |
Comma Separated Values (CSV) | CSV | Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. | Strukturiert für FAQ-Dateien, ansonsten halbstrukturiert |
Microsoft Excel (XLS und XLSX) | XLS und XLSX | Aus jeder Zelle extrahierter Inhalt, wobei eine einzelne Datei als einzelnes Dokumentergebnis behandelt wird. | Teilweise strukturiert |
JavaScript Objektnotation (JSON) | Klarer Text | Der Inhalt wird inklusive JSON-Syntax extrahiert. | Semistrukturiert |
Rich-Text-Format (RTF) | RTF | Die RTF-Syntax wird herausgefiltert, um Inhalte zu extrahieren. | Semistrukturiert |
Microsoft PowerPoint (PPT) | PPT, PPTX | Nur Textinhalte werden für die Suche aus PowerPoint Folien extrahiert. Bilder und andere Inhalte werden nicht extrahiert. | Unstrukturiert |
Microsoft Word | DOC, DOCX | Nur Textinhalte werden für die Suche aus Word-Seiten extrahiert. Bilder und andere Inhalte werden nicht extrahiert. | Unstrukturiert |
Klartext (TXT) | TXT | Der gesamte Text im Textdokument wird extrahiert. | Unstrukturiert |
Attribute oder Felder des Dokuments
Einem Dokument sind Attribute oder Felder zugeordnet. Felder eines Dokuments sind die Eigenschaften eines Dokuments oder das, was in der Struktur eines Dokuments enthalten ist. Beispielsweise kann jedes Ihrer Dokumente Titel, Haupttext und Autor enthalten. Sie können auch benutzerdefinierte Felder für Ihre speziellen Dokumente hinzufügen. Wenn Ihr Index beispielsweise nach Steuerdokumenten sucht, können Sie ein benutzerdefiniertes Feld für den Typ des Steuerdokuments angeben, z. B. W-2, 1099 usw.
Bevor Sie ein Dokumentfeld in einer Abfrage verwenden können, muss es einem Indexfeld zugeordnet werden. Beispielsweise kann das Titelfeld dem Feld zugeordnet werden. _document_title
Weitere Informationen finden Sie unter Felder zuordnen. Um ein neues Feld hinzuzufügen, müssen Sie ein Indexfeld erstellen, dem das Feld zugeordnet werden soll. Sie erstellen Indexfelder mithilfe der Konsole oder mithilfe der UpdateIndexAPI.
Sie können Dokumentfelder verwenden, um Antworten zu filtern und facettierte Suchergebnisse zu erstellen. Sie können beispielsweise eine Antwort so filtern, dass nur eine bestimmte Version eines Dokuments zurückgegeben wird, oder Sie können Suchanfragen so filtern, dass nur Steuerdokumente vom Typ 1099 zurückgegeben werden, die dem Suchbegriff entsprechen. Weitere Informationen finden Sie unter Filtern und Facettensuche.
Sie können auch Dokumentfelder verwenden, um die Abfrageantwort manuell zu optimieren. Sie können sich beispielsweise dafür entscheiden, die Bedeutung des Titelfeldes zu erhöhen, um die Gewichtung zu erhöhen, die dem Feld Amazon Kendra zugewiesen wird, wenn es darum geht, zu bestimmen, welche Dokumente in der Antwort zurückgegeben werden sollen. Weitere Informationen finden Sie unter Suchrelevanz optimieren.
Wenn Sie ein Dokument direkt zu einem Index hinzufügen, geben Sie die Felder im Eingabeparameter Dokument für die BatchPutDocumentAPI an. Sie geben die benutzerdefinierten Feldwerte in einem DocumentAttributeObjekt-Array an. Wenn Sie eine Datenquelle verwenden, hängt die Methode, mit der Sie die Dokumentfelder hinzufügen, von der Datenquelle ab. Weitere Informationen finden Sie unter Zuweisen von Datenquellenfeldern.
Verwenden von Amazon Kendra reservierten oder gemeinsamen Dokumentfeldern
Mit der UpdateIndex API können Sie reservierte oder allgemeine Felder erstellen, indem Sie den Namen des Amazon Kendra
reservierten Indexfeldes verwenden DocumentMetadataConfigurationUpdates
und angeben, um ihn Ihrem entsprechenden Dokumentattribut/Feldnamen zuzuordnen. Sie können auch benutzerdefinierte Felder erstellen. Wenn Sie einen Datenquellenconnector verwenden, enthalten die meisten Feldzuordnungen, die die Felder Ihres Datenquellendokuments Amazon Kendra Indexfeldern zuordnen. Wenn Sie die Konsole verwenden, aktualisieren Sie Felder, indem Sie Ihre Datenquelle auswählen, die Aktion Bearbeiten auswählen und dann mit dem Abschnitt Feldzuordnungen zur Konfiguration der Datenquelle fortfahren.
Sie können das Search
Objekt so konfigurieren, dass ein Feld entweder als anzeigbar, facettierbar, durchsuchbar oder sortierbar festgelegt wird. Sie können das Relevance
Objekt so konfigurieren, dass die Rangfolge, die Boost-Dauer oder der Zeitraum eines Felds so festgelegt werden, dass sie auf Boosting, Aktualität, Wichtigkeitswert und Wichtigkeitswerte angewendet werden, die bestimmten Feldwerten zugeordnet sind. Wenn Sie die Konsole verwenden, können Sie die Sucheinstellungen für ein Feld festlegen, indem Sie im Navigationsmenü die Option Facette auswählen. Um die Relevanzoptimierung einzustellen, wählen Sie im Navigationsmenü die Option zum Durchsuchen Ihres Index aus, geben Sie eine Abfrage ein und verwenden Sie die Optionen im Seitenbereich, um die Suchrelevanz zu optimieren. Sie können den Feldtyp nicht mehr ändern, nachdem Sie das Feld erstellt haben.
Amazon Kendra hat die folgenden reservierten oder allgemeinen Dokumentfelder, die Sie verwenden können:
-
_authors
—Eine Liste mit einem oder mehreren Autoren, die für den Inhalt des Dokuments verantwortlich sind. -
_category
— Eine Kategorie, die ein Dokument einer bestimmten Gruppe zuordnet. -
_created_at
— Datum und Uhrzeit im ISO 8601-Format, an dem das Dokument erstellt wurde. Beispiel: 2012-03-25T12:30:10+01:00 ist das ISO-8601-Datums-/Uhrzeitformat für den 25. März 2012 um 12:30 Uhr (plus 10 Sekunden) in mitteleuropäischer Zeit (CET). -
_data_source_id
— Der Bezeichner der Datenquelle, die das Dokument enthält. -
_document_body
— Der Inhalt des Dokuments. -
_document_id
— Eine eindeutige Kennung für das Dokument. -
_document_title
— Der Titel des Dokuments. -
_excerpt_page_number
— Die Seitenzahl in einer PDF-Datei, auf der der Dokumentauszug erscheint. Wenn Ihr Index vor dem 8. September 2020 erstellt wurde, müssen Sie Ihre Dokumente erneut indizieren, bevor Sie dieses Attribut verwenden können. -
_faq_id
— Wenn es sich um ein Dokument vom Typ Frage-Antwort (FAQ) handelt, eine eindeutige Kennung für die häufig gestellten Fragen. -
_file_type
— Der Dateityp des Dokuments, z. B. PDF oder Dokument. -
_last_updated_at
— Datum und Uhrzeit der letzten Aktualisierung des Dokuments im Format ISO 8601. Beispiel: 2012-03-25T12:30:10+01:00 ist das ISO-8601-Datums-/Uhrzeitformat für den 25. März 2012 um 12:30 Uhr (plus 10 Sekunden) in mitteleuropäischer Zeit (CET). -
_source_uri
— Die URI, unter der das Dokument verfügbar ist. Zum Beispiel der URI des Dokuments auf einer Unternehmenswebsite. -
_version
— Ein Bezeichner für die spezifische Version eines Dokuments. -
_view_count
— Wie oft das Dokument angesehen wurde. -
_language_code
(String) — Der Code für eine Sprache, die für das Dokument gilt. Dies ist standardmäßig Englisch, wenn Sie keine Sprache angeben. Weitere Informationen zu den unterstützten Sprachen, einschließlich ihrer Codes, finden Sie unter Dokumente in anderen Sprachen als Englisch hinzufügen.
Bei benutzerdefinierten Feldern erstellen Sie diese Felder DocumentMetadataConfigurationUpdates
mithilfe der UpdateIndex
API, genau wie bei der Erstellung eines reservierten oder gemeinsamen Felds. Sie müssen den entsprechenden Datentyp für Ihr benutzerdefiniertes Feld festlegen. Wenn Sie die Konsole verwenden, aktualisieren Sie Felder, indem Sie Ihre Datenquelle auswählen, die Aktion Bearbeiten auswählen und dann mit dem Abschnitt Feldzuordnungen zur Konfiguration der Datenquelle fortfahren. Einige Datenquellen unterstützen das Hinzufügen neuer Felder oder benutzerdefinierter Felder nicht. Sie können den Feldtyp nicht mehr ändern, nachdem Sie das Feld erstellt haben.
Die folgenden Typen können Sie für benutzerdefinierte Felder festlegen:
-
Datum
-
Anzahl
-
String
-
Zeichenfolgenliste
Wenn Sie dem Index mithilfe der BatchPutDocumentAPI Dokumente hinzugefügt haben, Attributes
listet die Felder/Attribute Ihrer Dokumente auf und Sie erstellen Felder mithilfe des DocumentAttribute
Objekts.
Für Dokumente, die aus einer Amazon S3 Datenquelle indexiert wurden, erstellen Sie Felder mithilfe einer JSON-Metadatendatei, die die Feldinformationen enthält.
Wenn Sie eine unterstützte Datenbank als Datenquelle verwenden, können Sie Ihre Felder mithilfe der Option Feldzuordnungen konfigurieren.