Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Cette section explique comment Amazon Kendra indexer les nombreux formats de documents qu'il prend en charge et les différents champs/attributs des documents.
Types ou formats de documents
Amazon Kendra prend en charge les types ou formats de documents courants tels que PDF, HTML PowerPoint, Word, etc. Un index peut contenir plusieurs formats de document.
Amazon Kendra extrait le contenu des documents afin de les rendre consultables. Les documents sont analysés de manière à optimiser la recherche sur le texte extrait et sur tout contenu tabulaire (tableaux HTML) dans les documents. Cela implique de structurer les documents en champs ou attributs utilisés pour la recherche. Les métadonnées du document, telles que la date de dernière modification, peuvent être des champs utiles pour la recherche.
Les documents peuvent être organisés en lignes et en colonnes. Par exemple, chaque document est une ligne et chaque champ/attribut du document, tel que le titre et le corps du contenu, est une colonne. Par exemple, si vous utilisez une base de données comme source de données, les données doivent être structurées ou organisées en lignes et en colonnes.
Vous pouvez ajouter des documents à votre index de différentes manières :
Si vous souhaitez ajouter un fichier de FAQ, vous devez utiliser l'CreateFaqAPI pour ajouter le fichier stocké dans un Amazon S3 bucket. Vous pouvez choisir entre un format CSV de base, un format CSV qui inclut des champs/attributs personnalisés dans un en-tête et un format JSON qui inclut des champs personnalisés. Le format par défaut est le CSV de base.
Vous trouverez ci-dessous des informations sur chaque format de document pris en charge et sur le traitement Amazon Kendra de chaque format lors de l'indexation de documents.
Format du document | Traité comme | Comment le document est traité | Structure originale |
---|---|---|---|
Format de document portable (PDF) | HTML | Converti en HTML, puis le contenu est extrait. | Non structuré |
HyperText Langage de balisage (HTML) | HTML | Les balises HTML sont filtrées pour extraire le contenu. Le contenu doit se situer entre les balises de HTML début et de fermeture principales (<HTML>content</HTML> ). |
Semi-structuré |
XML (Extensible Markup Language) | xml | Les balises XML sont filtrées pour extraire le contenu. | Semi-structuré |
Transformation du langage des feuilles de style extensibles (XSLT) | XSLT | Les balises sont filtrées pour extraire le contenu. | Semi-structuré |
MarkDown (MARYLAND) | Texte brut | Le contenu est extrait avec MarkDown la syntaxe incluse. | Semi-structuré |
Valeurs séparées par des virgules (CSV) | CSV | Contenu extrait de chaque cellule, avec un seul fichier traité comme un résultat de document unique. | Structuré pour les fichiers FAQ, sinon semi-structuré |
Microsoft Excel (XLS et XLSX) | XLS et XLSX | Contenu extrait de chaque cellule, avec un seul fichier traité comme un résultat de document unique. | Semi-structuré |
JavaScript Notation d'objets (JSON) | Texte brut | Le contenu est extrait avec la syntaxe JSON incluse. | Semi-structuré |
Format de texte enrichi (RTF) | RTF | La syntaxe RTF est filtrée pour extraire le contenu. | Semi-structuré |
Microsoft PowerPoint (PPT) | PPT, PPTX | Seul le contenu textuel est extrait des PowerPoint diapositives à des fins de recherche. Les images et autres contenus ne sont pas extraits. | Non structuré |
Microsoft Word | DOC, DOCX | Seul le contenu textuel est extrait des pages Word à des fins de recherche. Les images et autres contenus ne sont pas extraits. | Non structuré |
Texte brut (TXT) | TXT | Tout le texte du document texte est extrait. | Non structuré |
Attributs ou champs du document
Des attributs ou des champs sont associés à un document. Les champs d'un document sont les propriétés d'un document ou le contenu de la structure d'un document. Par exemple, chacun de vos documents peut contenir le titre, le corps du texte et l'auteur. Vous pouvez également ajouter des champs personnalisés pour vos documents spécifiques. Par exemple, si votre index recherche des documents fiscaux, vous pouvez spécifier un champ personnalisé pour le type de document fiscal tel que W-2, 1099, etc.
Avant de pouvoir utiliser un champ de document dans une requête, il doit être mappé à un champ d'index. Par exemple, le champ de titre peut être mappé au champ_document_title
. Pour plus d'informations, consultez la section Mappage des champs. Pour ajouter un nouveau champ, vous devez créer un champ d'index auquel mapper le champ. Vous créez des champs d'index à l'aide de la console ou de l'UpdateIndexAPI.
Vous pouvez utiliser les champs du document pour filtrer les réponses et créer des résultats de recherche à facettes. Par exemple, vous pouvez filtrer une réponse pour renvoyer uniquement une version spécifique d'un document, ou vous pouvez filtrer les recherches pour ne renvoyer que les documents fiscaux de type 1099 correspondant au terme de recherche. Pour plus d'informations, consultez la section Filtrage et recherche par facettes.
Vous pouvez également utiliser les champs du document pour ajuster manuellement la réponse à la requête. Par exemple, vous pouvez choisir d'augmenter l'importance du champ de titre pour augmenter le poids qui lui est Amazon Kendra attribué lors de la détermination des documents à renvoyer dans la réponse. Pour plus d'informations, consultez la section Optimisation de la pertinence de la recherche.
Si vous ajoutez un document directement à un index, vous devez spécifier les champs dans le paramètre d'entrée Document de l'BatchPutDocumentAPI. Vous spécifiez les valeurs des champs personnalisés dans un tableau d'DocumentAttributeobjets. Si vous utilisez une source de données, la méthode que vous utilisez pour ajouter les champs du document dépend de la source de données. Pour plus d'informations, veuillez consulter la rubrique Mappage des champs de source de données.
Utilisation de champs de document Amazon Kendra réservés ou communs
Avec l'UpdateIndex API, vous pouvez créer des champs réservés ou communs en utilisant DocumentMetadataConfigurationUpdates
et en spécifiant le nom du champ d'index Amazon Kendra
réservé à mapper à l'attribut/nom de champ de votre document équivalent. Vous pouvez également créer des champs personnalisés. Si vous utilisez un connecteur de source de données, la plupart incluent des mappages de champs qui font correspondre les champs de votre document de source de données aux champs d' Amazon Kendra index. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données.
Vous pouvez configurer l'Search
objet pour définir un champ comme affichable, facetable, consultable ou triable. Vous pouvez configurer l'Relevance
objet pour définir l'ordre de classement d'un champ, la durée d'augmentation ou la période à appliquer aux valeurs de renforcement, de fraîcheur, de valeur d'importance et d'importance mappées à des valeurs de champ spécifiques. Si vous utilisez la console, vous pouvez définir les paramètres de recherche d'un champ en sélectionnant l'option à facettes dans le menu de navigation. Pour définir le réglage de la pertinence, sélectionnez l'option permettant de rechercher votre index dans le menu de navigation, entrez une requête et utilisez les options du panneau latéral pour ajuster la pertinence de la recherche. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.
Amazon Kendra possède les champs de document réservés ou communs suivants que vous pouvez utiliser :
-
_authors
—Une liste d'un ou de plusieurs auteurs responsables du contenu du document. -
_category
: catégorie qui place un document dans un groupe spécifique. -
_created_at
: date et heure au format ISO 8601 auxquelles le document a été créé. Par exemple, 2012-03-25T12:30:10+01:00 est le format de date et d'heure ISO 8601 pour le 25 mars 2012 à 12 h 30 (plus 10 secondes) à l'heure d'Europe centrale. -
_data_source_id
: l'identifiant de la source de données qui contient le document. -
_document_body
: le contenu du document. -
_document_id
—Un identifiant unique pour le document. -
_document_title
: le titre du document. -
_excerpt_page_number
: le numéro de page d'un fichier PDF où apparaît l'extrait du document. Si votre index a été créé avant le 8 septembre 2020, vous devez réindexer vos documents avant de pouvoir utiliser cet attribut. -
_faq_id
—S'il s'agit d'un document de type question-réponse (FAQ), un identifiant unique pour la FAQ. -
_file_type
: le type de fichier du document, tel que pdf ou doc. -
_last_updated_at
: date et heure au format ISO 8601 auxquelles le document a été mis à jour pour la dernière fois. Par exemple, 2012-03-25T12:30:10+01:00 est le format de date et d'heure ISO 8601 pour le 25 mars 2012 à 12 h 30 (plus 10 secondes) à l'heure d'Europe centrale. -
_source_uri
: l'URI où le document est disponible. Par exemple, l'URI du document sur le site Web d'une entreprise. -
_version
—Identifiant pour la version spécifique d'un document. -
_view_count
: le nombre de fois que le document a été consulté. -
_language_code
(String) : code d'une langue qui s'applique au document. La valeur par défaut est l'anglais si vous ne spécifiez aucune langue. Pour plus d'informations sur les langues prises en charge, y compris leurs codes, voir Ajout de documents dans des langues autres que l'anglais.
Pour les champs personnalisés, vous pouvez les créer à l'DocumentMetadataConfigurationUpdates
aide de l'UpdateIndex
API, comme vous le faites lorsque vous créez un champ réservé ou commun. Vous devez définir le type de données approprié pour votre champ personnalisé. Si vous utilisez la console, vous mettez à jour les champs en sélectionnant votre source de données, en sélectionnant l'action de modification, puis en passant à côté de la section des mappages de champs pour configurer la source de données. Certaines sources de données ne prennent pas en charge l'ajout de nouveaux champs ou de champs personnalisés. Vous ne pouvez pas modifier le type de champ une fois que vous l'avez créé.
Les types que vous pouvez définir pour les champs personnalisés sont les suivants :
-
Date
-
Nombre
-
Chaîne
-
Liste de chaînes
Si vous avez ajouté des documents à l'index à l'aide de l'BatchPutDocumentAPI, Attributes
répertorie les champs/attributs de vos documents et vous créez des champs à l'aide de l'DocumentAttribute
objet.
Pour les documents indexés à partir d'une source de Amazon S3 données, vous créez des champs à l'aide d'un fichier de métadonnées JSON qui inclut les informations des champs.
Si vous utilisez une base de données prise en charge comme source de données, vous pouvez configurer vos champs à l'aide de l'option de mappage de champs.