Ajouter des synonymes personnalisés à un index - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ajouter des synonymes personnalisés à un index

Pour ajouter des synonymes personnalisés à un index, vous devez les spécifier dans un fichier de thésaurus. Vous pouvez inclure des termes spécifiques à l'entreprise ou spécialisés lorsque vous Amazon Kendra utilisez des synonymes. Les synonymes anglais génériques, tels queleader, head, sont intégrés Amazon Kendra et ne doivent pas être inclus dans un fichier de thésaurus, y compris les synonymes génériques qui utilisent des traits d'union. Amazon Kendra prend en charge les synonymes pour tous les types de réponses, y compris les types de DOCUMENT ANSWER réponse QUESTION_ANSWER et/ou les types de réponse. Amazon Kendra ne prend actuellement pas en charge l'ajout de synonymes marqués comme des mots d'arrêt. Cela sera inclus dans une future version.

Amazon Kendra établit des corrélations entre les synonymes. Par exemple, l'utilisation de la paire Dynamo, Amazon DynamoDB de synonymes met Dynamo en Amazon Kendra corrélation avec. Amazon DynamoDB La requête « Qu'est-ce que la dynamo ? » renvoie ensuite un document tel que « Qu'est-ce que c'est Amazon DynamoDB ? ». Avec les synonymes, Amazon Kendra vous pouvez plus facilement détecter la corrélation.

Le fichier de thésaurus est un fichier texte stocké dans un Amazon S3 bucket. veuillez consulter Ajouter un thésaurus à un index.

Le fichier de thésaurus utilise le format synonyme Solr. Amazon Kendra impose une limite au nombre de thésaurus par index. Consultez Quotas.

Les synonymes peuvent être utiles dans les scénarios suivants :

  • Termes spécialisés qui ne sont pas des synonymes traditionnels en anglais, tels queNLP, Natural Language Processing.

  • Noms propres avec des associations sémantiques complexes. Ce sont des noms que le grand public est peu susceptible de comprendre, par exemple, dans le domaine de l'apprentissage automatique. cost, loss, model performance

  • Différentes formes de noms de produits, par exemple,Elastic Compute Cloud, EC2.

  • Termes spécifiques au domaine ou à l'entreprise, tels que les noms de produits. Par exemple, Route53, DNS.

N'utilisez pas de synonymes dans les scénarios suivants :

  • Synonymes génériques en anglais tels queleader, head. Ces synonymes ne sont pas spécifiques à un domaine, et l'utilisation de synonymes dans ces scénarios peut avoir des effets inattendus.

  • Des erreurs typographiques telles queteh => the.

  • Variantes morphologiques telles que le pluriel et le possessif des noms, la forme comparative et superlative des adjectifs, le passé, le participe passé et la forme progressive des verbes. Un exemple d'adjectifs comparatifs et superlatifs est. good, better, best

  • Unigram (mot unique) arrête les mots tels queWHO. Les mots d'arrêt Unigram ne sont pas autorisés dans le thésaurus et sont exclus de la recherche. Par exemple, WHO => World Health Organization est rejeté. Vous pouvez W.H.O. toutefois l'utiliser comme synonyme, et vous pouvez utiliser des mots interrompus dans le cadre d'un synonyme comportant plusieurs mots. Par exemple, ce n'ofest pas autorisé mais United States of America est accepté.

Les synonymes personnalisés facilitent la compréhension Amazon Kendra de la terminologie propre à votre entreprise en élargissant vos requêtes pour couvrir les synonymes spécifiques à votre entreprise. Bien que les synonymes puissent améliorer la précision de la recherche, il est important de comprendre comment les synonymes affectent la latence afin de pouvoir optimiser cela.

La règle générale en matière de synonymes est la suivante : plus le nombre de termes de votre requête mis en correspondance et développés avec des synonymes est élevé, plus l'impact potentiel sur le temps de latence est important. Parmi les autres facteurs qui influent sur la latence, citons la taille moyenne des documents indexés, la taille de votre index, les éventuels filtres appliqués aux résultats de recherche et la charge globale de votre Amazon Kendra index. Les requêtes qui ne correspondent à aucun synonyme ne sont pas affectées.

Une directive générale sur la façon dont les synonymes affectent le temps de latence :

Cas d'utilisation Augmentation de la latence*
Requêtes classiques en langage naturel ou par mots clés de 3 à 5 mots chacune Moins de 15 %
1 terme de requête est étendu à 3 synonymes
Index d'environ 500 000 documents (en moyenne 10,48 Ko de texte extrait par document) ou 30 000 paires de FAQ et de questions

* Les performances varient en fonction de votre utilisation spécifique des synonymes et des configurations dans votre index. Il est préférable de tester les performances de recherche afin d'obtenir des points de référence plus précis pour votre cas d'utilisation spécifique.

Si votre thésaurus est volumineux, présente un taux d'extension à long terme élevé et que l'augmentation de la latence ne se situe pas dans les limites acceptables, vous pouvez essayer l'une des solutions suivantes ou les deux :

  • Réduisez votre thésaurus pour réduire le taux d'extension (nombre de synonymes par terme).

  • Réduisez la couverture globale des termes (nombre de lignes dans votre thésaurus).

Vous pouvez également augmenter la capacité de provisionnement (unités de stockage virtuelles) pour compenser l'augmentation de la latence.