Création d'un fichier de thésaurus - Amazon Kendra

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un fichier de thésaurus

Un fichier de Amazon Kendra thésaurus est un fichier codé en UTF-8 contenant une liste de synonymes au format de liste de synonymes Solr. La taille du fichier du thésaurus doit être inférieure à 5 Mo.

Il existe deux manières de spécifier les mappages de synonymes :

  • Les synonymes bidirectionnels sont spécifiés sous forme de liste de termes séparés par des virgules. Si votre utilisateur interroge l'un des termes, tous les termes de la liste sont utilisés pour rechercher des documents, y compris le terme demandé d'origine.

  • Les synonymes unidirectionnels sont spécifiés sous forme de termes séparés par le symbole « => » entre eux pour associer les termes à leurs synonymes. Si votre utilisateur recherche un terme situé à gauche du symbole « => », il est associé à un terme situé à droite pour rechercher des documents utilisant le synonyme. Il n'est pas mappé vice versa, ce qui le rend unidirectionnel.

Les synonymes eux-mêmes font la distinction majuscules/majuscules, mais les termes auxquels ils correspondent ne font pas la distinction majuscules/minuscules. Par exemple, ML => Machine Learning cela signifie que si votre utilisateur demande « ML » ou « ml » ou utilise un autre cas, il sera mappé sur « Machine Learning ». Si vous deviez mapper cela inversementMachine Learning => ML, alors « Machine Learning » ou « machine learning » ou un autre cas correspondrait à « ML ».

Un synonyme ne recherche pas de correspondance exacte entre les caractères spéciaux. Par exemple, si vous recherchez dead-letter-queue « », vous Amazon Kendra pouvez renvoyer des documents correspondant à la « file d'attente de lettres mortes » (sans tiret). Si vos documents contiennent des traits d'union, tels que dead-letter-queue « », Amazon Kendra traite les documents pendant la recherche pour supprimer les traits d'union. Pour les termes synonymes génériques en anglais qui sont intégrés à un fichier de thésaurus Amazon Kendra et ne devraient pas y être inclus, Amazon Kendra vous pouvez rechercher à la fois la version du terme avec tiret et la version sans trait d'union du terme. Par exemple, si vous recherchez « tiers » et « tiers », Amazon Kendra les documents qui correspondent à l'une ou l'autre version de ces termes sont renvoyés.

Pour les synonymes contenant des mots clés ou des mots couramment utilisés, Amazon Kendra renvoie des documents qui correspondent à des termes, y compris des mots d'arrêt. Par exemple, vous pouvez créer une règle de synonymes pour associer les termes « onboarding » et « onboarding ». Vous ne pouvez pas utiliser uniquement des mots d'arrêt pour les synonymes. Par exemple, si vous recherchez « on », vous Amazon Kendra ne pouvez pas renvoyer tous les documents contenant « on ».

Certaines règles relatives aux synonymes sont ignorées. Par exemple, a => b est une règle, mais elle a => a est ignorée et ne compte pas comme règle.

Le nombre de termes est le nombre de termes uniques contenus dans le fichier théaurus. Le fichier d'exemple ci-dessous inclut les termesAWS CodeStar,ML,Machine Learning,autoscaling group,ASG, et plus encore.

Il existe un nombre maximum de règles de synonymes par thésaurus et un maximum de synonymes par terme. Pour plus d’informations, consultez Quotas pour Amazon Kendra.

L'exemple suivant montre un fichier de thésaurus avec des règles relatives aux synonymes. Chaque ligne contient une seule règle de synonymes. Les lignes vides et les commentaires sont ignorés.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.