翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
インデックスへのカスタムシノニムの追加
カスタムシノニムをインデックスに追加するには、シソーラスファイルでシノニムを指定します。シノニム Amazon Kendra を使用して、ビジネス固有の用語や特殊な用語を に含めることができます。などの一般的な英語シノニムは leader, head
に組み込まれ Amazon Kendra ており、ハイフンを使用する一般的なシノニムを含むシソーラスファイルに含めることはできません。 Amazon Kendra は、レスポンスタイプや QUESTION_ANSWER
または DOCUMENT
レスポンスタイプを含むすべてのANSWER
レスポンスタイプのシノニムをサポートしています。 Amazon Kendra 現在、 はストップワードとしてフラグが付けられたシノニムの追加をサポートしていません。これは、将来のリリースに組み込まれます。
Amazon Kendra はシノニム間の相関を行います。例えば、シノニムペア を使用するとDynamo, Amazon DynamoDB
、 は Dynamo を と Amazon Kendra 関連付けます Amazon DynamoDB。「What is dynamo?」というクエリは、は、「What is Amazon DynamoDB?」などのドキュメントを返します。シノニムを使用すると、 は相関関係をより簡単に取得 Amazon Kendra できます。
シソーラスファイルは、 Amazon S3 バケットに保存されているテキストファイルです。「シソーラスをインデックスに追加する」を参照してください。
シソーラスファイルは Solr シノニム形式
シノニムは、次のシナリオで役立ちます。
-
例えば、
NLP, Natural Language Processing
など、従来の英語のシノニムではない専門用語。 -
複雑な意味的関連を持つ固有名詞。例えば、機械学習では、
cost, loss, model performance
など、これらは一般の人が理解しにくい名詞です。 -
例えば、
Elastic Compute Cloud, EC2
などの異なる形式の製品名。 -
製品名など、ドメイン固有またはビジネス固有の用語。例えば、
Route53, DNS
と指定します。
次のシナリオではシノニムを使用しないでください。
-
leader, head
など、一般的な英語のシノニム。これらのシノニムはドメイン固有ではなく、これらのシナリオでシノニムを使用すると、意図しない効果が生じる可能性があります。 -
teh => the
などの誤字。 -
名詞の複数形や所有格、形容詞の比較形および最上級形、動詞の過去形、過去分詞形、進行形のような形態学的変種。比較形容詞と最上級形容詞の一例は、
good, better, best
です。 -
WHO
などのユニグラム (1 単語) ストップワード。ユニグラムストップワードはシソーラスでは許可されず、検索から除外されます。例えば、WHO => World Health Organization
は拒否されます。W.H.O.
をシノニム用語として使用できますが、ストップワードをマルチワードシノニムの一部として使うことができます。例えば、of
は許可されますが、United States of America
は許可されません。
カスタムシノニムを使用すると、ビジネス固有のシノニムをカバーするようにクエリを拡張することで、ビジネス固有の用語の Amazon Kendra理解を簡単に改善できます。シノニムは検索の精度を向上させることができますが、シノニムがレイテンシーにどのように影響するかを理解して最適化することが重要です。
シノニムの一般的なルールは、クエリ内のシノニムと一致して拡張される用語が多いほど、レイテンシーへの影響が大きくなります。レイテンシーに影響するその他の要因には、インデックス作成されたドキュメントの平均サイズ、インデックスのサイズ、検索結果のフィルタリング、 Amazon Kendra インデックスの全体的な負荷などがあります。シノニムと一致しないクエリは影響を受けません。
シノニムがレイテンシーにどのように影響するかに関する一般的なガイドライン:
ユースケース | レイテンシーの増加* |
---|---|
一般的な自然言語またはキーワードクエリ (それぞれ 3~5 語) | 15% 未満 |
1 つのクエリ用語が 3 つのシノニムに展開されます | |
約 50 万件のドキュメント (ドキュメントごとに抽出されたテキストの平均は 10.48 KB) または 30,000 のよくある質問/質問ペアのインデックス |
*パフォーマンスは、インデックスでのシノニムと構成の特定の使用方法によって異なります。検索のパフォーマンスをテストして、特定のユースケースに対してより正確なベンチマークを取得することをお勧めします。
シソーラスが大きく、用語の拡張率が高く、レイテンシーの増加が許容範囲内にない場合は、次のいずれかまたは両方を試してください。
-
シソーラスをトリミングして、拡張率 (用語ごとのシノニム数) を減らします。
-
用語の全体的な範囲 (シソーラスの行数) をトリミングします。
または、プロビジョニングキャパシティ (仮想ストレージユニット) を増やして、レイテンシーの増加を相殺することもできます。