ドキュメントの属性またはフィールド - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ドキュメントの属性またはフィールド

ドキュメントには属性またはフィールドが関連付けられています。ドキュメントのフィールドは、ドキュメントのプロパティ、またはドキュメントの構造に含まれる属性です。たとえば、各ドキュメントにタイトル、本文、著者が含まれている場合があります。特定の文書にカスタムフィールドを追加することもできます。例えば、インデックスが税務文書を検索する場合、W-2、1099 などの税文書の種類にカスタムフィールドを指定できます。

クエリでドキュメント属性を使用するには、その前にインデックスフィールドにマッピングする必要があります。例えば、タイトルフィールドをフィールド _document_title にマッピングできます。詳細については、「Mapping fields」を参照してください。新しいフィールドを追加するには、フィールドをマッピングするインデックスフィールドを作成する必要があります。インデックスフィールドは、コンソールまたは UpdateIndex を使用して作成しますAPI。

ドキュメントフィールドを使用して、レスポンスをフィルタリングし、ファセット検索結果を作成できます。例えば、特定のバージョンのドキュメントのみを返すように応答をフィルタリングしたり、検索条件に一致する 1099 タイプの税務文書のみを返すように検索をフィルタリングできます。詳細については、「Filtering and facet search」を参照してください。

ドキュメントフィールドを使用して、クエリレスポンスを手動で調整することもできます。例えば、タイトルフィールドの重要度を上げることで、その重みを増やすことができます。 Amazon Kendra は、レスポンスで返すドキュメントを決定するときに、 フィールドに を割り当てます。詳細については、「Tuning search relevance」を参照してください。

ドキュメントをインデックスに直接追加する場合は、ドキュメント入力パラメータのフィールドを BatchPutDocument に指定しますAPI。DocumentAttribute オブジェクト配列のカスタムフィールド値を指定します。データソースを使用している場合、ドキュメントフィールドを追加するために使用する方法は、データソースによって異なります。詳細については、データソースフィールドのマッピングを参照してください。

使用 Amazon Kendra 予約済みまたは共通ドキュメントフィールド

ではUpdateIndex APIDocumentMetadataConfigurationUpdatesを使用して を指定することで、予約済みフィールドまたは共通フィールドを作成できます。 Amazon Kendra 同等のドキュメント属性/フィールド名にマッピングするリザーブドインデックスフィールド名。カスタムフィールドも作成できます。データソースコネクタを使用する場合、データソースドキュメントフィールドを にマッピングするフィールドマッピングがほとんど含まれます。 Amazon Kendra インデックスフィールド。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。

Search オブジェクトを設定して、フィールドを表示可能、ファセット可能、検索可能、ソート可能のいずれかに設定できます。特定のフィールド値にマッピングされたブースト、新しさ、重要度の値に適用するフィールドのランク順序、ブースト期間、または期間を設定するように Relevance オブジェクトを設定できます。コンソールを使用する場合は、ナビゲーションメニューのファセットオプションを選択して、フィールドの検索設定をセットできます。関連性調整を設定するには、ナビゲーションメニューでインデックスを検索するオプションを選択し、クエリを入力し、サイドパネルのオプションを使用して検索の関連性を調整します。フィールドを作成すると、フィールドタイプを変更することはできません。

Amazon Kendra には、次の予約済みまたは共通ドキュメントフィールドがあり、使用できます。

  • _authors - ドキュメントの内容を担当する 1 人以上の作成者のリスト。

  • _category - ドキュメントを特定のグループに配置するカテゴリ。

  • _created_at— ドキュメントが作成された 8601 ISO 形式の日時。例えば、中央ヨーロッパ時間の 2012-03-25T12 ISO 日午後 12 時 30 分 10 秒 (プラス 10 秒) の 8601 日時形式は 2012 年 3 月 25 日です。

  • _data_source_id - ドキュメントを含むデータソースの識別子。

  • _document_body - ドキュメントのコンテンツ。

  • _document_id - ドキュメントの一意の識別子。

  • _document_title - ドキュメントのタイトル。

  • _excerpt_page_number— ドキュメントの抜粋が表示されるPDFファイルのページ番号。2020 年 9 月 8 日より前にインデックスが作成された場合、この属性を使用する前に、ドキュメントのインデックスを再作成する必要があります。

  • _faq_id— これが質問応答タイプのドキュメント (FAQ) の場合、 の一意の識別子ですFAQ。

  • _file_type - pdf や doc など、ドキュメントのファイルタイプ。

  • _last_updated_at— ドキュメントが最後に更新された ISO 8601 形式の日時。例えば、中央ヨーロッパ時間の 2012-03-25T12 ISO 日午後 12 時 30 分 10 秒 (プラス 10 秒) の 8601 日時形式は 2012 年 3 月 25 日です。

  • _source_uri— ドキュメントが利用可能な URI 。例えば、会社のウェブサイトにあるドキュメントURIの などです。

  • _version - ドキュメントの特定のバージョンの識別子。

  • _view_count - ドキュメントが表示された回数。

  • _language_code (文字列) - ドキュメントに適用される言語のコード。言語を指定しないと、デフォルトで英語になります。コードを含む、サポートされている言語の詳細については、英語以外の言語でドキュメントを追加するを参照してください。

カスタムフィールドの場合、予約済みフィールドまたは共通フィールドを作成する場合と同様にAPI、 DocumentMetadataConfigurationUpdatesUpdateIndex を使用してこれらのフィールドを作成します。カスタムフィールドには適切なデータタイプを設定する必要があります。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。一部のデータソースは、新しいフィールドやカスタムフィールドの追加をサポートしていません。フィールドを作成すると、フィールドタイプを変更することはできません。

カスタムフィールドには以下のタイプを設定できます。

  • 日付

  • 文字列

  • 文字列リスト

を使用してインデックスにドキュメントを追加した場合API、 BatchPutDocument はドキュメントのフィールド/属性をAttributes一覧表示し、 DocumentAttribute オブジェクトを使用してフィールドを作成します。

からインデックス作成されたドキュメントの場合 Amazon S3 データソースでは、フィールド情報を含むJSONメタデータファイルを使用してフィールドを作成します。

サポートされているデータベースをデータソースとして使用する場合は、フィールドマッピングオプションを使用してフィールドを設定できます。