ドキュメント - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ドキュメント

このセクションでは、 がサポートする多くのドキュメント形式と、ドキュメントのさまざまなフィールド/属性を Amazon Kendra インデックス化する方法について説明します。

ドキュメントタイプまたは書式

Amazon Kendra は、PDF、、HTMLWord などの一般的なドキュメントタイプ PowerPointまたは形式をサポートしています。インデックスには複数のドキュメント形式を含めることができます。

Amazon Kendra は、ドキュメントを検索可能にするために、ドキュメント内のコンテンツを抽出します。ドキュメントは、抽出されたテキストとドキュメント内の表形式コンテンツ (HTML テーブル) の検索を最適化する方法で解析されます。つまり、ドキュメントを、検索で使用するフィールドまたは属性に構築します。最終更新日などのドキュメントメタメタデータは、検索に役立つフィールドになります。

ドキュメントは行と列に編成できます。例えば、各ドキュメントは行で、タイトルや本文コンテンツなどの各ドキュメントフィールド/属性は列にします。例えば、データベースをデータソースとして使用する場合、データは行と列に構築または整理する必要があります。

ドキュメントをインデックスに追加するには、次の方法があります。

FAQ ファイルを追加する場合は、 を使用して Amazon S3 バケットに保存されているファイルCreateFaqAPIを追加します。基本CSV形式、ヘッダーにカスタムフィールド/属性を含むCSV形式、カスタムフィールドを含むJSON形式から選択できます。デフォルトの形式は基本 ですCSV。

以下では、サポートされている各ドキュメント形式と、 Amazon Kendra がドキュメントのインデックス作成時に各形式をどのように処理するかについて説明します。

ドキュメントの形式 処理方法 ドキュメントの処理方法 元の構造
ポータブルドキュメント形式 (PDF) HTML に変換されるとHTML、コンテンツが抽出されます。 構造化されない
HyperText マークアップ言語 (HTML) HTML HTML タグは、コンテンツを抽出するために除外されます。コンテンツはメインの HTML 開始タグと終了タグ (<HTML>content</HTML>) の間にある必要があります。 半構造化
拡張マークアップ言語 (XML) XML XML タグは、コンテンツを抽出するために除外されます。 半構造化
拡張可能なスタイルシート言語変換 (XSLT) XSLT タグをフィルターで除外して、コンテンツを抽出します。 半構造化
MarkDown (MD) プレーンテキスト コンテンツは MarkDown 構文を含めて抽出されます。 半構造化
カンマ区切り値 (CSV) CSV 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 FAQ ファイル用に構造化、それ以外の場合は半構造化
Microsoft Excel (XLS および XLSX) XLS および XLSX 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 半構造化
JavaScript オブジェクト表記 (JSON) プレーンテキスト コンテンツはJSON構文を含めて抽出されます。 半構造化
リッチテキスト形式 (RTF) RTF RTF 構文は、コンテンツを抽出するために除外されます。 半構造化
Microsoft PowerPoint (PPT) PPT, PPTX テキストコンテンツのみが検索のために PowerPoint スライドから抽出されます。イメージやその他のコンテンツは抽出されません。 構造化されない
Microsoft Word DOC, DOCX 検索のために Word ページからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。 構造化されない
プレーンテキスト (TXT) TXT テキストドキュメント内のすべてのテキストが抽出されます。 構造化されない

ドキュメントの属性またはフィールド

ドキュメントには属性またはフィールドが関連付けられています。ドキュメントのフィールドは、ドキュメントのプロパティ、またはドキュメントの構造に含まれる属性です。たとえば、各ドキュメントにタイトル、本文、著者が含まれている場合があります。特定の文書にカスタムフィールドを追加することもできます。例えば、インデックスが税務文書を検索する場合、W-2、1099 などの税文書の種類にカスタムフィールドを指定できます。

クエリでドキュメント属性を使用するには、その前にインデックスフィールドにマッピングする必要があります。例えば、タイトルフィールドをフィールド _document_title にマッピングできます。詳細については、「Mapping fields」を参照してください。新しいフィールドを追加するには、フィールドをマッピングするインデックスフィールドを作成する必要があります。インデックスフィールドは、 コンソールまたは UpdateIndex を使用して作成しますAPI。

ドキュメントフィールドを使用して、レスポンスをフィルタリングし、ファセット検索結果を作成できます。例えば、特定のバージョンのドキュメントのみを返すように応答をフィルタリングしたり、検索条件に一致する 1099 タイプの税務文書のみを返すように検索をフィルタリングできます。詳細については、「Filtering and facet search」を参照してください。

ドキュメントフィールドを使用して、クエリレスポンスを手動で調整することもできます。例えば、レスポンスで返すドキュメントを決定するときに、 がフィールド Amazon Kendra に割り当てる重みを増やすために、タイトルフィールドの重要度を上げることを選択できます。詳細については、「Tuning search relevance」を参照してください。

ドキュメントをインデックスに直接追加する場合は、 へのドキュメント入力パラメータのフィールドを指定しますBatchPutDocumentAPI。DocumentAttribute オブジェクト配列でカスタムフィールド値を指定します。データソースを使用している場合、ドキュメントフィールドを追加するために使用する方法は、データソースによって異なります。詳細については、「データソースフィールドのマッピング」を参照してください。

Amazon Kendra 予約済みまたは共通ドキュメントフィールドの使用

ではUpdateIndex API、 を使用して予約済みフィールドまたは共通フィールドを作成しDocumentMetadataConfigurationUpdates、予約済みインデックスフィールド名を指定 Amazon Kendra して、同等のドキュメント属性/フィールド名にマッピングできます。カスタムフィールドも作成できます。データソースコネクタを使用する場合、データソースドキュメントフィールドを Amazon Kendra インデックスフィールドにマッピングするフィールドマッピングがほとんど含まれます。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。

Search オブジェクトを設定して、フィールドを表示可能、ファセット可能、検索可能、ソート可能のいずれかに設定できます。特定のフィールド値にマッピングされたブースト、新しさ、重要度の値に適用するフィールドのランク順序、ブースト期間、または期間を設定するように Relevance オブジェクトを設定できます。コンソールを使用する場合は、ナビゲーションメニューのファセットオプションを選択して、フィールドの検索設定をセットできます。関連性調整を設定するには、ナビゲーションメニューでインデックスを検索するオプションを選択し、クエリを入力し、サイドパネルのオプションを使用して検索の関連性を調整します。フィールドを作成すると、フィールドタイプを変更することはできません。

Amazon Kendra には、以下の予約済みまたは共通ドキュメントフィールドがあります。

  • _authors - ドキュメントの内容を担当する 1 人以上の作成者のリスト。

  • _category - ドキュメントを特定のグループに配置するカテゴリ。

  • _created_at— ドキュメントが作成された 8601 ISO 形式の日時。例えば、中央ヨーロッパ時間の 2012-03-25T12年 3 月 25 ISO 日午後 12:30 (プラス 10 秒) の 2012 年 3 月 25 日の 8601 日時形式は 2012 年 3 月 3 日 3 日午後 3 時 0 分 30 分 0 秒です。

  • _data_source_id - ドキュメントを含むデータソースの識別子。

  • _document_body - ドキュメントのコンテンツ。

  • _document_id - ドキュメントの一意の識別子。

  • _document_title - ドキュメントのタイトル。

  • _excerpt_page_number— ドキュメントの抜粋が表示されるPDFファイル内のページ番号。2020 年 9 月 8 日より前にインデックスが作成された場合、この属性を使用する前に、ドキュメントのインデックスを再作成する必要があります。

  • _faq_id— これが質問応答タイプのドキュメント (FAQ) である場合、 の一意の識別子FAQ。

  • _file_type - pdf や doc など、ドキュメントのファイルタイプ。

  • _last_updated_at— ドキュメントが最後に更新された 8601 ISO 形式の日時。例えば、中央ヨーロッパ時間の 2012-03-25T12年 3 月 25 ISO 日午後 12:30 (プラス 10 秒) の 2012 年 3 月 25 日の 8601 日時形式は 2012 年 3 月 3 日 3 日午後 3 時 0 分 30 分 0 秒です。

  • _source_uri— ドキュメントが利用可能な URI 。例えば、会社のウェブサイトにあるドキュメントURIの などです。

  • _version - ドキュメントの特定のバージョンの識別子。

  • _view_count - ドキュメントが表示された回数。

  • _language_code (文字列) - ドキュメントに適用される言語のコード。言語を指定しないと、デフォルトで英語になります。コードを含む、サポートされている言語の詳細については、英語以外の言語でドキュメントを追加するを参照してください。

カスタムフィールドの場合、予約済みフィールドまたは共通フィールドを作成する場合と同様にAPI、 DocumentMetadataConfigurationUpdatesUpdateIndex を使用してこれらのフィールドを作成します。カスタムフィールドには適切なデータタイプを設定する必要があります。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。一部のデータソースは、新しいフィールドやカスタムフィールドの追加をサポートしていません。フィールドを作成すると、フィールドタイプを変更することはできません。

カスタムフィールドには以下のタイプを設定できます。

  • 日付

  • 数値

  • 文字列

  • 文字列リスト

を使用してインデックスにドキュメントを追加した場合BatchPutDocumentAPI、 はドキュメントのフィールド/属性をAttributes一覧表示し、 DocumentAttribute オブジェクトを使用してフィールドを作成します。

Amazon S3 データソースからインデックス作成されたドキュメントの場合、フィールド情報を含むJSONメタデータファイルを使用してフィールドを作成します。

サポートされているデータベースをデータソースとして使用する場合は、フィールドマッピングオプションを使用してフィールドを設定できます。