ドキュメント - Amazon Kendra

ドキュメント

このセクションでは、がサポートする多くのドキュメント形式と、ドキュメントのさまざまなフィールド/属性を Amazon Kendra インデックス化する方法を説明します。

トピック

ドキュメントタイプまたは書式
ドキュメントの属性またはフィールド

ドキュメントタイプまたは書式

Amazon Kendra は、PDF、HTML、Word、PowerPoint などの一般的なドキュメントタイプまたは形式をサポートしています。インデックスには複数のドキュメント形式を含めることができます。

Amazon Kendra は、ドキュメントを検索可能にするために、ドキュメント内のコンテンツを抽出します。抽出されたテキストとドキュメント内の表形式のコンテンツ (HTML テーブル) での検索が最適化されるように、ドキュメントが解析されます。つまり、ドキュメントを、検索で使用するフィールドまたは属性に構築します。最終更新日などのドキュメントメタメタデータは、検索に役立つフィールドになります。

ドキュメントは行と列に編成できます。例えば、各ドキュメントは行で、タイトルや本文コンテンツなどの各ドキュメントフィールド/属性は列にします。例えば、データベースをデータソースとして使用する場合、データは行と列に構築または整理する必要があります。

ドキュメントをインデックスに追加するには、次の方法があります。

よくある質問ファイルを追加する場合は、CreateFaq API を使用して、 Amazon S3 バケットに保存されているファイルを追加します。基本的な CSV 形式、ヘッダーにカスタムフィールド/属性を含む CSV 形式、カスタムフィールドを含む JSON 形式から選択できます。デフォルトの形式は基本的な CSV です。

以下では、サポートされている各ドキュメント形式と、 Amazon Kendra がドキュメントのインデックス作成時に各形式をどのように処理するかについて説明します。

ドキュメントの形式	処理方法	ドキュメントの処理方法	元の構造
ポータブルドキュメント形式 (PDF)	HTML	HTML に変換してから、コンテンツを抽出します。	構造化されない
HyperText マークアップ言語 (HTML)	HTML	HTML タグをフィルターで除外して、コンテンツを抽出します。コンテンツはメインの `HTML` 開始タグと終了タグ (`<HTML>content</HTML>`) の間にある必要があります。	半構造化
拡張マークアップ言語 (XML)	XML	XML タグをフィルターで除外して、コンテンツを抽出します。	半構造化
拡張スタイルシート言語変換 (XSLT)	XSLT	タグをフィルターで除外して、コンテンツを抽出します。	半構造化
MarkDown (MD)	プレーンテキスト	コンテンツは MarkDown 構文を含めた状態抽出されます。	半構造化
カンマ区切り値 (CSV)	CSV	各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。	よくある質問ファイルの場合は構造化、それ以外は半構造化
Microsoft Excel (XLS および XLSX)	XLS および XLSX	各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。	半構造化
JavaScript Object Notation (JSON)	プレーンテキスト	コンテンツは JSON 構文を含めた状態で抽出されます。	半構造化
リッチテキスト形式 (RTF)	RTF	RTF 構文はフィルターで除外され、内容が抽出されます。	半構造化
Microsoft PowerPoint (PPT)	PPT、PPTX	検索のために PowerPoint スライドからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。	構造化されない
Microsoft Word	DOC、DOCX	検索のために Word ページからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。	構造化されない
プレーンテキスト (TXT)	TXT	テキストドキュメント内のすべてのテキストが抽出されます。	構造化されない

ドキュメントの属性またはフィールド

ドキュメントには属性またはフィールドが関連付けられています。ドキュメントのフィールドは、ドキュメントのプロパティ、またはドキュメントの構造に含まれる属性です。たとえば、各ドキュメントにタイトル、本文、著者が含まれている場合があります。特定の文書にカスタムフィールドを追加することもできます。例えば、インデックスが税務文書を検索する場合、W-2、1099 などの税文書の種類にカスタムフィールドを指定できます。

クエリでドキュメント属性を使用するには、その前にインデックスフィールドにマッピングする必要があります。例えば、タイトルフィールドをフィールド _document_title にマッピングできます。詳細については、「Mapping fields」を参照してください。新しいフィールドを追加するには、フィールドをマッピングするインデックスフィールドを作成する必要があります。コンソールを使用して、または UpdateIndex API を使用してインデックスフィールドを作成します。

ドキュメントフィールドを使用して、レスポンスをフィルタリングし、ファセット検索結果を作成できます。例えば、特定のバージョンのドキュメントのみを返すように応答をフィルタリングしたり、検索条件に一致する 1099 タイプの税務文書のみを返すように検索をフィルタリングできます。詳細については、「Filtering and facet search」を参照してください。

ドキュメントフィールドを使用して、クエリレスポンスを手動で調整することもできます。例えば、レスポンスで返すドキュメントを決定するときに、がフィールド Amazon Kendra に割り当てる重みを増やすために、タイトルフィールドの重要度を上げることを選択できます。詳細については、「Tuning search relevance」を参照してください。

ドキュメントをインデックスに直接追加する場合は、BatchPutDocument API にドキュメント入力パラメータのフィールドを指定します。DocumentAttribute オブジェクト配列のカスタム属性値を指定します。データソースを使用している場合、ドキュメントフィールドを追加するために使用する方法は、データソースによって異なります。詳細については、「データソースフィールドのマッピング」を参照してください。

Amazon Kendra 予約済みまたは共通ドキュメントフィールドの使用

UpdateIndex API では、DocumentMetadataConfigurationUpdates を使用して Amazon Kendra 予約済みインデックスフィールド名を指定することにより、予約フィールドまたは共通フィールドを作成し、対応するドキュメント属性/フィールド名にマッピングできます。カスタムフィールドも作成できます。データソースコネクタを使用する場合、データソースドキュメントフィールドを Amazon Kendra インデックスフィールドにマッピングするフィールドマッピングがほとんど含まれます。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。

Search オブジェクトを設定して、フィールドを表示可能、ファセット可能、検索可能、ソート可能のいずれかに設定できます。特定のフィールド値にマッピングされたブースト、新しさ、重要度の値に適用するフィールドのランク順序、ブースト期間、または期間を設定するように Relevance オブジェクトを設定できます。コンソールを使用する場合は、ナビゲーションメニューのファセットオプションを選択して、フィールドの検索設定をセットできます。関連性調整を設定するには、ナビゲーションメニューでインデックスを検索するオプションを選択し、クエリを入力し、サイドパネルのオプションを使用して検索の関連性を調整します。フィールドを作成すると、フィールドタイプを変更することはできません。

Amazon Kendra には、次の予約済みまたは共通ドキュメントフィールドがあります。

_authors - ドキュメントの内容を担当する 1 人以上の作成者のリスト。
_category - ドキュメントを特定のグループに配置するカテゴリ。
_created_at - ドキュメントが作成された ISO 8601 形式の日付と時刻。例えば、2012-03-25T12:30:10+01:00 は、中央ヨーロッパ時間の 2012 年 3 月 25 日午後 12 時 30 分 (プラス 10 秒) の ISO 8601 の日付/時刻形式です。
_data_source_id - ドキュメントを含むデータソースの識別子。
_document_body - ドキュメントのコンテンツ。
_document_id - ドキュメントの一意の識別子。
_document_title - ドキュメントのタイトル。
_excerpt_page_number - ドキュメントの抜粋が表示される PDF ファイルのページ番号。2020 年 9 月 8 日より前にインデックスが作成された場合、この属性を使用する前に、ドキュメントのインデックスを再作成する必要があります。
_faq_id - これが質疑応答タイプのドキュメント (よくある質問) の場合、よくある質問の固有識別子です。
_file_type - pdf や doc など、ドキュメントのファイルタイプ。
_last_updated_at - ドキュメントが最後に更新された ISO 8601 形式の日付と時刻。例えば、2012-03-25T12:30:10+01:00 は、中央ヨーロッパ時間の 2012 年 3 月 25 日午後 12 時 30 分 (プラス 10 秒) の ISO 8601 の日付/時刻形式です。
_source_uri - ドキュメントが利用可能な URI。例えば、会社のウェブサイト上のドキュメントの URI などです。
_version - ドキュメントの特定のバージョンの識別子。
_view_count - ドキュメントが表示された回数。
_language_code (文字列) - ドキュメントに適用される言語のコード。言語を指定しないと、デフォルトで英語になります。コードを含む、サポートされている言語の詳細については、英語以外の言語でドキュメントを追加するを参照してください。

カスタムフィールドの場合、予約フィールドまたは共通フィールドを作成する場合と同じように、UpdateIndex API で DocumentMetadataConfigurationUpdates を使用してこれらのフィールドを作成します。カスタムフィールドには適切なデータタイプを設定する必要があります。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。一部のデータソースは、新しいフィールドやカスタムフィールドの追加をサポートしていません。フィールドを作成すると、フィールドタイプを変更することはできません。

カスタムフィールドには以下のタイプを設定できます。

日付
数値
String
文字列リスト

BatchPutDocument API を使用してインデックスにドキュメントを追加した場合、Attributes は、ドキュメントのフィールド/属性を一覧表示し、DocumentAttribute オブジェクトを使用してフィールドを作成します。

Amazon S3 データソースからインデックス作成されたドキュメントの場合、フィールド情報を含む JSON メタデータファイルを使用してフィールドを作成します。

サポートされているデータベースをデータソースとして使用する場合は、フィールドマッピングオプションを使用してフィールドを設定できます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Kendra のインデックスからレスポンスを取得する

データソース

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません

ドキュメント

トピック

ドキュメントタイプまたは書式

ドキュメントの属性またはフィールド

Amazon Kendra 予約済みまたは共通ドキュメントフィールドの使用

このページは役に立ちましたか?

次のトピック

前のトピック:

ヘルプが必要ですか?