本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon Kendra 預留或通用文件欄位
使用 UpdateIndex API 操作,您可以建立預留或常用欄位。若要執行此操作,請使用 DocumentMetadataConfigurationUpdates
,並指定要對應至同等文件屬性/欄位名稱的 Amazon Kendra 預留索引欄位名稱。您也可以建立自訂欄位。
如果您使用資料來源連接器,大多數包含將資料來源文件欄位映射到 Amazon Kendra 索引欄位的欄位映射。如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後在欄位映射區段旁繼續設定資料來源,以更新欄位。
您可以設定 Search
物件,將欄位設定為可顯示、可面向、可搜尋和可排序。您可以設定 Relevance
物件來設定欄位的排名順序、提升持續時間或期間,以套用至映射到特定欄位值的提升、新鮮度、重要性值和重要性值。
如果您使用 主控台,您可以在導覽功能表中選取面向選項,以設定欄位的搜尋設定。若要設定關聯性調校,請選取導覽選單中的 選項來搜尋索引、輸入查詢,然後使用側邊面板選項來調校搜尋關聯性。您無法在建立欄位之後變更欄位類型。
Amazon Kendra 有下列預留或常用文件欄位,您可以使用:
-
_authors
– 負責文件內容的一或多個作者清單。 -
_category
– 在特定群組中放置文件的類別。 -
_created_at
– 建立文件的 ISO 8601 格式日期和時間。例如,2012-03-25T12:30 (加上 10 秒),2012 年 3 月 25 日中歐時間的 ISO 8601 日期時間格式為 2012 年 3 月 25 日 12:30。 -
_data_source_id
– 包含文件之資料來源的識別碼。 -
_document_body
– 文件的內容。 -
_document_id
– 文件的唯一識別符。 -
_document_title
– 文件的標題。 -
_excerpt_page_number
– PDF 檔案中文件摘錄出現的頁碼。如果您的索引是在 2020 年 9 月 8 日之前建立的,您必須先重新索引文件,才能使用此屬性。 -
_faq_id
– 如果這是問答類型文件 (FAQ),則為常見問答集的唯一識別符。 -
_file_type
– 文件的檔案類型,例如 pdf 或 doc。 -
_last_updated_at
– 文件上次更新的 ISO 8601 格式日期和時間。例如,2012-03-25T12 日下午 12:30 (加上 10 秒),2012 年 3 月 25 日中歐時間的 ISO 8601 日期時間格式為 2012 年 3 月 30 日。 -
_source_uri
– 文件可用的 URI,例如公司網站上的文件 URI。 -
_version
– 文件特定版本的識別符。 -
_view_count
– 文件已檢視的次數。 -
_language_code
(字串) – 適用於文件的語言程式碼。如果您未指定語言,則預設為英文。如需支援語言的詳細資訊,包括其代碼,請參閱新增英文以外語言的文件。
您可以使用 DocumentMetadataConfigurationUpdates
搭配 UpdateIndex
API 操作建立自訂欄位,就像您在建立預留或常用欄位時一樣。您必須為自訂欄位設定適當的資料類型。
如果您使用 主控台,您可以選取資料來源、選取編輯動作,然後繼續在欄位映射區段旁設定資料來源,以更新欄位。有些資料來源不支援新增欄位或自訂欄位。建立欄位後,您無法變更欄位類型。
以下是您可以為自訂欄位設定的類型:
-
日期
-
Number
-
字串
-
字串清單
如果您使用 BatchPutDocument API 操作將文件新增至索引, 會Attributes
列出文件的欄位/屬性,並使用 DocumentAttribute
物件建立欄位。
對於從 Amazon S3 資料來源編製索引的文件,您可以使用包含欄位資訊的 JSON 中繼資料檔案來建立欄位。
如果您使用支援的資料庫做為資料來源,您可以使用欄位映射選項來設定欄位。