本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon S3
Amazon S3 是一種物件儲存服務,可將資料儲存為值區中的物件。您可以使 Amazon Kendra 用索引文件的 Amazon S3 值區儲存庫。
Amazon Kendra 不使用將權限授予 Amazon Kendra 主體與 S3 儲存貯體互動的儲存貯體政策。而是使用 IAM 角色。請確定該成員 Amazon Kendra 未包含在值區政策中,以避免在意外授與任意主體權限時出現任何資料安全性問題。不過,您可以新增值區政策,以便跨不同帳戶使用 Amazon S3 儲存貯體。如需詳細資訊,請參閱Amazon S3 跨帳戶使用的政策 (在 S3 IAM
角色索引標籤的資料來源IAM 角色下)。如需 S3 資料來源 IAM 角色的相關資訊,請參閱IAM 角色。
Amazon Kendra 現在支援升級的 Amazon S3 連接器。
主機已自動為您升級。您在主控台中建立的任何新連接器都會使用升級的架構。如果您使用 API,您現在必須使用TemplateConfiguration物件而非S3DataSourceConfiguration
物件來設定連接器。
使用舊版主控台和 API 架構設定的連接器將繼續如設定般運作。但是,您將無法編輯或更新它們。如果您要編輯或更新連接器組態,您必須建立新的連接器。
我們建議您將連接器工作流程移轉至升級版本。使用舊架構設定的連接器 Support 排程於 2024 年 6 月結束。
您可以使用Amazon Kendra 主控台或 TemplateConfigurationAPI 連線到 Amazon S3 資料來源。
如需 Amazon Kendra S3 資料來源連接器的疑難排解,請參閱疑難排解資料來。
支援的功能
-
欄位對映
-
使用者存取控制
-
包含/排除過濾器
-
完整和增量內容同步
-
虛擬私有雲端 (VPC)
必要條件
在您可以用 Amazon Kendra 來為 S3 資料來源建立索引之前,請先在 S3 和 AWS 帳戶中進行這些變更。
在 S3 中,請確保您具有:
在您的 AWS 帳戶中,請確定您有:
如果您沒有現有 IAM 角色,則可以在將 S3 資料來源連接到時使用主控台建立新 IAM 角色 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色的 ARN 和索引識別碼。
連接說明
若要連接 Amazon Kendra 到 S3 資料來源,您必須提供 S3 資料來源的必要詳細資訊, Amazon Kendra 以便能夠存取您的資料。如果您尚未為 S3 設定 Amazon Kendra,請參閱必要條件。
- Console
-
若要連線 Amazon Kendra 到 Amazon S3
-
登入 AWS Management Console 並開啟Amazon Kendra 主控台。
-
在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。
您可以選擇在索引設置下配置或編輯用戶訪問控制設置。
-
在 [開始使用] 頁面上,選擇 [新增資料來源]。
-
在 [新增資料來源] 頁面上,選擇 [S3 連接器],然後選擇 [新增連接器]。如果使用版本 2 (如果適用),請選擇帶有「V2.0」標籤的 S3 連接器。
-
在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:
-
在名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。
-
(選擇性) 說明 — 輸入資料來源的選用說明。
-
在預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。
-
在「標籤」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。
-
選擇下一步。
-
在「定義存取權與安全性」頁面上,輸入下列選用資訊:
-
IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。
IAM 用於索引的角色不能用於資料來源。如果您不確定索引或常見問題集是否使用現有角色,請選擇 [建立新角色] 以避免發生錯誤。
-
V@@ irtual Private Cloud (VPC) (VPC) — 您可以選擇使用 VPC。如果是這樣,您必須新增子網路和 VPC 安全性群組。
-
選擇下一步。
-
在 [設定同步設定] 頁面上,輸入下列資訊:
-
對於資料來源位置 — 指定資料儲存 Amazon S3 區的路徑。選取瀏覽 S3 以選擇您的 S3 儲存貯體。
-
針對檔案大小上限 — 指定以 MB 為單位的限制,以便只編目超過此限制的檔案。允許的最大 Amazon Kendra 檔案大小為 50 MB。
-
對於 (選擇性) 中繼資料檔案首碼資料夾位置 — 指定儲存欄位/屬性和其他文件中繼資料的資料夾路徑。選取瀏覽 S3 以尋找您的中繼資料資料夾。
-
針對 (選用) 存取控制清單組態檔案位置 — 指定包含使用者 JSON 結構及其文件存取權的檔案路徑。選取瀏覽 S3 以尋找您的 ACL 檔案。
-
(選擇性) 選取解密金鑰 — 選取以使用解密金鑰。您可以選擇使用現有的 AWS KMS
金鑰。
-
針對 (選用) 其他組態-新增陣列以包含或排除某些檔案。所有路徑均相對於資料來源位置 S3 儲存貯體。
-
同步模式 — 選擇資料來源內容變更時要如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。
-
在同步執行排程中,對於頻率 — 選擇同步資料來源內容和更新索引的頻率。
-
選擇下一步。
-
在 [設定欄位對映] 頁面上,輸入下列選用資訊:
-
預設欄位對映 — 從 Amazon Kendra 產生的預設資料來源欄位中選取您要對映至索引的欄位。
-
新增欄位 — 選擇新增自訂資料來源欄位,以建立要對映的索引欄位名稱和欄位資料類型。
-
選擇下一步。
-
在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。
- API
-
若要連線 Amazon Kendra 到 Amazon S3
您必須使用 TemplateConfigurationAPI 指定資料來源結構描述的 JSON。您必須提供以下信息:
-
資料來源 — 指定使用 TemplateConfigurationJSON 結構定義S3
時的資料來源類型。同時指定呼叫 CreateDataSourceAPI TEMPLATE
時的資料來源。
-
BucketName包含文件的值區名稱。
-
同步模式 — 指定資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步,即使您沒有選擇完整同步作為同步模式選項。您可以選擇:
-
IAM role — 指定RoleArn
何時呼叫CreateDataSource
以提供具有存取 Secrets Manager 密碼的權限的 IAM 角色,以及呼叫 S3 連接器和 Amazon Kendra所需的公用 API。如需詳細資訊,請參閱 S3 資料來源的IAM 角色。
您還可以添加以下可選功能:
-
V@@ irtual Private Cloud (VPC) — 指定您撥打電話的VpcConfiguration
時間。CreateDataSource
如需詳細資訊,請參閱 設定 Amazon Kendra 以使用 Amazon VPC。
-
包含和排除篩選器 — 指定要包含還是排除特定檔案名稱、檔案類型和檔案路徑。您可以使用 glob 模式(可以將通配符模式擴展到與給定模式匹配的路徑名稱列表中的模式)。如需範例,請參閱 AWS CLI 命令參考中的使用排除和包含篩選器。
-
文件中繼資料和存取控制組態 — 新增文件中繼資料和存取控制檔案,其中包含來源 URI、文件作者或自訂文件屬性/欄位等資訊,以及您的使用者及其可存取的文件。每個中繼資料檔案都包含單一文件的相關中繼資料。
-
欄位對映 — 選擇將 S3 資料來源欄位對應至 Amazon Kendra 索引欄位。如需詳細資訊,請參閱映射資料來源欄位。
您的文件需要文件內文欄位或文件內文對等項目,才能搜尋您的文件。 Amazon Kendra 您必須將資料來源中的文件內文欄位名稱對應至索引欄位名稱_document_body
。所有其他欄位是選用的。
如需要設定的其他重要 JSON 金鑰清單,請參閱S3範本結構定義。
進一步了解
若要進一步了解 Amazon Kendra 與 S3 資料來源整合的相關資訊,請參閱: