本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
PostgreSQL
PostgreSQL是一個開源數據庫管理系統。如果您是使用PostgreSQL者,則可以使用 Amazon Kendra 對資PostgreSQL料來源建立索引。 Amazon Kendra PostgreSQL資料來源連接器支援 PostgreSQL 9.6。
您可以使用Amazon Kendra 主控台和 TemplateConfigurationAPI 連線 Amazon Kendra 到PostgreSQL資料來源。
如需疑難排解資 Amazon Kendra PostgreSQL料來源連接器,請參閱疑難排解資料來。
支援的功能
-
欄位對映
-
使用者內容篩選
-
包含/排除過濾器
-
完整和增量內容同步
-
虛擬私有雲端 (VPC)
必要條件
在您可以用來 Amazon Kendra 為資PostgreSQL料來源建立索引之前,請先在PostgreSQL和 AWS 帳戶中進行這些變更。
在中PostgreSQL,請確定您有:
在你的 AWS 帳戶,確保你有:
-
建立 Amazon Kendra 索引,如果使用 API,則會記下索引 ID。
-
為您的資料來源建立 IAM 角色,如果使用 API,則會記錄 IAM 角色的 ARN。
如果您變更驗證類型和認證,則必須更新 IAM 角色才能存取正確的 AWS Secrets Manager 密碼 ID。
-
將您的PostgreSQL身份驗證憑據存儲在 AWS Secrets Manager 密鑰中,如果使用 API,則記錄密鑰的 ARN。
我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們不建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。
如果您沒有現有的 IAM 角色或密碼,則可以在將PostgreSQL資料來源連線到時使用主控台建立新 IAM 角色和 Secrets Manager 密碼 Amazon Kendra。如果您使用 API,則必須提供現有 IAM 角色和 Secrets Manager 密碼的 ARN,以及索引 ID。
連接說明
若要連線 Amazon Kendra 到PostgreSQL資料來源,您必須提供PostgreSQL認證的詳細資料, Amazon Kendra 以便能夠存取您的資料。如果您尚未設定「 Amazon Kendra 請PostgreSQL參閱必要條件」。
- Console
-
若要連線 Amazon Kendra 到 PostgreSQL
-
登入 AWS Management Console 並開啟Amazon Kendra 主控台。
-
在左側導覽窗格中,選擇 [索引],然後從索引清單中選擇要使用的索引。
您可以選擇在索引設置下配置或編輯您的用戶訪問控制設置。
-
在 [開始使用] 頁面上,選擇 [新增資料來源]。
-
在 [新增資料來源] 頁面上,選擇 [PostgreSQL連接器],然後選擇 [新增連接器]。如果使用版本 2(如果適用),請選擇帶有「V2.0」標籤的PostgreSQL連接器。
-
在 [指定資料來源詳細資訊] 頁面上,輸入下列資訊:
-
在名稱和說明中,對於資料來源名稱 — 輸入資料來源的名稱。您可以包含連字號,但不能包含空格。
-
(選擇性) 說明 — 輸入資料來源的選用說明。
-
在預設語言中 — 選擇一種語言來篩選索引的文件。除非另有指定,否則語言預設為英文。文件中繼資料中指定的語言會覆寫選取的語言。
-
在「標籤」中,針對「新增標籤」— 包含可選標籤以搜尋和篩選資源或追蹤 AWS 成本。
-
選擇下一步。
-
在 [定義存取和安全性] 頁面上,輸入下列資訊:
-
在來源中,輸入下列資訊:
-
主機 — 輸入資料庫主機名稱。
-
連接埠 — 輸入資料庫連接埠。
-
執行處理 — 輸入資料庫執行處理。
-
啟用 SSL 憑證位置 — 選擇此選項可輸入 SSL 憑證檔案的 Amazon S3 路徑。
-
在驗證中 — 輸入下列資訊:
-
AWS Secrets Manager 祕密 — 選擇現有密碼或建立新 Secrets Manager 密碼來儲存您的PostgreSQL驗證認證。如果您選擇建立新密碼,則會開啟一個 AWS Secrets Manager 密碼視窗。
-
在「建立 AWS
Secrets Manager 密碼視窗」中輸入下列資訊:
-
秘密名稱 — 您秘密的名稱。前綴 'AmazonKendraPostgreSQL-' 會自動添加到您的密碼名稱中。
-
對於資料庫使用者名稱和密碼 — 輸入您從資料庫複製的驗證認證值。
-
選擇儲存。
-
V@@ irtual Private Cloud (VPC) (VPC) — 您可以選擇使用 VPC。如果是這樣,您必須新增子網路和 VPC 安全性群組。
-
IAM role — 選擇現有 IAM 角色或建立新 IAM 角色以存取存放庫認證和索引內容。
IAM 用於索引的角色不能用於資料來源。如果您不確定索引或常見問題集是否使用現有角色,請選擇 [建立新角色] 以避免發生錯誤。
-
選擇下一步。
-
在 [設定同步設定] 頁面上,輸入下列資訊:
-
在同步範圍中,從下列選項中選擇:
-
在 [其他設定 — 選用] 中,從下列選項中選擇以同步特定內容,而非同步所有檔案:
-
變更偵測欄 — 輸入 Amazon Kendra 將用來偵測內容變更的欄名稱。 Amazon Kendra 當這些資料行中有任何變更時,會重新建立內容的索引。
-
使用者 ID 欄 — 輸入包含允許存取內容的使用者 ID 的欄名稱。
-
群組欄 — 輸入包含允許存取內容之群組的欄名稱。
-
來源 URL 欄 — 輸入包含要編製索引之來源 URL 的資料欄名稱。
-
時間戳記欄 — 輸入包含時間戳記的欄名稱。 Amazon Kendra 使用時間戳記資訊偵測內容中的變更,並僅同步變更的內容。
-
[時區] 欄 — 輸入資料欄的名稱,其中包含要編目之內容的時區。
-
時間戳記格式 — 輸入包含時間戳記格式的欄名稱,可用來偵測內容變更並重新同步處理內容。
-
同步模式 — 選擇資料來源內容變更時要如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步處理,即使您沒有選擇完整同步作為同步模式選項。
-
完全同步:新鮮索引所有內容,並在每次資料來源與索引同步時取代現有內容。
-
新增、修改的同步:每次資料來源與索引同步時,僅對新內容和已修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。
-
新增、修改、刪除的同步:每次資料來源與索引同步時,僅對新內容、已修改和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。
-
在同步執行排程中,對於頻率 — 與資料來源同步的頻率。 Amazon Kendra
-
選擇下一步。
-
在 [設定欄位對映] 頁面上,輸入下列資訊:
-
從產生的預設資料來源欄位中選取您要對應至 Amazon Kendra 索引的文件 ID、文件標題和來源 URL。
-
新增欄位 — 新增自訂資料來源欄位,以建立要對映的索引欄位名稱和欄位資料類型。
-
選擇下一步。
-
在 [檢閱並建立] 頁面上,檢查您輸入的資訊是否正確,然後選取 [新增資料來源]。您也可以從此頁面選擇編輯您的資訊。成功新增資料來源後,您的資料來源將顯示在 [資料來源] 頁面上。
- API
-
若要連線 Amazon Kendra 到 PostgreSQL
您必須使用 TemplateConfigurationAPI 指定下列項目:
-
資料來源 — 指定使用 TemplateConfigurationJSON 結構定義JDBC
時的資料來源類型。同時將資料來源指定為呼叫 CreateDataSourceAPI TEMPLATE
時的方式。
-
資料庫類型 — 您必須將資料庫類型指定為postgresql
。
-
SQL 查詢 — 指定 SQL 查詢陳述式,例如 SELECT 和 JOIN 作業。SQL 查詢必須小於 32 KB。 Amazon Kendra 會編目符合您查詢的所有資料庫內容。
-
同步模式 — 指定資料來源內容變更時 Amazon Kendra 應如何更新索引。當您第一次將資料來源同 Amazon Kendra 步處理時,依預設會檢索所有內容並建立索引。如果初始同步失敗,您必須執行資料的完整同步處理,即使您沒有選擇完整同步作為同步模式選項。您可以選擇:
-
FORCED_FULL_CRAWL
新建索引所有內容,並在每次資料來源與索引同步時取代現有內容。
-
FULL_CRAWL
,以在每次資料來源與索引同步時,僅對新的、修改的和刪除的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。
-
CHANGE_LOG
每次資料來源與索引同步時,僅對新內容和修改的內容建立索引。 Amazon Kendra 可以使用資料來源的機制來追蹤內容變更,並為上次同步後變更的內容建立索引。
-
秘密 Amazon 資源名稱 (ARN) — 提供包含您在帳戶中建立的身份驗證登入資料的 Secrets Manager 密碼的 Amazon 資源名稱 (ARN)。PostgreSQL密碼會以下列金鑰儲存在 JSON 結構中:
{
"user name": "database user name"
,
"password": "password"
}
我們建議您定期重新整理或輪換您的認證和密碼。僅為您自己的安全提供必要的訪問級別。我們不建議您跨資料來源以及連接器 1.0 和 2.0 版 (如果適用) 重複使用認證和密碼。
-
IAM role — 指定RoleArn
何時呼叫CreateDataSource
以提供具有存取 Secrets Manager 密碼之權限的 IAM 角色,以及呼叫PostgreSQL連接器和 Amazon Kendra所需公用 API 的時間。有關詳情,請參閱資PostgreSQL料來源的IAM 角色。
您還可以添加以下可選功能:
-
V@@ irtual Private Cloud (VPC) — 指定您撥打電話的VpcConfiguration
時間。CreateDataSource
如需詳細資訊,請參閱 設定 Amazon Kendra 以使用 Amazon VPC。
-
包含和排除篩選器 — 您可以指定是否要使用使用者 ID、群組、來源 URL、時間戳記和時區來包含特定內容。
-
使用者前後關聯篩選與存取控制 —Amazon Kendra 探索文件的存取控制清單 (ACL) (如果您有文件的 ACL)。ACL 資訊可用來根據使用者或使用者對文件的群組存取權來篩選搜尋結果。如需詳細資訊,請參閱使用者內容篩選。
-
欄位對映 — 選擇將資PostgreSQL料來源欄位對映至 Amazon Kendra 索引欄位。如需詳細資訊,請參閱映射資料來源欄位。
您的文件需要文件內文欄位或文件內文對等項目,才能搜尋您的文件。 Amazon Kendra 您必須將資料來源中的文件內文欄位名稱對應至索引欄位名稱_document_body
。所有其他欄位是選用的。
如需要設定的其他重要 JSON 金鑰清單,請參閱PostgreSQL 範本結構描述。
備註
-
Amazon Kendra 檢查更新的內容時,不會追蹤已刪除的資料庫列。
-
資料庫中一列中欄位名稱和值的大小不得超過 400 KB。
-
如果您的資料庫資料來源中有大量資料,並且不想 Amazon Kendra 在第一次同步之後對所有資料庫內容建立索引,則可以選擇僅同步新文件、修改或刪除的文件。
-
最佳作法是提供 Amazon Kendra 唯讀資料庫認證。
-
最佳做法是避免新增包含敏感資料或個人可識別資訊 (PII) 的表格。