將資料與 Amazon Bedrock 知識庫同步 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將資料與 Amazon Bedrock 知識庫同步

建立知識庫後,您可以擷取或同步資料,以便查詢資料。擷取會根據您指定的向量內嵌模型和組態,將資料來源中的原始資料轉換為向量內嵌。

開始擷取之前,請檢查資料來源是否符合下列條件:

  • 您已設定資料來源的連線資訊。若要設定資料來源連接器以從資料來源儲存庫中擷取資料,請參閱支援的資料來源連接器 。您可以在建立知識庫時設定資料來源。

  • 您已設定您選擇的向量內嵌模型和向量存放區。請參閱支援的向量內嵌模型向量存放區知識庫 。您可以將向量內嵌設定為建立知識庫的一部分。

  • 檔案採用支援的格式。如需詳細資訊,請參閱支援文件格式

  • 檔案不會超過 Amazon Bedrock 端點中指定的擷取任務檔案大小,以及 中的配額 AWS 一般參考。

  • 如果您的資料來源包含中繼資料檔案,請檢查下列條件,以確保中繼資料檔案不會被忽略:

    • 每個.metadata.json檔案與其關聯的來源檔案共用相同的檔案名稱和副檔名。

    • 如果知識庫的向量索引位於 Amazon OpenSearch Serverless 向量存放區中,請檢查向量索引是否已使用faiss引擎設定。如果向量索引是使用nmslib引擎設定,您必須執行下列其中一項操作:

    • 如果知識庫的向量索引位於 Amazon Aurora 資料庫叢集中,請檢查索引的資料表是否包含中繼資料檔案中每個中繼資料屬性的資料欄,然後再開始擷取。

每次從資料來源新增、修改或移除檔案時,都必須同步資料來源,以便將其重新索引至知識庫。同步是增量的,因此 Amazon Bedrock 只會處理自上次同步以來新增、修改或刪除的文件。

若要了解如何將資料擷取至知識庫並與最新資料同步,請選取與您所選方法對應的索引標籤,然後遵循下列步驟:

Console
將資料擷取至知識庫,並與最新資料同步
  1. 在 開啟 Amazon Bedrock 主控台https://console.aws.amazon.com/bedrock/

  2. 從左側導覽窗格選取知識庫,然後選擇您的知識庫。

  3. 資料來源區段中,選取同步以開始擷取資料或同步您的最新資料。若要停止目前正在同步的資料來源,請選取停止 。資料來源必須目前正在同步,才能停止同步資料來源。您可以再次選取同步以擷取其餘的資料。

  4. 資料擷取完成時若顯示成功,就會出現綠色的成功橫幅。

    注意

    資料同步完成後,新同步資料的向量內嵌可能需要幾分鐘的時間,才能反映在您的知識庫中,如果您使用 Amazon Aurora () 以外的向量存放區,則可以進行查詢RDS。

  5. 您可以選擇資料來源以檢視其同步歷史記錄。選取檢視警告,查看資料擷取作業失敗的原因。

API

若要將資料擷取至知識庫並與最新資料同步,請向 Amazon Bedrock 建置時間端點 的客服人員傳送StartIngestionJob請求。指定 knowledgeBaseIddataSourceId。您也可以透過傳送StopIngestionJob請求來停止目前正在執行的資料擷取任務。指定 dataSourceIdingestionJobIdknowledgeBaseId。必須目前正在執行資料擷取任務,才能停止資料擷取。您可以再次傳送StartIngestionJob請求,以便在準備好時擷取剩餘的資料。

GetIngestionJob Amazon Bedrock 建置時間端點的客服人員請求中使用ingestionJobId傳回的回應,以追蹤擷取任務的狀態。此外,請指定 knowledgeBaseIddataSourceId

  • 擷取任務完成時,回應中的 statusCOMPLETE

    注意

    資料擷取完成後,如果您使用 Amazon Aurora () 以外的向量存放區,則新擷取資料的向量內嵌可能需要幾分鐘的時間才能在向量存放區中用於查詢RDS。

  • 回應中的 statistics 物件會傳回資料來源中文件擷取是否成功的相關資訊。

您也可以透過向 Amazon Bedrock 建置時間端點的代理程式傳送ListIngestionJobs請求,查看資料來源的所有擷取任務資訊。指定要擷取資料的知識庫knowledgeBaseIddataSourceId和 。

  • 透過指定在 filters 物件中搜尋狀態來篩選結果。

  • 透過指定 sortBy 物件,依任務開始時間或任務狀態排序。您可以依遞增或遞減順序排序。

  • 設定在 maxResults 欄位中在回應中傳回的結果數量上限。如果結果多於您設定的數字,回應會傳回可在另一個ListIngestionJobs請求中傳送nextToken的 ,以查看下一批次任務。