使用 Amazon 日誌監控亞馬遜 CloudWatch 肯德拉 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon 日誌監控亞馬遜 CloudWatch 肯德拉

Amazon Kendra 使用 Amazon CloudWatch 日誌,讓您深入瞭解資料來源的操作。Amazon Kendra 會在文件編製索引時,處理文件的詳細資訊。它會記錄在文件編製索引時發生的資料來源錯誤。您可以使用 CloudWatch 日誌來監視,存儲和訪問日誌文件。

CloudWatch 記錄檔會將記錄事件儲存在屬於記錄群組一部分的記錄資料流中。Amazon Kendra 使用這些功能如下:

  • 日誌群組 — Amazon Kendra 會將所有日誌串流存放在每個索引的單一日誌群組中。Amazon Kendra 會在建立索引時建立日誌群組。記錄群組識別碼一律以「aws/kendra/」開頭。

  • 日誌串流 — Amazon Kendra 會為您執行的每個索引同步任務,在日誌群組中建立新的資料來源日誌串流。當串流達到大約 500 個項目時,它也會建立新的文件記錄資料流。

  • 日誌項目 — Amazon Kendra 會在編製文件索引時,在日誌串流中建立日誌項目。每個項目都提供有關處理文件或遇到的任何錯誤的資訊。

如需有關使用 CloudWatch 日誌的詳細資訊,請參閱 Amazon 雲端手錶日誌使用者指南中的什麼是 Amazon 雲端手錶日誌

Amazon Kendra 創建兩種類型的日誌流:

資料來源日誌串流

資料來源記錄會串流有關索引同步化工作的發佈項目。每個同步處理工作都會建立一個用來發佈項目的新記錄資料流。記錄資料流名稱為:

data source id/YYYY-MM-DD-HH/data source sync job ID

系統會為每個同步化工作執行建立新的記錄資料流。

發佈至資料來源記錄串流的記錄訊息有三種類型:

  • 無法傳送以進行索引的文件的記錄訊息。以下是 S3 資料來源中文件的此訊息範例:

    { "DocumentId": "document ID", "S3Path": "s3://bucket/prefix/object", "Message": "Failed to ingest document via BatchPutDocument.", "ErrorCode": "InvalidRequest", "ErrorMessage": "No document metadata configuration found for document attribute key city." }
  • 無法傳送刪除之文件的記錄訊息。以下是此訊息的範例:

    { "DocumentId": "document ID", "Message": "Failed to delete document via BatchDeleteDocument.", "ErrorCode": "InvalidRequest", "ErrorMessage": "Document can't be deleted because it doesn't exist." }
  • 在 Amazon S3 儲存貯體中找到文件的無效中繼資料檔案時顯示日誌訊息。以下是此訊息的範例。

    { "Message": "Found invalid metadata file bucket/prefix/filename.extension.metadata.json." }
  • 對於 SharePoint 和資料庫連接器,Amazon Kendra 只會在文件無法編製索引時,才會將訊息寫入日誌串流。以下是 Amazon Kendra 記錄的錯誤訊息範例。

    { "DocumentID": "document ID", "IndexID": "index ID", "SourceURI": "", "CrawlStatus": "FAILED", "ErrorCode": "403", "ErrorMessage": "Access Denied", "DataSourceErrorCode": "403" }

文件記錄串流

Amazon Kendra 會在文件編製索引時記錄有關處理文件的資訊。它會針對存放在 Amazon S3 資料來源中的文件記錄一組訊息。它只會記錄儲存在 Microsoft SharePoint 或資料庫資料來源中的文件的錯誤。

如果使用BatchPutDocument操作將文檔添加到索引中,則日誌流的命名如下:

YYYY-MM-DD-HH/UUID

如果使用數據源將文檔添加到索引中,則日誌流的命名如下:

dataSourceId/YYYY-MM-DD-HH/UUID

每個記錄串流最多可包含 500 則訊息。

如果索引文檔失敗,此消息將輸出到日誌流:

{ "DocumentId": "document ID", "IndexName": "index name", "IndexId": "index ID" "SourceURI": "source URI" "IndexingStatus": "DocumentFailedToIndex", "ErrorCode": "400 | 500", "ErrorMessage": "message" }

檢視同步任務的 Amazon Kendra 指標

您可以選取「檢視報告」,在中檢視資料來源同步工作 CloudWatch 的文件層級同步執行歷程記錄報告。同步運行歷史記錄報告將包含同步工作中每個文檔的進度和狀態的詳細信息。它會顯示在編目、同步處理和索引階段期間,文件是否成功、失敗或已略過。您還可以找到與失敗或跳過的文檔相關的任何錯誤消息。如果報告未顯示進行中同步工作的結果,則可能尚未提供記錄檔。在同步處理期間發生事件時,資料會發送至報表時,請稍後再回來查看。

若要存取您的同步執行歷程記錄報告,請執行下列步驟:

  1. https://console.aws.amazon.com/kendra/打開 Amazon Kendra 控制台。

  2. 從左側導覽功能表的 [資料管理] 下,選擇 [資料來源],然後選擇您的資料來源。

  3. 在資料來源摘要頁面中,向下捲動並選取 [同步歷程記錄] 索引標籤。

  4. 同步執行歷程記錄中,選取動作

  5. 動作中,選取檢視報表。您將被重定向到 CloudWatch 控制台,您將可以在其中訪問您的報告。

注意

同步執行歷程記錄是否在擷取期間成功編製文件索引 (包括附加ACLs和中繼資料),以記錄所有 Amazon Kendra 支援的連接器。

如果您使用的是 Amazon S3 連接器:

除了檢視中的文件層級同步執行歷史記錄報告之外 CloudWatch,您還可以為 Amazon S3 資料來源中的每個文件產生同步歷史記錄報告,並將其複製到 Amazon S3 桶。在此過程中,您的數據將使用 AWS KMS 鑰匙,只能由您查看。報告的文件狀態可以是下列其中一種:「失敗」、「已完成」或「成功但有錯誤」。您必須先執行下列動作,才能產生 Amazon S3 的同步狀態報告:

  • 添加以下內容 Amazon Kendra 您的主要服務 Amazon S3 存取原則

    { “Version”: “2012-10-17", “Statement”: [ { “Sid”: “KendraS3Access”, “Effect”: “Allow”, “Principal”: { “Service”: “kendra.amazonaws.com” }, “Action”: “s3:PutObject”, “Resource”: “arn:aws:s3:::your-manifest-bucket-name/*” } ] }
  • 創建一個 Amazon S3 具有存取權限的值區 Amazon Kendra

如果您使用主控台,若要產生 Amazon S3 的同步歷史記錄報告,請從 [資料來源詳細資料] 頁面上的 [同步歷史記錄報告-用] 區段中選擇啟用產生報告選項。然後,輸入 Amazon S3 值區位置,並從可用的組態選項中進行選擇。啟動產生報告後,將從下次同步處理產生報告。

如果您刪除 Amazon S3 存儲桶,您將丟失日誌數據,並且必須設置一個新存儲桶來存儲新的同步報告。

注意

同步歷史記錄報告僅提供 Amazon S3 連接器是否成功編目和擷取資料的相關資訊。