檢視爬蟲程式結果和詳細資訊 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

檢視爬蟲程式結果和詳細資訊

爬蟲程式成功執行後,它會在 Data Catalog 中建立資料表定義。在導覽窗格中選擇 Tables (資料表),以查看爬蟲程式在您指定的資料庫中所建立的資料表。

您可以檢視爬蟲程式本身的相關資訊,如下所示:

  • AWS Glue 主控台的「爬行者程式」頁面會顯示爬行者程式的下列特性:

    屬性 描述
    名稱

    當您建立爬蟲程式時,必須指定唯一的名稱。

    狀態

    爬蟲程式可以處於就緒、啟動、停用、排程執行或排程暫停的狀態。爬蟲程式的執行會從啟動進展到停用。您可以恢復或暫停爬蟲程式所連接的排程。

    排程

    您可以選擇隨需執行,或選擇頻率來排程執行爬蟲程式。如需關於排程執行爬蟲程式的詳細資訊,請參閱排程爬蟲程式

    上次執行

    爬蟲程式上次執行的日期和時間。

    日誌

    針對爬蟲程式最近一次的執行作業,連結到該項作業任何可用的日誌。

    從上次執行以來的資料表變更

    最近一次執行爬行者程式所更新的表格數目。 AWS Glue Data Catalog

  • 若要檢視爬蟲程式的歷史記錄,請選擇導覽窗格中的 Crawlers (爬蟲程式),以查看您建立的爬蟲程式。從可用的爬蟲程式清單中選擇爬蟲程式。您可以在 Crawler runs (爬蟲程式執行) 索引標籤中檢視爬蟲程式屬性以及檢視爬蟲程式歷史記錄。

    爬行者程式執行頁籤會顯示爬行者程式每次執行時的相關資訊,包括開始時間 (UTC)、結束時間 (UTC)持續時間、狀態DPU時數表格變更。

    爬蟲程式執行索引標籤僅顯示自爬蟲程式歷史記錄功能啟動日期以來發生的網路爬取,而且最多只會保留 12 個月的網路爬取。不會傳回較舊的網路爬取。

  • 若要查看其他資訊,請選擇爬蟲程式詳細資料頁面中的索引標籤。每個索引標籤都會顯示與爬蟲程式相關的資訊。

    • Schedule (排程):為爬蟲程式建立的任何排程都會顯示在此處。

    • Data sources (資料來源):爬蟲程式掃描的所有資料來源都會顯示在此處。

    • Classifiers (分類器):指派給爬蟲程式的所有分類器都會顯示在此處。

    • 標籤:任何建立並指派給 AWS 資源的標籤都會顯示在此處。