查看爬网程序结果和详细信息 - AWS Glue

查看爬网程序结果和详细信息

爬网程序成功运行后,它会在数据目录中创建表定义。在导航窗格中选择 Tables (表) 来查看爬网程序在您指定的数据库中创建的表。

您可以按如下方式查看与爬网程序本身相关的信息:

  • AWS Glue 控制台上的 Crawlers (爬网程序) 页面显示爬网程序的以下属性:

    属性 描述
    名称

    当您创建爬网程序时,您必须为其指定一个唯一名称。

    状态

    爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。

    计划

    您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序

    上次运行

    爬网程序上次运行的日期和时间。

    日志

    来自上次运行的爬网程序的任何可用日志的链接。

    上次运行后的表格变更

    AWS Glue Data Catalog中由最近一次运行的爬网程序更新的表的数量。

  • 要查看爬网程序的历史记录,请在导航窗格中选择 Crawlers(爬网程序)以查看您创建的爬网程序。从可用爬网程序列表中选择一个爬网程序。您可以在 Crawler runs(爬网程序运行)选项卡中查看爬网程序属性和爬网程序历史记录。

    “Crawler runs”(爬网程序运行)显示每次爬网程序运行时的相关信息,包括 Start time (UTC) [开始时间(UTC)]、End time (UTC) [结束时间(UTC)]、Duration(持续时间)、Status(状态)、DPU hours(DPU 小时)和 Table changes(表格变更)。

    “爬网程序运行”选项卡将仅显示自爬网程序历史记录功能启动之日以来发生的爬取操作,并且最长仅保留 12 个月的爬取操作。较早的爬取结果将不会被返回。

  • 要查看其他信息,请在爬网程序详细信息页面中选择一个选项卡。每个选项卡都将显示与爬网程序相关的信息。

    • Schedule(计划):为爬网程序创建的所有计划都将在此处显示。

    • Data sources(数据来源):爬网程序扫描的所有数据来源都将在此处显示。

    • Classifiers(分类器):分配给爬网程序的所有分类器都将在此处显示。

    • Tags(标记):创建并分配给 AWS 资源的所有标记都将在此处显示。