Planung inkrementeller Crawls zum Hinzufügen neuer Partitionen - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Planung inkrementeller Crawls zum Hinzufügen neuer Partitionen

Sie können inkrementelle Crawls so konfigurieren und AWS-Glue-Crawler ausführen, dass dem Tabellenschema nur neue Partitionen hinzugefügt werden. Wenn der Crawler zum ersten Mal ausgeführt wird, führt er einen vollständigen Crawl durch, um die gesamte Datenquelle zu verarbeiten und das vollständige Schema und alle vorhandenen Partitionen in der aufzuzeichnen. AWS Glue Data Catalog

Nachfolgende Durchforstungen nach dem ersten vollständigen Crawl erfolgen inkrementell, wobei der Crawler nur die neuen Partitionen identifiziert und hinzufügt, die seit dem vorherigen Crawl eingeführt wurden. Dieser Ansatz führt zu schnelleren Crawlzeiten, da der Crawler nicht mehr die gesamte Datenquelle für jeden Lauf verarbeiten muss, sondern sich stattdessen nur auf die neuen Partitionen konzentriert.

Anmerkung

Inkrementelle Crawls erkennen keine Änderungen oder Löschungen vorhandener Partitionen. Diese Konfiguration eignet sich am besten für Datenquellen mit einem stabilen Schema. Wenn eine einmalige größere Schemaänderung stattfindet, ist es ratsam, den Crawler vorübergehend so einzustellen, dass er einen vollständigen Crawl durchführt, um das neue Schema korrekt zu erfassen, und dann wieder in den inkrementellen Crawling-Modus zu wechseln.

Das folgende Diagramm zeigt, dass der Crawler bei aktivierter Einstellung für den inkrementellen Crawl nur den neu hinzugefügten Ordner, month=March, erkennt und dem Katalog hinzufügt.

Das folgende Diagramm zeigt, dass Dateien für den Monat März hinzugefügt wurden.

Gehen Sie wie folgt vor, um Ihren Crawler so zu aktualisieren, dass er inkrementelle Crawls durchführt:

AWS Management Console
  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die AWS Glue Konsole unter. https://console.aws.amazon.com/glue/

  2. Wählen Sie unter dem Datenkatalog die Option Crawlers aus.

  3. Wählen Sie einen Crawler aus, den Sie für das inkrementelle Crawlen einrichten möchten.

  4. Wählen Sie Edit (Bearbeiten) aus.

  5. Wählen Sie Schritt 2. Wählen Sie Datenquellen und Klassifikatoren aus.

  6. Wählen Sie die Datenquelle aus, die Sie inkrementell crawlen möchten.

  7. Wählen Sie Edit (Bearbeiten) aus.

  8. Wählen Sie unter Nachfolgende Crawlerläufe die Option Nur neue Unterordner crawlen aus.

  9. Wählen Sie Aktualisieren.

Informationen zum Erstellen eines Zeitplans für einen Crawler finden Sie unter. Planen eines Crawlers

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Hinweise und Einschränkungen

Wenn diese Option aktiviert ist, können Sie die Amazon-S3-Zieldatenspeicher beim Bearbeiten des Crawlers nicht ändern. Diese Option wirkt sich auf bestimmte Crawler-Konfigurationseinstellungen aus. Wenn diese Option aktiviert ist, erzwingt sie das Aktualisierungs- und Löschverhalten des Crawlers für LOG. Dies bedeutet, dass:

  • Wenn er Objekte entdeckt, bei denen Schemas nicht kompatibel sind, fügt der Crawler die Objekte nicht dem Datenkatalog hinzu und fügt dieses Detail als Protokoll in Logs hinzu. CloudWatch

  • Gelöschte Objekte werden im Datenkatalog nicht aktualisiert.