Crawler API - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Crawler API

Der Crawler API beschreibt AWS Glue Crawler-Datentypen sowie die API zum Erstellen, Löschen, Aktualisieren und Auflisten von Crawlern.

Datentypen

Crawler-Struktur

Gibt ein Crawler-Programm an, das eine Datenquelle untersucht und Classifier verwendet, um deren Schema zu ermitteln. Bei Erfolg erfasst der Crawler Metadaten über die Datenquelle im AWS Glue Data Catalog.

Felder
  • Name— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Der Name des Crawlers.

  • Role— UTF -8 Zeichenfolge.

    Der Amazon-Ressourcenname (ARN) einer IAM Rolle, die für den Zugriff auf Kundenressourcen wie Amazon Simple Storage Service (Amazon S3) -Daten verwendet wird.

  • Targets – Ein CrawlerTargets-Objekt.

    Eine Sammlung von Zielen zum Crawlen.

  • DatabaseName— UTF -8 Zeichenfolge.

    Der Name der Datenbank, in der die Crawler-Ausgabe gespeichert wird.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine Beschreibung des Crawlers.

  • Classifiers— Ein Array von UTF -8 Zeichenketten.

    Eine Liste von UTF -8 Zeichenketten, die die benutzerdefinierten Klassifikatoren angeben, die dem Crawler zugeordnet sind.

  • RecrawlPolicy – Ein RecrawlPolicy-Objekt.

    Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

  • SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

    Die Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.

  • LineageConfiguration – Ein LineageConfiguration-Objekt.

    Eine Konfiguration, die angibt, ob die Datenherkunft für den Crawler aktiviert ist.

  • State— UTF -8 Zeichenfolge (gültige Werte: READY | |). RUNNING STOPPING

    Gibt an, ob der Crawler ausgeführt wird oder ob eine Ausführung noch aussteht.

  • TablePrefix— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Das Präfix, das den Namen der Tabellen, die erstellt werden, hinzugefügt wird.

  • Schedule – Ein Plan-Objekt.

    Bei geplanten Crawlern ist dies der Zeitplan, wenn der Crawler ausgeführt wird.

  • CrawlElapsedTime – Zahl (lang).

    Wenn der Crawler ausgeführt wird, ist die gesamte Zeit enthalten, die seit Beginn des letzten Crawls verstrichen ist.

  • CreationTime – Zeitstempel.

    Die Uhrzeit, zu der der Crawler erstellt wurde.

  • LastUpdated – Zeitstempel.

    Die Uhrzeit, zu der der Crawler zuletzt aktualisiert wurde.

  • LastCrawl – Ein LastCrawlInfo-Objekt.

    Der Status des letzten Crawls und möglicherweise Fehlerinformationen, wenn ein Fehler aufgetreten ist.

  • Version – Zahl (lang).

    Die Version des Crawlers.

  • Configuration— UTF -8 Zeichenfolge.

    Crawler-Konfigurationsinformationen. Diese versionierte JSON Zeichenfolge ermöglicht es Benutzern, Aspekte des Verhaltens eines Crawlers zu spezifizieren. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.

  • CrawlerSecurityConfiguration— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.

  • LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

    Gibt an, ob der Crawler AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der Rollenanmeldedaten verwenden soll. IAM

Planstruktur

Ein Planungsobjekt, das eine cron-Anweisung zum Planen eines Ereignisses verwendet.

Felder
  • ScheduleExpression— UTF -8 Zeichenfolge.

    Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Um beispielsweise jeden Tag um 12:15 Uhr etwas auszuführenUTC, würden Sie Folgendes angeben:. cron(15 12 * * ? *)

  • State— UTF -8 Zeichenfolge (gültige Werte: SCHEDULED | NOT_SCHEDULED |TRANSITIONING).

    Der Status des Zeitplans.

CrawlerTargets Struktur

Gibt Datenspeicher an, die gecrawlt werden sollen.

Felder
  • S3Targets – Ein Array mit S3Target-Objekten.

    Gibt Amazon Simple Storage Service (Amazon S3)-Ziele an.

  • JdbcTargets – Ein Array mit JdbcTarget-Objekten.

    Gibt JDBC-Ziele an.

  • MongoDBTargets – Ein Array mit M ongoDBTarget-Objekten.

    Gibt Amazon-DocumentDB- oder MongoDB-Ziele an.

  • DynamoDBTargets – Ein Array mit D ynamoDBTarget-Objekten.

    Gibt Amazon DynamoDB-Ziele an.

  • CatalogTargets – Ein Array mit CatalogTarget-Objekten.

    Spezifiziert AWS Glue Data Catalog Ziele.

  • DeltaTargets – Ein Array mit DeltaTarget-Objekten.

    Gibt Delta-Datenspeicherziele an.

  • IcebergTargets – Ein Array mit IcebergTarget-Objekten.

    Gibt Apache-Iceberg-Datenspeicherziele an.

  • HudiTargets – Ein Array mit HudiTarget-Objekten.

    Gibt Apache-Hudi-Datenspeicherziele an.

S3Target-Struktur

Gibt einen Datenspeicher in Amazon Simple Storage Service (Amazon S3) an.

Felder
  • Path— UTF -8 Zeichenfolge.

    Der Pfad zum Amazon S3-Ziel.

  • Exclusions— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.

  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name einer Verbindung, die es einem Job oder Crawler ermöglicht, auf Daten in Amazon S3 innerhalb einer Amazon Virtual Private Cloud Cloud-Umgebung (AmazonVPC) zuzugreifen.

  • SampleSize – Zahl (Ganzzahl).

    Legt die Anzahl der Dateien in jedem Ordner fest, die beim Crawling von Beispieldateien in einem Datensatz durchsucht werden sollen. Wenn nicht festgelegt, werden alle Dateien durchsucht. Ein gültiger Wert ist eine ganze Zahl zwischen 1 und 249.

  • EventQueueArn— UTF -8 Zeichenfolge.

    Ein gültiges Amazon SQSARN. Beispiel, arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 Zeichenfolge.

    Ein gültiger unerlaubter Brief von SQS ARN Amazon. Beispiel, arn:aws:sqs:region:account:deadLetterQueue.

S3-Struktur DeltaCatalogTarget

Gibt ein Ziel an, das in eine Delta Lake-Datenquelle im AWS Glue Datenkatalog schreibt.

Felder
  • NameErforderlich: Zeichenfolge UTF -8, entspricht demCustom string pattern #45.

    Der Name des Datenziels.

  • InputsErforderlich: Ein Array von UTF -8 Zeichenketten, nicht weniger als 1 oder mehr als 1 Zeichenketten.

    Die Knoten, die Eingaben für das Datenziel sind.

  • PartitionKeys— Ein Array von UTF -8 Zeichenketten.

    Gibt die native Partitionierung mit einer Schlüsselfolge an.

  • TableErforderlich: UTF -8 Zeichenfolge, entspricht. Custom string pattern #43

    Der Name der Tabelle in der Datenbank, in die geschrieben werden soll.

  • DatabaseErforderlich: UTF -8 Zeichenfolge, entspricht der. Custom string pattern #43

    Der Name der Datenbank, in die geschrieben wird.

  • AdditionalOptions – Ein Map-Array von Schlüssel-Wert-Paaren.

    Jeder Schlüssel ist eine Zeichenfolge von UTF -8, die dem entspricht. Custom string pattern #43

    Jeder Wert ist eine UTF -8-Zeichenfolge, die dem entspricht. Custom string pattern #43

    Gibt zusätzliche Verbindungsoptionen für den Konnektor an.

  • SchemaChangePolicy – Ein CatalogSchemaChangePolicy-Objekt.

    Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.

S3-Struktur DeltaDirectTarget

Gibt ein Ziel an, das in eine Delta Lake-Datenquelle in schreibt Amazon S3.

Felder
  • NameErforderlich: Zeichenfolge UTF -8, entspricht demCustom string pattern #45.

    Der Name des Datenziels.

  • InputsErforderlich: Ein Array von UTF -8 Zeichenketten, nicht weniger als 1 oder mehr als 1 Zeichenketten.

    Die Knoten, die Eingaben für das Datenziel sind.

  • PartitionKeys— Ein Array von UTF -8 Zeichenketten.

    Gibt die native Partitionierung mit einer Schlüsselfolge an.

  • PathErforderlich: UTF -8 Zeichenfolge, entspricht. Custom string pattern #43

    Der Amazon-S3-Pfad Ihrer Delta-Lake-Datenquelle, in die geschrieben werden soll.

  • CompressionErforderlich: Zeichenfolge UTF -8 (gültige Werte: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Gibt an, wie die Daten komprimiert werden. Dies ist in der Regel nicht notwendig, wenn die Daten eine Standard-Dateierweiterung haben. Mögliche Werte sind "gzip" und "bzip").

  • FormatErforderlich: UTF -8 Zeichenfolge (gültige Werte: json="JSON" | | csv="CSV" | avro="AVRO" | | orc="ORC" parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Gibt das Datenausgabeformat für das Ziel an.

  • AdditionalOptions – Ein Map-Array von Schlüssel-Wert-Paaren.

    Jeder Schlüssel ist eine Zeichenfolge von UTF -8, die dem entspricht. Custom string pattern #43

    Jeder Wert ist eine UTF -8-Zeichenfolge, die dem entspricht. Custom string pattern #43

    Gibt zusätzliche Verbindungsoptionen für den Konnektor an.

  • SchemaChangePolicy – Ein DirectSchemaChangePolicy-Objekt.

    Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.

JdbcTarget Struktur

Gibt einen JDBC Datenspeicher an, der gecrawlt werden soll.

Felder
  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name der Verbindung, die für die Verbindung mit dem JDBC Ziel verwendet werden soll.

  • Path— UTF -8 Zeichenfolge.

    Der Pfad des JDBC Ziels.

  • Exclusions— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.

  • EnableAdditionalMetadata— Ein Array von UTF -8 Zeichenketten.

    Geben Sie einen Wert von RAWTYPES oder COMMENTS an, um zusätzliche Metadaten in Tabellenantworten zu aktivieren. RAWTYPES stellt den Datentyp auf nativer Ebene bereit. COMMENTS stellt Kommentare bereit, die einer Spalte oder Tabelle in der Datenbank zugeordnet sind.

    Wenn Sie keine zusätzlichen Metadaten benötigen, lassen Sie das Feld leer.

M-Struktur ongoDBTarget

Gibt einen Amazon-DocumentDB- oder MongoDB-Datastore für das Crawling an.

Felder
  • ConnectionName— UTF -8 Saiten.

    Der Name der Verbindung, die für das Amazon-DocumentDB- oder MongoDB-Ziel verwendet werden soll.

  • Path— UTF -8 Zeichenfolge.

    Der Pfad des Amazon-DocumentDB- oder MongoDB-Ziels (Datenbank/Sammlung).

  • ScanAll – Boolesch.

    Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.

    Der Wert eins true gibt an, dass alle Datensätze gescannt werden, während bei dem Wert false Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Wert true verwendet.

D-Struktur ynamoDBTarget

Gibt eine Amazon DynamoDB-Tabelle an, die gecrawlt werden soll.

Felder
  • Path— UTF -8 Saite.

    Der Name der DynamoDB-Tabelle für das Crawling.

  • scanAll – Boolesch.

    Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.

    Der Wert eins true gibt an, dass alle Datensätze gescannt werden, während bei dem Wert false Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Wert true verwendet.

  • scanRate – Nummer (doppelt).

    Der Prozentsatz der konfigurierten Lesekapazitätseinheiten, die vom AWS Glue Crawler verwendet werden sollen. Lesekapazitätseinheiten sind ein von DynamoDB definierter Begriff und ein numerischer Wert, der als Ratenbegrenzer für die Anzahl der Lesevorgänge fungiert, die pro Sekunde für diese Tabelle durchgeführt werden können.

    Die gültigen Werte sind null oder ein Wert zwischen 0,1 und 1,5. Der Nullwert wird verwendet, wenn der Benutzer keinen Wert bereitstellt, und nutzt standardmäßig 0,5 der konfigurierten Lesekapazitätseinheit (für bereitgestellte Tabellen) oder 0,25 der maximal konfigurierten Lesekapazitätseinheit (für Tabellen, die den On-Demand-Modus verwenden).

DeltaTarget Struktur

Gibt einen Delta-Datenspeicher an, um eine oder mehrere Delta-Tabellen zu crawlen.

Felder
  • DeltaTables— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der Amazon-S3-Pfade zu den Delta-Tabellen.

  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name der Verbindung, die zum Delta-Tabellenziel hergestellt werden soll.

  • WriteManifest – Boolesch.

    Gibt an, ob die Manifestdateien in den Delta-Tabellenpfad geschrieben werden sollen.

  • CreateNativeDeltaTable – Boolesch.

    Gibt an, ob der Crawler native Tabellen erstellt, um die Integration mit Abfragemodulen zu ermöglichen, die die direkte Abfrage des Delta-Transaktionsprotokolls unterstützen.

IcebergTarget Struktur

Gibt eine Apache-Iceberg-Datenquelle an, in der Iceberg-Tabellen in Amazon S3 gespeichert werden.

Felder
  • Paths— Ein Array von UTF -8 Zeichenketten.

    Ein oder mehrere Amazon S3 Pfade, die Iceberg-Metadatenordner als enthalten. s3://bucket/prefix

  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name der Verbindung, die für die Verbindung mit dem Iceberg-Ziel verwendet werden soll.

  • Exclusions— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.

  • MaximumTraversalDepth – Zahl (Ganzzahl).

    Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Iceberg-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.

HudiTarget Struktur

Gibt eine Apache-Hudi-Datenquelle an.

Felder
  • Paths— Ein Array von UTF -8 Zeichenketten.

    Ein Array von Amazon S3 Speicherortzeichenfolgen für Hudi, die jeweils den Stammordner angeben, in dem sich die Metadatendateien für eine Hudi-Tabelle befinden. Der Hudi-Ordner befindet sich möglicherweise in einem untergeordneten Ordner des Stammordners.

    Der Crawler durchsucht alle Ordner unterhalb eines Pfades nach einem Hudi-Ordner.

  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name der Verbindung, die zum Herstellen einer Verbindung mit dem Hudi-Ziel verwendet werden soll. Wenn Ihre Hudi-Dateien in Buckets gespeichert sind, für die eine VPC Autorisierung erforderlich ist, können Sie deren Verbindungseigenschaften hier festlegen.

  • Exclusions— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.

  • MaximumTraversalDepth – Zahl (Ganzzahl).

    Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Hudi-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.

CatalogTarget Struktur

Spezifiziert ein AWS Glue Data Catalog Ziel.

Felder
  • DatabaseNameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Der Name der Datenbank, die synchronisiert werden soll.

  • TablesErforderlich: Ein Array von UTF -8 Zeichenketten, mindestens eine Zeichenfolge.

    Eine Liste der Tabellen, die synchronisiert werden sollen.

  • ConnectionName— UTF -8 Zeichenfolge.

    Der Name der Verbindung für eine von Amazon S3 unterstützte Datenkatalog-Tabelle als Ziel des Crawling bei Verwendung eines Catalog-Verbindungstyps gepaart mit einem NETWORK-Verbindungstyp.

  • EventQueueArn— UTF -8 Zeichenfolge.

    Ein gültiges Amazon SQSARN. Beispiel, arn:aws:sqs:region:account:sqs.

  • DlqEventQueueArn— UTF -8 Zeichenfolge.

    Ein gültiger unerlaubter Brief von SQS ARN Amazon. Beispiel, arn:aws:sqs:region:account:deadLetterQueue.

CrawlerMetrics Struktur

Metriken für einen bestimmten Crawler.

Felder
  • CrawlerName— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht derSingle-line string pattern.

    Der Name des Crawlers.

  • TimeLeftSeconds – Zahl (Double), nicht mehr als Keine.

    Die geschätzte Zeit bis zum Abschließen eines laufenden Crawls.

  • StillEstimating – Boolesch.

    "True", wenn der Crawler immer noch schätzt, wie lange es dauert, um diesen Durchgang abzuschließen.

  • LastRuntimeSeconds – Zahl (Double), nicht mehr als Keine.

    Die Dauer des letzten Durchgangs des Crawlers in Sekunden.

  • MedianRuntimeSeconds – Zahl (Double), nicht mehr als Keine.

    Die mittlere Dauer der Durchgänge dieses Crawlers in Sekunden.

  • TablesCreated – Zahl (Ganzzahl), nicht mehr als Keine.

    Die Anzahl der Tabellen, die von diesem Crawler erstellt wurden.

  • TablesUpdated – Zahl (Ganzzahl), nicht mehr als Keine.

    Die Anzahl der Tabellen, die von diesem Crawler aktualisiert wurden.

  • TablesDeleted – Zahl (Ganzzahl), nicht mehr als Keine.

    Die Anzahl der Tabellen, die von diesem Crawler gelöscht wurden.

CrawlerHistory Struktur

Enthält die Informationen für eine Ausführung eines Crawlers.

Felder
  • CrawlId— UTF -8 Zeichenfolge.

    Eine UUID Kennung für jeden Crawl.

  • State— UTF -8 Zeichenfolge (gültige Werte: RUNNING | | COMPLETED FAILED |STOPPED).

    Der Status des Crawls.

  • StartTime – Zeitstempel.

    Das Datum und die Uhrzeit, zu der der Crawl gestartet wurde.

  • EndTime – Zeitstempel.

    Das Datum und die Uhrzeit, zu der der Crawl beendet wurde.

  • Summary— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht der. Single-line string pattern

    Eine Zusammenfassung der Ausführung für den jeweiligen Crawling-In. JSON Enthält die Katalogtabellen und Partitionen, die hinzugefügt, aktualisiert oder gelöscht wurden.

  • ErrorMessage – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Wenn ein Fehler aufgetreten ist, ist dies dem Crawl zugeordnet.

  • LogGroup— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 512 Byte lang, entspricht. Log group string pattern

    Die dem Crawl zugeordnete Protokollgruppe.

  • LogStream— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 512 Byte lang, entspricht der. Log-stream string pattern

    Der dem Crawl zugeordnete Protokoll-Stream.

  • MessagePrefix— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht der. Single-line string pattern

    Das Präfix für eine CloudWatch Nachricht über diesen Crawl.

  • DPUHour – Zahl (Double), nicht mehr als Keine.

    Die Anzahl der für den Crawl verwendeten Datenverarbeitungseinheiten (DPU) in Stunden.

CrawlsFilter Struktur

Eine Liste von Feldern, Komparatoren und Werten, die Sie zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwenden können.

Felder
  • FieldName— UTF -8 Zeichenfolge (gültige Werte: CRAWL_ID | | STATE | START_TIME END_TIME |DPU_HOUR).

    Ein Schlüssel, der zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwendet wird. Gültige Werte für jeden Feldnamen sind:

    • CRAWL_ID: Eine Zeichenfolge, die den UUID Bezeichner für einen Crawl darstellt.

    • STATE: Eine Zeichenfolge, die den Status des Crawls darstellt.

    • START_TIME und END_TIME: Der Zeitstempel der Epoche in Millisekunden.

    • DPU_HOUR: Die Anzahl der Stunden der Datenverarbeitungseinheit (DPU), die für den Crawl verwendet wurden.

  • FilterOperator— UTF -8 Zeichenfolge (gültige Werte: GT | | GE | | LT LE EQ |NE).

    Ein definierter Komparator, der mit dem Wert arbeitet. Die verfügbaren Operatoren sind:

    • GT: Größer als.

    • GE: Größer als oder gleich.

    • LT: Weniger als.

    • LE: Weniger als oder gleich.

    • EQ: Gleich.

    • NE: Nicht gleich.

  • FieldValue— UTF -8 Zeichenfolge.

    Der für den Vergleich im Crawling-Feld angegebenen Wert.

SchemaChangePolicy Struktur

Eine Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.

Felder
  • UpdateBehavior— UTF -8 Zeichenfolge (gültige Werte: LOG |UPDATE_IN_DATABASE).

    Das Aktualisierungsverhalten, wenn der Crawler ein geändertes Schema findet.

  • DeleteBehavior— UTF -8 Zeichenfolge (gültige Werte: LOG | DELETE_FROM_DATABASE |DEPRECATE_IN_DATABASE).

    Das Löschverhalten, wenn der Crawler ein gelöschtes Objekt findet.

LastCrawlInfo Struktur

Status- und Fehlerinformationen über den letzten Crawl.

Felder
  • Status— UTF -8 Zeichenfolge (gültige Werte: SUCCEEDED | CANCELLED |FAILED).

    Status des letzten Crawls.

  • ErrorMessage – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Die Fehlerinformationen über den letzten Crawl, wenn ein Fehler aufgetreten ist.

  • LogGroup— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 512 Byte lang, entspricht der. Log group string pattern

    Die Protokollgruppe für den letzten Crawl.

  • LogStream— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 512 Byte lang, entspricht der. Log-stream string pattern

    Der Protokollstream für den letzten Crawl.

  • MessagePrefix— UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht der. Single-line string pattern

    Das Präfix für eine Nachricht zu diesem Crawl.

  • StartTime – Zeitstempel.

    Die Zeit, zu der der Crawl gestartet wurde.

RecrawlPolicy Struktur

Beim Crawling einer Amazon-S3-Datenquelle nach Abschluss des ersten Crawls gibt diese an, ob der gesamte Datensatz erneut gecrawlt werden soll oder nur Ordner gecrawlt werden, die seit der letzten Crawler-Ausführung hinzugefügt wurden. Weitere Informationen finden Sie unter Inkrementelle Crawls in AWS Glue im Entwicklerhandbuch.

Felder
  • RecrawlBehavior— UTF -8 Zeichenfolge (gültige Werte: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY |CRAWL_EVENT_MODE).

    Gibt an, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

    Der Wert von CRAWL_EVERYTHING gibt an, dass das Crawling des gesamten Dataset erneut ausgeführt wird.

    Der Wert von CRAWL_NEW_FOLDERS_ONLY gibt an, dass das Crawling nur für Ordner ausgeführt wird, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

    Ein Wert von CRAWL_EVENT_MODE gibt an, dass nur die durch Amazon S3-Ereignisse identifizierten Änderungen gecrawlt werden.

LineageConfiguration Struktur

Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.

Felder
  • CrawlerLineageSettings— UTF -8 Zeichenfolge (gültige Werte: ENABLE |DISABLE).

    Gibt an, ob die Datenherkunft für den Crawler aktiviert ist. Gültige Werte für sind:

    • ENABLE: aktiviert Data Lineage für den Crawler

    • DISABLE: deaktiviert Data Lineage für den Crawler

LakeFormationConfiguration Struktur

Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.

Felder
  • UseLakeFormationCredentials – Boolesch.

    Gibt an, ob AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der IAM Rollenanmeldedaten verwendet werden sollen.

  • AccountId— UTF -8 Zeichenfolge, nicht mehr als 12 Byte lang.

    Für kontoübergreifende Crawls erforderlich. Für dieselben Konto-Crawls wie die Zieldaten kann dies auf null belassen werden.

Operationen

CreateCrawler Aktion (Python: create_crawler)

Erstellt einen neuen Crawler mit angegebenen Zielen, Rolle, Konfiguration und optionaler Planung. Mindestens ein Crawl-Ziel muss im Felds3Targets, jdbcTargets oder DynamoDBTargets angegeben werden.

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Der Name des neuen Crawlers.

  • RoleErforderlich: Zeichenfolge UTF -8.

    Die IAM Rolle oder der Amazon-Ressourcenname (ARN) einer IAM Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.

  • DatabaseName— Zeichenfolge UTF -8.

    Die AWS Glue Datenbank, in die Ergebnisse geschrieben werden, z. B.:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

    Eine Beschreibung des neuen Crawlers.

  • TargetsErforderlich: Ein CrawlerTargets-Objekt.

    Eine Liste der Sammlungen von Zielen zum Crawlen.

  • Schedule— UTF -8 Zeichenfolge.

    Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Um beispielsweise jeden Tag um 12:15 Uhr etwas auszuführenUTC, würden Sie Folgendes angeben:. cron(15 12 * * ? *)

  • Classifiers— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.

  • TablePrefix— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.

  • SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

    Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.

  • RecrawlPolicy – Ein RecrawlPolicy-Objekt.

    Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

  • LineageConfiguration – Ein LineageConfiguration-Objekt.

    Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.

  • LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

    Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.

  • Configuration— UTF -8 Zeichenfolge.

    Crawler-Konfigurationsinformationen. Diese versionierte JSON Zeichenfolge ermöglicht es Benutzern, Aspekte des Verhaltens eines Crawlers zu spezifizieren. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.

  • CrawlerSecurityConfiguration— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.

  • Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare

    Jeder Schlüssel besteht aus einer Zeichenfolge von UTF -8, die nicht weniger als 1 oder mehr als 128 Byte lang ist.

    Jeder Wert ist eine Zeichenfolge von UTF -8, die nicht mehr als 256 Byte lang ist.

    Die mit dieser Crawler-Anforderung zu verwendeten Tags. Sie können Tags verwenden, um den Zugriff auf den Crawler einzuschränken. Weitere Informationen zu Tags in AWS Glue finden Sie unter AWS Tags in AWS Glue im Entwicklerhandbuch.

Antwort
  • Keine Antwortparameter.

Fehler
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler Aktion (Python: delete_crawler)

Entfernt einen angegebenen Crawler aus dem AWS Glue Data Catalog, sofern der Crawler-Status nicht lautet. RUNNING

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Name des Crawlers, der entfernt werden soll.

Antwort
  • Keine Antwortparameter.

Fehler
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler Aktion (Python: get_crawler)

Ruft Metadaten für einen angegebenen Crawler ab.

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Name des Crawlers, für den Metadaten abgerufen werden sollen.

Antwort
  • Crawler – Ein Crawler-Objekt.

    Die Metadaten für den angegebenen Crawler.

Fehler
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers Aktion (Python: get_crawlers)

Ruft Metadaten für alle Crawler ab, die im Kundenkonto definiert sind.

Anforderung
  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die Anzahl der Crawler, die bei jedem Aufruf zurückgegeben werden sollen.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.

Antwort
  • Crawlers – Ein Array mit Crawler-Objekten.

    Eine Liste der Crawler-Metadaten.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn die zurückgegebene Liste das Ende der in diesem Kundenkonto definierten Werte nicht erreicht hat.

Fehler
  • OperationTimeoutException

GetCrawlerMetrics Aktion (Python: get_crawler_metrics)

Ruft Metriken zu angegebenen Crawlern ab.

Anforderung
  • CrawlerNameList— Ein Array von UTF -8 Zeichenketten, nicht mehr als 100 Zeichenketten.

    Eine Liste mit Namen der Crawler, zu denen Metriken abgerufen werden sollen.

  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Größe der auszugebenden Liste.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.

Antwort
  • CrawlerMetricsList – Ein Array mit CrawlerMetrics-Objekten.

    Eine Liste der Metriken für den angegebenen Crawler.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.

Fehler
  • OperationTimeoutException

UpdateCrawler Aktion (Python: update_crawler)

Aktualisiert einen Crawler. Wenn ein Crawler ausgeführt wird, müssen Sie ihn mit StopCrawler anhalten, bevor Sie ihn aktualisieren.

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Der Name des neuen Crawlers.

  • Role— UTF -8 Zeichenfolge.

    Die IAM Rolle oder der Amazon-Ressourcenname (ARN) einer IAM Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.

  • DatabaseName— UTF -8 Zeichenfolge.

    Die AWS Glue Datenbank, in der Ergebnisse gespeichert werden, z. B.:arn:aws:daylight:us-east-1::database/sometable/*.

  • Description— UTF -8 Zeichenfolge, nicht mehr als 2048 Byte lang, entspricht. URI address multi-line string pattern

    Eine Beschreibung des neuen Crawlers.

  • Targets – Ein CrawlerTargets-Objekt.

    Eine Liste der Ziele zum Crawlen.

  • Schedule— UTF -8 Zeichenfolge.

    Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Um beispielsweise jeden Tag um 12:15 Uhr etwas auszuführenUTC, würden Sie Folgendes angeben:. cron(15 12 * * ? *)

  • Classifiers— Ein Array von UTF -8 Zeichenketten.

    Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.

  • TablePrefix— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.

  • SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

    Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.

  • RecrawlPolicy – Ein RecrawlPolicy-Objekt.

    Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

  • LineageConfiguration – Ein LineageConfiguration-Objekt.

    Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.

  • LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

    Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.

  • Configuration— UTF -8 Zeichenfolge.

    Crawler-Konfigurationsinformationen. Diese versionierte JSON Zeichenfolge ermöglicht es Benutzern, Aspekte des Verhaltens eines Crawlers zu spezifizieren. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.

  • CrawlerSecurityConfiguration— UTF -8 Zeichenfolge, nicht mehr als 128 Byte lang.

    Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.

Antwort
  • Keine Antwortparameter.

Fehler
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler Aktion (Python: start_crawler)

Startet einen Crawl mit dem angegebenen Crawler, unabhängig davon, was geplant ist. Wenn der Crawler bereits läuft, wird a zurückgegeben. CrawlerRunningException

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Name des zu startenden Crawlers.

Antwort
  • Keine Antwortparameter.

Fehler
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler Aktion (Python: stop_crawler)

Wenn der angegebene Crawler ausgeführt wird, wird der Crawl gestoppt.

Anforderung
  • NameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Name des zu stoppenden Crawlers.

Antwort
  • Keine Antwortparameter.

Fehler
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers Aktion (Python: batch_get_crawlers)

Gibt eine Liste von Ressourcen-Metadaten für eine bestimmte Liste von Crawler-Namen zurück. Nach dem Aufrufen der ListCrawlers-Operation können Sie diese Operation aufrufen, um auf die Daten zuzugreifen, für die Ihnen Berechtigungen erteilt wurden. Dieser Vorgang unterstützt alle IAM Berechtigungen, einschließlich Berechtigungsbedingungen, die Tags verwenden.

Anforderung
  • CrawlerNamesErforderlich: Ein Array von UTF -8 Zeichenfolgen, nicht mehr als 100 Zeichenketten.

    Eine Liste von Crawler-Namen, die von der ListCrawlers-Operation als Namen zurückgegeben werden können.

Antwort
  • Crawlers – Ein Array mit Crawler-Objekten.

    Eine Liste der Crawler-Definitionen.

  • CrawlersNotFound— Ein Array von UTF -8 Zeichenketten, nicht mehr als 100 Zeichenketten.

    Eine Liste mit Namen der Crawler, die nicht gefunden werden konnten.

Fehler
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers Aktion (Python: list_crawlers)

Ruft die Namen aller Crawler-Ressourcen in diesem AWS Konto oder der Ressourcen mit dem angegebenen Tag ab. Mit dieser Operation können Sie sehen, welche Ressourcen in Ihrem Konto verfügbar sind, sowie deren Namen.

Diese Operation akzeptiert das optionale Tags-Feld, das Sie als Filter für die Antwort verwenden können, so dass markierte Ressourcen als Gruppe abgerufen werden können. Wenn Sie die Tag-Filterung verwenden, werden nur Ressourcen mit dem Tag abgerufen.

Anforderung
  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Größe der auszugebenden Liste.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.

  • Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare.

    Jeder Schlüssel ist eine Zeichenfolge von UTF -8, die nicht weniger als 1 oder mehr als 128 Byte lang ist.

    Jeder Wert ist eine Zeichenfolge von UTF -8, die nicht mehr als 256 Byte lang ist.

    Gibt an, das nur diese markierten Ressourcen zurückgegeben werden sollen.

Antwort
  • CrawlerNames— Ein Array von UTF -8 Zeichenketten, nicht mehr als 100 Zeichenketten.

    Die Namen aller Crawler im Konto oder der Crawler mit den angegebenen Tags.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.

Fehler
  • OperationTimeoutException

ListCrawls Aktion (Python: list_crawls)

Gibt alle Crawls eines bestimmten Crawlers zurück. Gibt nur die Crawls zurück, die seit dem Startdatum des Crawler-Verlaufs-Features stattgefunden haben, und behält Crawls nur bis zu 12 Monaten bei. Ältere Crawls werden nicht zurückgegeben.

Sie können dies verwenden, um: API

  • Ruft alle Crawls eines bestimmten Crawlers ab.

  • Rufen Sie alle Crawls eines bestimmten Crawlers innerhalb einer begrenzten Anzahl ab.

  • Rufen Sie alle Crawls eines bestimmten Crawlers in einem bestimmten Zeitraum ab.

  • Ruft alle Crawls eines bestimmten Crawlers mit einem bestimmten Status, einer bestimmten Crawl-ID oder DPU einem bestimmten Stundenwert ab.

Anforderung
  • CrawlerNameErforderlich: UTF -8 Zeichenfolge, nicht weniger als 1 oder mehr als 255 Byte lang, entspricht. Single-line string pattern

    Der Name des Crawlers, dessen Ausführungen Sie abrufen möchten.

  • MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

    Die maximale Anzahl der auszugebenden Ergebnisse. Der Standardwert ist 20 und das Maximum ist 100.

  • Filters – Ein Array mit CrawlsFilter-Objekten.

    Filtert die Crawls nach den Kriterien, die Sie in einer Liste von CrawlsFilter-Objekten angeben.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.

Antwort
  • Crawls – Ein Array mit CrawlerHistory-Objekten.

    Eine Liste von CrawlerHistory-Objekten, die die Ausführung der Crawls repräsentieren, die Ihre Kriterien erfüllen.

  • NextToken— UTF -8 Zeichenfolge.

    Ein Fortsetzungs-Token zum Paginieren der zurückgegebenen Token-Liste. Wird zurückgegeben, wenn das aktuelle Segment der Liste nicht das letzte ist.

Fehler
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException