Crawler-API

Die Crawler-API beschreibt AWS Glue Crawler-Datentypen sowie die API zum Erstellen, Löschen, Aktualisieren und Auflisten von Crawlern.

Datentypen

Crawler-Struktur

Gibt ein Crawler-Programm an, das eine Datenquelle untersucht und Classifier verwendet, um deren Schema zu ermitteln. Bei Erfolg erfasst der Crawler Metadaten über die Datenquelle im AWS Glue Data Catalog.

Felder

Name – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Crawlers.
Role – UTF-8-Zeichenfolge.

Der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die für den Zugriff auf Kundenressourcen verwendet wird, wie z. B. Amazon Simple Storage Service (Amazon S3)-Daten.
Targets – Ein CrawlerTargets-Objekt.

Eine Sammlung von Zielen zum Crawlen.
DatabaseName – UTF-8-Zeichenfolge.

Der Name der Datenbank, in der die Crawler-Ausgabe gespeichert wird.
Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

Eine Beschreibung des Crawlers.
Classifiers – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der UTF-8-Zeichenfolgen, die die benutzerdefinierten Classifier des Crawlers angeben.
RecrawlPolicy – Ein RecrawlPolicy-Objekt.

Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

Die Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.
LineageConfiguration – Ein LineageConfiguration-Objekt.

Eine Konfiguration, die angibt, ob die Datenherkunft für den Crawler aktiviert ist.
State – UTF-8-Zeichenfolge (zulässige Werte: READY | RUNNING | STOPPING).

Gibt an, ob der Crawler ausgeführt wird oder ob eine Ausführung noch aussteht.
TablePrefix – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Das Präfix, das den Namen der Tabellen, die erstellt werden, hinzugefügt wird.
Schedule – Ein Plan-Objekt.

Bei geplanten Crawlern ist dies der Zeitplan, wenn der Crawler ausgeführt wird.
CrawlElapsedTime – Zahl (lang).

Wenn der Crawler ausgeführt wird, ist die gesamte Zeit enthalten, die seit Beginn des letzten Crawls verstrichen ist.
CreationTime – Zeitstempel.

Die Uhrzeit, zu der der Crawler erstellt wurde.
LastUpdated – Zeitstempel.

Die Uhrzeit, zu der der Crawler zuletzt aktualisiert wurde.
LastCrawl – Ein LastCrawlInfo-Objekt.

Der Status des letzten Crawls und möglicherweise Fehlerinformationen, wenn ein Fehler aufgetreten ist.
Version – Zahl (lang).

Die Version des Crawlers.
Configuration – UTF-8-Zeichenfolge.

Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
CrawlerSecurityConfiguration – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.
LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

Gibt an, ob der Crawler AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der Anmeldeinformationen der IAM-Rolle verwenden soll.

Planstruktur

Ein Planungsobjekt, das eine cron-Anweisung zum Planen eines Ereignisses verwendet.

Felder

ScheduleExpression – UTF-8-Zeichenfolge.

Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben: cron(15 12 * * ? *).
State – UTF-8-Zeichenfolge (zulässige Werte: SCHEDULED | NOT_SCHEDULED | TRANSITIONING).

Der Status des Zeitplans.

CrawlerTargets Struktur

Gibt Datenspeicher an, die gecrawlt werden sollen.

Felder

S3Targets – Ein Array mit S3Target-Objekten.

Gibt Amazon Simple Storage Service (Amazon S3)-Ziele an.
JdbcTargets – Ein Array mit JdbcTarget-Objekten.

Gibt JDBC-Ziele an.
MongoDBTargets – Ein Array mit Mongo DBTarget-Objekten.

Gibt Amazon-DocumentDB- oder MongoDB-Ziele an.
DynamoDBTargets – Ein Array mit Dynamo DBTarget-Objekten.

Gibt Amazon DynamoDB-Ziele an.
CatalogTargets – Ein Array mit CatalogTarget-Objekten.

Spezifiziert AWS Glue Data Catalog Ziele.
DeltaTargets – Ein Array mit DeltaTarget-Objekten.

Gibt Delta-Datenspeicherziele an.
IcebergTargets – Ein Array mit IcebergTarget-Objekten.

Gibt Apache-Iceberg-Datenspeicherziele an.
HudiTargets – Ein Array mit HudiTarget-Objekten.

Gibt Apache-Hudi-Datenspeicherziele an.

S3Target-Struktur

Gibt einen Datenspeicher in Amazon Simple Storage Service (Amazon S3) an.

Felder

Path – UTF-8-Zeichenfolge.

Der Pfad zum Amazon S3-Ziel.
Exclusions – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name einer Verbindung, die es einer Aufgabe oder einem Crawler ermöglicht, innerhalb einer Amazon Virtual Private Cloud-Umgebung (Amazon VPC) auf Daten in Amazon S3 zuzugreifen.
SampleSize – Zahl (Ganzzahl).

Legt die Anzahl der Dateien in jedem Ordner fest, die beim Crawling von Beispieldateien in einem Datensatz durchsucht werden sollen. Wenn nicht festgelegt, werden alle Dateien durchsucht. Ein gültiger Wert ist eine ganze Zahl zwischen 1 und 249.
EventQueueArn – UTF-8-Zeichenfolge.

Ein gültiger Amazon SQS ARN. Beispiel, arn:aws:sqs:region:account:sqs.
DlqEventQueueArn – UTF-8-Zeichenfolge.

Ein gültiger Amazon Dead Letter SQS ARN. Beispiel, arn:aws:sqs:region:account:deadLetterQueue.

DeltaCatalogTarget S3-Struktur

Gibt ein Ziel an, das in eine Delta Lake-Datenquelle im AWS Glue Datenkatalog schreibt.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #61 übereinstimmt.

Der Name des Datenziels.
Inputs – Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht weniger als 1 und nicht mehr als 1 Zeichenfolge.

Die Knoten, die Eingaben für das Datenziel sind.
PartitionKeys – Ein UTF-8-Zeichenfolgen-Array.

Gibt die native Partitionierung mit einer Schlüsselfolge an.
Table – Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.

Der Name der Tabelle in der Datenbank, in die geschrieben werden soll.
Database – Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.

Der Name der Datenbank, in die geschrieben wird.
AdditionalOptions – Ein Map-Array von Schlüssel-Wert-Paaren.

Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.

Jeder Wert ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.

Gibt zusätzliche Verbindungsoptionen für den Konnektor an.
SchemaChangePolicy – Ein CatalogSchemaChangePolicy-Objekt.

Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.

DeltaDirectTarget S3-Struktur

Gibt ein Ziel an, das in eine Delta Lake-Datenquelle in schreibt Amazon S3.

Felder

Name – Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #61 übereinstimmt.

Der Name des Datenziels.
Inputs – Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht weniger als 1 und nicht mehr als 1 Zeichenfolge.

Die Knoten, die Eingaben für das Datenziel sind.
PartitionKeys – Ein UTF-8-Zeichenfolgen-Array.

Gibt die native Partitionierung mit einer Schlüsselfolge an.
Path – Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.

Der Amazon-S3-Pfad Ihrer Delta-Lake-Datenquelle, in die geschrieben werden soll.
Compression – Erforderlich: UTF-8-Zeichenfolge (zulässige Werte: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

Gibt an, wie die Daten komprimiert werden. Dies ist in der Regel nicht notwendig, wenn die Daten eine Standard-Dateierweiterung haben. Mögliche Werte sind "gzip" und "bzip").
Format – Erforderlich: UTF-8-Zeichenfolge (zulässige Werte: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

Gibt das Datenausgabeformat für das Ziel an.
AdditionalOptions – Ein Map-Array von Schlüssel-Wert-Paaren.

Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.

Jeder Wert ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.

Gibt zusätzliche Verbindungsoptionen für den Konnektor an.
SchemaChangePolicy – Ein DirectSchemaChangePolicy-Objekt.

Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.

JdbcTarget Struktur

Gibt einen JDBC-Datenspeicher an, der gecrawlt werden sollen.

Felder

ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung, die für das JDBC-Ziel verwendet werden soll.
Path – UTF-8-Zeichenfolge.

Der Pfad des JDBC-Ziels.
Exclusions – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
EnableAdditionalMetadata – Ein UTF-8-Zeichenfolgen-Array.

Geben Sie einen Wert von RAWTYPES oder COMMENTS an, um zusätzliche Metadaten in Tabellenantworten zu aktivieren. RAWTYPES stellt den Datentyp auf nativer Ebene bereit. COMMENTS stellt Kommentare bereit, die einer Spalte oder Tabelle in der Datenbank zugeordnet sind.

Wenn Sie keine zusätzlichen Metadaten benötigen, lassen Sie das Feld leer.

DBTarget Mongo-Struktur

Gibt einen Amazon-DocumentDB- oder MongoDB-Datastore für das Crawling an.

Felder

ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung, die für das Amazon-DocumentDB- oder MongoDB-Ziel verwendet werden soll.
Path – UTF-8-Zeichenfolge.

Der Pfad des Amazon-DocumentDB- oder MongoDB-Ziels (Datenbank/Sammlung).
ScanAll – Boolesch.

Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.

Der Wert eins true gibt an, dass alle Datensätze gescannt werden, während bei dem Wert false Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Wert true verwendet.

DBTarget Dynamo-Struktur

Gibt eine Amazon DynamoDB-Tabelle an, die gecrawlt werden soll.

Felder

Path – UTF-8-Zeichenfolge.

Der Name der DynamoDB-Tabelle für das Crawling.
scanAll – Boolesch.

Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.

Der Wert eins true gibt an, dass alle Datensätze gescannt werden, während bei dem Wert false Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Wert true verwendet.
scanRate – Nummer (doppelt).

Der Prozentsatz der konfigurierten Lesekapazitätseinheiten, die vom AWS Glue Crawler verwendet werden sollen. Lesekapazitätseinheiten sind ein von DynamoDB definierter Begriff und ein numerischer Wert, der als Ratenbegrenzer für die Anzahl der Lesevorgänge fungiert, die pro Sekunde für diese Tabelle durchgeführt werden können.

Die gültigen Werte sind null oder ein Wert zwischen 0,1 und 1,5. Der Nullwert wird verwendet, wenn der Benutzer keinen Wert bereitstellt, und nutzt standardmäßig 0,5 der konfigurierten Lesekapazitätseinheit (für bereitgestellte Tabellen) oder 0,25 der maximal konfigurierten Lesekapazitätseinheit (für Tabellen, die den On-Demand-Modus verwenden).

DeltaTarget Struktur

Gibt einen Delta-Datenspeicher an, um eine oder mehrere Delta-Tabellen zu crawlen.

Felder

DeltaTables – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der Amazon-S3-Pfade zu den Delta-Tabellen.
ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung, die zum Delta-Tabellenziel hergestellt werden soll.
WriteManifest – Boolesch.

Gibt an, ob die Manifestdateien in den Delta-Tabellenpfad geschrieben werden sollen.
CreateNativeDeltaTable – Boolesch.

Gibt an, ob der Crawler native Tabellen erstellt, um die Integration mit Abfragemodulen zu ermöglichen, die die direkte Abfrage des Delta-Transaktionsprotokolls unterstützen.

IcebergTarget Struktur

Gibt eine Apache-Iceberg-Datenquelle an, in der Iceberg-Tabellen in Amazon S3 gespeichert werden.

Felder

Paths – Ein UTF-8-Zeichenfolgen-Array.

Ein oder mehrere Amazon S3 Pfade, die Iceberg-Metadatenordner als s3://bucket/prefix enthalten.
ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung, die für die Verbindung mit dem Iceberg-Ziel verwendet werden soll.
Exclusions – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
MaximumTraversalDepth – Zahl (Ganzzahl).

Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Iceberg-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.

HudiTarget Struktur

Gibt eine Apache-Hudi-Datenquelle an.

Felder

Paths – Ein UTF-8-Zeichenfolgen-Array.

Ein Array von Amazon S3 Positionszeichenfolgen für Hudi, die jeweils den Stammordner angeben, in dem sich die Metadatendateien für eine Hudi-Tabelle befinden. Der Hudi-Ordner befindet sich möglicherweise in einem untergeordneten Ordner des Stammordners.

Der Crawler durchsucht alle Ordner unterhalb eines Pfades nach einem Hudi-Ordner.
ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung, die zum Herstellen einer Verbindung mit dem Hudi-Ziel verwendet werden soll. Wenn Ihre Hudi-Dateien in Buckets gespeichert sind, die eine VPC-Autorisierung erfordern, können Sie deren Verbindungseigenschaften hier festlegen.
Exclusions – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
MaximumTraversalDepth – Zahl (Ganzzahl).

Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Hudi-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.

CatalogTarget Struktur

Spezifiziert ein AWS Glue Data Catalog Ziel.

Felder

DatabaseName – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name der Datenbank, die synchronisiert werden soll.
Tables – Erforderlich:Ein Array mit UTF-8-Zeichenfolgen, mindestens 1 Zeichenfolge.

Eine Liste der Tabellen, die synchronisiert werden sollen.
ConnectionName— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.

Der Name der Verbindung für eine von Amazon S3 unterstützte Datenkatalog-Tabelle als Ziel des Crawling bei Verwendung eines Catalog-Verbindungstyps gepaart mit einem NETWORK-Verbindungstyp.
EventQueueArn – UTF-8-Zeichenfolge.

Ein gültiger Amazon SQS ARN. Beispiel, arn:aws:sqs:region:account:sqs.
DlqEventQueueArn – UTF-8-Zeichenfolge.

Ein gültiger Amazon Dead Letter SQS ARN. Beispiel, arn:aws:sqs:region:account:deadLetterQueue.

CrawlerMetrics Struktur

Metriken für einen bestimmten Crawler.

Felder

CrawlerName – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Crawlers.
TimeLeftSeconds – Zahl (Double), nicht mehr als Keine.

Die geschätzte Zeit bis zum Abschließen eines laufenden Crawls.
StillEstimating – Boolesch.

"True", wenn der Crawler immer noch schätzt, wie lange es dauert, um diesen Durchgang abzuschließen.
LastRuntimeSeconds – Zahl (Double), nicht mehr als Keine.

Die Dauer des letzten Durchgangs des Crawlers in Sekunden.
MedianRuntimeSeconds – Zahl (Double), nicht mehr als Keine.

Die mittlere Dauer der Durchgänge dieses Crawlers in Sekunden.
TablesCreated – Zahl (Ganzzahl), nicht mehr als Keine.

Die Anzahl der Tabellen, die von diesem Crawler erstellt wurden.
TablesUpdated – Zahl (Ganzzahl), nicht mehr als Keine.

Die Anzahl der Tabellen, die von diesem Crawler aktualisiert wurden.
TablesDeleted – Zahl (Ganzzahl), nicht mehr als Keine.

Die Anzahl der Tabellen, die von diesem Crawler gelöscht wurden.

CrawlerHistory Struktur

Enthält die Informationen für eine Ausführung eines Crawlers.

Felder

CrawlId – UTF-8-Zeichenfolge.

Ein UUID-Bezeichner für jedes Crawling.
State – UTF-8-Zeichenfolge (zulässige Werte: RUNNING | COMPLETED | FAILED | STOPPED).

Der Status des Crawls.
StartTime – Zeitstempel.

Das Datum und die Uhrzeit, zu der der Crawl gestartet wurde.
EndTime – Zeitstempel.

Das Datum und die Uhrzeit, zu der der Crawl beendet wurde.
Summary – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Eine Zusammenfassung der Ausführung des spezifischen Crawls in JSON. Enthält die Katalogtabellen und Partitionen, die hinzugefügt, aktualisiert oder gelöscht wurden.
ErrorMessage – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

Wenn ein Fehler aufgetreten ist, ist dies dem Crawl zugeordnet.
LogGroup – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log group string pattern.

Die dem Crawl zugeordnete Protokollgruppe.
LogStream – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log-stream string pattern.

Der dem Crawl zugeordnete Protokoll-Stream.
MessagePrefix – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Das Präfix für eine CloudWatch Nachricht über diesen Crawl.
DPUHour – Zahl (Double), nicht mehr als Keine.

Die Anzahl der Datenverarbeitungseinheiten (DPU), die in Stunden für den Crawl verwendet wurden.

CrawlsFilter Struktur

Eine Liste von Feldern, Komparatoren und Werten, die Sie zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwenden können.

Felder

FieldName – UTF-8-Zeichenfolge (zulässige Werte: CRAWL_ID | STATE | START_TIME | END_TIME | DPU_HOUR).

Ein Schlüssel, der zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwendet wird. Gültige Werte für jeden Feldnamen sind:
- CRAWL_ID: Eine Zeichenfolge, die den UUID-Bezeichner für einen Crawl darstellt.
- STATE: Eine Zeichenfolge, die den Status des Crawls darstellt.
- START_TIME und END_TIME: Der Zeitstempel der Epoche in Millisekunden.
- DPU_HOUR: Die Anzahl der Stunden der Datenverarbeitungseinheit (DPU), die für den Crawl verwendet wurden.
FilterOperator – UTF-8-Zeichenfolge (zulässige Werte: GT | GE | LT | LE | EQ | NE).

Ein definierter Komparator, der mit dem Wert arbeitet. Die verfügbaren Operatoren sind:
- GT: Größer als.
- GE: Größer als oder gleich.
- LT: Weniger als.
- LE: Weniger als oder gleich.
- EQ: Gleich.
- NE: Nicht gleich.
FieldValue – UTF-8-Zeichenfolge.

Der für den Vergleich im Crawling-Feld angegebenen Wert.

SchemaChangePolicy Struktur

Eine Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.

Felder

UpdateBehavior – UTF-8-Zeichenfolge (zulässige Werte: LOG | UPDATE_IN_DATABASE).

Das Aktualisierungsverhalten, wenn der Crawler ein geändertes Schema findet.
DeleteBehavior – UTF-8-Zeichenfolge (zulässige Werte: LOG | DELETE_FROM_DATABASE | DEPRECATE_IN_DATABASE).

Das Löschverhalten, wenn der Crawler ein gelöschtes Objekt findet.

LastCrawlInfo Struktur

Status- und Fehlerinformationen über den letzten Crawl.

Felder

Status – UTF-8-Zeichenfolge (zulässige Werte: SUCCEEDED | CANCELLED | FAILED).

Status des letzten Crawls.
ErrorMessage – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

Die Fehlerinformationen über den letzten Crawl, wenn ein Fehler aufgetreten ist.
LogGroup – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log group string pattern.

Die Protokollgruppe für den letzten Crawl.
LogStream – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log-stream string pattern.

Der Protokollstream für den letzten Crawl.
MessagePrefix – UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Das Präfix für eine Nachricht zu diesem Crawl.
StartTime – Zeitstempel.

Die Zeit, zu der der Crawl gestartet wurde.

RecrawlPolicy Struktur

Beim Crawling einer Amazon-S3-Datenquelle nach Abschluss des ersten Crawls gibt diese an, ob der gesamte Datensatz erneut gecrawlt werden soll oder nur Ordner gecrawlt werden, die seit der letzten Crawler-Ausführung hinzugefügt wurden. Weitere Informationen finden Sie unter Inkrementelle Crawls in AWS Glue im Entwicklerhandbuch.

Felder

RecrawlBehavior – UTF-8-Zeichenfolge (zulässige Werte: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY | CRAWL_EVENT_MODE).

Gibt an, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

Der Wert von CRAWL_EVERYTHING gibt an, dass das Crawling des gesamten Dataset erneut ausgeführt wird.

Der Wert von CRAWL_NEW_FOLDERS_ONLY gibt an, dass das Crawling nur für Ordner ausgeführt wird, die seit der letzten Crawler-Ausführung hinzugefügt wurden.

Ein Wert von CRAWL_EVENT_MODE gibt an, dass nur die durch Amazon S3-Ereignisse identifizierten Änderungen gecrawlt werden.

LineageConfiguration Struktur

Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.

Felder

CrawlerLineageSettings – UTF-8-Zeichenfolge (zulässige Werte: ENABLE | DISABLE).

Gibt an, ob die Datenherkunft für den Crawler aktiviert ist. Gültige Werte für sind:
- ENABLE (AKTIVIEREN): Aktiviert die Datenherkunft für den Crawler
- DISABLE (DEAKTIVIEREN): Deaktiviert die Datenherkunft für den Crawler

LakeFormationConfiguration Struktur

Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.

Felder

UseLakeFormationCredentials – Boolesch.

Gibt an, ob AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der Anmeldeinformationen der IAM-Rolle verwendet werden sollen.
AccountId – UTF-8-Zeichenfolge, nicht mehr als 12 Bytes lang.

Für kontoübergreifende Crawls erforderlich. Für dieselben Konto-Crawls wie die Zieldaten kann dies auf null belassen werden.

Operationen

CreateCrawler Aktion (Python: create_crawler)
DeleteCrawler Aktion (Python: delete_crawler)
GetCrawler Aktion (Python: get_crawler)
GetCrawlers Aktion (Python: get_crawlers)
GetCrawlerMetrics Aktion (Python: get_crawler_metrics)
UpdateCrawler Aktion (Python: update_crawler)
StartCrawler Aktion (Python: start_crawler)
StopCrawler Aktion (Python: stop_crawler)
BatchGetCrawlers Aktion (Python: batch_get_crawlers)
ListCrawlers Aktion (Python: list_crawlers)
ListCrawls Aktion (Python: list_crawls)

CreateCrawler Aktion (Python: create_crawler)

Erstellt einen neuen Crawler mit angegebenen Zielen, Rolle, Konfiguration und optionaler Planung. Mindestens ein Crawl-Ziel muss im Felds3Targets, jdbcTargets oder DynamoDBTargets angegeben werden.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des neuen Crawlers.
Role – Erforderlich: UTF-8-Zeichenfolge.

Die IAM-Rolle oder der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.
DatabaseName – UTF-8-Zeichenfolge.

Die AWS Glue Datenbank, in die Ergebnisse geschrieben werden, z. B.:. arn:aws:daylight:us-east-1::database/sometable/*
Description – Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

Eine Beschreibung des neuen Crawlers.
Targets – Erforderlich: Ein CrawlerTargets-Objekt.

Eine Liste der Sammlungen von Zielen zum Crawlen.
Schedule – UTF-8-Zeichenfolge.

Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben: cron(15 12 * * ? *).
Classifiers – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.
TablePrefix – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.
SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.
RecrawlPolicy – Ein RecrawlPolicy-Objekt.

Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
LineageConfiguration – Ein LineageConfiguration-Objekt.

Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.
LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.
Configuration – UTF-8-Zeichenfolge.

Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
CrawlerSecurityConfiguration – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.
Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare

Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.

Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.

Die mit dieser Crawler-Anforderung zu verwendeten Tags. Sie können Tags verwenden, um den Zugriff auf den Crawler einzuschränken. Weitere Informationen zu Tags in AWS Glue finden Sie unter AWS Tags in AWS Glue im Entwicklerhandbuch.

Antwort

Keine Antwortparameter.

Fehler

InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException

DeleteCrawler Aktion (Python: delete_crawler)

Entfernt einen angegebenen Crawler aus dem AWS Glue Data Catalog, sofern der Crawler-Status nicht lautet. RUNNING

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des Crawlers, der entfernt werden soll.

Antwort

Keine Antwortparameter.

Fehler

EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException

GetCrawler Aktion (Python: get_crawler)

Ruft Metadaten für einen angegebenen Crawler ab.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des Crawlers, für den Metadaten abgerufen werden sollen.

Antwort

Crawler – Ein Crawler-Objekt.

Die Metadaten für den angegebenen Crawler.

Fehler

EntityNotFoundException
OperationTimeoutException

GetCrawlers Aktion (Python: get_crawlers)

Ruft Metadaten für alle Crawler ab, die im Kundenkonto definiert sind.

Anforderung

MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

Die Anzahl der Crawler, die bei jedem Aufruf zurückgegeben werden sollen.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.

Antwort

Crawlers – Ein Array mit Crawler-Objekten.

Eine Liste der Crawler-Metadaten.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn die zurückgegebene Liste das Ende der in diesem Kundenkonto definierten Werte nicht erreicht hat.

Fehler

OperationTimeoutException

GetCrawlerMetrics Aktion (Python: get_crawler_metrics)

Ruft Metriken zu angegebenen Crawlern ab.

Anforderung

CrawlerNameList – Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.

Eine Liste mit Namen der Crawler, zu denen Metriken abgerufen werden sollen.
MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

Die maximale Größe der auszugebenden Liste.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.

Antwort

CrawlerMetricsList – Ein Array mit CrawlerMetrics-Objekten.

Eine Liste der Metriken für den angegebenen Crawler.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.

Fehler

OperationTimeoutException

UpdateCrawler Aktion (Python: update_crawler)

Aktualisiert einen Crawler. Wenn ein Crawler ausgeführt wird, müssen Sie ihn mit StopCrawler anhalten, bevor Sie ihn aktualisieren.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des neuen Crawlers.
Role – UTF-8-Zeichenfolge.

Die IAM-Rolle oder der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.
DatabaseName – UTF-8-Zeichenfolge.

Die AWS Glue Datenbank, in der Ergebnisse gespeichert werden, z. B.:. arn:aws:daylight:us-east-1::database/sometable/*
Description – UTF-8-Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.

Eine Beschreibung des neuen Crawlers.
Targets – Ein CrawlerTargets-Objekt.

Eine Liste der Ziele zum Crawlen.
Schedule – UTF-8-Zeichenfolge.

Ein cron-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben: cron(15 12 * * ? *).
Classifiers – Ein UTF-8-Zeichenfolgen-Array.

Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.
TablePrefix – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.
SchemaChangePolicy – Ein SchemaChangePolicy-Objekt.

Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.
RecrawlPolicy – Ein RecrawlPolicy-Objekt.

Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
LineageConfiguration – Ein LineageConfiguration-Objekt.

Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.
LakeFormationConfiguration – Ein LakeFormationConfiguration-Objekt.

Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.
Configuration – UTF-8-Zeichenfolge.

Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
CrawlerSecurityConfiguration – UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.

Der Name der SecurityConfiguration Struktur, die von diesem Crawler verwendet werden soll.

Antwort

Keine Antwortparameter.

Fehler

InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException

StartCrawler Aktion (Python: start_crawler)

Startet einen Crawl mit dem angegebenen Crawler, unabhängig davon, was geplant ist. Wenn der Crawler bereits läuft, wird a zurückgegeben. CrawlerRunningException

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des zu startenden Crawlers.

Antwort

Keine Antwortparameter.

Fehler

EntityNotFoundException
CrawlerRunningException
OperationTimeoutException

StopCrawler Aktion (Python: stop_crawler)

Wenn der angegebene Crawler ausgeführt wird, wird der Crawl gestoppt.

Anforderung

Name – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Name des zu stoppenden Crawlers.

Antwort

Keine Antwortparameter.

Fehler

EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException

BatchGetCrawlers Aktion (Python: batch_get_crawlers)

Gibt eine Liste von Ressourcen-Metadaten für eine bestimmte Liste von Crawler-Namen zurück. Nach dem Aufrufen der ListCrawlers-Operation können Sie diese Operation aufrufen, um auf die Daten zuzugreifen, für die Ihnen Berechtigungen erteilt wurden. Dieser Vorgang unterstützt alle IAM-Berechtigungen, einschließlich Berechtigungsbedingungen, die Tags verwenden.

Anforderung

CrawlerNames – Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.

Eine Liste von Crawler-Namen, die von der ListCrawlers-Operation als Namen zurückgegeben werden können.

Antwort

Crawlers – Ein Array mit Crawler-Objekten.

Eine Liste der Crawler-Definitionen.
CrawlersNotFound – Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.

Eine Liste mit Namen der Crawler, die nicht gefunden werden konnten.

Fehler

InvalidInputException
OperationTimeoutException

ListCrawlers Aktion (Python: list_crawlers)

Ruft die Namen aller Crawler-Ressourcen in diesem AWS Konto oder der Ressourcen mit dem angegebenen Tag ab. Mit dieser Operation können Sie sehen, welche Ressourcen in Ihrem Konto verfügbar sind, sowie deren Namen.

Diese Operation akzeptiert das optionale Tags-Feld, das Sie als Filter für die Antwort verwenden können, so dass markierte Ressourcen als Gruppe abgerufen werden können. Wenn Sie die Tag-Filterung verwenden, werden nur Ressourcen mit dem Tag abgerufen.

Anforderung

MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

Die maximale Größe der auszugebenden Liste.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.
Tags – Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare.

Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.

Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.

Gibt an, das nur diese markierten Ressourcen zurückgegeben werden sollen.

Antwort

CrawlerNames – Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.

Die Namen aller Crawler im Konto oder der Crawler mit den angegebenen Tags.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.

Fehler

OperationTimeoutException

ListCrawls Aktion (Python: list_crawls)

Gibt alle Crawls eines bestimmten Crawlers zurück. Gibt nur die Crawls zurück, die seit dem Startdatum des Crawler-Verlaufs-Features stattgefunden haben, und behält Crawls nur bis zu 12 Monaten bei. Ältere Crawls werden nicht zurückgegeben.

Sie können diese API verwenden, um:

Ruft alle Crawls eines bestimmten Crawlers ab.
Rufen Sie alle Crawls eines bestimmten Crawlers innerhalb einer begrenzten Anzahl ab.
Rufen Sie alle Crawls eines bestimmten Crawlers in einem bestimmten Zeitraum ab.
Rufen Sie alle Crawls eines angegebenen Crawlers mit einem bestimmten Status, einer bestimmten Crawl-ID oder einem DPU-Stundenwert ab.

Anforderung

CrawlerName – Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.

Der Name des Crawlers, dessen Ausführungen Sie abrufen möchten.
MaxResults – Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.

Die maximale Anzahl der auszugebenden Ergebnisse. Der Standardwert ist 20 und das Maximum ist 100.
Filters – Ein Array mit CrawlsFilter-Objekten.

Filtert die Crawls nach den Kriterien, die Sie in einer Liste von CrawlsFilter-Objekten angeben.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.

Antwort

Crawls – Ein Array mit CrawlerHistory-Objekten.

Eine Liste von CrawlerHistory-Objekten, die die Ausführung der Crawls repräsentieren, die Ihre Kriterien erfüllen.
NextToken – UTF-8-Zeichenfolge.

Ein Fortsetzungs-Token zum Paginieren der zurückgegebenen Token-Liste. Wird zurückgegeben, wenn das aktuelle Segment der Liste nicht das letzte ist.

Fehler

EntityNotFoundException
OperationTimeoutException
InvalidInputException

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Classifier

Spaltenstatistiken