Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Crawler-API
Die Crawler-API beschreibt AWS Glue Crawler-Datentypen sowie die API zum Erstellen, Löschen, Aktualisieren und Auflisten von Crawlern.
Datentypen
Crawler-Struktur
Gibt ein Crawler-Programm an, das eine Datenquelle untersucht und Classifier verwendet, um deren Schema zu ermitteln. Bei Erfolg erfasst der Crawler Metadaten über die Datenquelle im AWS Glue Data Catalog.
Felder
-
Name
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name des Crawlers.
-
Role
– UTF-8-Zeichenfolge.Der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die für den Zugriff auf Kundenressourcen verwendet wird, wie z. B. Amazon Simple Storage Service (Amazon S3)-Daten.
-
Targets
– Ein CrawlerTargets-Objekt.Eine Sammlung von Zielen zum Crawlen.
-
DatabaseName
– UTF-8-Zeichenfolge.Der Name der Datenbank, in der die Crawler-Ausgabe gespeichert wird.
-
Description
– Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.Eine Beschreibung des Crawlers.
-
Classifiers
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der UTF-8-Zeichenfolgen, die die benutzerdefinierten Classifier des Crawlers angeben.
-
RecrawlPolicy
– Ein RecrawlPolicy-Objekt.Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
-
SchemaChangePolicy
– Ein SchemaChangePolicy-Objekt.Die Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.
-
LineageConfiguration
– Ein LineageConfiguration-Objekt.Eine Konfiguration, die angibt, ob die Datenherkunft für den Crawler aktiviert ist.
-
State
– UTF-8-Zeichenfolge (zulässige Werte:READY
|RUNNING
|STOPPING
).Gibt an, ob der Crawler ausgeführt wird oder ob eine Ausführung noch aussteht.
-
TablePrefix
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Das Präfix, das den Namen der Tabellen, die erstellt werden, hinzugefügt wird.
-
Schedule
– Ein Plan-Objekt.Bei geplanten Crawlern ist dies der Zeitplan, wenn der Crawler ausgeführt wird.
-
CrawlElapsedTime
– Zahl (lang).Wenn der Crawler ausgeführt wird, ist die gesamte Zeit enthalten, die seit Beginn des letzten Crawls verstrichen ist.
-
CreationTime
– Zeitstempel.Die Uhrzeit, zu der der Crawler erstellt wurde.
-
LastUpdated
– Zeitstempel.Die Uhrzeit, zu der der Crawler zuletzt aktualisiert wurde.
-
LastCrawl
– Ein LastCrawlInfo-Objekt.Der Status des letzten Crawls und möglicherweise Fehlerinformationen, wenn ein Fehler aufgetreten ist.
-
Version
– Zahl (lang).Die Version des Crawlers.
-
Configuration
– UTF-8-Zeichenfolge.Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
-
CrawlerSecurityConfiguration
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Der Name der
SecurityConfiguration
Struktur, die von diesem Crawler verwendet werden soll. -
LakeFormationConfiguration
– Ein LakeFormationConfiguration-Objekt.Gibt an, ob der Crawler AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der Anmeldeinformationen der IAM-Rolle verwenden soll.
Planstruktur
Ein Planungsobjekt, das eine cron
-Anweisung zum Planen eines Ereignisses verwendet.
Felder
-
ScheduleExpression
– UTF-8-Zeichenfolge.Ein
cron
-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben:cron(15 12 * * ? *)
. -
State
– UTF-8-Zeichenfolge (zulässige Werte:SCHEDULED
|NOT_SCHEDULED
|TRANSITIONING
).Der Status des Zeitplans.
CrawlerTargets Struktur
Gibt Datenspeicher an, die gecrawlt werden sollen.
Felder
-
S3Targets
– Ein Array mit S3Target-Objekten.Gibt Amazon Simple Storage Service (Amazon S3)-Ziele an.
-
JdbcTargets
– Ein Array mit JdbcTarget-Objekten.Gibt JDBC-Ziele an.
-
MongoDBTargets
– Ein Array mit Mongo DBTarget-Objekten.Gibt Amazon-DocumentDB- oder MongoDB-Ziele an.
-
DynamoDBTargets
– Ein Array mit Dynamo DBTarget-Objekten.Gibt Amazon DynamoDB-Ziele an.
-
CatalogTargets
– Ein Array mit CatalogTarget-Objekten.Spezifiziert AWS Glue Data Catalog Ziele.
-
DeltaTargets
– Ein Array mit DeltaTarget-Objekten.Gibt Delta-Datenspeicherziele an.
-
IcebergTargets
– Ein Array mit IcebergTarget-Objekten.Gibt Apache-Iceberg-Datenspeicherziele an.
-
HudiTargets
– Ein Array mit HudiTarget-Objekten.Gibt Apache-Hudi-Datenspeicherziele an.
S3Target-Struktur
Gibt einen Datenspeicher in Amazon Simple Storage Service (Amazon S3) an.
Felder
-
Path
– UTF-8-Zeichenfolge.Der Pfad zum Amazon S3-Ziel.
-
Exclusions
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name einer Verbindung, die es einer Aufgabe oder einem Crawler ermöglicht, innerhalb einer Amazon Virtual Private Cloud-Umgebung (Amazon VPC) auf Daten in Amazon S3 zuzugreifen.
-
SampleSize
– Zahl (Ganzzahl).Legt die Anzahl der Dateien in jedem Ordner fest, die beim Crawling von Beispieldateien in einem Datensatz durchsucht werden sollen. Wenn nicht festgelegt, werden alle Dateien durchsucht. Ein gültiger Wert ist eine ganze Zahl zwischen 1 und 249.
-
EventQueueArn
– UTF-8-Zeichenfolge.Ein gültiger Amazon SQS ARN. Beispiel,
arn:aws:sqs:region:account:sqs
. -
DlqEventQueueArn
– UTF-8-Zeichenfolge.Ein gültiger Amazon Dead Letter SQS ARN. Beispiel,
arn:aws:sqs:region:account:deadLetterQueue
.
DeltaCatalogTarget S3-Struktur
Gibt ein Ziel an, das in eine Delta Lake-Datenquelle im AWS Glue Datenkatalog schreibt.
Felder
-
Name
– Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #61 übereinstimmt.Der Name des Datenziels.
-
Inputs
– Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht weniger als 1 und nicht mehr als 1 Zeichenfolge.Die Knoten, die Eingaben für das Datenziel sind.
-
PartitionKeys
– Ein UTF-8-Zeichenfolgen-Array.Gibt die native Partitionierung mit einer Schlüsselfolge an.
-
Table
– Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.Der Name der Tabelle in der Datenbank, in die geschrieben werden soll.
-
Database
– Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.Der Name der Datenbank, in die geschrieben wird.
-
AdditionalOptions
– Ein Map-Array von Schlüssel-Wert-Paaren.Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.
Jeder Wert ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.
Gibt zusätzliche Verbindungsoptionen für den Konnektor an.
-
SchemaChangePolicy
– Ein CatalogSchemaChangePolicy-Objekt.Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.
DeltaDirectTarget S3-Struktur
Gibt ein Ziel an, das in eine Delta Lake-Datenquelle in schreibt Amazon S3.
Felder
-
Name
– Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #61 übereinstimmt.Der Name des Datenziels.
-
Inputs
– Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht weniger als 1 und nicht mehr als 1 Zeichenfolge.Die Knoten, die Eingaben für das Datenziel sind.
-
PartitionKeys
– Ein UTF-8-Zeichenfolgen-Array.Gibt die native Partitionierung mit einer Schlüsselfolge an.
-
Path
– Erforderlich: UTF-8-Zeichenfolge, die mit der Custom string pattern #59 übereinstimmt.Der Amazon-S3-Pfad Ihrer Delta-Lake-Datenquelle, in die geschrieben werden soll.
-
Compression
– Erforderlich: UTF-8-Zeichenfolge (zulässige Werte:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Gibt an, wie die Daten komprimiert werden. Dies ist in der Regel nicht notwendig, wenn die Daten eine Standard-Dateierweiterung haben. Mögliche Werte sind
"gzip"
und"bzip"
). -
Format
– Erforderlich: UTF-8-Zeichenfolge (zulässige Werte:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Gibt das Datenausgabeformat für das Ziel an.
-
AdditionalOptions
– Ein Map-Array von Schlüssel-Wert-Paaren.Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.
Jeder Wert ist eine UTF-8-Zeichenfolge, die Custom string pattern #59 entspricht.
Gibt zusätzliche Verbindungsoptionen für den Konnektor an.
-
SchemaChangePolicy
– Ein DirectSchemaChangePolicy-Objekt.Eine Richtlinie, in der die Aktualisierungsverhaltensweisen für den Crawler festgelegt sind.
JdbcTarget Struktur
Gibt einen JDBC-Datenspeicher an, der gecrawlt werden sollen.
Felder
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung, die für das JDBC-Ziel verwendet werden soll.
-
Path
– UTF-8-Zeichenfolge.Der Pfad des JDBC-Ziels.
-
Exclusions
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
-
EnableAdditionalMetadata
– Ein UTF-8-Zeichenfolgen-Array.Geben Sie einen Wert von
RAWTYPES
oderCOMMENTS
an, um zusätzliche Metadaten in Tabellenantworten zu aktivieren.RAWTYPES
stellt den Datentyp auf nativer Ebene bereit.COMMENTS
stellt Kommentare bereit, die einer Spalte oder Tabelle in der Datenbank zugeordnet sind.Wenn Sie keine zusätzlichen Metadaten benötigen, lassen Sie das Feld leer.
DBTarget Mongo-Struktur
Gibt einen Amazon-DocumentDB- oder MongoDB-Datastore für das Crawling an.
Felder
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung, die für das Amazon-DocumentDB- oder MongoDB-Ziel verwendet werden soll.
-
Path
– UTF-8-Zeichenfolge.Der Pfad des Amazon-DocumentDB- oder MongoDB-Ziels (Datenbank/Sammlung).
-
ScanAll
– Boolesch.Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.
Der Wert eins
true
gibt an, dass alle Datensätze gescannt werden, während bei dem Wertfalse
Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Werttrue
verwendet.
DBTarget Dynamo-Struktur
Gibt eine Amazon DynamoDB-Tabelle an, die gecrawlt werden soll.
Felder
-
Path
– UTF-8-Zeichenfolge.Der Name der DynamoDB-Tabelle für das Crawling.
-
scanAll
– Boolesch.Gibt an, ob alle Datensätze gescannt oder Zeilen aus der Tabelle beispielhaft abgefragt werden sollen. Das Scannen aller Datensätze kann eine lange Zeit in Anspruch nehmen, wenn die Tabelle keinen hohen Durchsatz hat.
Der Wert eins
true
gibt an, dass alle Datensätze gescannt werden, während bei dem Wertfalse
Datensätze beispielhaft abgefragt werden. Bei keiner Wertangabe wird standardmäßig der Werttrue
verwendet. -
scanRate
– Nummer (doppelt).Der Prozentsatz der konfigurierten Lesekapazitätseinheiten, die vom AWS Glue Crawler verwendet werden sollen. Lesekapazitätseinheiten sind ein von DynamoDB definierter Begriff und ein numerischer Wert, der als Ratenbegrenzer für die Anzahl der Lesevorgänge fungiert, die pro Sekunde für diese Tabelle durchgeführt werden können.
Die gültigen Werte sind null oder ein Wert zwischen 0,1 und 1,5. Der Nullwert wird verwendet, wenn der Benutzer keinen Wert bereitstellt, und nutzt standardmäßig 0,5 der konfigurierten Lesekapazitätseinheit (für bereitgestellte Tabellen) oder 0,25 der maximal konfigurierten Lesekapazitätseinheit (für Tabellen, die den On-Demand-Modus verwenden).
DeltaTarget Struktur
Gibt einen Delta-Datenspeicher an, um eine oder mehrere Delta-Tabellen zu crawlen.
Felder
-
DeltaTables
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der Amazon-S3-Pfade zu den Delta-Tabellen.
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung, die zum Delta-Tabellenziel hergestellt werden soll.
-
WriteManifest
– Boolesch.Gibt an, ob die Manifestdateien in den Delta-Tabellenpfad geschrieben werden sollen.
-
CreateNativeDeltaTable
– Boolesch.Gibt an, ob der Crawler native Tabellen erstellt, um die Integration mit Abfragemodulen zu ermöglichen, die die direkte Abfrage des Delta-Transaktionsprotokolls unterstützen.
IcebergTarget Struktur
Gibt eine Apache-Iceberg-Datenquelle an, in der Iceberg-Tabellen in Amazon S3 gespeichert werden.
Felder
-
Paths
– Ein UTF-8-Zeichenfolgen-Array.Ein oder mehrere Amazon S3 Pfade, die Iceberg-Metadatenordner als
s3://bucket/prefix
enthalten. -
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung, die für die Verbindung mit dem Iceberg-Ziel verwendet werden soll.
-
Exclusions
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
-
MaximumTraversalDepth
– Zahl (Ganzzahl).Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Iceberg-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.
HudiTarget Struktur
Gibt eine Apache-Hudi-Datenquelle an.
Felder
-
Paths
– Ein UTF-8-Zeichenfolgen-Array.Ein Array von Amazon S3 Positionszeichenfolgen für Hudi, die jeweils den Stammordner angeben, in dem sich die Metadatendateien für eine Hudi-Tabelle befinden. Der Hudi-Ordner befindet sich möglicherweise in einem untergeordneten Ordner des Stammordners.
Der Crawler durchsucht alle Ordner unterhalb eines Pfades nach einem Hudi-Ordner.
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung, die zum Herstellen einer Verbindung mit dem Hudi-Ziel verwendet werden soll. Wenn Ihre Hudi-Dateien in Buckets gespeichert sind, die eine VPC-Autorisierung erfordern, können Sie deren Verbindungseigenschaften hier festlegen.
-
Exclusions
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der Globmuster, die zum Ausschließen aus dem Crawl-Vorgang verwendet werden. Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler.
-
MaximumTraversalDepth
– Zahl (Ganzzahl).Die maximale Tiefe der Amazon S3 Pfade, die der Crawler durchqueren kann, um den Hudi-Metadatenordner in Ihrem Pfad zu finden. Amazon S3 Wird zur Begrenzung der Crawler-Laufzeit verwendet.
CatalogTarget Struktur
Spezifiziert ein AWS Glue Data Catalog Ziel.
Felder
-
DatabaseName
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name der Datenbank, die synchronisiert werden soll.
-
Tables
– Erforderlich:Ein Array mit UTF-8-Zeichenfolgen, mindestens 1 Zeichenfolge.Eine Liste der Tabellen, die synchronisiert werden sollen.
-
ConnectionName
— UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 2048 Byte lang.Der Name der Verbindung für eine von Amazon S3 unterstützte Datenkatalog-Tabelle als Ziel des Crawling bei Verwendung eines
Catalog
-Verbindungstyps gepaart mit einemNETWORK
-Verbindungstyp. -
EventQueueArn
– UTF-8-Zeichenfolge.Ein gültiger Amazon SQS ARN. Beispiel,
arn:aws:sqs:region:account:sqs
. -
DlqEventQueueArn
– UTF-8-Zeichenfolge.Ein gültiger Amazon Dead Letter SQS ARN. Beispiel,
arn:aws:sqs:region:account:deadLetterQueue
.
CrawlerMetrics Struktur
Metriken für einen bestimmten Crawler.
Felder
-
CrawlerName
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name des Crawlers.
-
TimeLeftSeconds
– Zahl (Double), nicht mehr als Keine.Die geschätzte Zeit bis zum Abschließen eines laufenden Crawls.
-
StillEstimating
– Boolesch."True", wenn der Crawler immer noch schätzt, wie lange es dauert, um diesen Durchgang abzuschließen.
-
LastRuntimeSeconds
– Zahl (Double), nicht mehr als Keine.Die Dauer des letzten Durchgangs des Crawlers in Sekunden.
-
MedianRuntimeSeconds
– Zahl (Double), nicht mehr als Keine.Die mittlere Dauer der Durchgänge dieses Crawlers in Sekunden.
-
TablesCreated
– Zahl (Ganzzahl), nicht mehr als Keine.Die Anzahl der Tabellen, die von diesem Crawler erstellt wurden.
-
TablesUpdated
– Zahl (Ganzzahl), nicht mehr als Keine.Die Anzahl der Tabellen, die von diesem Crawler aktualisiert wurden.
-
TablesDeleted
– Zahl (Ganzzahl), nicht mehr als Keine.Die Anzahl der Tabellen, die von diesem Crawler gelöscht wurden.
CrawlerHistory Struktur
Enthält die Informationen für eine Ausführung eines Crawlers.
Felder
-
CrawlId
– UTF-8-Zeichenfolge.Ein UUID-Bezeichner für jedes Crawling.
-
State
– UTF-8-Zeichenfolge (zulässige Werte:RUNNING
|COMPLETED
|FAILED
|STOPPED
).Der Status des Crawls.
-
StartTime
– Zeitstempel.Das Datum und die Uhrzeit, zu der der Crawl gestartet wurde.
-
EndTime
– Zeitstempel.Das Datum und die Uhrzeit, zu der der Crawl beendet wurde.
-
Summary
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Eine Zusammenfassung der Ausführung des spezifischen Crawls in JSON. Enthält die Katalogtabellen und Partitionen, die hinzugefügt, aktualisiert oder gelöscht wurden.
-
ErrorMessage
– Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.Wenn ein Fehler aufgetreten ist, ist dies dem Crawl zugeordnet.
-
LogGroup
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log group string pattern.Die dem Crawl zugeordnete Protokollgruppe.
-
LogStream
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log-stream string pattern.Der dem Crawl zugeordnete Protokoll-Stream.
-
MessagePrefix
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Das Präfix für eine CloudWatch Nachricht über diesen Crawl.
-
DPUHour
– Zahl (Double), nicht mehr als Keine.Die Anzahl der Datenverarbeitungseinheiten (DPU), die in Stunden für den Crawl verwendet wurden.
CrawlsFilter Struktur
Eine Liste von Feldern, Komparatoren und Werten, die Sie zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwenden können.
Felder
-
FieldName
– UTF-8-Zeichenfolge (zulässige Werte:CRAWL_ID
|STATE
|START_TIME
|END_TIME
|DPU_HOUR
).Ein Schlüssel, der zum Filtern der Crawler-Ausführungen für einen bestimmten Crawler verwendet wird. Gültige Werte für jeden Feldnamen sind:
-
CRAWL_ID
: Eine Zeichenfolge, die den UUID-Bezeichner für einen Crawl darstellt. -
STATE
: Eine Zeichenfolge, die den Status des Crawls darstellt. -
START_TIME
undEND_TIME
: Der Zeitstempel der Epoche in Millisekunden. -
DPU_HOUR
: Die Anzahl der Stunden der Datenverarbeitungseinheit (DPU), die für den Crawl verwendet wurden.
-
-
FilterOperator
– UTF-8-Zeichenfolge (zulässige Werte:GT
|GE
|LT
|LE
|EQ
|NE
).Ein definierter Komparator, der mit dem Wert arbeitet. Die verfügbaren Operatoren sind:
-
GT
: Größer als. -
GE
: Größer als oder gleich. -
LT
: Weniger als. -
LE
: Weniger als oder gleich. -
EQ
: Gleich. -
NE
: Nicht gleich.
-
-
FieldValue
– UTF-8-Zeichenfolge.Der für den Vergleich im Crawling-Feld angegebenen Wert.
SchemaChangePolicy Struktur
Eine Richtlinie, in der die Aktualisierungs- und Löschverhaltensweisen für den Crawler festgelegt sind.
Felder
-
UpdateBehavior
– UTF-8-Zeichenfolge (zulässige Werte:LOG
|UPDATE_IN_DATABASE
).Das Aktualisierungsverhalten, wenn der Crawler ein geändertes Schema findet.
-
DeleteBehavior
– UTF-8-Zeichenfolge (zulässige Werte:LOG
|DELETE_FROM_DATABASE
|DEPRECATE_IN_DATABASE
).Das Löschverhalten, wenn der Crawler ein gelöschtes Objekt findet.
LastCrawlInfo Struktur
Status- und Fehlerinformationen über den letzten Crawl.
Felder
-
Status
– UTF-8-Zeichenfolge (zulässige Werte:SUCCEEDED
|CANCELLED
|FAILED
).Status des letzten Crawls.
-
ErrorMessage
– Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.Die Fehlerinformationen über den letzten Crawl, wenn ein Fehler aufgetreten ist.
-
LogGroup
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log group string pattern.Die Protokollgruppe für den letzten Crawl.
-
LogStream
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 512 Bytes lang, passend zum Log-stream string pattern.Der Protokollstream für den letzten Crawl.
-
MessagePrefix
– UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Das Präfix für eine Nachricht zu diesem Crawl.
-
StartTime
– Zeitstempel.Die Zeit, zu der der Crawl gestartet wurde.
RecrawlPolicy Struktur
Beim Crawling einer Amazon-S3-Datenquelle nach Abschluss des ersten Crawls gibt diese an, ob der gesamte Datensatz erneut gecrawlt werden soll oder nur Ordner gecrawlt werden, die seit der letzten Crawler-Ausführung hinzugefügt wurden. Weitere Informationen finden Sie unter Inkrementelle Crawls in AWS Glue im Entwicklerhandbuch.
Felder
-
RecrawlBehavior
– UTF-8-Zeichenfolge (zulässige Werte:CRAWL_EVERYTHING
|CRAWL_NEW_FOLDERS_ONLY
|CRAWL_EVENT_MODE
).Gibt an, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
Der Wert von
CRAWL_EVERYTHING
gibt an, dass das Crawling des gesamten Dataset erneut ausgeführt wird.Der Wert von
CRAWL_NEW_FOLDERS_ONLY
gibt an, dass das Crawling nur für Ordner ausgeführt wird, die seit der letzten Crawler-Ausführung hinzugefügt wurden.Ein Wert von
CRAWL_EVENT_MODE
gibt an, dass nur die durch Amazon S3-Ereignisse identifizierten Änderungen gecrawlt werden.
LineageConfiguration Struktur
Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.
Felder
-
CrawlerLineageSettings
– UTF-8-Zeichenfolge (zulässige Werte:ENABLE
|DISABLE
).Gibt an, ob die Datenherkunft für den Crawler aktiviert ist. Gültige Werte für sind:
-
ENABLE (AKTIVIEREN): Aktiviert die Datenherkunft für den Crawler
-
DISABLE (DEAKTIVIEREN): Deaktiviert die Datenherkunft für den Crawler
-
LakeFormationConfiguration Struktur
Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.
Felder
-
UseLakeFormationCredentials
– Boolesch.Gibt an, ob AWS Lake Formation Anmeldeinformationen für den Crawler anstelle der Anmeldeinformationen der IAM-Rolle verwendet werden sollen.
-
AccountId
– UTF-8-Zeichenfolge, nicht mehr als 12 Bytes lang.Für kontoübergreifende Crawls erforderlich. Für dieselben Konto-Crawls wie die Zieldaten kann dies auf null belassen werden.
Operationen
CreateCrawler Aktion (Python: create_crawler)
Erstellt einen neuen Crawler mit angegebenen Zielen, Rolle, Konfiguration und optionaler Planung. Mindestens ein Crawl-Ziel muss im Felds3Targets
, jdbcTargets
oder DynamoDBTargets
angegeben werden.
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name des neuen Crawlers.
-
Role
– Erforderlich: UTF-8-Zeichenfolge.Die IAM-Rolle oder der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.
-
DatabaseName
– UTF-8-Zeichenfolge.Die AWS Glue Datenbank, in die Ergebnisse geschrieben werden, z. B.:.
arn:aws:daylight:us-east-1::database/sometable/*
-
Description
– Beschreibende Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.Eine Beschreibung des neuen Crawlers.
-
Targets
– Erforderlich: Ein CrawlerTargets-Objekt.Eine Liste der Sammlungen von Zielen zum Crawlen.
-
Schedule
– UTF-8-Zeichenfolge.Ein
cron
-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben:cron(15 12 * * ? *)
. -
Classifiers
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.
-
TablePrefix
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.
-
SchemaChangePolicy
– Ein SchemaChangePolicy-Objekt.Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.
-
RecrawlPolicy
– Ein RecrawlPolicy-Objekt.Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
-
LineageConfiguration
– Ein LineageConfiguration-Objekt.Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.
-
LakeFormationConfiguration
– Ein LakeFormationConfiguration-Objekt.Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.
-
Configuration
– UTF-8-Zeichenfolge.Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
-
CrawlerSecurityConfiguration
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Der Name der
SecurityConfiguration
Struktur, die von diesem Crawler verwendet werden soll. -
Tags
– Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 PaareJeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.
Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.
Die mit dieser Crawler-Anforderung zu verwendeten Tags. Sie können Tags verwenden, um den Zugriff auf den Crawler einzuschränken. Weitere Informationen zu Tags in AWS Glue finden Sie unter AWS Tags in AWS Glue im Entwicklerhandbuch.
Antwort
Keine Antwortparameter.
Fehler
InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException
DeleteCrawler Aktion (Python: delete_crawler)
Entfernt einen angegebenen Crawler aus dem AWS Glue Data Catalog, sofern der Crawler-Status nicht lautet. RUNNING
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Name des Crawlers, der entfernt werden soll.
Antwort
Keine Antwortparameter.
Fehler
EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException
GetCrawler Aktion (Python: get_crawler)
Ruft Metadaten für einen angegebenen Crawler ab.
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Name des Crawlers, für den Metadaten abgerufen werden sollen.
Antwort
-
Crawler
– Ein Crawler-Objekt.Die Metadaten für den angegebenen Crawler.
Fehler
EntityNotFoundException
OperationTimeoutException
GetCrawlers Aktion (Python: get_crawlers)
Ruft Metadaten für alle Crawler ab, die im Kundenkonto definiert sind.
Anforderung
-
MaxResults
– Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.Die Anzahl der Crawler, die bei jedem Aufruf zurückgegeben werden sollen.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.
Antwort
-
Crawlers
– Ein Array mit Crawler-Objekten.Eine Liste der Crawler-Metadaten.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn die zurückgegebene Liste das Ende der in diesem Kundenkonto definierten Werte nicht erreicht hat.
Fehler
OperationTimeoutException
GetCrawlerMetrics Aktion (Python: get_crawler_metrics)
Ruft Metriken zu angegebenen Crawlern ab.
Anforderung
-
CrawlerNameList
– Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.Eine Liste mit Namen der Crawler, zu denen Metriken abgerufen werden sollen.
-
MaxResults
– Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.Die maximale Größe der auszugebenden Liste.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.
Antwort
-
CrawlerMetricsList
– Ein Array mit CrawlerMetrics-Objekten.Eine Liste der Metriken für den angegebenen Crawler.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.
Fehler
OperationTimeoutException
UpdateCrawler Aktion (Python: update_crawler)
Aktualisiert einen Crawler. Wenn ein Crawler ausgeführt wird, müssen Sie ihn mit StopCrawler
anhalten, bevor Sie ihn aktualisieren.
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name des neuen Crawlers.
-
Role
– UTF-8-Zeichenfolge.Die IAM-Rolle oder der Amazon-Ressourcenname (ARN) einer IAM-Rolle, die vom neuen Crawler für den Zugriff auf Kundenressourcen verwendet wird.
-
DatabaseName
– UTF-8-Zeichenfolge.Die AWS Glue Datenbank, in der Ergebnisse gespeichert werden, z. B.:.
arn:aws:daylight:us-east-1::database/sometable/*
-
Description
– UTF-8-Zeichenfolge, nicht mehr als 2048 Bytes lang, passend zum URI address multi-line string pattern.Eine Beschreibung des neuen Crawlers.
-
Targets
– Ein CrawlerTargets-Objekt.Eine Liste der Ziele zum Crawlen.
-
Schedule
– UTF-8-Zeichenfolge.Ein
cron
-Ausdruck, der verwendet wird, um den Zeitplan festzulegen (siehe Zeitbasierte Pläne für Aufträge und Crawler). Wenn Sie beispielsweise etwas täglich um 12:15 UTC ausführen möchten, würden Sie Folgendes angeben:cron(15 12 * * ? *)
. -
Classifiers
– Ein UTF-8-Zeichenfolgen-Array.Eine Liste der benutzerdefinierten Classifier, die der Benutzer registriert hat. Standardmäßig werden alle integrierten Classifier in einen Crawl eingeschlossen. Diese benutzerdefinierten Classifier überschreiben allerdings immer die Standard-Classifier für eine bestimmte Klassifizierung.
-
TablePrefix
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Das Tabellenpräfix, das für erstellte Katalogtabellen verwendet wird.
-
SchemaChangePolicy
– Ein SchemaChangePolicy-Objekt.Richtlinie für das Verhalten des Crawlers beim Aktualisieren und Löschen.
-
RecrawlPolicy
– Ein RecrawlPolicy-Objekt.Eine Richtlinie, die angibt, ob das Crawling für den gesamten Datensatz erneut ausgeführt werden soll oder nur Ordner gecrawlt werden sollen, die seit der letzten Crawler-Ausführung hinzugefügt wurden.
-
LineageConfiguration
– Ein LineageConfiguration-Objekt.Gibt die Konfigurationseinstellungen der Datenherkunft für den Crawler an.
-
LakeFormationConfiguration
– Ein LakeFormationConfiguration-Objekt.Gibt die AWS Lake Formation Konfigurationseinstellungen für den Crawler an.
-
Configuration
– UTF-8-Zeichenfolge.Crawler-Konfigurationsinformationen. Mit dieser versionierten JSON-Zeichenfolge können Benutzer Verhaltensaspekte eines Crawlers angeben. Weitere Informationen finden Sie unter Festlegen von Crawler-Konfigurationsoptionen.
-
CrawlerSecurityConfiguration
– UTF-8-Zeichenfolge, nicht mehr als 128 Bytes lang.Der Name der
SecurityConfiguration
Struktur, die von diesem Crawler verwendet werden soll.
Antwort
Keine Antwortparameter.
Fehler
InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StartCrawler Aktion (Python: start_crawler)
Startet einen Crawl mit dem angegebenen Crawler, unabhängig davon, was geplant ist. Wenn der Crawler bereits läuft, wird a zurückgegeben. CrawlerRunningException
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Name des zu startenden Crawlers.
Antwort
Keine Antwortparameter.
Fehler
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException
StopCrawler Aktion (Python: stop_crawler)
Wenn der angegebene Crawler ausgeführt wird, wird der Crawl gestoppt.
Anforderung
-
Name
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Name des zu stoppenden Crawlers.
Antwort
Keine Antwortparameter.
Fehler
EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException
BatchGetCrawlers Aktion (Python: batch_get_crawlers)
Gibt eine Liste von Ressourcen-Metadaten für eine bestimmte Liste von Crawler-Namen zurück. Nach dem Aufrufen der ListCrawlers
-Operation können Sie diese Operation aufrufen, um auf die Daten zuzugreifen, für die Ihnen Berechtigungen erteilt wurden. Dieser Vorgang unterstützt alle IAM-Berechtigungen, einschließlich Berechtigungsbedingungen, die Tags verwenden.
Anforderung
-
CrawlerNames
– Erforderlich: Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.Eine Liste von Crawler-Namen, die von der
ListCrawlers
-Operation als Namen zurückgegeben werden können.
Antwort
-
Crawlers
– Ein Array mit Crawler-Objekten.Eine Liste der Crawler-Definitionen.
-
CrawlersNotFound
– Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.Eine Liste mit Namen der Crawler, die nicht gefunden werden konnten.
Fehler
InvalidInputException
OperationTimeoutException
ListCrawlers Aktion (Python: list_crawlers)
Ruft die Namen aller Crawler-Ressourcen in diesem AWS Konto oder der Ressourcen mit dem angegebenen Tag ab. Mit dieser Operation können Sie sehen, welche Ressourcen in Ihrem Konto verfügbar sind, sowie deren Namen.
Diese Operation akzeptiert das optionale Tags
-Feld, das Sie als Filter für die Antwort verwenden können, so dass markierte Ressourcen als Gruppe abgerufen werden können. Wenn Sie die Tag-Filterung verwenden, werden nur Ressourcen mit dem Tag abgerufen.
Anforderung
-
MaxResults
– Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.Die maximale Größe der auszugebenden Liste.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn dies eine Fortsetzungsanforderung ist.
-
Tags
– Ein Map-Array von Schlüssel-Wert-Paaren, nicht mehr als 50 Paare.Jeder Schlüssel ist eine UTF-8-Zeichenfolge, die nicht weniger als 1 oder mehr als 128 Bytes lang ist.
Jeder Wert ist eine UTF-8-Zeichenfolge, die nicht mehr als 256 Bytes lang ist.
Gibt an, das nur diese markierten Ressourcen zurückgegeben werden sollen.
Antwort
-
CrawlerNames
– Ein Array mit UTF-8-Zeichenfolgen, nicht mehr als 100 Zeichenfolgen.Die Namen aller Crawler im Konto oder der Crawler mit den angegebenen Tags.
-
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn die zurückgegebene Liste die letzte verfügbare Metrik nicht enthält.
Fehler
OperationTimeoutException
ListCrawls Aktion (Python: list_crawls)
Gibt alle Crawls eines bestimmten Crawlers zurück. Gibt nur die Crawls zurück, die seit dem Startdatum des Crawler-Verlaufs-Features stattgefunden haben, und behält Crawls nur bis zu 12 Monaten bei. Ältere Crawls werden nicht zurückgegeben.
Sie können diese API verwenden, um:
-
Ruft alle Crawls eines bestimmten Crawlers ab.
-
Rufen Sie alle Crawls eines bestimmten Crawlers innerhalb einer begrenzten Anzahl ab.
-
Rufen Sie alle Crawls eines bestimmten Crawlers in einem bestimmten Zeitraum ab.
-
Rufen Sie alle Crawls eines angegebenen Crawlers mit einem bestimmten Status, einer bestimmten Crawl-ID oder einem DPU-Stundenwert ab.
Anforderung
-
CrawlerName
– Erforderlich: UTF-8-Zeichenfolge, nicht weniger als 1 oder mehr als 255 Bytes lang, passend zum Single-line string pattern.Der Name des Crawlers, dessen Ausführungen Sie abrufen möchten.
-
MaxResults
– Zahl (Ganzzahl), nicht kleiner als 1 oder größer als 1000.Die maximale Anzahl der auszugebenden Ergebnisse. Der Standardwert ist 20 und das Maximum ist 100.
-
Filters
– Ein Array mit CrawlsFilter-Objekten.Filtert die Crawls nach den Kriterien, die Sie in einer Liste von
CrawlsFilter
-Objekten angeben. -
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token, wenn dies ein Fortsetzungsaufruf ist.
Antwort
-
Crawls
– Ein Array mit CrawlerHistory-Objekten.Eine Liste von
CrawlerHistory
-Objekten, die die Ausführung der Crawls repräsentieren, die Ihre Kriterien erfüllen. -
NextToken
– UTF-8-Zeichenfolge.Ein Fortsetzungs-Token zum Paginieren der zurückgegebenen Token-Liste. Wird zurückgegeben, wenn das aktuelle Segment der Liste nicht das letzte ist.
Fehler
EntityNotFoundException
OperationTimeoutException
InvalidInputException