chenille API

Le Crawler API décrit les types de données des AWS Glue robots d'exploration, ainsi que les méthodes API permettant de créer, de supprimer, de mettre à jour et de répertorier les robots d'exploration.

Types de données

Structure du crawler

Spécifie un crawler qui examine une source de données et utilise des classifieurs pour tenter de déterminer son schéma. Si l'action aboutit, l'crawler enregistre les métadonnées relatives à la source de données dans le AWS Glue Data Catalog.

Champs

Name— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 255 octets, correspondant auSingle-line string pattern.

Nom du crawler.
Role— UTF -8 chaînes.

Nom de ressource Amazon (ARN) d'un IAM rôle utilisé pour accéder aux ressources du client, telles que les données Amazon Simple Storage Service (Amazon S3).
Targets – Un objet CrawlerTargets.

Ensemble de cibles à analyser.
DatabaseName— UTF -8 chaînes.

Nom de la base de données dans laquelle le résultat de l'crawler est stockée.
Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description du crawler.
Classifiers— Un tableau de UTF -8 chaînes.

Une liste de UTF -8 chaînes qui spécifient les classificateurs personnalisés associés au crawler.
RecrawlPolicy – Un objet RecrawlPolicy.

Stratégie qui spécifie s'il faut analyser à nouveau le jeu de données entier ou analyser uniquement les dossiers ajoutés depuis la dernière exécution du crawler.
SchemaChangePolicy – Un objet SchemaChangePolicy.

Stratégie qui spécifie la mise à jour et la suppression des comportements pour l'crawler.
LineageConfiguration – Un objet LineageConfiguration.

Configuration qui spécifie si la lignée de données est activée pour le crawler.
State— Chaîne UTF -8 (valeurs valides : READY | RUNNING |STOPPING).

Indique si le crawler est en cours d'exécution, ou si une exécution est en attente.
TablePrefix— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Préfixe ajouté aux noms des tables créées.
Schedule – Un objet Planificateur.

Pour les crawlers planifiés, planification de l'exécution du crawler.
CrawlElapsedTime – Nombre (long).

Si le crawler est en cours d'exécution, contient le temps écoulé total depuis le début de la dernière analyse.
CreationTime – Horodatage.

Heure de création du crawler.
LastUpdated – Horodatage.

Heure de la dernière mise à jour du crawler.
LastCrawl – Un objet LastCrawlInfo.

État de la dernière analyse, et éventuellement informations d'erreur si une erreur s'est produite.
Version – Nombre (long).

Version de l'crawler.
Configuration— UTF -8 chaînes.

Informations sur la configuration du crawler. Cette JSON chaîne versionnée permet aux utilisateurs de spécifier certains aspects du comportement d'un robot d'exploration. Pour plus d'informations, consultez Setting Crawler configuration options (Définition d'options de configuration du crawler).
CrawlerSecurityConfiguration— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Nom de la structure SecurityConfiguration qui sera utilisée par ce crawler.
LakeFormationConfiguration – Un objet LakeFormationConfiguration.

Spécifie si le robot d'exploration doit utiliser les AWS Lake Formation informations d'identification du robot au lieu des informations d'identification du IAM rôle.

Structure du planificateur

Objet de planification utilisant une instruction cron pour planifier un événement.

Champs

ScheduleExpression— UTF -8 chaînes.

Une expression cron utilisée pour spécifier la planification (consultez Time-Based Schedules for Jobs and Crawlers (Planifications temporelles pour les tâches et les crawlers)). Par exemple, pour exécuter quelque chose tous les jours à 12h15UTC, vous devez spécifier :cron(15 12 * * ? *).
State— Chaîne UTF -8 (valeurs valides : SCHEDULED | NOT_SCHEDULED |TRANSITIONING).

État de la planification.

CrawlerTargets structure

Indique les magasins de données à analyser.

Champs

S3Targets – Un tableau d'objets S3Target.

Spécifie des cibles Amazon Simple Storage Service (Amazon S3).
JdbcTargets – Un tableau d'objets JdbcTarget.

Spécifie les cibles du JDBC.
MongoDBTargets – Un tableau d'objets M ongoDBTarget.

Spécifie les cibles Amazon DocumentDB ou MongoDB.
DynamoDBTargets – Un tableau d'objets D ynamoDBTarget.

Spécifie des cibles Amazon DynamoDB.
CatalogTargets – Un tableau d'objets CatalogTarget.

Spécifie AWS Glue Data Catalog les cibles.
DeltaTargets – Un tableau d'objets DeltaTarget.

Spécifie les cibles du stockage de données Delta.
IcebergTargets – Un tableau d'objets IcebergTarget.

Spécifie les cibles du magasin de données Apache Iceberg.
HudiTargets – Un tableau d'objets HudiTarget.

Spécifie les cibles du magasin de données Hudi Iceberg.

Structure de la S3Target

Spécifie un magasin de données dans Amazon Simple Storage Service (Amazon S3).

Champs

Path— UTF -8 chaînes.

Chemin vers la cible Amazon S3.
Exclusions— Un tableau de UTF -8 chaînes.

Liste de modèles glob utilisés à exclure de l'analyse. Pour en savoir plus, consultez Catalog Tables with a Crawler (Tables de catalogues avec un crawler).
ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Le nom d'une connexion qui permet à une tâche ou à un robot d'exploration d'accéder aux données d'Amazon S3 dans un environnement Amazon Virtual Private Cloud (AmazonVPC).
SampleSize – Nombre (entier).

Définit le nombre de fichiers dans chaque dossier feuille à analyser lors de l'analyse d'échantillons de fichiers dans un jeu de données. Si ce paramètre n'est pas défini, tous les fichiers sont analysés. Une valeur valide est un entier compris entre 1 et 249.
EventQueueArn— UTF -8 chaînes.

Un Amazon valide SQSARN. Par exemple, arn:aws:sqs:region:account:sqs.
DlqEventQueueArn— UTF -8 chaînes.

Une lettre morte SQS ARN Amazon valide. Par exemple, arn:aws:sqs:region:account:deadLetterQueue.

DeltaCatalogTarget Structure S3

Spécifie une cible qui écrit dans une source de données Delta Lake dans le catalogue de AWS Glue données.

Champs

Name— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

Le nom de la cible de données.
Inputs— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

Les nœuds qui constituent des entrées pour la cible de données.
PartitionKeys— Un tableau de UTF -8 chaînes.

Indique le partitionnement natif à l'aide d'une séquence de clés.
Table— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

Le nom de la table de la base de données dans laquelle écrire les données.
Database— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

Le nom de la base de données dans laquelle écrire les données.
AdditionalOptions – Tableau de mappage de paires valeur-clé.

Chaque touche est une chaîne de caractères UTF -8, correspondant à. Custom string pattern #59

Chaque valeur est une chaîne de caractères UTF -8, correspondant à. Custom string pattern #59

Indique des options de connexion supplémentaires pour le connecteur.
SchemaChangePolicy – Un objet CatalogSchemaChangePolicy.

Une politique qui indique les évolutions de mise à jour pour le crawler.

DeltaDirectTarget Structure S3

Spécifie une cible qui écrit dans une source de données de Delta Lake en Amazon S3.

Champs

Name— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

Le nom de la cible de données.
Inputs— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

Les nœuds qui constituent des entrées pour la cible de données.
PartitionKeys— Un tableau de UTF -8 chaînes.

Indique le partitionnement natif à l'aide d'une séquence de clés.
Path— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

Le chemin d'accès Amazon S3 de votre source de données Delta Lake sur laquelle écrire.
Compression— Obligatoire : chaîne UTF -8 (valeurs valides : uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").
Format— Obligatoire : chaîne UTF -8 (valeurs valides : json="JSON" csv="CSV" | avro="AVRO" | | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

Définit le format de sortie des données pour la cible.
AdditionalOptions – Tableau de mappage de paires valeur-clé.

Chaque touche est une chaîne de caractères UTF -8, correspondant à. Custom string pattern #59

Chaque valeur est une chaîne de caractères UTF -8, correspondant à. Custom string pattern #59

Indique des options de connexion supplémentaires pour le connecteur.
SchemaChangePolicy – Un objet DirectSchemaChangePolicy.

Une politique qui indique les évolutions de mise à jour pour le crawler.

JdbcTarget structure

Spécifie le magasin de JDBC données à explorer.

Champs

ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Nom de la connexion à utiliser pour se connecter à la JDBC cible.
Path— UTF -8 chaînes.

Trajectoire de la JDBC cible.
Exclusions— Un tableau de UTF -8 chaînes.

Liste de modèles glob utilisés à exclure de l'analyse. Pour en savoir plus, consultez Catalog Tables with a Crawler (Tables de catalogues avec un crawler).
EnableAdditionalMetadata— Un tableau de UTF -8 chaînes.

Spécifiez une valeur de RAWTYPES ou COMMENTS pour activer des métadonnées supplémentaires dans les réponses des tables. RAWTYPES fournit le type de données de niveau natif. COMMENTS fournit des commentaires associés à une colonne ou à une table de la base de données.

Si vous n'avez pas besoin d'autres métadonnées, laissez le champ vide.

ongoDBTarget Structure en M

Indique les magasins de données Amazon DocumentDB ou MongoDB à analyser.

Champs

ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Nom de la connexion à utiliser pour se connecter à la cible Amazon DocumentDB ou MongoDB.
Path— UTF -8 chaînes.

Chemin d'accès de la cible Amazon DocumentDB ou MongoDB (base de données/collection).
ScanAll – Booléen.

Indique s'il faut analyser tous les enregistrements ou échantillonner les lignes de la table. L'analyse de tous les enregistrements peut prendre beaucoup de temps lorsque la table n'est pas à haut débit.

La valeur true implique l'analyse de tous les enregistrements, tandis que la valeur false implique l'échantillonnage des enregistrements. Si aucune valeur n'est spécifiée, la valeur par défaut est true.

ynamoDBTarget Structure en D

Spécifie une table Amazon DynamoDB à analyser.

Champs

Path— UTF -8 chaînes.

Nom de la table DynamoDB à analyser.
scanAll – Booléen.

Indique s'il faut analyser tous les enregistrements ou échantillonner les lignes de la table. L'analyse de tous les enregistrements peut prendre beaucoup de temps lorsque la table n'est pas à haut débit.

La valeur true implique l'analyse de tous les enregistrements, tandis que la valeur false implique l'échantillonnage des enregistrements. Si aucune valeur n'est spécifiée, la valeur par défaut est true.
scanRate – Nombre (double).

Pourcentage d'unités de capacité de lecture configurées à utiliser par le AWS Glue robot d'exploration. Unités de capacité de lecture est un terme défini par DynamoDB et est une valeur numérique qui sert de limiteur de vitesse pour le nombre de lectures pouvant être effectuées sur cette table par seconde.

Les valeurs valides sont nulles ou une valeur comprise entre 0,1 et 1,5. Une valeur NULL est utilisée lorsque l'utilisateur ne fournit pas de valeur et que la valeur par défaut est 0,5 de l'unité de capacité de lecture configurée (pour les tables provisionnées) ou 0,25 de l'unité de capacité de lecture maximale configurée (pour les tables utilisant le mode à la demande).

DeltaTarget structure

Spécifie un stockage de données Delta pour analyser un ou plusieurs tableaux Delta.

Champs

DeltaTables— Un tableau de UTF -8 chaînes.

Une liste de chemins Amazon S3 vers les tableaux Delta.
ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Nom de la connexion à utiliser pour se connecter à la cible Delta.
WriteManifest – Booléen.

Spécifie s'il faut écrire les fichiers manifestes dans le chemin d'accès au tableau Delta.
CreateNativeDeltaTable – Booléen.

Spécifie si le crawler va créer des tables natives pour permettre l'intégration avec les moteurs de requêtes qui prennent directement en charge l'interrogation du journal de transactions Delta.

IcebergTarget structure

Spécifie une source de données Apache Iceberg où les tables Iceberg sont stockées dans Amazon S3.

Champs

Paths— Un tableau de UTF -8 chaînes.

Un ou plusieurs Amazon S3 chemins contenant les dossiers de métadonnées Iceberg en tant ques3://bucket/prefix.
ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Nom de la connexion à utiliser pour se connecter à la cible Iceberg.
Exclusions— Un tableau de UTF -8 chaînes.

Liste de modèles glob utilisés à exclure de l'analyse. Pour en savoir plus, consultez Catalog Tables with a Crawler (Tables de catalogues avec un crawler).
MaximumTraversalDepth – Nombre (entier).

Profondeur maximale des Amazon S3 chemins que le robot d'exploration peut parcourir pour découvrir le dossier de métadonnées Iceberg dans votre Amazon S3 chemin. Utilisé pour limiter le temps d'exécution du Crawler.

HudiTarget structure

Spécifie une source de données Apache Hudi.

Champs

Paths— Un tableau de UTF -8 chaînes.

Tableau de chaînes de Amazon S3 localisation pour Hudi, chacune indiquant le dossier racine dans lequel se trouvent les fichiers de métadonnées d'une table Hudi. Le dossier Hudi peut se trouver dans un dossier enfant du dossier racine.

Le Crawler examine tous les dossiers situés sous un chemin à la recherche d'un dossier Hudi.
ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Nom de la connexion à utiliser pour se connecter à la cible Hudi. Si vos fichiers Hudi sont stockés dans des compartiments nécessitant une VPC autorisation, vous pouvez définir leurs propriétés de connexion ici.
Exclusions— Un tableau de UTF -8 chaînes.

Liste de modèles glob utilisés à exclure de l'analyse. Pour en savoir plus, consultez Catalog Tables with a Crawler (Tables de catalogues avec un crawler).
MaximumTraversalDepth – Nombre (entier).

Profondeur maximale des Amazon S3 chemins que le robot d'exploration peut parcourir pour découvrir le dossier de métadonnées Hudi dans votre Amazon S3 chemin. Utilisé pour limiter le temps d'exécution du Crawler.

CatalogTarget structure

Spécifie une AWS Glue Data Catalog cible.

Champs

DatabaseName— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Le nom de la base de données à synchroniser.
Tables— Obligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.

Une liste des tables à synchroniser.
ConnectionName— UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 2048 octets.

Le nom de la connexion d'une table de catalogue de données basées sur Amazon S3 qui doit être la cible de l'analyse lors de l'utilisation d'un type de connexion Catalog associé à un type de connexion NETWORK.
EventQueueArn— UTF -8 chaînes.

Un Amazon valide SQSARN. Par exemple, arn:aws:sqs:region:account:sqs.
DlqEventQueueArn— UTF -8 chaînes.

Une lettre morte SQS ARN Amazon valide. Par exemple, arn:aws:sqs:region:account:deadLetterQueue.

CrawlerMetrics structure

Métriques d'un crawler spécifié.

Champs

CrawlerName— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 255 octets, correspondant auSingle-line string pattern.

Nom du crawler.
TimeLeftSeconds – Nombre (double), pas plus qu'Aucun.

Estimation du temps restant pour terminer une analyse en cours d'exécution.
StillEstimating – Booléen.

True si le crawler est toujours en cours d'estimation du temps nécessaire pour terminer cette exécution.
LastRuntimeSeconds – Nombre (double), pas plus qu'Aucun.

Durée de l'exécution la plus récente de l'crawler, en secondes.
MedianRuntimeSeconds – Nombre (double), pas plus qu'Aucun.

Durée médiane des exécutions de cet crawler, en secondes.
TablesCreated – Nombre (entier), pas plus qu'Aucun.

Nombre de tables créées par cet crawler.
TablesUpdated – Nombre (entier), pas plus qu'Aucun.

Nombre de tables mises à jour par cet crawler.
TablesDeleted – Nombre (entier), pas plus qu'Aucun.

Nombre de tables supprimées par cet crawler.

CrawlerHistory structure

Contient les informations pour une exécution d'un crawler.

Champs

CrawlId— UTF -8 chaînes.

Un UUID identifiant pour chaque crawl.
State— Chaîne UTF -8 (valeurs valides : RUNNING | | COMPLETED FAILED |STOPPED).

État de l'analyse.
StartTime – Horodatage.

Date et heure auxquelles le crawler a démarré.
EndTime – Horodatage.

Date et heure auxquelles l'analyse s'est achevée.
Summary— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 255 octets, correspondant auSingle-line string pattern.

Un résumé de l'exécution pour le crawl in JSON spécifique. Contient les tables de catalogue et les partitions qui ont été ajoutées, mises à jour ou supprimées.
ErrorMessage – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Si une erreur s'est produite, le message d'erreur associé à l'analyse.
LogGroup— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 512 octets, correspondant auLog group string pattern.

Groupe de journaux associés au crawler.
LogStream— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 512 octets, correspondant auLog-stream string pattern.

Flux de journaux associé au crawler.
MessagePrefix— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 255 octets, correspondant auSingle-line string pattern.

Le préfixe d'un CloudWatch message concernant ce crawl.
DPUHour – Nombre (double), pas plus qu'Aucun.

Nombre d'unités de traitement de données (DPU) utilisées en heures pour le crawl.

CrawlsFilter structure

Une liste de champs, de comparateurs et de valeurs que vous pouvez utiliser pour filtrer les exécutions de crawler pour un crawler spécifié.

Champs

FieldName— Chaîne UTF -8 (valeurs valides : CRAWL_ID | | STATE | START_TIME END_TIME |DPU_HOUR).

Une clé utilisée pour filtrer les exécutions de Crawler pour un Crawler spécifié. Les valeurs valides pour chacun des noms de champs sont les suivantes :
- CRAWL_ID: chaîne représentant l'UUIDidentifiant d'un crawl.
- STATE : une chaîne représentant l'état de l'analyse.
- START_TIME et END_TIME : l'horodatage de l'époque en millisecondes.
- DPU_HOUR: le nombre d'heures d'unité de traitement des données (DPU) utilisées pour le crawl.
FilterOperator— Chaîne UTF -8 (valeurs valides : GT | GE | LT | LE EQ |NE).

Un comparateur défini qui agit sur la valeur. Les opérateurs disponibles sont les suivants :
- GT : Supérieur à.
- GE : Supérieur ou égal à.
- LT : Inférieur à.
- LE : Inférieur ou égal à.
- EQ : Égal à.
- NE : Pas égal à.
FieldValue— UTF -8 chaînes.

La valeur fournie pour la comparaison dans le champ d'analyse.

SchemaChangePolicy structure

Stratégie qui spécifie des comportements de mise à jour et de suppression pour l'crawler.

Champs

UpdateBehavior— Chaîne UTF -8 (valeurs valides : LOG |UPDATE_IN_DATABASE).

Comportement de mise à jour lorsque le crawler détecte un schéma modifié.
DeleteBehavior— Chaîne UTF -8 (valeurs valides : LOG | DELETE_FROM_DATABASE |DEPRECATE_IN_DATABASE).

Comportement de suppression lorsque le crawler détecte un objet supprimé.

LastCrawlInfo structure

Informations d'état et d'erreur sur l'analyse la plus récente.

Champs

Status— Chaîne UTF -8 (valeurs valides : SUCCEEDED | CANCELLED |FAILED).

État de la dernière analyse.
ErrorMessage – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Si une erreur s'est produite, informations d'erreur sur la dernière analyse.
LogGroup— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 512 octets, correspondant auLog group string pattern.

Groupe de journaux de la dernière analyse.
LogStream— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 512 octets, correspondant auLog-stream string pattern.

Flux de journal de la dernière analyse.
MessagePrefix— Chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 255 octets, correspondant auSingle-line string pattern.

Préfixe d'un message sur cette analyse.
StartTime – Horodatage.

Heure à laquelle l'analyse a commencé.

RecrawlPolicy structure

Lorsque vous indexez une source de données Amazon S3 après la première indexation, spécifie s'il faut indexer à nouveau l'ensemble du jeu de données ou uniquement les dossiers ajoutés depuis la dernière exécution du crawler. Pour de plus amples informations, veuillez consulter la rubrique Analyses incrémentielles dans AWS Glue dans le guide du développeur.

Champs

RecrawlBehavior— Chaîne UTF -8 (valeurs valides : CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY |CRAWL_EVENT_MODE).

Spécifie s'il faut indexer à nouveau le jeu de données ou uniquement les dossiers ajoutés depuis la dernière exécution du crawler.

Une valeur de CRAWL_EVERYTHING indique que l'ensemble du jeu de données doit être analysé à nouveau.

Une valeur de CRAWL_NEW_FOLDERS_ONLY indique que seuls les dossiers ajoutés depuis la dernière exécution du crawler doivent être indexés.

Une valeur de CRAWL_EVENT_MODE spécifie uniquement l'analyse des modifications identifiées par les événements Amazon S3.

LineageConfiguration structure

Spécifie les paramètres de configuration de la lignée de données pour l'crawler.

Champs

CrawlerLineageSettings— Chaîne UTF -8 (valeurs valides : ENABLE |DISABLE).

Indique si la lignée de données est activée pour le crawler. Les valeurs valides sont :
- ENABLE: active le lignage des données pour le robot
- DISABLE: désactive le lignage des données pour le robot

LakeFormationConfiguration structure

Spécifie les paramètres AWS Lake Formation de configuration pour le robot d'exploration.

Champs

UseLakeFormationCredentials – Booléen.

Spécifie s'il faut utiliser les AWS Lake Formation informations d'identification du robot d'exploration au lieu des informations d'identification du IAM rôle.
AccountId— UTF -8 chaînes, d'une longueur maximale de 12 octets.

Obligatoire pour les analyses de compte croisées. Pour les mêmes analyses de compte que les données cibles, cela peut être laissé nul.

Opérations

CreateCrawler action (Python : create_crawler)
DeleteCrawler action (Python : delete_crawler)
GetCrawler action (Python : get_crawler)
GetCrawlers action (Python : get_crawlers)
GetCrawlerMetrics action (Python : get_crawler_metrics)
UpdateCrawler action (Python : update_crawler)
StartCrawler action (Python : start_crawler)
StopCrawler action (Python : stop_crawler)
BatchGetCrawlers action (Python : batch_get_crawlers)
ListCrawlers action (Python : list_crawlers)
ListCrawls action (Python : list_crawls)

CreateCrawler action (Python : create_crawler)

Crée un crawler avec des cibles, un rôle, une configuration, et une éventuelle planification spécifiés. Au moins une cible d'analyse doit être spécifiée dans le champ s3Targets, le champ jdbcTargets ou le champ DynamoDBTargets.

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom du nouveau crawler.
Role— Obligatoire : UTF -8 chaînes.

Le IAM rôle ou Amazon Resource Name (ARN) d'un IAM rôle utilisé par le nouveau robot d'exploration pour accéder aux ressources des clients.
DatabaseName— UTF -8 chaînes.

La AWS Glue base de données dans laquelle les résultats sont écrits, par exemple :arn:aws:daylight:us-east-1::database/sometable/*.
Description – Chaîne de description, d'une longueur maximale de 2 048 octets, correspondant au URI address multi-line string pattern.

Description du nouvel crawler.
Targets – Obligatoire : un objet CrawlerTargets.

Liste de l'ensemble de cibles à analyser.
Schedule— UTF -8 chaînes.

Une expression cron utilisée pour spécifier la planification (consultez Time-Based Schedules for Jobs and Crawlers (Planifications temporelles pour les tâches et les crawlers)). Par exemple, pour exécuter quelque chose tous les jours à 12h15UTC, vous devez spécifier :cron(15 12 * * ? *).
Classifiers— Un tableau de UTF -8 chaînes.

Liste des classifieurs personnalisés que l'utilisateur a enregistrés. Par défaut, tous les classificateurs intégrés sont inclus dans une analyse, mais ces classificateurs personnalisés se substituent toujours aux classificateurs par défaut pour une classification donnée.
TablePrefix— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Préfixe de table utilisé pour les tables catalogue créées.
SchemaChangePolicy – Un objet SchemaChangePolicy.

Stratégie du comportement de mise à jour et de suppression de l'crawler.
RecrawlPolicy – Un objet RecrawlPolicy.

Stratégie qui spécifie s'il faut analyser à nouveau le jeu de données entier ou analyser uniquement les dossiers ajoutés depuis la dernière exécution du crawler.
LineageConfiguration – Un objet LineageConfiguration.

Spécifie les paramètres de configuration de la lignée de données pour le crawler.
LakeFormationConfiguration – Un objet LakeFormationConfiguration.

Spécifie les paramètres AWS Lake Formation de configuration pour le robot d'exploration.
Configuration— UTF -8 chaînes.

Informations sur la configuration du crawler. Cette JSON chaîne versionnée permet aux utilisateurs de spécifier certains aspects du comportement d'un robot d'exploration. Pour plus d'informations, consultez Setting Crawler configuration options (Définition d'options de configuration du crawler).
CrawlerSecurityConfiguration— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Nom de la structure SecurityConfiguration qui sera utilisée par ce crawler.
Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

Chaque clé est une chaîne UTF -8 d'une longueur d'au moins 1 ou d'au plus 128 octets.

Chaque valeur est une chaîne de UTF -8, d'une longueur maximale de 256 octets.

Balises à utiliser avec cette demande d'crawler. Vous pouvez utiliser des balises pour limiter l'accès à l'crawler. Pour plus d'informations sur les tags in AWS Glue, voir AWS Tags in AWS Glue dans le guide du développeur.

Réponse

Paramètres d'absence de réponse.

Erreurs

InvalidInputException
AlreadyExistsException
OperationTimeoutException
ResourceNumberLimitExceededException

DeleteCrawler action (Python : delete_crawler)

Supprime un robot d'exploration spécifié du AWS Glue Data Catalog, sauf si l'état du robot est. RUNNING

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom de l'crawler à supprimer.

Réponse

Paramètres d'absence de réponse.

Erreurs

EntityNotFoundException
CrawlerRunningException
SchedulerTransitioningException
OperationTimeoutException

GetCrawler action (Python : get_crawler)

Récupère des métadonnées pour un crawler spécifié.

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom de l'crawler pour lequel récupérer les métadonnées.

Réponse

Crawler – Un objet crawler.

Métadonnées pour l'crawler spécifié.

Erreurs

EntityNotFoundException
OperationTimeoutException

GetCrawlers action (Python : get_crawlers)

Récupère les métadonnées pour tous les crawlers définis dans le compte client.

Demande

MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre d'crawlers à renvoyer à chaque appel.
NextToken— UTF -8 chaînes.

Jeton de continuation, s'il s'agit d'une requête de continuation.

Réponse

Crawlers – Un tableau d'objets crawler.

Liste des métadonnées de l'crawler.
NextToken— UTF -8 chaînes.

Jeton de continuation, si la liste renvoyée n'a pas atteint la fin de ceux définis dans ce compte client.

Erreurs

OperationTimeoutException

GetCrawlerMetrics action (Python : get_crawler_metrics)

Récupère les métriques sur les crawlers spécifiés.

Demande

CrawlerNameList— Un tableau de UTF -8 chaînes, pas plus de 100 chaînes.

Liste des noms des crawlers sur lesquels récupérer les métriques.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

La taille maximale d'une liste à renvoyer.
NextToken— UTF -8 chaînes.

Jeton de continuation, s'il s'agit d'un appel de continuation.

Réponse

CrawlerMetricsList – Un tableau CrawlerMetrics d'objets.

Liste des métriques pour l'crawler spécifié.
NextToken— UTF -8 chaînes.

Jeton continuation, si la liste renvoyée ne contient pas la dernière métrique disponible.

Erreurs

OperationTimeoutException

UpdateCrawler action (Python : update_crawler)

Met à jour un crawler. Si un crawler est en cours d'exécution, vous devez l'arrêter à l'aide de StopCrawler avant de le mettre à jour.

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom du nouveau crawler.
Role— UTF -8 chaînes.

Le IAM rôle ou Amazon Resource Name (ARN) d'un IAM rôle utilisé par le nouveau robot d'exploration pour accéder aux ressources des clients.
DatabaseName— UTF -8 chaînes.

La AWS Glue base de données dans laquelle les résultats sont stockés, par exemple :arn:aws:daylight:us-east-1::database/sometable/*.
Description— Chaîne UTF -8, d'une longueur maximale de 2048 octets, correspondant au. URI address multi-line string pattern

Description du nouvel crawler.
Targets – Un objet CrawlerTargets.

Liste des cibles à analyser.
Schedule— UTF -8 chaînes.

Une expression cron utilisée pour spécifier la planification (consultez Time-Based Schedules for Jobs and Crawlers (Planifications temporelles pour les tâches et les crawlers)). Par exemple, pour exécuter quelque chose tous les jours à 12h15UTC, vous devez spécifier :cron(15 12 * * ? *).
Classifiers— Un tableau de UTF -8 chaînes.

Liste des classifieurs personnalisés que l'utilisateur a enregistrés. Par défaut, tous les classificateurs intégrés sont inclus dans une analyse, mais ces classificateurs personnalisés se substituent toujours aux classificateurs par défaut pour une classification donnée.
TablePrefix— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Préfixe de table utilisé pour les tables catalogue créées.
SchemaChangePolicy – Un objet SchemaChangePolicy.

Stratégie du comportement de mise à jour et de suppression de l'crawler.
RecrawlPolicy – Un objet RecrawlPolicy.

Stratégie qui spécifie s'il faut analyser à nouveau le jeu de données entier ou analyser uniquement les dossiers ajoutés depuis la dernière exécution du crawler.
LineageConfiguration – Un objet LineageConfiguration.

Spécifie les paramètres de configuration de la lignée de données pour le crawler.
LakeFormationConfiguration – Un objet LakeFormationConfiguration.

Spécifie les paramètres AWS Lake Formation de configuration pour le robot d'exploration.
Configuration— UTF -8 chaînes.

Informations sur la configuration du crawler. Cette JSON chaîne versionnée permet aux utilisateurs de spécifier certains aspects du comportement d'un robot d'exploration. Pour plus d'informations, consultez Setting Crawler configuration options (Définition d'options de configuration du crawler).
CrawlerSecurityConfiguration— UTF -8 chaînes, d'une longueur maximale de 128 octets.

Nom de la structure SecurityConfiguration qui sera utilisée par cet crawler.

Réponse

Paramètres d'absence de réponse.

Erreurs

InvalidInputException
VersionMismatchException
EntityNotFoundException
CrawlerRunningException
OperationTimeoutException

StartCrawler action (Python : start_crawler)

Démarre une analyse à l'aide de l'crawler, indépendamment de ce qui est prévu. Si le robot d'exploration est déjà en cours d'exécution, renvoie un CrawlerRunningException.

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom de l'crawler à démarrer.

Réponse

Paramètres d'absence de réponse.

Erreurs

EntityNotFoundException
CrawlerRunningException
OperationTimeoutException

StopCrawler action (Python : stop_crawler)

Si l'crawler spécifié est en cours d'exécution, arrête l'analyse.

Demande

Name— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom de l'crawler à arrêter.

Réponse

Paramètres d'absence de réponse.

Erreurs

EntityNotFoundException
CrawlerNotRunningException
CrawlerStoppingException
OperationTimeoutException

BatchGetCrawlers action (Python : batch_get_crawlers)

Renvoie la liste des métadonnées de ressource pour une liste donnée de noms d'crawler. Après avoir appelé l'opération ListCrawlers, vous pouvez appeler cette opération pour accéder aux données sur lesquelles des autorisations vous ont été octroyées. Cette opération prend en charge toutes les IAM autorisations, y compris les conditions d'autorisation utilisant des balises.

Demande

CrawlerNames— Obligatoire : un tableau de UTF -8 chaînes, pas plus de 100 chaînes.

Liste des noms d'crawler, qui peuvent être les noms renvoyés à partir de l'opération ListCrawlers.

Réponse

Crawlers – Un tableau crawler d'objets.

Liste des définitions d'crawler.
CrawlersNotFound— Un tableau de UTF -8 chaînes, pas plus de 100 chaînes.

Liste de noms d'crawler qui n'ont pas été trouvés.

Erreurs

InvalidInputException
OperationTimeoutException

ListCrawlers action (Python : list_crawlers)

Récupère les noms de toutes les ressources du robot d'exploration de ce AWS compte, ou des ressources portant le tag spécifié. Cette opération vous permet de voir quelles ressources sont disponibles dans votre compte, et leurs noms.

Cette opération accepte le champ Tags facultatif que vous pouvez utiliser comme filtre sur la réponse, afin que les ressources balisées puissent être récupérées en tant que groupe. Si vous choisissez d'utiliser le filtrage des balises, seules les ressources avec la balise sont récupérées.

Demande

MaxResults – Nombre (entier), compris entre 1 et 1 000.

La taille maximale d'une liste à renvoyer.
NextToken— UTF -8 chaînes.

Jeton de continuation, s'il s'agit d'une requête de continuation.
Tags – Tableau de mappage de paires clé-valeur, avec 50 paires au maximum.

Chaque clé est une chaîne UTF -8 d'une longueur d'au moins 1 ou d'au plus 128 octets.

Chaque valeur est une chaîne de UTF -8, d'une longueur maximale de 256 octets.

Spécifie de renvoyer uniquement les ressources balisées.

Réponse

CrawlerNames— Un tableau de UTF -8 chaînes, pas plus de 100 chaînes.

Noms de tous les crawlers dans le compte ou des crawlers avec les balises spécifiées.
NextToken— UTF -8 chaînes.

Jeton continuation, si la liste renvoyée ne contient pas la dernière métrique disponible.

Erreurs

OperationTimeoutException

ListCrawls action (Python : list_crawls)

Renvoie toutes les analyse d'un Crawler spécifié. Renvoie uniquement les analyses qui ont eu lieu depuis la date de lancement de la fonction d'historique du Crawler, et ne retient que jusqu'à 12 mois d'analyse. Les anciennes analyses ne seront pas renvoyées.

Vous pouvez l'utiliser API pour :

Récupère toutes les analyse d'un Crawler spécifié.
Récupère toutes les analyse d'un Crawler spécifié dans un nombre limité.
Récupère toutes les analyse d'un Crawler spécifié dans une plage de temps spécifique.
Récupérez tous les crawls d'un robot d'exploration spécifié avec un état, un ID d'analyse ou DPU une valeur horaire particuliers.

Demande

CrawlerName— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 255 octets de long, correspondant auSingle-line string pattern.

Nom du Crawler dont vous voulez récupérer les exécutions.
MaxResults – Nombre (entier), compris entre 1 et 1 000.

Nombre maximal de résultats à renvoyer. La valeur par défaut est 20 et la valeur maximale est 100.
Filters – Un tableau d'objets CrawlsFilter.

Filtre les analyse en fonction de critères que vous spécifiez dans une liste objets CrawlsFilter.
NextToken— UTF -8 chaînes.

Jeton de continuation, s'il s'agit d'un appel de continuation.

Réponse

Crawls – Un tableau d'objets CrawlerHistory.

Une liste d'objets CrawlerHistory représentant les cycles d'analyse qui répondent à vos critères.
NextToken— UTF -8 chaînes.

Jeton de continuation pour la pagination de la liste des jetons renvoyés, renvoyé si le segment actuel de la liste n'est pas le dernier.

Erreurs

EntityNotFoundException
OperationTimeoutException
InvalidInputException

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Classifieurs

Statistiques de colonne