Personnalisation du comportement des robots d'exploration

Lorsque vous configurez un AWS Glue crawler, vous disposez de plusieurs options pour définir le comportement de votre robot d'exploration.

Analyses incrémentielles : vous pouvez configurer un explorateur pour exécuter des analyses incrémentielles afin d'ajouter uniquement de nouvelles partitions au schéma de table.
Index de partition : un robot d'exploration crée des index de partition pour les cibles Amazon S3 et Delta Lake par défaut afin de permettre une recherche efficace de partitions spécifiques.
Accélérez le temps d'exploration en utilisant les événements Amazon S3 : vous pouvez configurer un robot pour qu'il utilise les événements Amazon S3 afin d'identifier les changements entre deux analyses en listant tous les fichiers du sous-dossier qui a déclenché l'événement au lieu de répertorier la cible complète d'Amazon S3 ou du catalogue de données.
Gestion des modifications de schéma — Vous pouvez empêcher un robot d'exploration d'apporter des modifications au schéma existant. Vous pouvez utiliser le AWS Management Console ou le AWS Glue APIpour configurer la manière dont votre robot traite certains types de modifications.
Un schéma unique pour plusieurs chemins Amazon S3 : vous pouvez configurer un robot d'exploration pour créer un schéma unique pour chaque chemin S3 si les données sont compatibles.
Emplacement des tables et niveaux de partitionnement : l'option d'exploration au niveau des tables vous permet d'indiquer à l'analyseur où se trouvent les tables et comment vous souhaitez créer les partitions.
Seuil de table — Vous pouvez spécifier le nombre maximum de tables que le robot d'exploration est autorisé à créer en spécifiant un seuil de table.
AWS Lake Formation informations d'identification — Vous pouvez configurer un robot d'exploration pour qu'il utilise les informations d'identification de Lake Formation pour accéder à un magasin de données Amazon S3 ou à une table du catalogue de données avec un emplacement Amazon S3 sous-jacent au même emplacement Compte AWS ou à un autre Compte AWS.

Pour plus d'informations sur l'utilisation du AWS Glue console pour ajouter un robot d'exploration, voirConfiguration d'un crawler.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Paramètres définis sur les tables du Catalogue de données par un Crawler

Planification d'analyses incrémentielles