Utiliser un robot pour ajouter une table - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser un robot pour ajouter une table

AWS Glue les robots d'exploration aident à découvrir le schéma des ensembles de données et à les enregistrer sous forme de tables dans le catalogue de AWS Glue données. Les Crawlers explorent vos données et en déterminent le schéma. De plus, le Crawler peut détecter et enregistrer des partitions. Pour plus d'informations, consultez Définition des Crawlers dans le Guide du développeur AWS Glue . Les tables de données dont l'analyse a abouti peuvent être interrogées à partir d'Athena.

Note

Athena ne reconnaît pas les modèles d'exclusion que vous spécifiez pour un AWS Glue robot d'exploration. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers .csv et .json et que vous excluez les fichiers .json du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement.

Création d'un AWS Glue crawler

Vous pouvez créer un crawler en commençant dans la console Athena, puis en utilisant la console AWS Glue de manière intégrée. Lorsque vous créez le crawler, vous spécifiez un emplacement de données à analyser dans Simple Storage Service (Amazon S3).

Pour créer un robot d'exploration à AWS Glue partir de la console Athena
  1. Ouvrez la console à l'adresse https://console.aws.amazon.com/athena/.

  2. Dans l'éditeur de requêtes, à côté de Tables and views (Tables et vues), choisissez Create (Créer) puis choisissez le crawler AWS Glue .

  3. Sur la page Add crawler (Ajouter un crawler) de la console AWS Glue, procédez comme suit pour créer un crawler. Pour plus d'informations, consultez les sections Utilisation AWS Glue des robots d'exploration dans ce guide et Remplissage du AWS Glue Data Catalog manuel du AWS Glue développeur.

Note

Athena ne reconnaît pas les modèles d'exclusion que vous spécifiez pour un AWS Glue robot d'exploration. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers .csv et .json et que vous excluez les fichiers .json du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement.

Après un crawl, le AWS Glue robot attribue automatiquement certaines métadonnées aux tables afin de les rendre compatibles avec d'autres technologies externes telles qu'Apache Hive, Presto et Spark. De temps en temps, le Crawler peut attribuer de manière incorrecte les propriétés des métadonnées. Corrigez manuellement les propriétés AWS Glue avant d'interroger la table à l'aide d'Athena. Pour en savoir plus, consultez Affichage et modification des détails de table dans le Guide du développeur AWS Glue .

AWS Glue peut mal affecter les métadonnées lorsqu'un CSV fichier contient des guillemets autour de chaque champ de données, ce qui entraîne une erreur de serializationLib propriété. Pour de plus amples informations, veuillez consulter Traitement des CSV données incluses dans les devis.