Utilisation des tâches dans AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation des tâches dans AWS Glue

Une AWS Glue tâche encapsule un script qui se connecte à vos données source, les traite, puis les écrit dans votre cible de données. Généralement, une tâche exécute des scripts extract, transform et load (ETL). Les tâches peuvent également exécuter des scripts Python à usage général (tâches shell Python). Les déclencheurs AWS Glue peuvent démarrer des tâches en fonction d'une planification, d'un événement ou à la demande. Vous pouvez surveiller les exécutions de tâche pour comprendre les métriques d'exécution telles que le statut d'achèvement, la durée et l'heure de début.

Vous pouvez utiliser des scripts qui AWS Glue génèrent ou vous pouvez fournir les vôtres. Avec un schéma source et un emplacement ou un schéma cible, le générateur de AWS Glue code peut créer automatiquement un script Apache Spark API (PySpark). Vous pouvez utiliser ce script comme point de départ et le modifier en fonction de vos objectifs.

AWS Glue peut écrire des fichiers de sortie dans plusieurs formats de données, notamment JSONCSV, ORC (Optimized Row Columnar), Apache Parquet et Apache Avro. Pour certains formats de données, des formats de compression courants peuvent être écrits.

AWS Glue prend en charge les types d'emplois suivants :

  • Une tâche Spark est exécutée dans un environnement Apache Spark géré par AWS Glue. Elle traite les données par lots.

  • Une ETL tâche de streaming est similaire à une tâche Spark, sauf qu'elle s'exécute ETL sur des flux de données. Elle utilise le cadre Apache Spark Structured Streaming. Certaines fonctionnalités de Spark ne sont pas disponibles pour les ETL tâches de streaming.

  • Une tâche de shell Python exécute des scripts Python en tant que shell et prend en charge une version de Python qui dépend de la AWS Glue version que vous utilisez. Vous pouvez utiliser ces tâches pour planifier et exécuter des opérations qui ne nécessitent pas un environnement Apache Spark.

  • Ray est un framework de calcul distribué open source que vous pouvez utiliser pour augmenter les charges de travail, en mettant l'accent sur Python. AWS Glue Les tâches de Ray et les sessions interactives vous permettent d'utiliser Ray dans Ray AWS Glue.

Les sections suivantes fournissent des informations sur ETL les jobs de Ray dans AWS Glue.