Démarrage de ETL tâches visuelles dans AWS Glue Studio - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Démarrage de ETL tâches visuelles dans AWS Glue Studio

Vous pouvez utiliser l'interface visuelle simple AWS Glue Studio pour créer vos ETL emplois. Vous utilisez la page Tâches pour créer des tâches. Vous pouvez également utiliser un éditeur de script ou un bloc-notes pour travailler directement avec le code du script de AWS Glue Studio ETL tâche.

Sur la page Tâches, vous pouvez voir toutes les tâches que vous avez créées soit avec AWS Glue Studio Glue Studio, soit avec AWS Glue. Vous pouvez afficher, gérer et exécuter vos tâches sur cette page.

Voir également le tutoriel du blog sur un autre exemple de création d'ETLemplois avecAWS Glue Studio.

Démarrer une tâche dans AWS Glue Studio

AWS Glue vous permet de créer une tâche par le biais d'une interface visuelle, d'un bloc-notes de code interactif ou d'un éditeur de script. Vous pouvez démarrer une tâche en cliquant sur l'une des options ou créer une nouvelle tâche à partir d'un exemple de tâche.

Les exemples de tâches créent une tâche à l'aide de l'outil de votre choix. Par exemple, les exemples de tâches vous permettent de créer une ETL tâche visuelle qui joint des CSV fichiers dans une table de catalogue, de créer une tâche dans un carnet de code interactif avec AWS Glue for Ray ou AWS Glue pour Spark lorsque vous travaillez avec des pandas, ou de créer une tâche dans un bloc-notes de code interactif avec Spark. SQL

Création d'un emploi en AWS Glue Studio partant de zéro

  1. Connectez-vous à la AWS Glue Studio console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/gluestudio/.

  2. Choisissez ETLdes tâches dans le volet de navigation.

  3. Dans la section Créer une tâche, sélectionnez une option de configuration pour votre tâche.

    La capture d'écran montre la page des tâches d'AWS Glue Studio Glue Studio. Dans la section « Créer une tâche », les options de création de tâches sont affichées. Dans la section « Exemples de tâches », choisissez une option, puis choisissez Créer un exemple de tâche pour démarrer un exemple de tâche.

    Options pour créer une tâche à partir de zéro :

    • Visuel ETL — auteur dans une interface visuelle axée sur le flux de données

    • Créer à l'aide d'un bloc-notes de code interactif : créez des tâches de manière interactive dans une interface de bloc-notes basée sur les blocs-notes Jupyter.

      Lorsque vous sélectionnez cette option, vous devez fournir des informations supplémentaires avant de créer une session de création de blocs-notes. Pour plus d'informations sur la manière de spécifier ces informations, veuillez consulter Mise en route avec les blocs-notes dans AWS Glue Studio.

    • Créez du code avec un éditeur de script : pour ceux qui sont habitués à la programmation et à l'écriture de ETL scripts, choisissez cette option pour créer une nouvelle ETL tâche Spark. Choisissez le moteur (shell Python, Ray, Spark [Python] ou Spark [Scala]). Choisissez ensuite Redémarrer ou Charger un script pour charger un script existant à partir d'un fichier local. Si vous choisissez d'utiliser l'éditeur de script, vous ne pouvez pas utiliser l'éditeur de tâches visuel.

      Une tâche Spark est exécutée dans un environnement Apache Spark géré par AWS Glue. Par défaut, les nouveaux scripts sont codés en Python. Pour écrire un nouveau script Scala, veuillez consulter Création et modification de scripts Scala dans AWS Glue Studio.

Création d'un emploi à AWS Glue Studio partir d'un exemple de travail

Vous pouvez choisir de créer une tâche à partir d'un exemple de tâche. Dans la section Exemples de tâches, choisissez un exemple de tâche, puis choisissez Créer un exemple de tâche. La création d'un exemple de tâche à partir de l'une des options fournit un modèle rapide à partir duquel vous pouvez travailler.

  1. Connectez-vous à la AWS Glue Studio console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/gluestudio/.

  2. Choisissez ETLdes tâches dans le volet de navigation.

  3. Sélectionnez une option pour créer une tâche à partir d'un exemple de tâche :

    • ETLTravail visuel pour joindre plusieurs sources : lisez trois CSV fichiers, combinez les données, modifiez les types de données, puis écrivez les données sur Amazon S3 et cataloguez-les pour les interroger ultérieurement.

    • Bloc-notes Spark utilisant Pandas : explorez et visualisez les données à l'aide du célèbre cadre Pandas combiné à Spark.

    • Utilisation du bloc-notes Spark SQL : SQL à utiliser pour démarrer rapidement avec Apache Spark. Accédez aux données via AWS Glue Data Catalogue données et transformez-le à l'aide de commandes familières.

  4. Choisissez Créer un exemple de tâche.