Préparation des données à l'aide de sessions AWS Glue interactives - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données à l'aide de sessions AWS Glue interactives

AWS Glue les sessions interactives sont un service sans serveur auquel vous pouvez faire appel pour collecter, transformer, nettoyer et préparer les données en vue de leur stockage dans vos lacs de données et vos pipelines de données. AWS Glue les sessions interactives fournissent un environnement d'exécution Apache Spark sans serveur à la demande que vous pouvez initialiser en quelques secondes sur une unité de traitement de données dédiée (DPU) sans avoir à configurer et à gérer une infrastructure de clusters de calcul complexe. Après l'initialisation, vous pouvez parcourir le catalogue de AWS Glue données, exécuter des requêtes volumineuses, accéder aux données régies par AWS Lake Formation, analyser et préparer les données de manière interactive à l'aide de Spark, directement dans vos blocs-notes Studio ou Studio Classic. Vous pouvez ensuite utiliser les données préparées pour entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio ou Studio Classic. Vous devriez envisager des sessions AWS Glue interactives pour vos charges de travail de préparation des données lorsque vous souhaitez un service Spark sans serveur avec un contrôle modéré de la configurabilité et de la flexibilité.

Vous pouvez lancer une session AWS Glue interactive en démarrant un JupyterLab bloc-notes dans Studio ou Studio Classic. Lorsque vous démarrez votre bloc-notes, choisissez le module intégré Glue PySpark and Ray ou Glue Spark le noyau. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n'avez pas besoin de provisionner ou de gérer un cluster ou une infrastructure de calcul. Après l'initialisation, vous pouvez explorer et interagir avec vos données depuis vos blocs-notes Studio ou Studio Classic.

Avant de démarrer votre session AWS Glue interactive dans Studio ou Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l'accès à des ressources supplémentaires, telles qu'un compartiment de stockage Amazon S3. Pour plus d'informations sur IAM les politiques requises, consultezAutorisations pour les sessions AWS Glue interactives dans Studio ou Studio Classic.

Studio et Studio Classic fournissent une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configuration de votre session AWS Glue interactive dans Studio ou Studio Classic

  • Les utilisateurs de Studio Classic qui lancent une session AWS Glue interactive peuvent choisir parmi les images et les noyaux suivants :

    • Des photos :SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel : Glue Python [PySpark and Ray] et Glue Spark

  • Pour les utilisateurs de Studio, utilisez l'image SageMaker de distribution par défaut et sélectionnez un Glue Python [PySpark and Ray] ou un Glue Spark noyau.