Préparation des données à l'aide de sessions AWS Glue interactives

AWS Glue les sessions interactives sont un service sans serveur auquel vous pouvez faire appel pour collecter, transformer, nettoyer et préparer les données en vue de leur stockage dans vos lacs de données et vos pipelines de données. AWS Glue les sessions interactives fournissent un environnement d'exécution Apache Spark sans serveur à la demande que vous pouvez initialiser en quelques secondes sur une unité de traitement des données (DPU) dédiée sans avoir à configurer et à gérer une infrastructure de clusters de calcul complexe. Après l'initialisation, vous pouvez parcourir le catalogue de AWS Glue données, exécuter des requêtes volumineuses, accéder aux données régies par AWS Lake Formation, analyser et préparer les données de manière interactive à l'aide de Spark, directement dans vos blocs-notes Studio ou Studio Classic. Vous pouvez ensuite utiliser les données préparées pour entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio ou Studio Classic. Vous devriez envisager des sessions AWS Glue interactives pour vos charges de travail de préparation des données lorsque vous souhaitez un service Spark sans serveur avec un contrôle modéré de la configurabilité et de la flexibilité.

Vous pouvez lancer une session AWS Glue interactive en démarrant un JupyterLab bloc-notes dans Studio ou Studio Classic. Lorsque vous démarrez votre bloc-notes, choisissez le module intégré Glue PySpark and Ray ou Glue Spark le noyau. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n'avez pas besoin de provisionner ou de gérer un cluster ou une infrastructure de calcul. Après l'initialisation, vous pouvez explorer et interagir avec vos données depuis vos blocs-notes Studio ou Studio Classic.

Avant de démarrer votre session AWS Glue interactive dans Studio ou Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l'accès à des ressources supplémentaires, telles qu'un compartiment de stockage Amazon S3. Pour plus d'informations sur les politiques IAM requises, consultezAutorisations pour les sessions AWS Glue interactives dans Studio ou Studio Classic.

Studio et Studio Classic fournissent une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configuration de votre session AWS Glue interactive dans Studio ou Studio Classic

Les utilisateurs de Studio Classic qui lancent une session AWS Glue interactive peuvent choisir parmi les images et les noyaux suivants :
- Des photos :SparkAnalytics 1.0, SparkAnalytics 2.0
- Kernel : Glue Python [PySpark and Ray] et Glue Spark
Pour les utilisateurs de Studio, utilisez l'image SageMaker de distribution par défaut et sélectionnez un Glue Python [PySpark and Ray] ou un Glue Spark noyau.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des problèmes

Commencez par des sessions AWS Glue interactives