Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparer les données à l'aide de EMR Serverless
À partir de SageMaker la version d'image de distribution1.10
, Amazon SageMaker Studio s'intègre à EMR Serverless. Dans les JupyterLab blocs-notes de SageMaker Studio, les data scientists et les ingénieurs de données peuvent découvrir des applications EMR sans serveur et s'y connecter, puis explorer, visualiser et préparer de manière interactive des charges de travail Apache Spark ou Apache Hive à grande échelle. Cette intégration permet d'effectuer un prétraitement interactif des données à grande échelle en vue de la formation et du déploiement du modèle ML.
Plus précisément, la version mise à jour de la sagemaker-studio-analytics-extension
1.10
tire parti de l'intégration entre Apache Livy et EMR Serverless, permettant la connexion à un point de terminaison Apache Livy via des blocs-notes. JupyterLab Cette section suppose une connaissance préalable des applications interactives EMR sans serveur.
Important
Lorsque vous utilisez Studio, vous ne pouvez découvrir et vous connecter aux applications EMR sans serveur que pour JupyterLab les applications lancées depuis des espaces privés. Assurez-vous que les applications EMR sans serveur sont situées dans la même AWS région que votre environnement Studio.
Prérequis
Avant de commencer à exécuter des charges de travail interactives avec EMR Serverless à partir de vos JupyterLab ordinateurs portables, assurez-vous de remplir les conditions préalables suivantes :
-
Votre JupyterLab espace doit utiliser une version image de SageMaker distribution
1.10
ou supérieure. -
Créez une application interactive EMR sans serveur avec la EMR version Amazon
6.14.0
ou une version ultérieure. Vous pouvez créer une application EMR sans serveur à partir de l'interface utilisateur de Studio en suivant les étapes décrites dansCréez des applications EMR sans serveur à partir de Studio.Note
Pour simplifier la configuration, vous pouvez créer votre application EMR Serverless dans l'interface utilisateur de Studio sans modifier les paramètres par défaut de l'option Virtual private cloud (VPC). Cela permet de créer l'application au sein de votre domaine VPC sans nécessiter de configuration réseau. Dans ce cas, vous pouvez ignorer l'étape de configuration réseau suivante.
-
Passez en revue les exigences en matière de réseau et de sécurité dansConfigurer l'accès réseau pour votre EMR cluster Amazon. Plus précisément, assurez-vous de :
-
Établissez une connexion VPC de peering entre votre compte Studio et votre compte EMR Serverless.
-
Ajoutez des itinéraires aux tables de routage du sous-réseau privé dans les deux comptes.
-
Configurez le groupe de sécurité attaché à votre domaine Studio pour autoriser le trafic sortant, et configurez le groupe de sécurité de l'VPCendroit où vous prévoyez d'exécuter les applications EMR Serverless pour autoriser le TCP trafic entrant en provenance du groupe de sécurité de l'instance de Studio.
-
-
Pour accéder à vos applications interactives sur EMR Serverless et exécuter des charges de travail soumises depuis vos JupyterLab blocs-notes dans SageMaker Studio, vous devez attribuer des autorisations et des rôles spécifiques. Reportez-vous à la Configurez les autorisations pour activer la mise en vente et le lancement d'EMRapplications Amazon depuis SageMaker Studio section pour plus de détails sur les rôles et autorisations nécessaires.
Liste des rubriques
- Configurez les autorisations pour activer la mise en vente et le lancement d'EMRapplications Amazon depuis SageMaker Studio
- Créez des applications EMR sans serveur à partir de Studio
- Connectez-vous à une application EMR sans serveur depuis Studio
- Arrêter ou supprimer une application EMR sans serveur depuis l'interface utilisateur de Studio