Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connexion aux données
Une AWS Glue connexion est un objet de catalogue de données qui stocke les informations de connexion, les URI chaînes, les informations du cloud privé virtuel (VPC), etc. pour un magasin de données spécifique. AWS Glue les robots d'exploration, les jobs et les terminaux de développement utilisent des connexions pour accéder à certains types de magasins de données. Vous pouvez utiliser des connexions à la fois pour les sources et les cibles, et réutiliser la même connexion pour plusieurs tâches d'exploration ou d'extraction, de transformation et de chargement (ETL).
La dernière version du schéma de AWS Glue connexions fournit un moyen unifié de gérer les connexions de données entre les AWS services et les applications, tels que AWS Glue Amazon Athena, et Amazon SageMaker AI Unified Studio.
Présentation de l'utilisation des connecteurs et des connexions
Une connexion contient les propriétés requises pour se connecter à un magasin de données particulier. Lorsque vous créez une connexion, elle est stockée dans AWS Glue Data Catalog. Vous sélectionnez un connecteur, puis créez une connexion basée sur celui-ci.
Vous pouvez vous abonner à des connecteurs pour les magasins de données non pris en charge de manière native AWS Marketplace, puis utiliser ces connecteurs lorsque vous créez des connexions. Les développeurs peuvent également créer leurs propres connecteurs et vous pouvez les utiliser lors de la création de connexions.
Note
Les connexions créées à l'aide de AWS Marketplace connecteurs personnalisés ou de connecteurs AWS Glue Studio apparaissent dans la AWS Glue console avec le type défini surUNKNOWN
.
Les étapes suivantes décrivent le processus global d'utilisation des connecteurs dans AWS Glue Studio :
-
Abonnez-vous à un connecteur dans AWS Marketplace, ou développez votre propre connecteur et téléchargez-le sur AWS Glue Studio. Pour de plus amples informations, veuillez consulter Ajouter des connecteurs àAWS Glue Studio.
-
Vérifiez les informations d'utilisation du connecteur. Vous pouvez trouver ces informations sous l'onglet Usage (Utilisation) de la page produit du connecteur. Par exemple, si vous cliquez sur l'onglet Utilisation de cette page produit, AWS Glue Connector for Google BigQuery
, vous pouvez voir dans la section Ressources supplémentaires un lien vers un blog sur l'utilisation de ce connecteur. -
Créez une connexion. Vous choisissez le connecteur à utiliser et vous fournissez des informations supplémentaires pour la connexion, telles que les informations de connexion, URI les chaînes et les informations du cloud privé virtuel (VPC). Pour de plus amples informations, veuillez consulter Création de connexions pour les connecteurs.
-
Créez un IAM rôle pour votre poste. La tâche suppose les autorisations du IAM rôle que vous spécifiez lors de sa création. Ce IAM rôle doit disposer des autorisations nécessaires pour s'authentifier auprès de vos magasins de données, en extraire des données et y écrire des données.
-
Créez une ETL tâche et configurez les propriétés de la source de données pour votre ETL tâche. Fournissez les options de connexion et les informations d'authentification comme indiqué par le fournisseur de connecteur personnalisé. Pour de plus amples informations, veuillez consulter Création de tâches avec des connecteurs personnalisés.
-
Personnalisez votre ETL tâche en ajoutant des transformations ou des magasins de données supplémentaires, comme décrit dansDémarrage de ETL tâches visuelles dans AWS Glue Studio.
-
Si vous utilisez un connecteur pour la cible de données, configurez les propriétés de la cible de données pour votre ETL tâche. Fournissez les options de connexion et les informations d'authentification comme indiqué par le fournisseur de connecteur personnalisé. Pour de plus amples informations, veuillez consulter Création de tâches avec des connecteurs personnalisés.
-
Personnalisez l'environnement d'exécution de la tâche en configurant ses propriétés, comme décrit dans Modifier les propriétés de tâche.
-
Exécutez la tâche.
Connexions unifiées
Avec les connexions unifiées, vous pouvez configurer une connexion de données une seule fois et elle peut être réutilisée par divers services pour des cas d'utilisation dans les domaines de l'intégration des données, de l'analyse des données et de la science des données. Vous pouvez créer des connexions de données via la AWS Glue console ou des applications personnalisées à l'aide d'une connectivité APIs de données unifiée. Avec les connexions unifiées, vous pouvez configurer une connexion à une source de données à l'aide d'un modèle de configuration de connexion standardisé pour plusieurs services. Ces services (AWS Glue Amazon SageMaker AI Unified Studio et Amazon Athena) peuvent partager et réutiliser la même connexion avec une configuration d'autorisation appropriée.
AWS Glue Studio crée désormais des connexions unifiées par défaut. Dans la AWS Glue console, vous pouvez voir la version de la connexion dans le tableau des connexions sur la page des connexions, sur la page de détail des connexions, et le tableau des connexions sur la page des détails de la tâche.
La version de connexion est visible dans Détails de la connexion :
La version de connexion est également visible lorsque vous consultez toutes vos connexions.
Enfin, la version de connexion est visible dans l'onglet Détails du job pour un job.
Avec les connexions de version 2, vous disposez des fonctionnalités de connectivité de données étendues suivantes :
-
Découverte du type de connexion : Support pour la création de connexions à l'aide de modèles standardisés. AWS Glue découvre automatiquement les types de connexion auxquels vous avez accès ainsi que les entrées requises et facultatives pour un type de connexion donné.
-
Réutilisabilité : définitions de connexion réutilisables sur tous les moteurs et outils de traitement des AWS données tels que AWS Glue Amazon Athena, et Amazon SageMaker AI. Les connexions contiennent désormais AthenaProperties SparkProperties, PythonProperties qui permettent de spécifier des propriétés de connexion spécifiques à l'environnement/au service de calcul en plus des propriétés communes stockées dans. ConnectionProperties Athéna crée désormais des connexions en AWS Glue spécifiant des propriétés spécifiques à Athéna dans le plan des propriétés. AthenaProperties
-
Aperçu des données : possibilité de parcourir les métadonnées et de prévisualiser les données provenant de sources connectées.
-
Métadonnées du connecteur : des connexions réutilisables peuvent être utilisées pour découvrir les métadonnées des tables.
-
Secrets liés au service : les utilisateurs peuvent fournir les informations d'authentification nécessairesOAuth, de base ou personnalisées dans la
CreateConnection
demande. Il CreateConnection API crée ensuite un secret lié au service dans votre compte et stocke les informations d'identification en votre nom.
Considérations
Lorsque vous créez une connexion unifiée pour les sources de données, tenez compte des différences suivantes :
-
Lors de la création d'une connexion unifiée via AWS Glue Studio, les informations d'identification de l'utilisateur sont stockées au AWS Secrets Manager lieu de la connexion elle-même. Cela signifie que les jobs doivent désormais accéder à Secrets Manager.
-
Si les tâches sont exécutées dans unVPC, elles nécessitent un VPC point de terminaison ou une NAT passerelle pour y accéder AWS Secrets Manager et un Secure Token Service (STS), ce qui entraîne des coûts supplémentaires.
-
Pour certaines sources de données (Redshift, SQL Server, My, OracleSQL, PostgreSQL), la création d'une connexion unifiée via AWS Glue Studio nécessite un accès à et. AWS STS AWS Secrets Manager Cela est nécessaire pour établir une connexion sécurisée et récupérer les informations d'identification requises pour accéder à ces sources de données dans votre cloud privé virtuel (VPC).
-
La création d'une connexion unifiée via AWS Glue Studio nécessite un IAM rôle autorisé à accéder aux VPC ressources AWS Secrets Manager et à les gérer (si vous utilisez unVPC) :
responsable des secrets : GetSecretValue
responsable des secrets : PutSecretValue
responsable des secrets : DescribeSecret
EC2 : CreateNetworkInterface
EC2 : DeleteNetworkInterface
EC2 : DescribeNetworkInterfaces