Problèmes connus liés à AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Problèmes connus liés à AWS Glue

Prenez en considération les problèmes connus suivants pour AWS Glue.

Interdiction d'accès aux données inter-tâches

Prenons l'exemple d'une situation dans laquelle vous avez deux tâches Spark AWS Glue dans un même compte AWS, chacune s'exécutant dans un cluster Spark AWS Glue distinct. Les tâches utilisent des connexions AWS Glue pour accéder aux ressources dans le même VPC (Virtual Private Cloud). Dans ce cas, une tâche s'exécutant dans un cluster peut accéder aux données à partir de la tâche s'exécutant dans l'autre cluster.

Le schéma suivant illustre une telle situation.

Les tâches AWS Glue Job-1 dans Cluster-1 et Job-2 dans Cluster-2 communiquent avec une instance Amazon Redshift dans Subnet-1 au sein d'un VPC. Les données sont transférées depuis Amazon S3 Bucket-1 et Bucket-2 vers Amazon Redshift.

Dans le schéma, AWS Glue Job-1 s'exécute dans Cluster-1 et Job-2 s'exécute dans Cluster-2. Les deux tâches fonctionnent avec la même instance Amazon Redshift, qui réside dans le sous-réseau Subnet-1 d'un VPC. Subnet-1 peut être un sous-réseau public ou privé.

Job-1 transforme des données à partir d’Amazon Simple Storage Service (Amazon S3) Bucket-1 et écrit des données dans Amazon Redshift. Job-2 effectue les mêmes opérations sur les données dans Bucket-2. Job-1 utilise le rôle AWS Identity and Access Management (IAM) Role-1 (non présenté), qui donne accès à Bucket-1. Job-2 utilise Role-2 (non présenté), qui donne accès à Bucket-2.

Ces tâches comportent des chemins réseau qui leur permettent de communiquer avec les clusters des autres tâches et donc d'accéder aux données de ces dernières. Par exemple, Job-2 peut accéder aux données dans Bucket-1. Dans le schéma, le chemin en rouge illustre cet accès.

Pour éviter cette situation, nous vous recommandons d'attacher des configurations de sécurité différentes à Job-1 et Job-2. Lorsque vous attachez les configurations de sécurité, l'accès inter-tâches aux données est bloqué grâce aux certificats créés par AWS Glue. Les configurations de sécurité peuvent être des configurations factices. Cela signifie que vous pouvez créer les configurations de sécurité sans activer le chiffrement des données Amazon S3, des données Amazon CloudWatch ou des signets de tâche. Les trois options de chiffrement peuvent être désactivées.

Pour de plus amples informations sur les configurations de sécurité, veuillez consulter Chiffrement de données écrites par AWS Glue.

Pour attacher une configuration de sécurité à une tâche
  1. Ouvrez la console AWS Glue, à l'adresse https://console.aws.amazon.com/glue/.

  2. Sur la page Configure the job properties (Configurer les propriétés de la tâche) de la tâche, développez la section Paramètres de configuration de sécurité, des bibliothèques de scripts et des tâches.

  3. Sélectionnez une configuration de sécurité dans la liste.