Présentation Comment ça marche Activer les autorisations d'exécution Configurer les autorisations d'exécution Soumission d'une exécution de tâche Opérations prises en charge

Utiliser AWS Glue with AWS Lake Formation pour un contrôle d'accès précis

Présentation

Avec AWS la version 5.0 et les versions ultérieures de Glue, vous pouvez AWS Lake Formation appliquer des contrôles d'accès précis aux tables du catalogue de données soutenues par S3. Cette fonctionnalité vous permet de configurer les contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour read requêtes dans vos tâches AWS Glue for Apache Spark. Consultez les sections suivantes pour en savoir plus sur Lake Formation et sur son utilisation avec AWS Glue.

L'utilisation AWS de Glue with AWS Lake Formation entraîne des frais supplémentaires.

Comment fonctionne AWS Glue avec AWS Lake Formation

L'utilisation de AWS Glue with Lake Formation vous permet d'appliquer une couche d'autorisations à chaque tâche Spark afin d'appliquer le contrôle des autorisations de Lake Formation lorsque AWS Glue exécute des tâches. AWS Glue utilise les profils de ressources Spark pour créer deux profils afin d'exécuter efficacement les tâches. Le profil utilisateur exécute le code fourni par l'utilisateur, tandis que le profil système applique les politiques de Lake Formation. Pour plus d'informations, voir Qu'est-ce que c'est, Considérations AWS Lake Formation et limites.

Chaque tâche activée par Lake Formation utilise deux pilotes Spark, l'un pour le profil utilisateur et l'autre pour le profil système.

Voici un aperçu général de la manière dont AWS Glue accède aux données protégées par les politiques de sécurité de Lake Formation.

Le schéma montre comment fonctionne un contrôle d'accès précis avec le Glue AWS . StartJobRun API

Un utilisateur lance une StartJobRun API tâche AWS Glue activée par AWS Lake Formation.
AWS Glue envoie la tâche à un pilote utilisateur et l'exécute dans le profil utilisateur. Le pilote utilisateur exécute une version allégée de Spark qui n'est pas en mesure de lancer des tâches, de demander des exécuteurs, d'accéder à S3 ou au catalogue Glue. Il élabore un plan d'emploi.
AWS Glue configure un deuxième pilote appelé pilote système et l'exécute dans le profil système (avec une identité privilégiée). AWS Glue met en place un TLS canal crypté entre les deux pilotes pour la communication. Le pilote utilisateur utilise le canal pour envoyer les plans de travail au pilote du système. Le pilote du système n'exécute pas le code envoyé par l'utilisateur. Il exécute Spark dans son intégralité et communique avec S3 et le catalogue de données pour l'accès aux données. Il demande des exécuteurs et compile le Job Plan en une séquence d'étapes d'exécution.
AWS Glue exécute ensuite les étapes sur les exécuteurs avec le pilote utilisateur ou le pilote système. À n'importe quel stade, le code utilisateur est exécuté exclusivement sur les exécuteurs de profil utilisateur.
Les étapes qui lisent les données des tables du catalogue de données protégées par des filtres de sécurité AWS Lake Formation ou qui appliquent des filtres de sécurité sont déléguées aux exécuteurs du système.

IAMAutorisations relatives aux rôles d'exécution des tâches

Les autorisations de Lake Formation contrôlent l'accès aux ressources du catalogue de données AWS Glue, aux sites Amazon S3 et aux données sous-jacentes de ces sites. IAMles autorisations contrôlent l'accès à la Lake Formation and AWS Glue APIs et aux ressources. Bien que vous ayez l'autorisation Lake Formation d'accéder à une table du catalogue de données (SELECT), votre opération échoue si vous n'en avez pas l'IAMglue:Get*APIautorisation.

Voici un exemple de politique expliquant comment fournir des IAM autorisations pour accéder à un script dans S3, télécharger des journaux dans S3, autoriser AWS Glue API et accéder à Lake Formation.


{
"Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "ScriptAccess",
            "Effect": "Allow",
            "Action": [ 
                "s3:GetObject", 
                "s3:ListBucket" 
            ], 
            "Resource": [ 
            "arn:aws:s3:::*.amzn-s3-demo-bucket/scripts", 
            "arn:aws:s3:::*.amzn-s3-demo-bucket/*" ]
        },
        {
         "Sid": "LoggingAccess",
            "Effect": "Allow",
            "Action": [
                "s3:PutObject"
            ],
            "Resource": [
               "arn:aws:s3:::amzn-s3-demo-bucket/logs/*"
            ]
        },
        {
            "Sid": "GlueCatalogAccess",
            "Effect": "Allow",
            "Action": [
                 "glue:Get*", 
                 "glue:Create*", 
                 "glue:Update*"
            ],
            "Resource": ["*"]
        },
        {
            "Sid": "LakeFormationAccess",
            "Effect": "Allow",
            "Action": [
             "lakeformation:GetDataAccess"
             ],
            "Resource": ["*"]
        }
    ]
}

Configuration des autorisations de Lake Formation pour le rôle d'exécution des tâches

Tout d'abord, enregistrez l'emplacement de votre table Hive avec Lake Formation. Créez ensuite des autorisations pour votre rôle d'exécution des tâches dans le tableau de votre choix. Pour plus de détails sur Lake Formation, voir Qu'est-ce que c'est AWS Lake Formation ? dans le Guide AWS Lake Formation du développeur.

Après avoir configuré les autorisations de Lake Formation, vous pouvez soumettre des jobs Spark sur AWS Glue.

Soumission d'une exécution de tâche

Une fois que vous aurez fini de configurer les subventions Lake Formation, vous pourrez soumettre des jobs Spark sur AWS Glue. Pour exécuter des tâches Iceberg, vous devez fournir les configurations Spark suivantes. Pour configurer via les paramètres de la tâche Glue, entrez le paramètre suivant :

Clé :
```
--conf
```

Valeur :


spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog 
					  --conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION> 
					  --conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID> 
					  --conf spark.sql.catalog.spark_catalog.client.region=<REGION> 
					  --conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com

Support du format de tableau ouvert

AWS La version 5.0 ou ultérieure de Glue inclut la prise en charge d'un contrôle d'accès précis basé sur Lake Formation. AWS Glue est compatible avec les tables Hive et Iceberg. Le tableau suivant décrit toutes les opérations prises en charge.

Opérations	Hive	Iceberg
Commandes de l'DDL	Avec des autorisations de IAM rôle uniquement	Avec des autorisations de IAM rôle uniquement
Requêtes progressives	Ne s’applique pas	Entièrement pris en charge
Requêtes Time Travel	Non applicable à ce format de tableau	Entièrement pris en charge
Tables de métadonnées	Non applicable à ce format de tableau	Supporté, mais certaines tables sont masquées. Consultez les considérations et les limites pour plus d'informations.
`DML INSERT`	Avec IAM autorisations uniquement	Avec IAM autorisations uniquement
DML UPDATE	Non applicable à ce format de tableau	Avec IAM autorisations uniquement
`DML DELETE`	Non applicable à ce format de tableau	Avec IAM autorisations uniquement
Opérations de lecture	Entièrement pris en charge	Entièrement pris en charge
Procédures stockées	Ne s’applique pas	Pris en charge à l'exception de `register_table` et`migrate`. Consultez les considérations et les limites pour plus d'informations.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des problèmes

Considérations