Présentation de Comment ça marche Activer la Formation du Lake Activer les autorisations de l’environnement d’exécution Configurer les autorisations de l’environnement d’exécution Soumission d’une exécution de tâche Conditions d'autorisation

Utilisation d'EMR Serverless avec AWS Lake Formation pour un contrôle d'accès précis

Présentation de

Avec les versions 7.2.0 et supérieures d'Amazon EMR, vous pouvez AWS Lake Formation appliquer des contrôles d'accès précis aux tables du catalogue de données soutenues par S3. Cette fonctionnalité vous permet de configurer des contrôles d'accès au niveau des tables, des lignes, des colonnes et des cellules pour les read requêtes dans vos tâches Amazon EMR Serverless Spark. Pour configurer un contrôle d'accès précis pour les tâches par lots et les sessions interactives d'Apache Spark, utilisez EMR Studio. Consultez les sections suivantes pour en savoir plus sur Lake Formation et sur son utilisation avec EMR Serverless.

L'utilisation d'Amazon EMR Serverless AWS Lake Formation entraîne des frais supplémentaires. Pour plus d'informations, consultez la tarification d'Amazon EMR.

Comment fonctionne EMR Serverless avec AWS Lake Formation

L'utilisation d'EMR Serverless avec Lake Formation vous permet d'appliquer une couche d'autorisations à chaque tâche Spark afin d'appliquer le contrôle des autorisations de Lake Formation lorsque EMR Serverless exécute des tâches. EMR Serverless utilise les profils de ressources Spark pour créer deux profils afin d'exécuter efficacement les tâches. Le profil utilisateur exécute le code fourni par l’utilisateur, tandis que le profil système applique les politiques Lake Formation. Pour plus d'informations, reportez-vous à la section Qu'est-ce que c'est, considérations AWS Lake Formation et limites.

Lorsque vous utilisez une capacité préinitialisée avec Lake Formation, nous vous conseillons de disposer d'au moins deux pilotes Spark. Chaque Formation-enabled tâche Lake utilise deux pilotes Spark, l'un pour le profil utilisateur et l'autre pour le profil système. Pour de meilleures performances, utilisez deux fois plus de facteurs pour les Formation-enabled tâches Lake que si vous n'utilisez pas Lake Formation.

Lorsque vous exécutez des tâches Spark sur EMR Serverless, tenez également compte de l'impact de l'allocation dynamique sur la gestion des ressources et les performances du cluster. La configuration spark.dynamicAllocation.maxExecutors du nombre maximum d'exécuteurs par profil de ressource s'applique aux exécuteurs utilisateur et système. Si vous configurez ce nombre pour qu'il soit égal au nombre maximum autorisé d'exécuteurs, l'exécution de votre tâche risque de se bloquer car un type d'exécuteur utilise toutes les ressources disponibles, ce qui empêche l'autre exécuteur d'exécuter des tâches.

Pour ne pas manquer de ressources, EMR Serverless définit le nombre maximum d'exécuteurs par défaut par profil de ressource à 90 % de la valeur. spark.dynamicAllocation.maxExecutors Vous pouvez remplacer cette configuration lorsque vous spécifiez spark.dynamicAllocation.maxExecutorsRatio une valeur comprise entre 0 et 1. Configurez également les propriétés suivantes pour optimiser l'allocation des ressources et les performances globales :

spark.dynamicAllocation.cachedExecutorIdleTimeout
spark.dynamicAllocation.shuffleTracking.timeout
spark.cleaner.periodicGC.interval

Voici un aperçu général de la manière dont EMR Serverless accède aux données protégées par les politiques de sécurité de Lake Formation.

Comment Amazon EMR accède aux données protégées par les politiques de sécurité de Lake Formation

Un utilisateur soumet une tâche Spark à une application EMR sans serveur AWS Lake Formation compatible.
EMR Serverless envoie la tâche à un pilote utilisateur et l'exécute dans le profil utilisateur. Le pilote utilisateur exécute une version allégée de Spark qui n’est pas en mesure de lancer des tâches, de demander des exécuteurs, d’accéder à S3 ni au catalogue Glue. Il crée un plan de tâche.
EMR Serverless configure un deuxième pilote appelé pilote système et l'exécute dans le profil système (avec une identité privilégiée). EMR Serverless configure un canal TLS crypté entre les deux pilotes pour la communication. Le pilote utilisateur utilise le canal pour envoyer les plans de tâche au pilote système. Le pilote système n’exécute pas le code soumis par l’utilisateur. Il exécute Spark dans son intégralité et communique avec S3 et le catalogue de données pour l’accès aux données. Il demande des exécuteurs et compile le plan de tâche en une séquence d’étapes d’exécution.
EMR Serverless exécute ensuite les étapes sur les exécuteurs à l'aide du pilote utilisateur ou du pilote système. À n’importe quelle étape, le code utilisateur est exécuté exclusivement sur les exécuteurs de profil utilisateur.
Les étapes qui lisent les données des tables du catalogue de données protégées par des filtres de sécurité AWS Lake Formation ou qui appliquent des filtres de sécurité sont déléguées aux exécuteurs du système.

Favoriser la formation de Lake dans Amazon EMR

Pour activer Lake Formation, définissez le paramètre de configuration spark.emr-serverless.lakeformation.enabled d'exécution sur « true spark-defaults sous-classification » lors de la création d'une application EMR Serverless.


aws emr-serverless create-application \
    --release-label emr-7.13.0 \
    --runtime-configuration '{
     "classification": "spark-defaults", 
     "properties": {
      "spark.emr-serverless.lakeformation.enabled": "true"
      }
    }' \
    --type "SPARK"

Vous pouvez également activer Lake Formation lorsque vous créez une nouvelle application dans EMR Studio. Choisissez Utiliser Lake Formation pour un contrôle d'accès précis, disponible dans la section Configurations supplémentaires.

Inter-worker le chiffrement est activé par défaut lorsque vous utilisez Lake Formation avec EMR Serverless. Il n'est donc pas nécessaire de réactiver explicitement le chiffrement entre les opérateurs.

Activer Lake Formation pour les emplois de Spark

Pour activer Lake Formation pour des tâches Spark individuelles, définissez ce paramètre spark.emr-serverless.lakeformation.enabled sur true lors de l'utilisationspark-submit.


--conf spark.emr-serverless.lakeformation.enabled=true

Autorisations IAM du rôle d’exécution des tâches

Les autorisations de Lake Formation contrôlent l'accès aux ressources du catalogue de données AWS Glue, aux sites Amazon S3 et aux données sous-jacentes de ces sites. Les autorisations IAM contrôlent l'accès aux API et aux ressources de Lake Formation et AWS Glue. Bien que vous ayez l’autorisation Lake Formation d’accéder à une table du catalogue de données (SELECT), votre opération échoue si vous ne disposez pas de l’autorisation IAM sur l’opération d’API glue:Get*.

Voici un exemple de politique expliquant comment fournir les autorisations IAM pour accéder à un script dans Amazon S3, le chargement de journaux sur S3, les autorisations d’API AWS Glue et les autorisations d’accès à Lake Formation.

Configuration des autorisations de Lake Formation pour le rôle d’exécution des tâches

Tout d’abord, enregistrez l’emplacement de votre table Hive avec Lake Formation. Créez ensuite des autorisations pour votre rôle d’exécution des tâches dans la table de votre choix. Pour plus de détails sur la Lake Formation, reportez-vous à Qu'est-ce que c'est AWS Lake Formation ? dans le Guide AWS Lake Formation du développeur.

Après avoir configuré les autorisations de Lake Formation, soumettez des tâches Spark sur Amazon EMR Serverless. Pour plus d'informations sur les tâches Spark, reportez-vous aux exemples de Spark.

Soumission d’une exécution de tâche

Une fois que vous aurez fini de configurer les subventions Lake Formation, vous pourrez soumettre des tâches Spark sur EMR Serverless. La section qui suit présente des exemples de configuration et de soumission des propriétés d'exécution des tâches.

Conditions d'autorisation

Tables non enregistrées dans AWS Lake Formation

Pour les tables non enregistrées auprès de Amazon S3 AWS Lake Formation, le rôle d'exécution des tâches accède à la fois au catalogue de données AWS Glue et aux données des tables sous-jacentes. Cela nécessite que le rôle d'exécution des tâches dispose des autorisations IAM appropriées pour les opérations AWS Glue et Amazon S3.

Tables enregistrées dans AWS Lake Formation

Pour les tables enregistrées auprès de AWS Lake Formation, le rôle d'exécution du job accède aux métadonnées du catalogue de données AWS Glue, tandis que les informations d'identification temporaires fournies par Lake Formation accèdent aux données des tables sous-jacentes dans Amazon S3. Les autorisations de Lake Formation requises pour exécuter une opération dépendent du catalogue de données AWS Glue et des appels d'API Amazon S3 lancés par la tâche Spark et peuvent être résumées comme suit :

L'autorisation DESCRIBE permet au rôle d'exécution de lire les métadonnées d'une table ou d'une base de données dans le catalogue de données
L'autorisation ALTER permet au rôle d'exécution de modifier les métadonnées de table ou de base de données dans le catalogue de données

L'autorisation DROP permet au rôle d'exécution de supprimer les métadonnées de table ou de base de données du catalogue de données
L'autorisation SELECT permet au rôle d'exécution de lire les données des tables depuis Amazon S3
L'autorisation INSERT permet au rôle d'exécution d'écrire des données de table sur Amazon S3
L'autorisation DELETE permet au rôle d'exécution de supprimer les données de table d'Amazon S3

Note
Lake Formation évalue les autorisations de manière paresseuse lorsqu'une tâche Spark appelle AWS Glue pour récupérer les métadonnées d'une table et Amazon S3 pour récupérer les données d'une table. Les tâches qui utilisent un rôle d'exécution avec des autorisations insuffisantes n'échoueront pas tant que Spark n'aura pas AWS passé un appel à Glue ou Amazon S3 nécessitant l'autorisation manquante.

Note

Dans la matrice de tableau prise en charge suivante :

Les opérations marquées comme Supported utilisent exclusivement les informations d'identification de Lake Formation pour accéder aux données des tables enregistrées auprès de Lake Formation. Si les autorisations de Lake Formation sont insuffisantes, l'opération ne se basera pas sur les informations d'identification du rôle d'exécution. Pour les tables non enregistrées auprès de Lake Formation, les informations d'identification du rôle d'exécution du travail accèdent aux données de la table.

Les opérations marquées comme étant prises en charge par des autorisations IAM sur le site Amazon S3 n'utilisent pas les informations d'identification de Lake Formation pour accéder aux données des tables sous-jacentes dans Amazon S3. Pour exécuter ces opérations, le rôle d'exécution des tâches doit disposer des autorisations Amazon S3 IAM nécessaires pour accéder aux données de la table, que la table soit enregistrée ou non auprès de Lake Formation.

Note

À partir d'Amazon EMR 7.12, les opérations DML et DDL qui modifient les données des tables utilisent les informations d'identification de Lake Formation. Dans Amazon EMR 7.11 et versions antérieures, ces opérations (sauf DELETE, UPDATE et MERGE) utilisent les informations d'identification du rôle d'exécution du job pour modifier les données de la table à la place. Amazon EMR 7.11 et les versions antérieures ne prennent pas en charge les opérations DELETE, UPDATE et MERGE.

Hive

Opération	AWS Lake Formation autorisations	État du support
SELECT	SELECT	Pris en charge
CREATE TABLE	CRÉER_TABLE	Pris en charge
CREATE TABLE LIKE	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
CREATE TABLE AS SELECT	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
DESCRIBE TABLE	DESCRIBE	Pris en charge
SHOW TBLPROPERTIES	DESCRIBE	Pris en charge
SHOW COLUMNS	DESCRIBE	Pris en charge
SHOW PARTITIONS	DESCRIBE	Pris en charge
SHOW CREATE TABLE	DESCRIBE	Pris en charge
MODIFIER LE TABLEAU `tablename`	SELECT et ALTER	Pris en charge
MODIFIER L'EMPLACEMENT DU `tablename` SET DE TABLES	-	Non pris en charge
MODIFIER LA TABLE `tablename` AJOUTER UNE PARTITION	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
REPAIR TABLE	SELECT et ALTER	Pris en charge
CHARGER DES DONNÉES		Non pris en charge
INSERT	INSÉRER et MODIFIER	Pris en charge
INSERT OVERWRITE	SÉLECTIONNER, INSÉRER, SUPPRIMER et MODIFIER	Pris en charge
DROP TABLE	SÉLECTIONNER, SUPPRIMER, SUPPRIMER et MODIFIER	Pris en charge
TRUNCATE TABLE	SÉLECTIONNER, INSÉRER, SUPPRIMER et MODIFIER	Pris en charge
Dataframe Writer V1	Identique à l'opération SQL correspondante	Pris en charge lors de l'ajout de données à une table existante. Reportez-vous à la section Considérations et limites pour plus d'informations
Dataframe Writer V2	Identique à l'opération SQL correspondante	Pris en charge lors de l'ajout de données à une table existante. Reportez-vous à la section Considérations et limites pour plus d'informations

Iceberg

Opération	AWS Lake Formation autorisations	État du support
SELECT	SELECT	Pris en charge
CREATE TABLE	CRÉER_TABLE	Pris en charge
CREATE TABLE LIKE	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
CREATE TABLE AS SELECT	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
REMPLACER LE TABLEAU EN TANT QUE SELECT	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
DESCRIBE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW TBLPROPERTIES	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW CREATE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
ALTER TABLE	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
ALTER TABLE SET LOCATION	SÉLECTIONNER, INSÉRER et MODIFIER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER L'ÉCRITURE D'UNE TABLE ORDONNÉE PAR	SÉLECTIONNER, INSÉRER et MODIFIER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER L'ÉCRITURE D'UNE TABLE DISTRIBUÉE PAR	SÉLECTIONNER, INSÉRER et MODIFIER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER LE TABLEAU RENOMMER LE TABLEAU	CREATE_TABLE et DROP	Pris en charge
INSERT INTO	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
INSERT OVERWRITE	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
DELETE	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
UPDATE	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
MERGE INTO	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
DROP TABLE	SÉLECTIONNEZ, SUPPRIMEZ et SUPPRIMEZ	Pris en charge
DataFrame Writer V1	-	Non pris en charge
DataFrame Writer V2	Identique à l'opération SQL correspondante	Pris en charge lors de l'ajout de données à une table existante. Reportez-vous à la section Considérations et limites pour plus d'informations.
Tables de métadonnées	SELECT	Pris en charge. Certaines tables sont masquées. Reportez-vous à la section Considérations et limites pour plus d'informations.
Procédures stockées	-	Pris en charge pour les tables répondant aux conditions suivantes : Tables non enregistrées dans AWS Lake Formation Tables qui n'utilisent pas `register_table` et `migrate` Reportez-vous à la section Considérations et limites pour plus d'informations.

Configuration de Spark pour Iceberg : l'exemple suivant montre comment configurer Spark avec Iceberg. Pour exécuter des tâches Iceberg, saisissez les spark-submit propriétés suivantes.


--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog
--conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION>
--conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID>
--conf spark.sql.catalog.spark_catalog.client.region=<REGION>
--conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com

Hudi

Opération	AWS Lake Formation autorisations	État du support
SELECT	SELECT	Pris en charge
CREATE TABLE	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
CREATE TABLE LIKE	CRÉER_TABLE	Compatible avec les autorisations IAM sur le site Amazon S3
CREATE TABLE AS SELECT	-	Non pris en charge
DESCRIBE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW TBLPROPERTIES	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW COLUMNS	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW CREATE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
ALTER TABLE	SELECT	Compatible avec les autorisations IAM sur le site Amazon S3
INSERT INTO	SELECT et ALTER	Compatible avec les autorisations IAM sur le site Amazon S3
INSERT OVERWRITE	SELECT et ALTER	Compatible avec les autorisations IAM sur le site Amazon S3
DELETE	-	Non pris en charge
UPDATE	-	Non pris en charge
MERGE INTO	-	Non pris en charge
DROP TABLE	SELECT et DROP	Compatible avec les autorisations IAM sur le site Amazon S3
DataFrame Writer V1	-	Non pris en charge
DataFrame Writer V2	Identique à l'opération SQL correspondante	Compatible avec les autorisations IAM sur le site Amazon S3
Tables de métadonnées	-	Non pris en charge
Maintenance des tables et fonctionnalités utilitaires	-	Non pris en charge

Les exemples suivants configurent Spark avec Hudi, en spécifiant l'emplacement des fichiers et les autres propriétés nécessaires à son utilisation.

Configuration Spark pour Hudi : lorsqu'il est utilisé dans un bloc-notes, cet extrait indique le chemin d'accès au fichier JAR du bundle Hudi Spark, qui active la fonctionnalité Hudi dans Spark. Il configure également Spark pour qu'il utilise le catalogue de données AWS Glue comme métastore.


%%configure -f
{
    "conf": {
        "spark.jars": "/usr/lib/hudi/hudi-spark-bundle.jar",
        "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory",
        "spark.serializer": "org.apache.spark.serializer.JavaSerializer",
        "spark.sql.catalog.spark_catalog": "org.apache.spark.sql.hudi.catalog.HoodieCatalog",
        "spark.sql.extensions": "org.apache.spark.sql.hudi.HoodieSparkSessionExtension"
    }
}

Configuration Spark pour Hudi with AWS Glue : cet extrait, lorsqu'il est utilisé dans un bloc-notes, active Hudi en tant que format de lac de données pris en charge et garantit la disponibilité des bibliothèques et des dépendances Hudi.


%%configure
{
    "--conf": "spark.serializer=org.apache.spark.serializer.JavaSerializer --conf 
spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog --conf 
spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension",
    "--datalake-formats": "hudi",
    "--enable-glue-datacatalog": True,
    "--enable-lakeformation-fine-grained-access": "true"
}

Delta Lake

Opération	AWS Lake Formation autorisations	État du support
SELECT	SELECT	Pris en charge
CREATE TABLE	CRÉER_TABLE	Pris en charge
CREATE TABLE LIKE	-	Non pris en charge
CREATE TABLE AS SELECT	CRÉER_TABLE	Pris en charge
REMPLACER LE TABLEAU EN TANT QUE SELECT	SÉLECTIONNER, INSÉRER et MODIFIER	Pris en charge
DESCRIBE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW TBLPROPERTIES	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW COLUMNS	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
SHOW CREATE TABLE	DESCRIBE	Compatible avec les autorisations IAM sur le site Amazon S3
ALTER TABLE	SÉLECTIONNER et INSÉRER	Pris en charge
ALTER TABLE SET LOCATION	SÉLECTIONNER et INSÉRER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER LE `tablename` CLUSTER DE TABLES PAR	SÉLECTIONNER et INSÉRER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER LE TABLEAU `tablename` AJOUTER UNE CONTRAINTE	SÉLECTIONNER et INSÉRER	Compatible avec les autorisations IAM sur le site Amazon S3
MODIFIER LA CONTRAINTE DE `tablename` SUPPRESSION DE LA TABLE	SÉLECTIONNER et INSÉRER	Compatible avec les autorisations IAM sur le site Amazon S3
INSERT INTO	SÉLECTIONNER et INSÉRER	Pris en charge
INSERT OVERWRITE	SÉLECTIONNER et INSÉRER	Pris en charge
DELETE	SÉLECTIONNER et INSÉRER	Pris en charge
UPDATE	SÉLECTIONNER et INSÉRER	Pris en charge
MERGE INTO	SÉLECTIONNER et INSÉRER	Pris en charge
DROP TABLE	SÉLECTIONNEZ, SUPPRIMEZ et SUPPRIMEZ	Pris en charge
DataFrame Writer V1	-	Non pris en charge
DataFrame Writer V2	Identique à l'opération SQL correspondante	Pris en charge
Maintenance des tables et fonctionnalités utilitaires	-	Non pris en charge

EMR sans serveur avec Delta Lake : pour utiliser Delta Lake with Lake Formation sur EMR Serverless, exécutez la commande suivante :


spark-sql \
  --conf spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension \
  --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog \

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Accès complet aux tables de Lake Formation pour EMR Serverless

Débogage de tâches