Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Considérations et restrictions
Tenez compte des considérations et limitations suivantes lorsque vous utilisez Lake Formation avec EMR Serverless.
Note
Lorsque vous activez Lake Formation pour une tâche Spark sur EMR Serverless, la tâche lance un pilote système et un pilote utilisateur. Si vous avez spécifié une capacité préinitialisée au lancement, les pilotes sont fournis à partir de la capacité préinitialisée, et le nombre de pilotes système est égal au nombre de pilotes utilisateur que vous spécifiez. Si vous choisissez la capacité On Demand, EMR Serverless lance un pilote système en plus d'un pilote utilisateur. Pour estimer les coûts associés à votre projet EMR Serverless with Lake Formation, utilisez le AWS Pricing Calculator
Amazon EMR Serverless with Lake Formation est disponible dans toutes les régions EMR sans serveur prises en charge, à l'exception de AWS GovCloud (USA Est) et AWS GovCloud (USA Ouest).
-
Amazon EMR Serverless prend en charge le contrôle d'accès précis via Lake Formation uniquement pour les tables Apache Hive et Apache Iceberg. Les formats Apache Hive incluent Parquet et XSv. ORC
-
Les applications compatibles avec Lake Formation ne prennent pas en charge l'utilisation d'images EMRsans serveur personnalisées.
-
Vous ne pouvez pas vous
DynamicResourceAllocation
désinscrire des jobs de Lake Formation. -
Vous ne pouvez utiliser Lake Formation qu'avec des tâches Spark.
-
EMRServerless with Lake Formation ne prend en charge qu'une seule session Spark tout au long d'une tâche.
-
EMRServerless with Lake Formation ne prend en charge que les requêtes de table entre comptes partagées via des liens de ressources.
-
Les éléments suivants ne sont pas pris en charge :
-
Ensembles de données distribués résilients () RDD
-
Streaming Spark
-
Écrivez avec les autorisations accordées à Lake Formation
-
Contrôle d'accès pour les colonnes imbriquées
-
-
EMRLe mode Serverless bloque les fonctionnalités susceptibles de compromettre l'isolation complète du pilote système, notamment les suivantes :
-
UDTsiveUDFs, H et toute fonction définie par l'utilisateur impliquant des classes personnalisées
-
Sources de données personnalisées
-
Fourniture de fichiers JAR supplémentaires pour l'extension, le connecteur ou le metastore Spark
-
ANALYZE TABLE
commande
-
-
Pour appliquer les contrôles d'accès
EXPLAIN PLAN
et les DDL opérations telles que le fait deDESCRIBE TABLE
ne pas exposer les informations restreintes. -
EMRServerless restreint l'accès aux journaux Spark du pilote système sur les applications compatibles avec Lake Formation. Étant donné que le pilote système s'exécute avec plus d'accès, les événements et les journaux générés par le pilote système peuvent inclure des informations sensibles. Pour empêcher les utilisateurs ou le code non autorisés d'accéder à ces données sensibles, EMR Serverless a désactivé l'accès aux journaux des pilotes du système. Pour résoudre les problèmes, contactez AWS le support.
-
Si vous avez enregistré l'emplacement d'une table auprès de Lake Formation, le chemin d'accès aux données passe par les informations d'identification stockées dans Lake Formation, indépendamment de l'IAMautorisation accordée au rôle d'exécution de tâches EMR sans serveur. Si vous configurez mal le rôle enregistré avec l'emplacement de la table, les tâches soumises qui utilisent le rôle avec l'IAMautorisation S3 sur l'emplacement de la table échoueront.
-
L'écriture dans une table de Lake Formation utilise des IAM autorisations plutôt que des autorisations accordées par Lake Formation. Si votre rôle d'exécution de tâches dispose des autorisations S3 nécessaires, vous pouvez l'utiliser pour exécuter des opérations d'écriture.
Voici les considérations et limites relatives à l'utilisation d'Apache Iceberg :
-
Vous ne pouvez utiliser Apache Iceberg qu'avec un catalogue de sessions et non avec des catalogues nommés arbitrairement.
-
Les tables Iceberg enregistrées dans Lake Formation ne prennent en charge que les tables de métadonnées
history
metadata_log_entries
,snapshots
,,files
manifests
, etrefs
. Amazon EMR masque les colonnes susceptibles de contenir des données sensibles, telles quepartitions
path
, etsummaries
. Cette limitation ne s'applique pas aux tables Iceberg qui ne sont pas enregistrées dans Lake Formation. -
Les tables que vous n'enregistrez pas dans Lake Formation prennent en charge toutes les procédures stockées par Iceberg. Les
migrate
procéduresregister_table
et ne sont prises en charge pour aucune table. -
Nous vous recommandons d'utiliser Iceberg DataFrameWriter V2 au lieu de V1.