Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Limites
Tenez compte des limites suivantes avant d'utiliser des frameworks de lacs de données avec AWS Glue.
-
Les AWS Glue
GlueContext
méthodes suivantes DynamicFrame ne prennent pas en charge la lecture et l'écriture de tables du framework Data Lake. Utilisez DataFrame API plutôt lesGlueContext
méthodes for DataFrame ou Spark.-
create_dynamic_frame.from_catalog
-
write_dynamic_frame.from_catalog
-
getDynamicFrame
-
writeDynamicFrame
-
-
Les
GlueContext
méthodes suivantes DataFrame sont prises en charge par le contrôle des autorisations de Lake Formation :-
create_data_frame.from_catalog
-
write_data_frame.from_catalog
-
getDataFrame
-
writeDataFrame
-
-
Le regroupement de petits fichiers n'est pas pris en charge.
-
Les signets de tâche ne sont pas pris en charge.
-
Apache Hudi 0.10.1 pour AWS Glue 3.0 ne prend pas en charge les tables Hudi Merge on Read (MoR).
-
ALTER TABLE … RENAME TO
n'est pas disponible pour Apache Iceberg 0.13.1 pour 3.0. AWS Glue
Limitations des tables au format de lac de données gérées par les autorisations de Lake Formation
Les formats des lacs de données sont intégrés AWS Glue ETL via les autorisations Lake Formation. La création d'un DynamicFrame utilisateur n'create_dynamic_frame
est pas prise en charge. Pour plus d’informations, consultez les exemples suivants :
Note
L'intégration avec les autorisations AWS Glue ETL via Lake Formation pour Apache Hudi, Apache Iceberg et Delta Lake n'est prise en charge que dans la AWS Glue version 4.0.
Apache Iceberg offre la meilleure intégration avec les autorisations AWS Glue ETL via Lake Formation. Il prend en charge presque toutes les opérations et inclut SQL le support.
Hudi prend en charge la plupart des opérations de base à l'exception des opérations administratives. C'est parce que ces options sont généralement effectuées via l'écriture de dataframes et spécifiées via additional_options
. Vous devez l'utiliser pour créer AWS Glue APIs DataFrames pour vos opérations car Spark n'SQLest pas pris en charge.
Delta Lake prend uniquement en charge la lecture, l'ajout et le remplacement de données de table. Delta Lake nécessite l'utilisation de ses propres bibliothèques pour pouvoir effectuer diverses tâches telles que les mises à jour.
Les fonctionnalités suivantes ne sont pas disponibles pour les tables Iceberg gérées par les autorisations de Lake Formation.
Compaction à l'aide de AWS Glue ETL
SQLAssistance Spark via AWS Glue ETL
Les limites des tables Hudi gérées par les autorisations de Lake Formation sont les suivantes :
Suppression de fichiers orphelins
Les limites des tables Delta Lake gérées par les autorisations de Lake Formation sont les suivantes :
Toutes les fonctionnalités autres que l'insertion et la lecture à partir des tables de Delta Lake.