Utilizzo AWS Lake Formation con Amazon EMR - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo AWS Lake Formation con Amazon EMR

Amazon EMR è una piattaforma cluster AWS gestita flessibile su cui è possibile eseguire qualsiasi codice personalizzato su framework di big data supportati come Hadoop Map-Reduce, Spark, Hive, Presto, ecc. Le organizzazioni utilizzano Amazon EMR anche per eseguire applicazioni di elaborazione dati in batch e in streaming su un cluster altamente distribuito. Utilizzando Apache Spark su Amazon EMR, puoi eseguire trasformazioni di dati e codice personalizzato su database e tabelle le cui autorizzazioni sono gestite da Lake Formation.

Esistono tre opzioni per la distribuzione di Amazon EMR:

  • EMR su EC2

  • EMR serverless

  • Amazon EMR su EKS

Per ulteriori informazioni, consulta Integrazione di Amazon EMR con Lake Formation o Utilizzo di EMR Serverless con per un controllo granulare degli accessi AWS Lake Formation

Support per i formati di tabelle transazionali

Le versioni 6.15.0 e successive di Amazon EMR includono il supporto per le autorizzazioni di controllo degli accessi a livello di tabella, riga, colonna e cella di Lake Formation sui formati di tabella Apache Hudi, Apache Iceberg e Delta Lake quando leggi e scrivi dati con Spark SQL.

Per le limitazioni, consulta Considerazioni per Amazon EMR with Lake Formation.

Formati di tabella supportati
Formato della tabella Descrizione e operazioni consentite Autorizzazioni Lake Formation supportate in Amazon EMR

Apache Hudi

Un formato di tabella aperta utilizzato per semplificare l'elaborazione incrementale dei dati e lo sviluppo di pipeline di dati.

Per un elenco delle operazioni supportate, consulta Apache Hudi e Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con Apache Hudi.

Apache Iceberg

Un formato di tabella aperta che gestisce grandi raccolte di file sotto forma di tabelle.

Per un elenco delle operazioni supportate, consulta Apache Iceberg e Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake è un progetto open source che aiuta a implementare moderne architetture di data lake comunemente costruite su Amazon S3 o Hadoop Distributed File System (HDFS).

Per un elenco delle operazioni supportate, consulta Delta Lake and Lake Formation.

Amazon EMR supporta il controllo degli accessi a livello di tabella, riga, colonna e cella con le tabelle Delta Lake.

Risorse aggiuntive