Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Lake Formation Utilizzo con AWS Glue
I data engineer e i DevOps professionisti utilizzano AWS Glue Extract, Transform and Load (ETL) con Apache Spark per eseguire trasformazioni sui loro set di dati in Amazon S3 e caricare i dati trasformati in data lake e data warehouse per analisi, apprendimento automatico e sviluppo di applicazioni. Poiché diversi team accedono allo stesso set di dati in Amazon S3, è fondamentale concedere e limitare le autorizzazioni in base ai rispettivi ruoli.
AWS Lake Formation è basato su e AWS Glue i servizi interagiscono nei seguenti modi:
-
Lake Formation e AWS Glue condividono lo stesso Data Catalog.
-
Le seguenti funzionalità della console di Lake Formation richiamano il AWS Glue console:
-
Lavori: per ulteriori informazioni, consulta Aggiungere lavori nella Guida per gli AWS Glue sviluppatori.
-
Crawler — Per ulteriori informazioni, consulta Cataloging Tables with a Crawler nella Developer Guide.AWS Glue
-
-
I flussi di lavoro generati quando si utilizza un blueprint di Lake Formation sono AWS Glue flussi di lavoro. Puoi visualizzare e gestire questi flussi di lavoro sia nella console di Lake Formation che nella AWS Glue console.
-
Le trasformazioni di apprendimento automatico sono fornite con Lake Formation e sono basate su AWS Glue APIoperazioni. Crei e gestisci trasformazioni di apprendimento automatico su AWS Glue console. Per ulteriori informazioni, consulta Machine Learning Transforms nella AWS Glue Developer Guide.
Puoi utilizzare il controllo granulare degli accessi di Lake Formation per gestire le risorse del Data Catalog esistenti e le posizioni dati Amazon S3.
Nota
AWS Glue ETLrichiede l'accesso completo all'intera tabella durante il recupero dei dati dalla posizione Amazon S3 sottostante. AWS Glue ETLil processo ha esito negativo se si applicano autorizzazioni a livello di colonna su una tabella.
Support per tipi di tabelle transazionali
L'applicazione delle autorizzazioni Lake Formation consente di proteggere i dati transazionali nei data lake basati su Amazon S3. La tabella seguente elenca i formati di tabelle transazionali supportati AWS Glue e le autorizzazioni di Lake Formation. Lake Formation applica queste autorizzazioni per AWS Glue le operazioni.
Formato della tabella | Descrizione e operazioni consentite | Autorizzazioni Lake Formation supportate in AWS Glue |
---|---|---|
Apache Hudi |
Un formato di tabella aperta utilizzato per semplificare l'elaborazione incrementale dei dati e lo sviluppo di pipeline di dati. Per esempi, vedete Using the Hudi framework in. AWS Glue |
Le autorizzazioni a livello di tabella sono disponibili per le tabelle Hudi. Per ulteriori informazioni, consulta Limitazioni. |
Apache Iceberg |
Un formato di tabella aperta che gestisce grandi raccolte di file sotto forma di tabelle. Per esempi, vedete Using the Iceberg framework in AWS Glue. |
Le autorizzazioni a livello di tabella sono disponibili per le tabelle Iceberg. Per ulteriori informazioni, consulta Limitazioni. |
Linux Foundation Delta Lake |
Delta Lake è un progetto open source che aiuta a implementare moderne architetture di data lake comunemente costruite su Amazon S3 o Hadoop Distributed File System (). HDFS Per esempi, consulta Usare il framework Delta Lake in. AWS Glue |
Le autorizzazioni a livello di tabella sono disponibili per le tabelle Delta Lake. Per ulteriori informazioni, consulta Limitazioni. |
Risorse aggiuntive
Post e repository del blog
-
Scrittura su tabelle Apache Hudi utilizzando un connettore personalizzato AWS Glue
-
AWS repository del modello Cloudformation e dell'esempio di codice pyspark
per analizzare i dati di streaming utilizzando Apache Hudi e AWS Glue Amazon S3.