Che cos'è AWS Lake Formation? - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Che cos'è AWS Lake Formation?

Benvenuto nella Guida per AWS Lake Formation gli sviluppatori.

AWS Lake Formation ti aiuta a governare, proteggere e condividere a livello globale i dati per l'analisi e l'apprendimento automatico. Con Lake Formation, puoi gestire un controllo granulare degli accessi per i dati del tuo data lake su Amazon Simple Storage Service (Amazon S3) e i relativi metadati. AWS Glue Data Catalog

Lake Formation fornisce il proprio modello di autorizzazioni che amplia il modello di autorizzazioni IAM. Il modello di autorizzazioni di Lake Formation consente un accesso granulare ai dati archiviati nei data lake attraverso un semplice meccanismo di concessione o revoca, proprio come un sistema di gestione di database relazionali (RDBMS). Le autorizzazioni di Lake Formation vengono applicate utilizzando controlli granulari a livello di colonna, riga e cella nei servizi di AWS analisi e apprendimento automatico, tra cui Amazon Athena, Amazon Amazon QuickSight Redshift Spectrum, Amazon EMR e. AWS Glue

La modalità di accesso ibrido di Lake Formation ti AWS Glue Data Catalog consente di proteggere e accedere ai dati catalogati utilizzando sia le autorizzazioni di Lake Formation che le politiche di autorizzazione IAM per Amazon S3 e azioni. AWS Glue Con la modalità di accesso ibrida, gli amministratori dei dati possono integrare le autorizzazioni di Lake Formation in modo selettivo e incrementale, concentrandosi su un caso d'uso del data lake alla volta.

Lake Formation consente inoltre di condividere i dati internamente ed esternamente tra più AWS organizzazioni o direttamente con i responsabili IAM in un altro account Account AWS, fornendo un accesso granulare ai metadati e ai dati sottostanti. AWS Glue Data Catalog

Caratteristiche di Lake Formation

Lake Formation ti aiuta a scomporre i silos di dati e a combinare diversi tipi di dati strutturati e non strutturati in un repository centralizzato. Innanzitutto, identifica gli archivi di dati esistenti in Amazon S3 o nei database relazionali e NoSQL e sposta i dati nel tuo data lake. Quindi scansiona, cataloga e prepara i dati per l'analisi. Successivamente, offri ai tuoi utenti un accesso self-service sicuro ai dati tramite i servizi di analisi di loro scelta.

Inserimento e gestione dei dati

Importazione di dati da database già presenti AWS

Dopo aver specificato dove si trovano i database esistenti e fornito le credenziali di accesso, Lake Formation legge i dati e i relativi metadati (schema) per comprendere il contenuto della fonte di dati. Quindi importa i dati nel nuovo data lake e registra i metadati in un catalogo centrale. Con Lake Formation, puoi importare dati da database MySQL, PostgreSQL, SQL Server, MariaDB e Oracle in esecuzione in Amazon RDS o ospitati in Amazon EC2. Sono supportati sia il caricamento di dati in blocco che quello incrementale.

Importa dati da altre fonti esterne

Puoi utilizzare Lake Formation per spostare i dati dai database locali connettendoti a Java Database Connectivity (JDBC). Identifica le fonti di destinazione e fornisci le credenziali di accesso nella console e Lake Formation legge e carica i tuoi dati nel data lake. Per importare dati da database diversi da quelli sopra elencati, puoi creare lavori ETL personalizzati con. AWS Glue

Cataloga ed etichetta i tuoi dati

Puoi usare AWS Glue i crawler per leggere i tuoi dati in Amazon S3 ed estrarre schemi di database e tabelle e archiviare tali dati in un file ricercabile. AWS Glue Data Catalog Quindi, usa Lake Formation Controllo degli accessi basato su tag Lake Formation (TBAC) per gestire le autorizzazioni su database, tabelle e colonne. Per ulteriori informazioni sull'aggiunta di tabelle al Data Catalog, consulta. Creazione di tabelle e database del catalogo dati

Gestione della sicurezza

Definisci e gestisci i controlli di accesso

Lake Formation offre un unico posto per gestire i controlli di accesso per i dati nel tuo data lake. È possibile definire politiche di sicurezza che limitano l'accesso ai dati a livello di database, tabella, colonna, riga e cella. Queste policy si applicano agli utenti e ai ruoli IAM e agli utenti e ai gruppi durante la federazione tramite un provider di identità esterno. Puoi utilizzare controlli granulari per accedere ai dati protetti da Lake Formation all'interno di Amazon Redshift Spectrum, Athena, ETL AWS Glue e Amazon EMR per Apache Spark. Ogni volta che crei identità IAM, assicurati di seguire le best practice IAM. Per ulteriori informazioni, consulta le best practice di sicurezza nella Guida per l'utente IAM.

Modalità di accesso ibrida

La modalità di accesso ibrido di Lake Formation offre la flessibilità necessaria per abilitare selettivamente le autorizzazioni di Lake Formation per database e tabelle del tuo. AWS Glue Data Catalog Con la modalità di accesso ibrido, ora disponi di un percorso incrementale che ti consente di impostare le autorizzazioni di Lake Formation per un set specifico di utenti senza interrompere le politiche di autorizzazione di altri utenti o carichi di lavoro esistenti. Per ulteriori informazioni, consulta Modalità di accesso ibrida.

Implementa la registrazione degli audit

Lake Formation fornisce registri di controllo completi CloudTrail per monitorare l'accesso e dimostrare la conformità con le politiche definite a livello centrale. Puoi controllare la cronologia di accesso ai dati attraverso i servizi di analisi e machine learning che leggono i dati nel tuo data lake tramite Lake Formation. In questo modo puoi vedere quali utenti o ruoli hanno tentato di accedere a quali dati, con quali servizi e quando. Puoi accedere ai log di controllo nello stesso modo in cui accedi a qualsiasi altro CloudTrail registro utilizzando le CloudTrail API e la console. Per ulteriori informazioni sui CloudTrail log, consulta. Registrazione delle chiamate API AWS Lake Formation utilizzando AWS CloudTrail

Sicurezza a livello di riga e cella

Lake Formation fornisce filtri di dati che consentono di limitare l'accesso a una combinazione di colonne e righe. Utilizza la sicurezza a livello di riga e cella per proteggere i dati sensibili come le informazioni personali identificabili (PII). Per ulteriori informazioni sulla sicurezza a livello di riga, consulta. Panoramica del filtraggio dei dati

Controllo degli accessi basato su tag

Usa il controllo degli accessi basato su tag Lake Formation per gestire centinaia o addirittura migliaia di autorizzazioni per i dati creando etichette personalizzate chiamate LF-Tags. Ora puoi definire i tag LF e allegarli a database, tabelle o colonne. Quindi, condividi l'accesso controllato tra i servizi di analisi, machine learning (ML) ed estrazione, trasformazione e caricamento (ETL) per il consumo. I tag LF assicurano che la governance dei dati possa essere scalata facilmente sostituendo le definizioni delle politiche di migliaia di risorse con alcuni tag logici. Lake Formation fornisce una ricerca testuale su questi metadati, in modo che gli utenti possano trovare rapidamente i dati che devono analizzare.

Accesso tra account

Le funzionalità di gestione delle autorizzazioni di Lake Formation semplificano la protezione e la gestione dei data lake distribuiti su più AWS account attraverso un approccio centralizzato, fornendo un controllo granulare degli accessi al Data Catalog e alle sedi Amazon S3. Per ulteriori informazioni, consulta Condivisione dei dati tra account in Lake Formation.

Condivisione dei dati

La funzionalità di condivisione dei dati consente di configurare le autorizzazioni per set di dati archiviati in diverse fonti di dati come Amazon Redshift senza migrare dati o metadati in Amazon S3 o. AWS Glue Data Catalog Puoi utilizzare i seguenti metodi per condividere i dati in Lake Formation:

Per ulteriori informazioni, consulta Condivisione dei dati in Lake Formation.

  • Integrazione di Lake Formation con la condivisione dei dati di Amazon Redshift: utilizza Lake Formation per gestire centralmente le autorizzazioni di accesso a livello di database, tabelle, colonne e righe delle condivisioni di dati Amazon Redshift e limitare l'accesso degli utenti agli oggetti all'interno di un datashare.

  • Connessione AWS Glue Data Catalog a metastore esterni: connettiti AWS Glue Data Catalog a metastore esterni per gestire le autorizzazioni di accesso ai set di dati in Amazon S3 utilizzando Lake Formation. Non è necessaria alcuna migrazione dei metadati in. AWS Glue Data Catalog

    Per ulteriori informazioni, consulta Gestione delle autorizzazioni sui set di dati che utilizzano metastore esterni

  • Integrazione di Lake Formation con AWS Data Exchange — Lake Formation supporta la concessione di licenze di accesso ai dati tramite. AWS Data Exchange Se sei interessato a concedere in licenza i tuoi dati di Lake Formation, consulta Cosa c'è AWS Data Exchange nella Guida per l'AWS Data Exchange utente.

Guida introduttiva a Lake Formation

Ti consigliamo di iniziare con le sezioni seguenti: