Lineage dei dati in Amazon DataZone (anteprima) - Amazon DataZone

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Lineage dei dati in Amazon DataZone (anteprima)

Importante

Attualmente, la funzionalità di data lineage in Amazon DataZone è disponibile in una versione di anteprima.

Il data lineage in Amazon DataZone è una funzionalità API basata e OpenLineage compatibile che può aiutarti a catturare e visualizzare gli eventi di derivazione, da sistemi OpenLineage abilitati o tramite, per tracciare le origini dei datiAPIs, tenere traccia delle trasformazioni e visualizzare il consumo di dati tra organizzazioni. Ti offre una visione generale delle tue risorse di dati per vedere l'origine delle risorse e la loro catena di connessioni. I dati di derivazione includono informazioni sulle attività all'interno DataZone del catalogo di dati aziendali di Amazon, incluse informazioni sugli asset catalogati, sugli abbonati di tali risorse e sulle attività che si svolgono al di fuori del catalogo di dati aziendali acquisite programmaticamente utilizzando il. APIs

Utilizzando DataZone la OpenLineage compatibilità con AmazonAPIs, gli amministratori di dominio e i produttori di dati possono acquisire e archiviare eventi di derivazione oltre a quelli disponibili in Amazon DataZone, comprese le trasformazioni in Amazon S3, AWS Glue e altri servizi. Ciò fornisce una visione completa per i consumatori di dati e li aiuta ad acquisire fiducia sull'origine dell'asset, mentre i produttori di dati possono valutare l'impatto delle modifiche apportate a un asset comprendendone l'utilizzo. Inoltre, DataZone le versioni di Amazon si adattano a ogni evento, consentendo agli utenti di visualizzare la derivazione in qualsiasi momento o di confrontare le trasformazioni nella cronologia di una risorsa o di un lavoro. Questa tradizione storica fornisce una comprensione più approfondita dell'evoluzione dei dati, essenziale per la risoluzione dei problemi, il controllo e la garanzia dell'integrità degli asset di dati.

Con il data lineage, puoi eseguire le seguenti operazioni in Amazon: DataZone

  • Comprendi la provenienza dei dati: sapere da dove provengono i dati favorisce la fiducia nei dati fornendoti una chiara comprensione delle loro origini, dipendenze e trasformazioni. Questa trasparenza aiuta a prendere decisioni sicure basate sui dati.

  • Comprendi l'impatto delle modifiche alle pipeline di dati: quando vengono apportate modifiche alle pipeline di dati, la derivazione può essere utilizzata per identificare tutti i consumatori a valle interessati. Questo aiuta a garantire che le modifiche vengano apportate senza interrompere i flussi di dati critici.

  • Identifica la causa principale dei problemi di qualità dei dati: se viene rilevato un problema di qualità dei dati in un rapporto a valle, è possibile utilizzare la derivazione, in particolare a livello di colonna, per risalire ai dati (a livello di colonna) e identificare il problema fino alla fonte. Questo può aiutare i data engineer a identificare e risolvere il problema.

  • Migliora la governance e la conformità dei dati: è possibile utilizzare la derivazione a livello di colonna per dimostrare la conformità alle normative sulla governance dei dati e sulla privacy. Ad esempio, la derivazione a livello di colonna può essere utilizzata per mostrare dove sono archiviati i dati sensibili (ad esempioPII) e come vengono elaborati nelle attività a valle.

Tipi di nodi di derivazione in Amazon DataZone

in Amazon DataZone, le informazioni sulla derivazione dei dati sono presentate in nodi che rappresentano tabelle e viste. A seconda del contesto del progetto, ad esempio, un progetto selezionato in alto a sinistra nel portale dati, i produttori possono visualizzare sia l'inventario che le risorse pubblicate, mentre i consumatori possono visualizzare solo le risorse pubblicate. Quando aprite per la prima volta la scheda Lineage nella pagina dei dettagli delle risorse, il nodo del set di dati catalogato è il punto di partenza per navigare a monte o a valle attraverso i nodi di derivazione del vostro grafico di derivazione.

Di seguito sono riportati i tipi di nodi di data lineage supportati in Amazon DataZone:

  • Nodo Dataset: questo tipo di nodo include informazioni sulla derivazione dei dati su uno specifico asset di dati.

    • I nodi del set di dati che includono informazioni sugli asset AWS Glue o Amazon Redshift pubblicati nel catalogo DataZone Amazon vengono generati automaticamente e includono un'icona AWS Glue o Amazon Redshift corrispondente all'interno del nodo.

    • I nodi del set di dati che includono informazioni sugli asset che non sono pubblicati nel DataZone catalogo Amazon, vengono creati manualmente dagli amministratori di dominio (produttori) e sono rappresentati da un'icona di risorse personalizzata predefinita all'interno del nodo.

  • Nodo Job (run): questo tipo di nodo visualizza i dettagli del processo, inclusa l'ultima esecuzione di un particolare processo e i dettagli di esecuzione. Questo nodo acquisisce anche più esecuzioni del processo e può essere visualizzato nella scheda Cronologia dei dettagli del nodo. È possibile visualizzare i dettagli del nodo scegliendo l'icona del nodo.

Attributi chiave nei nodi di derivazione

L'sourceIdentifierattributo in un nodo di derivazione rappresenta gli eventi che si verificano su un set di dati. Il nodo sourceIdentifier di derivazione è l'identificatore del set di dati (tabella/vista ecc.). Viene utilizzato per l'applicazione dell'unicità sui nodi del lignaggio. Ad esempio, non possono esserci due nodi di derivazione uguali. sourceIdentifier Di seguito sono riportati alcuni esempi di sourceIdentifier valori per diversi tipi di nodi:

  • Per il nodo del set di dati con il rispettivo tipo di set di dati:

    • Risorsa: amazon.datazone.asset/< > assetId

    • Annuncio (risorsa pubblicata): amazon.datazone.listing/< > listingId

    • AWS <region><account-id><database>Tabella Glue: arn:aws:glue: ::table//<table-name>

    • <redshift/redshift-serverless> <region><account-id><table-type (table/view etc) > <database><schema>Tabella/vista Amazon Redshift: arn:aws:: :/</>//clusterIdentifierworkgroupName<table-name>

    • <namespace><name>Per qualsiasi altro tipo di nodi del set di dati importati utilizzando eventi di esecuzione a lineamento aperto,/del set di dati di input/output viene utilizzato a partire dal nodo. sourceIdentifier

  • Per i lavori:

    • <jobs_namespace>Per i nodi di lavoro importati utilizzando eventi di esecuzione a lineamento aperto,. <job_name>è usato come. sourceIdentifier

  • Per le esecuzioni di lavoro:

    • <jobs_namespace>Per i nodi di esecuzione dei processi importati utilizzando eventi di esecuzione a linea aperta,. <job_name>/<run_id>viene usato come. sourceIdentifier

Per le risorse create utilizzando createAssetAPI, sourceIdentifier devono essere aggiornate utilizzando createAssetRevision API per consentire la mappatura della risorsa alle risorse upstream.

Visualizzazione della derivazione dei dati

La pagina dei dettagli degli asset DataZone di Amazon fornisce una rappresentazione grafica della derivazione dei dati, semplificando la visualizzazione delle relazioni tra i dati a monte o a valle. La pagina dei dettagli degli asset offre le seguenti funzionalità per navigare nel grafico:

  • Lineage a livello di colonna: espande il lignaggio a livello di colonna quando disponibile nei nodi del set di dati. Questo mostra automaticamente le relazioni con i nodi del set di dati a monte o a valle, se sono disponibili le informazioni sulla colonna di origine.

  • Ricerca per colonne: quando la visualizzazione predefinita per il numero di colonne è 10. Se ci sono più di 10 colonne, viene attivata l'impaginazione per passare al resto delle colonne. Per visualizzare rapidamente una colonna particolare, puoi cercare nel nodo del set di dati che elenca solo la colonna cercata.

  • Visualizza solo i nodi del set di dati: se desideri visualizzare solo i nodi di derivazione del set di dati e filtrare i nodi di lavoro, puoi scegliere l'icona di controllo Apri visualizzazione in alto a sinistra del visualizzatore di grafici e attivare l'opzione Visualizza solo i nodi del set di dati. Questo rimuoverà tutti i nodi del lavoro dal grafico e ti consentirà di navigare solo tra i nodi del set di dati. Tieni presente che quando è attivata la visualizzazione dei soli nodi del set di dati, il grafico non può essere espanso a monte o a valle.

  • Riquadro dei dettagli: ogni nodo di derivazione ha i dettagli acquisiti e visualizzati quando selezionato.

    • Il nodo Dataset dispone di un riquadro dei dettagli per visualizzare tutti i dettagli acquisiti per quel nodo per un determinato timestamp. Ogni nodo del set di dati ha 3 schede, vale a dire: Lineage info, Schema e scheda History. La scheda Cronologia elenca le diverse versioni dell'evento di derivazione catturato per quel nodo. Tutti i dettagli acquisiti da API vengono visualizzati utilizzando moduli di metadati o un JSON visualizzatore.

    • Il nodo Job ha un riquadro dei dettagli per visualizzare i dettagli del lavoro con schede, vale a dire: Informazioni sul lavoro e Cronologia. Il riquadro dei dettagli consente inoltre di acquisire le query o le espressioni acquisite durante l'esecuzione del processo. La scheda Cronologia elenca le diverse versioni dell'evento di esecuzione del job acquisito per quel job. Tutti i dettagli acquisiti da API vengono visualizzati utilizzando moduli di metadati o un JSON visualizzatore.

  • Schede delle versioni: tutti i nodi di derivazione in Amazon DataZone Data Lineage dispongono del controllo delle versioni. Per ogni nodo di set di dati o nodo di lavoro, le versioni vengono acquisite come cronologia e ciò consente di navigare tra le diverse versioni per identificare cosa è cambiato nel tempo. Ogni versione apre una nuova scheda nella pagina di derivazione per facilitare il confronto o il contrasto.

Autorizzazione della derivazione dei dati in Amazon DataZone

Autorizzazioni di scrittura: per pubblicare dati sulla derivazione in Amazon DataZone, devi avere un IAM ruolo con una politica di autorizzazioni che includa un'ALLOWazione su. PostLineageEvent API Questa IAM autorizzazione avviene a livello API Gateway.

Autorizzazioni di lettura: esistono due operazioni: GetLineageNode e ListLineageNodeHistory sono incluse nella policy AmazonDataZoneDomainExecutionRolePolicy gestita e quindi ogni utente del DataZone dominio Amazon può richiamarle per attraversare il grafico della derivazione dei dati.

Esperienza di esempio di data lineage in Amazon DataZone

Puoi utilizzare l'esperienza di esempio della derivazione dei dati per sfogliare e comprendere la derivazione dei dati in Amazon DataZone, incluso l'attraversamento a monte o a valle nel grafico della derivazione dei dati, l'esplorazione delle versioni e della derivazione a livello di colonna.

Completa la procedura seguente per provare l'esperienza di data lineage di esempio in Amazon: DataZone

  1. Accedi al portale DataZone dati di Amazon URL e accedi utilizzando Single Sign-on (SSO) o le tue AWS credenziali. Se sei un DataZone amministratore Amazon, puoi accedere alla DataZone console Amazon all'indirizzo https://console.aws.amazon.com/datazone e accedere con il Account AWS luogo in cui è stato creato il dominio, quindi scegliere Open data portal.

  2. Scegli una risorsa di dati disponibile per aprire la pagina dei dettagli della risorsa.

  3. Nella pagina dei dettagli della risorsa, scegliete la scheda Lineage, quindi scegliete Anteprima, quindi scegliete Prova la derivazione di esempio.

  4. Nella finestra pop-up sulla derivazione dei dati, scegli Avvia tour guidato sulla derivazione dei dati.

    A questo punto, viene visualizzata una scheda a schermo intero che fornisce tutto lo spazio delle informazioni sulla derivazione. Il grafico di derivazione dei dati di esempio viene inizialmente visualizzato con un nodo base con 1 profondità alle due estremità, a monte e a valle. È possibile espandere il grafico a monte o a valle. Le informazioni sulle colonne sono disponibili anche per consentirti di scegliere e vedere come scorre il lignaggio attraverso i nodi.

Utilizzo programmatico del DataZone data lineage di Amazon

Per utilizzare la funzionalità di data lineage in Amazon DataZone, puoi richiamare quanto segue: APIs