Linhagem de dados na Amazon DataZone (versão prévia) - Amazon DataZone

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Linhagem de dados na Amazon DataZone (versão prévia)

Importante

Atualmente, a funcionalidade de linhagem de dados na Amazon DataZone está em uma versão prévia.

A linhagem de dados na Amazon DataZone é um recurso OpenLineage compatível e API orientado que pode ajudá-lo a capturar e visualizar eventos de linhagem, a partir de sistemas habilitados ou por meio de sistemas OpenLineage habilitados, para rastrear origens de dadosAPIs, rastrear transformações e visualizar o consumo de dados entre organizações. Ele fornece uma visão abrangente de seus ativos de dados para ver a origem dos ativos e sua cadeia de conexões. Os dados de linhagem incluem informações sobre as atividades dentro DataZone do catálogo de dados comerciais da Amazon, incluindo informações sobre os ativos catalogados, os assinantes desses ativos e as atividades que acontecem fora do catálogo de dados comerciais capturados programaticamente usando o. APIs

Usando os OpenLineage compatíveis com a Amazon DataZoneAPIs, administradores de domínio e produtores de dados podem capturar e armazenar eventos de linhagem além do que está disponível na Amazon DataZone, incluindo transformações no Amazon S3, AWS Glue e outros serviços. Isso fornece uma visão abrangente para os consumidores de dados e os ajuda a ter confiança na origem do ativo, enquanto os produtores de dados podem avaliar o impacto das mudanças em um ativo entendendo seu uso. Além disso, a Amazon cria DataZone versões da linhagem com cada evento, permitindo que os usuários visualizem a linhagem a qualquer momento ou comparem as transformações no histórico de um ativo ou trabalho. Essa linhagem histórica fornece uma compreensão mais profunda de como os dados evoluíram, essencial para solucionar problemas, auditar e garantir a integridade dos ativos de dados.

Com a linhagem de dados, você pode realizar o seguinte na Amazon DataZone:

  • Entenda a proveniência dos dados: saber de onde os dados se originaram promove a confiança nos dados, fornecendo uma compreensão clara de suas origens, dependências e transformações. Essa transparência ajuda a tomar decisões seguras baseadas em dados.

  • Entenda o impacto das mudanças nos pipelines de dados: quando são feitas alterações nos pipelines de dados, a linhagem pode ser usada para identificar todos os consumidores posteriores que serão afetados. Isso ajuda a garantir que as alterações sejam feitas sem interromper os fluxos de dados críticos.

  • Identifique a causa raiz dos problemas de qualidade de dados: se um problema de qualidade de dados for detectado em um relatório posterior, a linhagem, especialmente a linhagem em nível de coluna, poderá ser usada para rastrear os dados (em nível de coluna) para identificar o problema até sua origem. Isso pode ajudar os engenheiros de dados a identificar e corrigir o problema.

  • Melhore a governança e a conformidade dos dados: a linhagem em nível de coluna pode ser usada para demonstrar a conformidade com os regulamentos de privacidade e governança de dados. Por exemplo, a linhagem em nível de coluna pode ser usada para mostrar onde dados confidenciais (comoPII) são armazenados e como são processados nas atividades posteriores.

Tipos de nós de linhagem na Amazon DataZone

na Amazon DataZone, as informações de linhagem de dados são apresentadas em nós que representam tabelas e visualizações. Dependendo do contexto do projeto, por exemplo, um projeto selecionado no canto superior esquerdo do portal de dados, os produtores podem visualizar o inventário e os ativos publicados, enquanto os consumidores só podem visualizar os ativos publicados. Quando você abre pela primeira vez a guia de linhagem na página de detalhes do ativo, o nó do conjunto de dados catalogado é o ponto de partida para navegar a montante ou a jusante pelos nós de linhagem do seu gráfico de linhagem.

A seguir estão os tipos de nós de linhagem de dados que são compatíveis com a Amazon DataZone:

  • Nó do conjunto de dados - esse tipo de nó inclui informações de linhagem de dados sobre um ativo de dados específico.

    • Os nós do conjunto de dados que incluem informações sobre os ativos do AWS Glue ou do Amazon Redshift publicados no catálogo da DataZone Amazon são gerados automaticamente e incluem um ícone correspondente do AWS Glue ou do Amazon Redshift dentro do nó.

    • Os nós do conjunto de dados que incluem informações sobre ativos que não estão publicados no DataZone catálogo da Amazon são criados manualmente por administradores de domínio (produtores) e são representados por um ícone de ativo personalizado padrão dentro do nó.

  • Nó de trabalho (execução) - esse tipo de nó exibe os detalhes do trabalho, incluindo a última execução de um trabalho específico e os detalhes da execução. Esse nó também captura várias execuções do trabalho e pode ser visualizado na guia Histórico dos detalhes do nó. Você pode visualizar os detalhes do nó escolhendo o ícone do nó.

Atributos principais em nós de linhagem

O sourceIdentifier atributo em um nó de linhagem representa os eventos que acontecem em um conjunto de dados. O sourceIdentifier do nó da linhagem é o identificador do conjunto de dados (tabela/visualização, etc.). É usado para impor exclusividade nos nós da linhagem. Por exemplo, não pode haver dois nós de linhagem iguaissourceIdentifier. Veja a seguir exemplos de sourceIdentifier valores para diferentes tipos de nós:

  • Para o nó do conjunto de dados com o respectivo tipo de conjunto de dados:

    • Ativo: amazon.datazone.asset/< > assetId

    • Listagem (ativo publicado): listingId amazon.datazone.listing/< >

    • AWS <region><account-id><database>Tabela de cola: arn:aws:glue: ::table//<table-name>

    • <redshift/redshift-serverless> <region><account-id><table-type (table/view etc) > <database><schema>Tabela/visualização do Amazon Redshift: arn:aws::: :/</>//clusterIdentifierworkgroupName<table-name>

    • Para qualquer outro tipo de nós de conjunto de dados importados usando eventos de execução de linhagem aberta,<namespace>/<name>do conjunto de dados de entrada/saída é usado como do nó. sourceIdentifier

  • Para empregos:

    • <jobs_namespace>Para nós de trabalho importados usando eventos de execução de linhagem aberta,. <job_name>é usado comosourceIdentifier.

  • Para execuções de trabalhos:

    • <jobs_namespace>Para nós de execução de tarefas importados usando eventos de execução de linhagem aberta,. <job_name>/<run_id>é usado comosourceIdentifier.

Para ativos criados usando createAssetAPI, o sourceIdentifier deve ser atualizado usando createAssetRevision API para permitir o mapeamento do ativo para recursos upstream.

Visualizando a linhagem de dados

A página DataZone de detalhes dos ativos da Amazon fornece uma representação gráfica da linhagem de dados, facilitando a visualização das relações de dados a montante ou a jusante. A página de detalhes do ativo fornece os seguintes recursos para navegar no gráfico:

  • Linhagem em nível de coluna: expanda a linhagem em nível de coluna quando disponível nos nós do conjunto de dados. Isso mostra automaticamente os relacionamentos com os nós do conjunto de dados upstream ou downstream se as informações da coluna de origem estiverem disponíveis.

  • Pesquisa de colunas: quando a exibição padrão para o número de colunas é 10. Se houver mais de 10 colunas, a paginação será ativada para navegar até o restante das colunas. Para visualizar rapidamente uma coluna específica, você pode pesquisar no nó do conjunto de dados que lista apenas a coluna pesquisada.

  • Exibir somente nós do conjunto de dados: se você quiser alternar para visualizar somente os nós da linhagem do conjunto de dados e filtrar os nós do trabalho, você pode escolher o ícone de controle Abrir visualização no canto superior esquerdo do visualizador do gráfico e alternar a opção Exibir somente nós do conjunto de dados. Isso removerá todos os nós de trabalho do gráfico e permitirá que você navegue apenas pelos nós do conjunto de dados. Observe que quando os nós de visualização somente do conjunto de dados estão ativados, o gráfico não pode ser expandido a montante ou a jusante.

  • Painel de detalhes: cada nó de linhagem tem detalhes capturados e exibidos quando selecionado.

    • O nó do conjunto de dados tem um painel de detalhes para exibir todos os detalhes capturados desse nó em um determinado timestamp. Cada nó do conjunto de dados tem 3 guias, a saber: informações de linhagem, esquema e guia Histórico. A guia histórico lista as diferentes versões do evento de linhagem capturado para esse nó. Todos os detalhes capturados API são exibidos usando formulários de metadados ou um JSON visualizador.

    • O Job node tem um painel de detalhes para exibir detalhes do trabalho com guias, a saber: Informações do trabalho e Histórico. O painel de detalhes também captura consultas ou expressões capturadas como parte da execução do trabalho. A guia histórico lista as diferentes versões do evento de execução do trabalho capturado para esse trabalho. Todos os detalhes capturados API são exibidos usando formulários de metadados ou um JSON visualizador.

  • Guias de versão: todos os nós de linhagem na linhagem de DataZone dados da Amazon têm controle de versão. Para cada nó do conjunto de dados ou nó de trabalho, as versões são capturadas como histórico e isso permite que você navegue entre as diferentes versões para identificar o que mudou ao longo do tempo. Cada versão abre uma nova guia na página de linhagem para ajudar a comparar ou contrastar.

Autorização de linhagem de dados na Amazon DataZone

Permissões de gravação - para publicar dados de linhagem na Amazon DataZone, você deve ter uma IAM função com uma política de permissões que inclua uma ALLOW ação no PostLineageEventAPI. Essa IAM autorização acontece na camada API Gateway.

Permissões de leitura - há duas operações: GetLineageNode e ListLineageNodeHistory que estão incluídas na política AmazonDataZoneDomainExecutionRolePolicy gerenciada e, portanto, cada usuário no DataZone domínio da Amazon pode invocá-las para percorrer o gráfico da linhagem de dados.

Experiência de amostra de linhagem de dados na Amazon DataZone

Você pode usar a experiência de amostra de linhagem de dados para pesquisar e entender a linhagem de dados na Amazon DataZone, incluindo percorrer a montante ou a jusante em seu gráfico de linhagem de dados, explorar versões e linhagem em nível de coluna.

Conclua o procedimento a seguir para testar a experiência de linhagem de dados de amostra na Amazon: DataZone

  1. Navegue até o portal de DataZone dados da Amazon URL e faça login usando o single sign-on (SSO) ou suas AWS credenciais. Se você for DataZone administrador da Amazon, poderá navegar até o DataZone console da Amazon em https://console.aws.amazon.com/datazone e fazer login com o Conta da AWS local onde o domínio foi criado e, em seguida, escolher Open data portal.

  2. Escolha qualquer ativo de dados disponível para abrir a página de detalhes do ativo.

  3. Na página de detalhes do ativo, escolha a guia Linhagem e, em seguida, escolha Visualizar e, em seguida, escolha Testar amostra de linhagem.

  4. Na janela pop-up da linhagem de dados, escolha Iniciar tour guiado da linhagem de dados.

    Nesse ponto, uma guia em tela cheia que fornece todo o espaço das informações de linhagem é exibida. O gráfico de linhagem de dados da amostra é exibido inicialmente com um nó base com 1 profundidade em cada extremidade, a montante e a jusante. Você pode expandir o gráfico a montante ou a jusante. As informações das colunas também estão disponíveis para você escolher e ver como a linhagem flui pelos nós.

Usando a linhagem de DataZone dados da Amazon de forma programática

Para usar a funcionalidade de linhagem de dados na Amazon DataZone, você pode invocar o seguinte: APIs