Tipos de nós de linhagem na Amazon DataZone Atributos principais em nós de linhagem Como visualizar a linhagem de dados Autorização de linhagem de dados na Amazon DataZone Experiência de amostra de linhagem de dados na Amazon DataZone Ative a linhagem de dados no console de gerenciamento Usando a linhagem de DataZone dados da Amazon de forma programática Automatize a linhagem para o AWS Catálogo Glue Automatize a linhagem do Amazon Redshift

Linhagem de dados na Amazon DataZone

A linhagem de dados na Amazon DataZone é um OpenLineage-compatible recurso que pode ajudá-lo a capturar e visualizar eventos de linhagem, de OpenLineage-enabled sistemas ou por meio de APIs, para rastrear origens de dados, rastrear transformações e visualizar o consumo de dados entre organizações. Ela fornece uma visão abrangente de seus ativos de dados para ver a origem dos ativos e sua cadeia de conexões. Os dados de linhagem incluem informações sobre as atividades dentro do catálogo de dados DataZone de negócios da Amazon, incluindo informações sobre os ativos catalogados, os assinantes desses ativos e as atividades que acontecem fora do catálogo de dados de negócios capturados programaticamente usando as APIs.

Tópicos

Tipos de nós de linhagem na Amazon DataZone
Atributos principais em nós de linhagem
Como visualizar a linhagem de dados
Autorização de linhagem de dados na Amazon DataZone
Experiência de amostra de linhagem de dados na Amazon DataZone
Ative a linhagem de dados no console de gerenciamento
Usando a linhagem de DataZone dados da Amazon de forma programática
Automatize a linhagem para o AWS Catálogo Glue
Automatize a linhagem do Amazon Redshift

O Lineage pode ser configurado para ser capturado automaticamente dos bancos de dados AWS Glue e Amazon Redshift quando adicionado à Amazon. DataZone Além disso, o trabalho de ETL do Spark executado no console AWS Glue (v5.0 e superior) ou em notebooks pode ser configurado para enviar eventos de linhagem para domínios da Amazon. DataZone

Na Amazon DataZone, os administradores de domínio podem configurar a linhagem enquanto configuram esquemas integrados de data lake e data warehouse, o que garante que todas as execuções de fontes de dados criadas a partir desses recursos sejam habilitadas para captura automática de linhagem.

Usando as OpenLineage-compatible APIs DataZone da Amazon, administradores de domínio e produtores de dados podem capturar e armazenar eventos de linhagem além do que está disponível na Amazon DataZone, incluindo transformações no Amazon S3, AWS Glue e outros serviços. Isso fornece uma visão abrangente para os consumidores de dados e os ajuda a ter confiança na origem do ativo, enquanto os produtores de dados podem avaliar o impacto das mudanças em um ativo entendendo seu uso. Além disso, a Amazon cria DataZone versões da linhagem com cada evento, permitindo que os usuários visualizem a linhagem a qualquer momento ou comparem as transformações no histórico de um ativo ou trabalho. Essa linhagem histórica fornece uma compreensão mais detalhada de como os dados evoluíram, essencial para solucionar problemas, auditar e garantir a integridade dos ativos de dados.

Com a linhagem de dados, você pode realizar o seguinte na Amazon DataZone:

Entenda a proveniência dos dados: saber de onde os dados se originaram promove a confiança nos dados, fornecendo uma compreensão clara de suas origens, dependências e transformações. Essa transparência ajuda a tomar decisões seguras baseadas em dados.
Entenda o impacto das mudanças nos pipelines de dados: quando são feitas alterações nos pipelines de dados, a linhagem pode ser usada para identificar todos os consumidores posteriores que serão afetados. Isso ajuda a garantir que as alterações sejam feitas sem interromper os fluxos de dados críticos.
Identifique a causa raiz dos problemas de qualidade de dados: se um problema de qualidade de dados for detectado em um relatório posterior, a linhagem, especialmente a linhagem em nível de coluna, poderá ser usada para rastrear os dados (em nível de coluna) para identificar o problema até sua origem. Isso pode ajudar os engenheiros de dados a identificar e corrigir o problema.
Melhore a governança e a conformidade dos dados: a linhagem em nível de coluna pode ser usada para demonstrar a conformidade com os regulamentos de privacidade e governança de dados. Por exemplo, a linhagem em nível de coluna pode ser usada para mostrar onde dados confidenciais (como PII) são armazenados e como são processados em atividades posteriores.

Tipos de nós de linhagem na Amazon DataZone

na Amazon DataZone, as informações de linhagem de dados são apresentadas em nós que representam tabelas e visualizações. Dependendo do contexto do projeto, por exemplo, um projeto selecionado no canto superior esquerdo do portal de dados, os produtores podem visualizar o inventário e os ativos publicados, enquanto os consumidores só podem visualizar os ativos publicados. Quando você abre pela primeira vez a guia de linhagem na página de detalhes do ativo, o nó do conjunto de dados catalogado é o ponto de partida para navegar para cima ou para baixo pelos nós de linhagem do seu gráfico de linhagem.

A seguir estão os tipos de nós de linhagem de dados que são compatíveis com a Amazon DataZone:

Nó do conjunto de dados: esse tipo de nó inclui informações de linhagem de dados sobre um ativo de dados específico.
- Os nós do conjunto de dados que incluem informações sobre os ativos do AWS Glue ou do Amazon Redshift publicados no catálogo da DataZone Amazon são gerados automaticamente e incluem um ícone correspondente do AWS Glue ou do Amazon Redshift dentro do nó.
- Os nós do conjunto de dados que incluem informações sobre ativos que não estão publicados no DataZone catálogo da Amazon são criados manualmente por administradores de domínio (produtores) e são representados por um ícone de ativo personalizado padrão dentro do nó.
Nó de trabalho (execução): esse tipo de nó exibe os detalhes do trabalho, incluindo a última execução de um trabalho específico e os detalhes da execução. Esse nó também captura várias execuções do trabalho e pode ser visualizado na guia Histórico dos detalhes do nó. Você pode visualizar os detalhes do nó escolhendo o ícone do nó.

Atributos principais em nós de linhagem

O atributo sourceIdentifier em um nó de linhagem representa os eventos que acontecem em um conjunto de dados. O sourceIdentifier do nó da linhagem é o identificador do conjunto de dados (table/view etc). É usado para aplicar exclusividade nos nós da linhagem. Por exemplo, não pode haver dois nós de linhagem com o mesmo sourceIdentifier. Veja a seguir exemplos de valores de sourceIdentifier para diferentes tipos de nós:

Para o nó do conjunto de dados com o respectivo tipo de conjunto de dados:
- Ativo: amazon.datazone.asset/<assetId>
- Listagem (ativo publicado): amazon.datazone.listing/<listingId>
- AWS <region><account-id><database>Tabela de cola: arn:aws:glue: ::table//<table-name>
- <account-id><database><schema>Amazon Redshift table/view: arn:aws: < redshift/redshift -serverless>::: <table-type (etc) >/< >//<region>/table/viewclusterIdentifier/workgroupName<table-name>
- Para qualquer outro tipo de nós de conjunto de dados importados usando eventos de execução de linhagem aberta,<namespace>/<name>do input/output conjunto de dados é usado como sourceIdentifier do nó.
Para trabalhos:
- Para nós de trabalho importados usando eventos de execução de linhagem aberta, <jobs_namespace>.<job_name> é usado como sourceIdentifier.
Para execuções de trabalhos:
- Para nós de execução de trabalho importados usando eventos de execução de linhagem aberta, <jobs_namespace>.<job_name>/<run_id> é usado como sourceIdentifier.

Para ativos criados usando a API createAsset, o sourceIdentifier deve ser atualizado usando a APIcreateAssetRevision para permitir o mapeamento do ativo para recursos upstream.

Como visualizar a linhagem de dados

A página DataZone de detalhes dos ativos da Amazon fornece uma representação gráfica da linhagem de dados, facilitando a visualização das relações de dados a montante ou a jusante. A página de detalhes do ativo fornece os seguintes recursos para navegar no gráfico:

Column-level linhagem: expanda a linhagem em nível de coluna quando disponível nos nós do conjunto de dados. Isso mostra automaticamente os relacionamentos com os nós do conjunto de dados anterior ou posterior se as informações da coluna de origem estiverem disponíveis.
Pesquisa de coluna: quando a exibição padrão do número de colunas é 10. Se houver mais de 10 colunas, a paginação será ativada para navegar até o restante das colunas. Para visualizar rapidamente uma coluna específica, você pode pesquisar no nó do conjunto de dados que lista apenas a coluna pesquisada.
Visualizar somente nós do conjunto de dados: se você quiser alternar para visualizar somente os nós da linhagem do conjunto de dados e filtrar os nós do trabalho, você pode escolher o ícone de controle Abrir visualização no canto superior esquerdo do visualizador do gráfico e ativar a opção Exibir somente nós do conjunto de dados. Isso removerá todos os nós de trabalho do gráfico e permitirá que você navegue apenas pelos nós do conjunto de dados. Observe que quando os nós de visualização somente do conjunto de dados estão ativados, o gráfico não pode ser expandido para cima ou para baixo.
Painel de detalhes: cada nó de linhagem tem detalhes capturados e exibidos quando selecionado.
- O nó do conjunto de dados tem um painel de detalhes para exibir todos os detalhes capturados desse nó em um determinado carimbo de data e hora. Cada nó do conjunto de dados tem 3 guias, a saber: informações de linhagem, esquema e guia Histórico. A guia histórico lista as diferentes versões do evento de linhagem capturado para esse nó. Todos os detalhes capturados da API são exibidos usando formulários de metadados ou um visualizador JSON.
- O nó de trabalho tem um painel de detalhes para exibir detalhes do trabalho com guias, a saber: Informações do trabalho e Histórico. O painel de detalhes também captura consultas ou expressões capturadas como parte da execução do trabalho. A guia histórico lista as diferentes versões do evento de execução do trabalho capturado para esse trabalho. Todos os detalhes capturados da API são exibidos usando formulários de metadados ou um visualizador JSON.
Guias de versão: todos os nós de linhagem na linhagem de DataZone dados da Amazon têm controle de versão. Para cada nó do conjunto de dados ou nó de trabalho, as versões são capturadas como histórico e isso permite que você navegue entre as diferentes versões para identificar o que mudou ao longo do tempo. Cada versão abre uma nova guia na página da linhagem para ajudar a comparar ou contrastar.

Autorização de linhagem de dados na Amazon DataZone

Permissões de gravação — para publicar dados de linhagem na Amazon DataZone, você deve ter uma função do IAM com uma política de permissões que inclua uma ALLOW ação na PostLineageEvent API. Essa autorização do IAM acontece na camada do API Gateway.

Permissões de leitura - há duas operações: GetLineageNode e ListLineageNodeHistory que estão incluídas na política AmazonDataZoneDomainExecutionRolePolicy gerenciada e, portanto, cada usuário no DataZone domínio da Amazon pode invocá-las para percorrer o gráfico da linhagem de dados.

Experiência de amostra de linhagem de dados na Amazon DataZone

Você pode usar a experiência de amostra de linhagem de dados para pesquisar e entender a linhagem de dados na Amazon DataZone, incluindo percorrer a montante ou a jusante em seu gráfico de linhagem de dados, explorar versões e linhagem em nível de coluna.

Conclua o procedimento a seguir para testar a experiência de linhagem de dados de amostra na Amazon: DataZone

Navegue até o URL do portal de DataZone dados da Amazon e faça login usando o single sign-on (SSO) ou suas credenciais. AWS Se você for um DataZone administrador da Amazon, você pode navegar até o DataZone console da Amazon https://console.aws.amazon.com/datazonee fazer login com o Conta da AWS local onde o domínio foi criado e, em seguida, escolher Abrir portal de dados.
Escolha qualquer ativo de dados disponível para abrir a página de detalhes do ativo.
Na página de detalhes do ativo, escolha a guia Linhagem e, em seguida, passe o mouse sobre o ícone de informações e escolha Experimente a linhagem de amostra.
Na janela pop-up da linhagem de dados, escolha Comece um tour guiado pela linhagem de dados.

Nesse ponto, uma guia em tela cheia que fornece todo o espaço das informações de linhagem é exibida. O gráfico de linhagem de dados da amostra é exibido inicialmente com um nó base com 1 profundidade em cada extremidade, para cima e para baixo. Você pode expandir o gráfico para cima ou para baixo. As informações das colunas também estão disponíveis para você escolher e ver como a linhagem flui pelos nós.

Ative a linhagem de dados no console de gerenciamento

Você pode habilitar a linhagem de dados como parte da configuração dos esquemas Default Data Lake e Default Data Warehouse.

Conclua o procedimento a seguir para habilitar a linhagem de dados para o esquema da Default Data Lake.

Navegue até o DataZone console da Amazon em https://console.aws.amazon.com/datazonee faça login com as credenciais da sua conta.
Escolha Exibir domínios e escolha o domínio em que você deseja habilitar a linhagem de dados para seu DefaultDataLake blueprint.
Na página de detalhes do domínio, navegue até a guia Esquemas.
Na página de detalhes do DefaultDataLake blueprint, escolha a guia Regiões.
Você pode ativar a linhagem de dados como parte da adição de uma região ao seu DefaultDataLake blueprint. Portanto, se uma região já tiver sido adicionada, mas a funcionalidade de linhagem de dados não estiver ativada (Não será exibido na coluna Importar linhagem de dados), primeiro você deverá remover essa região. Para ativar a linhagem de dados, escolha Adicionar região e, em seguida, escolha a região que você deseja adicionar e marque a caixa de seleção Habilitar importação de linhagem de dados na janela pop-up Adicionar região.

Para habilitar a linhagem de dados para seu DefaultDataWarehouse blueprint, conclua o procedimento a seguir.

Navegue até o DataZone console da Amazon em https://console.aws.amazon.com/datazonee faça login com as credenciais da sua conta.
Escolha Exibir domínios e escolha o domínio em que você deseja habilitar a linhagem de dados para seu DefaultDataWarehouse blueprint.
Na página de detalhes do domínio, navegue até a guia Esquemas.
Na página de detalhes do DefaultDataWarehouse blueprint, escolha a guia Conjuntos de parâmetros.
Você pode ativar a linhagem de dados como parte da adição de um conjunto de parâmetros ao seu DefaultDataWarehouse blueprint. Escolha Criar conjunto de parâmetros.
Na página Criar conjunto de parâmetros, especifique o seguinte e escolha Criar conjunto de parâmetros.
- Nome do conjunto de parâmetros.
- Descrição do conjunto de parâmetros.
- AWS Região em que você deseja criar ambientes.
- Especifique se a Amazon DataZone deve usar esses parâmetros para estabelecer uma conexão com seu cluster do Amazon Redshift ou grupo de trabalho sem servidor.
- Especifique um AWS segredo.
- Especifique um cluster ou grupo de trabalho sem servidor que você deseja usar ao criar ambientes.
- Especifique o nome do banco de dados (no cluster ou grupo de trabalho que você indicou) que deseja usar ao criar ambientes.
- Em Importar linhagem de dados, marque a opção Habilitar importação de linhagem de dados.

Usando a linhagem de DataZone dados da Amazon de forma programática

Para usar a funcionalidade de linhagem de dados na Amazon DataZone, você pode invocar as seguintes APIs:

Automatize a linhagem para o AWS Catálogo Glue

Quando os bancos de dados e tabelas do AWS Glue são adicionados ao DataZone catálogo da Amazon, a extração da linhagem é automatizada para essas tabelas usando execuções de fontes de dados. Há algumas maneiras pelas quais a linhagem é automatizada para essa fonte:

Configuração do esquema: os administradores que configuram os esquemas podem configurá-los para capturar a linhagem automaticamente. Essa ação permite que os administradores definam quais fontes de dados são importantes para a captura da linhagem, em vez de depender da catalogação dos dados pelos produtores de dados. Para obter mais informações, consulte Ative a linhagem de dados no console de gerenciamento.
Configuração da fonte de dados - os produtores de dados, ao configurarem as execuções das fontes de dados para os bancos de dados AWS Glue, recebem uma visão junto com a Qualidade de Dados para informar sobre a linhagem de dados automatizada dessa fonte de dados.
- A configuração da linhagem pode ser visualizada na guia Definição da fonte de dados. Esse valor não é editável pelos produtores de dados.
- A coleção de linhagem na execução da fonte de dados busca informações dos metadados da tabela para criar a linhagem. AWS O Glue Crawler suporta diferentes tipos de fontes e as fontes cujas linhagens são capturadas como parte da execução da fonte de dados incluem Amazon S3, DynamoDB, Catalog, Delta Lake, tabelas Iceberg e tabelas Hudi armazenadas no Amazon S3. Atualmente, não há suporte para JDBC e DocumentDB ou MongoDB como fontes.
- Limitação: se o número de tabelas for superior a 100, a execução da linhagem falhará após 100 tabelas. Certifique-se de que o rastreador AWS Glue não esteja configurado para trazer mais de 100 tabelas em uma execução.
AWS Configuração do Glue (v5.0) — ao executar trabalhos do AWS Glue no AWS Glue Studio, a linhagem de dados pode ser configurada para que os trabalhos enviem eventos de linhagem diretamente para o domínio da Amazon. DataZone
1. Navegue até o console do AWS https://console.aws.amazon.com/gluestudio Glue em e faça login com as credenciais da sua conta.
2. Escolha trabalhos ETL e crie um novo trabalho ou clique em qualquer um dos trabalhos existentes.
3. Vá até a guia Detalhes do trabalho (incluindo o trabalho ETL Flows) e role para baixo até a seção Gerar eventos de linhagem.
4. Selecione a caixa de seleção para permitir o envio de eventos de linhagem e que se expande para exibir um campo de entrada para inserir o ID de domínio da Amazon DataZone.
AWS Configuração do notebook Glue (V5.0) - em um notebook, você pode automatizar a coleção de execuções do Spark adicionando uma mágica %%configure. Essa configuração enviará eventos para o DataZone domínio da Amazon.
```
%%configure --name project.spark -f
{
    "--conf":"spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener --conf spark.openlineage.transport.type=amazon_datazone_api --conf spark.openlineage.transport.domainId={DOMAIN_ID}  --conf spark.glue.accountId={ACCOUNT_ID} --conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION; --conf spark.glue.JOB_NAME={JOB_NAME}"
}
                    
```
A seguir estão os detalhes dos parâmetros:
- spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener- OpenLineageSparkListener será criado e registrado no barramento de ouvinte do Spark
- spark.openlineage.transport.type=amazon_datazone_api- Esta é uma OpenLineage especificação para dizer ao OpenLineage plug-in que use o transporte de DataZone API para emitir eventos de linhagem para a DataZone API. PostLineageEvent Para obter mais informações, consulte https://openlineage.io/docs/integrations/spark/configuration/spark_conf.
- spark.openlineage.transport.domainId={DOMAIN_ID}: esse parâmetro estabelece o domínio para o qual o transporte da API enviará os eventos de linhagem.
- spark.openlineage.facets.custom_environment_variables [AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;]- As seguintes variáveis de ambiente (AWS_DEFAULT_REGION , GLUE_VERSION, GLUE_COMMAND_CRITERIA e GLUE_PYTHON_VERSION), que a sessão interativa do Glue preenche, serão adicionadas ao LineageEvent
- spark.glue.accountId=<ACCOUNT_ID>: ID da conta do Glue Data Catalog em que os metadados residem. Esse ID de conta é usado para criar o Glue ARN em um evento de linhagem.
- spark.glue.JOB_NAME: nome do trabalho do evento de linhagem. O nome do trabalho no notebook pode ser definido comospark.glue.JOB_NAME: ${projectId}.${pathToNotebook}.

Configure parâmetros para configurar a comunicação com a Amazon a DataZone partir do AWS Glue

Chave de parâmetro: --conf

Valor do parâmetro:



spark.extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener 
--conf spark.openlineage.transport.type=amazon_datazone_api 
--conf spark.openlineage.transport.domainId=<DOMAIN_ID>
--conf spark.openlineage.facets.custom_environment_variables=[AWS_DEFAULT_REGION;GLUE_VERSION;GLUE_COMMAND_CRITERIA;GLUE_PYTHON_VERSION;] 
--conf spark.glue.accountId=<ACCOUNT_ID> (replace <DOMAIN_ID> and <ACCOUNT_ID> with the right values)

Para Notebooks, adicione estes parâmetros adicionais:



--conf spark.glue.JobName=<SessionId> --conf spark.glue.JobRunId=<SessionId or NONE?>
replace <SessionId> and <SessionId> with the right values

Automatize a linhagem do Amazon Redshift

Ao capturar a linhagem do serviço Amazon Redshift com a configuração do esquema do data warehouse configurada pelos administradores, a linhagem é capturada automaticamente pela Amazon. DataZone A linhagem executa consultas de captura executadas para um determinado banco de dados e gera eventos de linhagem a serem armazenados na Amazon DataZone para serem visualizados pelos produtores ou consumidores de dados quando eles acessam um ativo específico.

A linhagem pode ser automatizada usando as seguintes configurações:

Configuração do esquema: os administradores que configuram os esquemas podem configurá-los para capturar a linhagem automaticamente. Isso permite que os administradores definam quais fontes de dados são importantes para a captura da linhagem, em vez de depender da catalogação dos dados pelos produtores de dados. Para configurar, acesse Ative a linhagem de dados no console de gerenciamento.
Configuração da fonte de dados: os produtores de dados, ao configurarem execuções de fontes de dados para bancos de dados do Amazon Redshift, recebem uma configuração automatizada de linhagem de dados para essa fonte de dados.

A configuração da linhagem pode ser visualizada na guia Definição da fonte de dados. Esse valor não é editável pelos produtores de dados.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usando aprendizado de máquina e IA generativa na Amazon DataZone

Regras de aplicação de metadados para publicação