Crie e execute uma fonte de DataZone dados da Amazon para o AWS Glue Data Catalog - Amazon DataZone

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crie e execute uma fonte de DataZone dados da Amazon para o AWS Glue Data Catalog

Na Amazon DataZone, você pode criar uma fonte de AWS Glue Data Catalog dados para importar metadados técnicos das tabelas do banco de dados. AWS Glue Para adicionar uma fonte de dados para o AWS Glue Data Catalog, o banco de dados de origem já deve existir em AWS Glue.

Ao criar e executar uma fonte de AWS Glue dados, você adiciona ativos do AWS Glue banco de dados de origem ao inventário do seu DataZone projeto na Amazon. Você pode executar suas fontes de AWS Glue dados em um cronograma definido ou sob demanda para criar ou atualizar os metadados técnicos de seus ativos. Durante a execução da fonte de dados, você pode optar por publicar seus ativos no DataZone catálogo da Amazon e, assim, torná-los detectáveis por todos os usuários do domínio. Você também pode publicar os ativos do inventário do projeto depois de editar os metadados comerciais. Os usuários do domínio podem pesquisar e descobrir seus ativos publicados e solicitar assinaturas desses ativos.

Para adicionar uma fonte AWS Glue de dados
  1. Navegue até o URL do portal de DataZone dados da Amazon e faça login usando o single sign-on (SSO) ou suas credenciais. AWS Se você for DataZone administrador da Amazon, poderá navegar até o DataZone console da Amazon em https://console.aws.amazon.com/datazone e fazer login com o Conta da AWS local onde o domínio foi criado e, em seguida, escolher Open data portal.

  2. Escolha Selecionar projeto no painel de navegação superior e selecione o projeto ao qual você deseja adicionar a fonte de dados.

  3. Navegue até a guia Dados do projeto.

  4. No painel de navegação esquerdo, escolha Fontes de dados e, em seguida, Criar fonte de dados.

  5. Configure os campos a seguir.

    • Nome: O nome da fonte de dados.

    • Descrição: a descrição da fonte de dados.

  6. Em Tipo de fonte de dados, escolha AWS Glue.

  7. Em Selecionar um ambiente, especifique um ambiente no qual publicar as AWS Glue tabelas.

  8. Em Seleção de dados, forneça um AWS Glue banco de dados e insira seus critérios de seleção de tabela. Por exemplo, se você escolher Incluir e inserir *corporate, o banco de dados incluirá todas as tabelas de origem que terminam com a palavra corporate.

    Você pode escolher um AWS Glue banco de dados no menu suspenso ou digitar o nome do banco de dados. O menu suspenso inclui dois bancos de dados: o banco de dados de publicação e o banco de dados de assinaturas do ambiente. Se você quiser trazer ativos de um banco de dados que não foi criado pelo ambiente, digite o nome do banco de dados em vez de selecioná-lo no menu suspenso.

    Você pode adicionar várias regras de inclusão e exclusão para tabelas em um único banco de dados. Você também pode adicionar vários bancos de dados usando o botão Adicionar outro banco de dados.

  9. Em Qualidade dos dados, você pode escolher Habilitar a qualidade dos dados para essa fonte de dados. Se você fizer isso, a Amazon DataZone importará sua saída existente de qualidade de dados do AWS Glue para o seu DataZone catálogo da Amazon. Por padrão, a Amazon DataZone importa os 100 relatórios de qualidade mais recentes existentes sem data de expiração do AWS Glue.

    As métricas de qualidade de dados na Amazon DataZone ajudam você a entender a integridade e a precisão de suas fontes de dados. A Amazon DataZone extrai essas métricas de qualidade de dados do AWS Glue para fornecer contexto em um determinado momento, por exemplo, durante uma pesquisa no catálogo de dados corporativos. Os usuários de dados podem ver como as métricas de qualidade de dados mudam com o tempo para seus ativos inscritos. Os produtores de dados podem ingerir as pontuações de qualidade de dados do AWS Glue de acordo com uma programação. O catálogo de dados DataZone comerciais da Amazon também pode exibir métricas de qualidade de dados de sistemas de terceiros por meio da qualidade dos dados APIs. Para ter mais informações, consulte Qualidade de dados na Amazon DataZone

  10. Escolha Próximo.

  11. Em Configurações de publicação, escolha se os ativos podem ser imediatamente descobertos no catálogo de dados corporativos. Se você adicioná-los apenas ao inventário, poderá escolher os termos de assinatura posteriormente e publicá-los no catálogo de dados corporativos.

  12. Para Geração automática de nomes comerciais, escolha se quer gerar automaticamente metadados para ativos, conforme eles são importados da fonte.

  13. (Opcional) Para formulários de metadados, adicione formulários para definir os metadados que são coletados e salvos quando os ativos são importados para a Amazon. DataZone Para obter mais informações, consulte Crie um formulário de metadados na Amazon DataZone.

  14. Em Preferência de execução, escolha quando executar a fonte de dados.

    • Executar em uma programação: especifique as datas e a hora de execução da fonte de dados.

    • Executar sob demanda: você pode iniciar manualmente as execuções da fonte de dados.

  15. Escolha Próximo.

  16. Revise sua configuração da fonte de dados e escolha Criar.

nota

Quando uma fonte de dados do AWS Glue é criada, a Amazon DataZone cria as permissões “somente de leitura” do Lake Formation para a função IAM do ambiente que é usada para criar a fonte de dados para acessar todas as tabelas nos bancos de dados do AWS Glue usados na fonte de dados. Você pode monitorar o status dessas concessões em fontes de dados na página de detalhes do seu ambiente. A Amazon DataZone adiciona as seguintes AWS tags ao banco de dados AWS Glue ao conceder acesso à função IAM do ambiente de publicação: DataZoneDiscoverable_${domainId}: true

Para os ambientes criados antes do lançamento atual da Amazon DataZone, os membros do projeto não poderão ver as tabelas concedidas no Amazon Athena.