AWS Glue Data Quality - AWS Glue

AWS Glue Data Quality

O AWS Glue Data Quality permite que você meça e monitore a qualidade dos dados para que você possa tomar decisões de negócios acertadas. Baseado na estrutura de código aberto do DeeQu, o AWS Glue Data Quality fornece uma experiência de tecnologia sem servidor gerenciada para ajudar você a avaliar e monitorar a qualidade dos dados. O AWS Glue Data Quality trabalha com Data Quality Definition Language (DQDL), que é uma linguagem específica de domínio que você usa para definir regras para o de qualidade de dados. Para saber mais sobre a DQDL e os tipos de regras compatíveis, consulte Referência de Data Quality Definition Language (DQDL).

Para detalhes adicionais sobre o produto e os preços, consulte a página de serviços do AWS Glue Data Quality.

Benefícios e principais atributos

Os benefícios e os principais atributos do AWS Glue Data Quality incluem:

  • Tecnologia sem servidor: não requer instalação, aplicação de patches nem manutenção.

  • Comece rapidamente: o AWS Glue Data Quality analisa rapidamente os dados e cria regras de qualidade de dados para você. Você pode começar com dois cliques: “Criar regras de qualidade de dados → Recomendar regras”.

  • Detectar problemas de qualidade de dados: use o machine learning (ML) para detectar anomalias e problemas de qualidade de dados difíceis de detectar.

  • Improvise as regras: começando com mais de 25 regras de DQ prontas para usar, você pode criar regras que atendam às suas necessidades específicas.

  • Avalie a qualidade e tome decisões comerciais confiáveis: depois de avaliar as regras, você obtém uma pontuação de qualidade de dados que fornece uma visão geral da integridade dos dados. Use a pontuação de qualidade de dados para tomar decisões de negócios confiáveis.

  • Concentre-se nos dados insatisfatórios: o AWS Glue Data Quality ajuda você a identificar os registros exatos que causaram a queda de suas pontuações de qualidade. Identifique-os facilmente, coloque-os em quarentena e corrija-os.

  • Pagamento conforme o uso: não há necessidade de licenças anuais para usar o AWS Glue Data Quality.

  • Sem exigência de fidelidade: o AWS Glue Data Quality é baseado no DeeQu de código aberto, permitindo que você mantenha as regras que estiver criando em uma linguagem aberta.

  • Verificações de qualidade de dados: é possível forçar verificações de qualidade de dados em pipelines de ETL do Data Catalog e do AWS Glue, o que permite gerenciar a qualidade dos dados em repouso e em trânsito.

  • Detecção de qualidade de dados baseada em ML: use o machine learning (ML) para detectar anomalias e problemas de qualidade de dados difíceis de detectar.

  • Linguagem aberta para expressar regras: garante que as regras de qualidade de dados sejam criadas de maneira consistente e simples. Os usuários corporativos podem expressar facilmente as regras de qualidade de dados em uma linguagem simples e compreensível. Para engenheiros, essa linguagem proporciona a flexibilidade de gerar código, implementar controle consistente de versão e automatizar implantações.

Como funciona

Há dois pontos de entrada para o AWS Glue Data Quality: os trabalhos de ETL do AWS Glue Data Catalog e do AWS Glue. Esta seção fornece uma visão geral dos casos de uso e dos atributos do AWS Glue compatíveis com cada ponto de entrada.

Qualidade de dados para o AWS Glue Data Catalog

O AWS Glue Data Quality avalia objetos armazenados no AWS Glue Data Catalog. Ele oferece a quem não é programador uma maneira fácil de configurar regras de qualidade de dados. Essas pessoas incluem administradores de dados e analistas de negócios.

Você pode escolher essa opção para os seguintes casos de uso:

  • Você deseja realizar tarefas de qualidade de dados em conjuntos de dados que já catalogou no AWS Glue Data Catalog.

  • Você trabalha com governança de dados e precisa identificar ou avaliar problemas de qualidade de dados no data lake de forma constante.

Você pode gerenciar a qualidade dos dados do catálogo de dados usando as seguintes interfaces:

  • O console de gerenciamento do AWS Glue

  • APIs do AWS Glue

Para começar a usar o AWS Glue Data Quality para o AWS Glue Data Catalog, consulte Introdução ao AWS Glue Data Quality para o Data Catalog.

Qualidade de dados para trabalhos de ETL do AWS Glue

O AWS Glue Data Quality para trabalhos de ETL do AWS Glue permite que você realize tarefas de qualidade de dados proativas. As tarefas proativas ajudam você a identificar e filtrar dados insatisfatórios antes de carregar um conjunto de dados no data lake.

Você pode escolher a qualidade dos dados para trabalhos de ETL para os seguintes casos de uso:

  • Você deseja incorporar tarefas de qualidade de dados nos trabalhos de ETL

  • Você deseja escrever um código que defina tarefas de qualidade de dados em scripts de ETL

  • Você quer gerenciar a qualidade dos dados que fluem pelos pipelines de dados visuais

Você pode gerenciar a qualidade dos dados para trabalhos de ETL usando as seguintes interfaces:

  • AWS Glue Studio, cadernos do AWS Glue Studio e sessões interativas do AWS Glue

  • Bibliotecas do AWS Glue para scripts ETL

  • APIs do AWS Glue

Para começar com a qualidade de dados para trabalhos de ETL, consulte Tutorial: Getting started with Data Quality no AWS Glue Studio User Guide.

Comparar a qualidade dos dados do catálogo de dados com a qualidade dos dados dos trabalhos de ETL

Esta tabela fornece uma visão geral dos atributos que cada ponto de entrada compatível com o AWS Glue Data Quality.

Atributo Qualidade dos dados para o catálogo de dados Qualidade de dados para trabalhos de ETL
Fontes de dados Amazon S3, Amazon Redshift, fontes JDBC compatíveis com o catálogo de dados e formatos de data lakes transacionais, como Apache Iceberg, Apache Hudi e Delta Lake. Observe que, se as tabelas forem gerenciadas pelo AWS Lake Formation, as tabelas Iceberg, Delta e HUDI não serão compatíveis. As visualizações do Amazon Athena que estão catalogadas no AWS Glue Data Catalog também não serão compatíveis. Todas as fontes de dados compatíveis com o AWS Glue, incluindo conectores personalizados e conectores de terceiros.
Recomendações de regras de qualidade de dados Compatível Sem compatibilidade
Criar e executar regras DQDL Compatível Compatível
Ajuste de escala automático Sem compatibilidade Compatível
Compatibilidade com o AWS Glue Flex Sem compatibilidade Compatível
Programação Compatível ao avaliar regras de qualidade de dados e por meio do Step Functions. Compatível com o uso do Step Functions e fluxos de trabalho.
Identificação de registros que falharam nas verificações de qualidade de dados Sem compatibilidade Compatível
Integração com o Amazon EventBridge Compatível Compatível
Integração com o AWS Cloudwatch Compatível Compatível
Gravar resultados de qualidade de dados no Amazon S3 Compatível Compatível
Qualidade incremental dos dados Compatível por meio dos predicados de pushdown Compatível por meio dos marcadores do AWS Glue
Compatibilidade com o AWS CloudFormation Compatível Compatível
Detecção de anomalias baseada em ML Sem compatibilidade Compatível
Regras dinâmicas Sem compatibilidade Compatível

Considerações

Considere os seguintes itens antes de usar o AWS Glue Data Quality:

  • As regras de qualidade de dados não podem avaliar fontes de dados aninhadas ou do tipo lista. Consulte Nivelar structs aninhados.

Terminologia

A tabela a seguir define os termos relacionados ao AWS Glue Data Quality.

Data Quality Definition Language (DQDL)

Uma linguagem específica de domínio que você pode usar para escrever regras do AWS Glue Data Quality.

Para saber mais sobre DQDL, consulte o guia de Referência de Data Quality Definition Language (DQDL).

qualidade de dados

Descreve em que medida um conjunto de dados atende à sua finalidade específica. AWS Glue O Data Quality avalia as regras em relação a um conjunto de dados para medir a qualidade dos dados. Cada regra verifica características específicas, como atualidade ou integridade dos dados. Para quantificar a qualidade dos dados, você pode usar uma pontuação de qualidade de dados.

pontuação de qualidade e dados

A porcentagem de regras de qualidade de dados aprovadas (resultam em verdadeiras) quando você avalia um conjunto de regras com o AWS Glue Data Quality.

regra

Uma expressão DQDL que verifica os dados em busca de uma característica específica e retorna um valor booliano. Para ter mais informações, consulte Estrutura da regra.

analisador

Uma expressão de DQDL que reúne estatísticas de dados. Um analisador reúne estatísticas de dados que podem ser usadas por algoritmos de ML para detectar anomalias e problemas de qualidade de dados difíceis de detectar ao longo do tempo.

conjunto de regras

Um recurso do AWS Glue que compreende um conjunto de regras de qualidade de dados. Um conjunto de regras deve estar associado a uma tabela no AWS Glue Data Catalog. Ao salvar um conjunto de regras, o AWS Glue atribui nome do recurso da Amazon (ARN) ao conjunto de regras.

pontuação de qualidade e dados

A porcentagem de regras de qualidade de dados aprovadas (resultam em verdadeiras) quando você avalia um conjunto de regras com o AWS Glue Data Quality.

observação

Um insight não confirmado gerado pelo AWS Glue pela análise de estatísticas de dados coletadas de regras e analisadores ao longo do tempo.

Limites

Limites de serviço do AWS Glue Data Quality:

  • Você pode ter 2.000 regras em um conjunto de regras. Se seus conjuntos de regras forem maiores, recomendamos dividi-los em vários conjuntos de regras.

  • O tamanho do conjunto de regras é 65 KB. Se seus conjuntos de regras forem maiores, recomendamos dividi-los em vários conjuntos de regras.

  • O AWS Glue Data Quality coleta estatísticas quando você cria uma regra ou um analisador. Não há custo associado ao armazenamento dessas estatísticas. No entanto, há um limite de 100.000 estatísticas por conta, e essas estatísticas serão mantidas por no máximo 2 anos.

Notas de versão do AWS Glue Data Quality

Este tópico descreve os atributos introduzidos no AWS Glue Data Quality.

Disponibilidade geral: novos atributos

Os seguintes atributos novos estão disponíveis com a disponibilidade geral do AWS Glue Data Quality:

  • A capacidade de identificar quais registros não foram aprovados nas verificações de qualidade de dados agora é compatível com o AWS Glue Studio

  • Novos tipos de regras de qualidade de dados, como validação da integridade referencial de dados entre dois conjuntos de dados, comparação de dados entre dois conjuntos de dados e verificações de tipos de dados

  • Experiência de usuário aprimorada no AWS Glue Data Catalog

  • Compatibilidade com o Apache Iceberg, o Apache Hudi e o Delta Lake

  • Compatibilidade com o Amazon Redshift

  • Notificação simplificada com o Amazon EventBridge

  • Compatibilidade com o AWS CloudFormation para criação de conjuntos de regras

  • Melhorias no performance: opção de armazenamento em cache em ETL e no AWS Glue Studio para uma performance mais rápida ao avaliar a qualidade dos dados

27 de novembro de 2023 (pré-visualização)

12 de março de 2024

26 de junho de 2024

  • Melhorias em DQDL

    • Agora, O DQDL agora é compatível com a cláusula where para que você possa filtrar dados antes de aplicar as regras do DQ

7 de agosto de 2024

  • A detecção de anomalias e as regras dinâmicas já estão disponíveis ao público

22 de novembro de 2024

6 de dezembro de 2024

  • O AWS Glue Data Quality agora oferece suporte a tabelas do Amazon SageMaker AI LakeHouse e tabelas do Iceberg, Delta e HUDI gerenciadas pelo AWS Lake Formation no Catálogo de Dados e ETL