Referência de tipos de regra DQDL - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de tipos de regra DQDL

Esta seção fornece uma referência para cada tipo de regra compatível com o AWS Glue Data Quality.

nota
  • Atualmente, o DQDL não é compatível com dados de colunas aninhadas ou do tipo lista.

  • Os valores entre colchetes na tabela abaixo serão substituídos pelas informações fornecidas nos argumentos da regra.

  • As regras normalmente exigem um argumento adicional para expressão.

Ruletype Descrição Argumentos Métricas reportadas Compatível como regra? Compatível como analisador? Retorna resultados em nível de linha? Compatível com regras dinâmicas? Gera observações Compatível com sintaxe da cláusula Where?
AggregateMatch Verifica se há correspondência entre dois conjuntos de dados comparando as métricas resumidas, como o valor total das vendas. Útil para instituições financeiras compararem se todos os dados são ingeridos dos sistemas de origem. Uma ou mais agregações

Quando os nomes da primeira e da segunda coluna de agregação coincidem:

Column.[Column].AggregateMatch

Quando os nomes da primeira e da segunda coluna de agregação divergem:

Column.[Column1,Column2].AggregateMatch

Sim Não Não Não Não Não
AllStatistics Analisador independente para coletar diversas métricas para a coluna fornecida em um conjunto de dados. Um único nome de coluna

Para as colunas de todos os tipos:

Dataset.*.RowCount

Column.[Column].Completeness

Column.[Column].Uniqueness

Métricas adicionais para colunas com valor de string:

ColumnLength metrics

Métricas adicionais para colunas com valor numérico:

ColumnValues metrics

Não Sim Não Não Não Não
ColumnCorrelation Verifica em que medida duas colunas estão correlacionadas. Exatamente dois nomes de coluna Multicolumn.[Column1,Column2].ColumnCorrelation Sim Sim Não Sim Não Sim
ColumnCount Verifica se alguma coluna foi descartada. Nenhum Dataset.*.ColumnCount Sim Sim Não Sim Sim Não
ColumnDataType Verifica se uma coluna é compatível com um tipo de dados. Exatamente um nome de coluna Column.[Column].ColumnDataType.Compliance Sim Não Não Sim, na expressão de limite em nível de linha Não Sim
ColumnExists Verifica se existem colunas em um conjunto de dados. Isso permite que os clientes criem plataformas de dados de autoatendimento para garantir que determinadas colunas sejam disponibilizadas. Exatamente um nome de coluna N/D Sim Não Não Não Não Não
ColumnLength Verifica se o comprimento dos dados é consistente. Exatamente um nome de coluna

Column.[Column].MaximumLength

Column.[Column].MinimumLength

Métrica adicional quando o limite de nível de linha é fornecido:

Column.[Column].ColumnValues.Compliance

Sim Sim Sim, quando o limite de nível de linha é fornecido Não Sim. Gera apenas observações ao analisar o comprimento mínimo e máximo Sim
ColumnNamesMatchPattern Verifica se os nomes das colunas correspondem a padrões definidos. Útil para equipes de governança imporem consistência nos nomes das colunas. Um regex para nomes de colunas Dataset.*.ColumnNamesPatternMatchRatio Sim Não Não Não Não Não
ColumnValues Verifica se os dados são consistentes de acordo com os valores definidos. Essa regra é compatível com expressões regulares. Exatamente um nome de coluna

Column.[Column].Maximum

Column.[Column].Minimum

Métrica adicional quando o limite de nível de linha é fornecido:

Column.[Column].ColumnValues.Compliance

Sim Sim Sim, quando o limite de nível de linha é fornecido Não Sim. Gera apenas observações ao analisar valores mínimos e máximos Sim
Completeness Verifica se há espaços em branco ou nulos nos dados. Exatamente um nome de coluna

Column.[Column].Completeness

Sim Sim Sim Sim Sim Sim
CustomSql Os clientes podem implementar praticamente qualquer tipo de verificação de qualidade de dados em SQL.

Uma instrução SQL

(Opcional) Um limite em nível de linha

Dataset.*.CustomSQL

Métrica adicional quando o limite de nível de linha é fornecido:

Dataset.*.CustomSQL.Compliance

Sim Não Sim, quando o limite de nível de linha é fornecido Sim Não Não
DataFreshness Verifica se os dados estão atualizados. Exatamente um nome de coluna Column.[Column].DataFreshness.Compliance Sim Não Sim Não Não Sim
DatasetMatch Compara dois conjuntos de dados e identifica se eles estão sincronizados.

Nome de um conjunto de dados de referência

Um mapeamento de colunas

(Opcional) Colunas para verificar as correspondências

Dataset.[ReferenceDatasetAlias].DatasetMatch Sim Não Sim Sim Não Não
DistinctValuesCount Verifica a existência de valores duplicados. Exatamente um nome de coluna Column.[Column].DistinctValuesCount Sim Sim Sim Sim Sim Sim
DetectAnomalies Verifica anomalias nas métricas relatadas de outro tipo de regra. Um tipo de regra Métricas relatadas pelo argumento do tipo de regra Sim Não Não Não Não Não
Entropia Verifica a entropia dos dados. Exatamente um nome de coluna Column.[Column].Entropy Sim Sim Não Sim Não Sim
IsComplete Verifica se 100% dos dados estão completos. Exatamente um nome de coluna Column.[Column].Completeness Sim Não Sim Não Não Sim
IsPrimaryKey Verifica se uma coluna é uma chave primária (não NULA e exclusiva). Exatamente um nome de coluna

Para colunas únicas:

Column.[Column].Uniqueness

Para várias colunas:

Multicolumn.[CommaDelimitedColumns].Uniqueness

Sim Não Sim Não Não Sim
IsUnique Verifica se 100% dos dados estão exclusivos. Exatamente um nome de coluna Column.[Column].Uniqueness Sim Não Sim Não Não Sim
Média Verifica se a média atende ao limite definido. Exatamente um nome de coluna Column.[Column].Mean Sim Sim Sim Sim Não Sim
ReferentialIntegrity Verifica se dois conjuntos de dados têm integridade referencial.

Um ou mais nomes de coluna do conjunto de dados

Um ou mais nomes de coluna do conjunto de dados de referência

Column.[ReferenceDatasetAlias].ReferentialIntegrity Sim Não Sim Sim Não Não
RowCount Verifica se a contagem de registros atende a um limite. Nenhum Dataset.*.RowCount Sim Sim Não Sim Sim Sim
RowCountMatch Verifica se há correspondência nas contagens de registros entre dois conjuntos de dados. Alias do conjunto de dados de referência Dataset.[ReferenceDatasetAlias].RowCountMatch Sim Não Não Sim Não Não
StandardDeviation Verifica se o desvio padrão atende ao limite. Exatamente um nome de coluna Column.[Column].StandardDeviation Sim Sim Sim Sim Não Sim
SchemaMatch Verifica se há correspondência de esquema entre dois conjuntos de dados. Alias do conjunto de dados de referência Dataset.[ReferenceDatasetAlias].SchemaMatch Sim Não Não Sim Não Não
Soma Verifica se a soma atende ao limite definido. Exatamente um nome de coluna Column.[Column].Sum Sim Sim Não Sim Não Sim
Exclusividade Verifica se a exclusividade do conjunto de dados atende ao limite. Exatamente um nome de coluna Column.[Column].Uniqueness Sim Sim Sim Sim Não Sim
UniqueValueRatio Verifica se a razão de valores exclusivos atende ao limite. Exatamente um nome de coluna Column.[Column].UniqueValueRatio Sim Sim Sim Sim Não Sim