As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Referência de tipos de regra DQDL
Esta seção fornece uma referência para cada tipo de regra compatível com o AWS Glue Data Quality.
nota
Atualmente, o DQDL não é compatível com dados de colunas aninhadas ou do tipo lista.
Os valores entre colchetes na tabela abaixo serão substituídos pelas informações fornecidas nos argumentos da regra.
As regras normalmente exigem um argumento adicional para expressão.
Ruletype | Descrição | Argumentos | Métricas reportadas | Compatível como regra? | Compatível como analisador? | Retorna resultados em nível de linha? | Compatível com regras dinâmicas? | Gera observações | Compatível com sintaxe da cláusula Where? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | Verifica se há correspondência entre dois conjuntos de dados comparando as métricas resumidas, como o valor total das vendas. Útil para instituições financeiras compararem se todos os dados são ingeridos dos sistemas de origem. | Uma ou mais agregações |
Quando os nomes da primeira e da segunda coluna de agregação coincidem:
Quando os nomes da primeira e da segunda coluna de agregação divergem:
|
Sim | Não | Não | Não | Não | Não |
AllStatistics | Analisador independente para coletar diversas métricas para a coluna fornecida em um conjunto de dados. | Um único nome de coluna |
Para as colunas de todos os tipos:
Métricas adicionais para colunas com valor de string:
Métricas adicionais para colunas com valor numérico:
|
Não | Sim | Não | Não | Não | Não |
ColumnCorrelation | Verifica em que medida duas colunas estão correlacionadas. | Exatamente dois nomes de coluna | Multicolumn.[Column1,Column2].ColumnCorrelation |
Sim | Sim | Não | Sim | Não | Sim |
ColumnCount | Verifica se alguma coluna foi descartada. | Nenhum | Dataset.*.ColumnCount |
Sim | Sim | Não | Sim | Sim | Não |
ColumnDataType | Verifica se uma coluna é compatível com um tipo de dados. | Exatamente um nome de coluna | Column.[Column].ColumnDataType.Compliance |
Sim | Não | Não | Sim, na expressão de limite em nível de linha | Não | Sim |
ColumnExists | Verifica se existem colunas em um conjunto de dados. Isso permite que os clientes criem plataformas de dados de autoatendimento para garantir que determinadas colunas sejam disponibilizadas. | Exatamente um nome de coluna | N/D | Sim | Não | Não | Não | Não | Não |
ColumnLength | Verifica se o comprimento dos dados é consistente. | Exatamente um nome de coluna |
Métrica adicional quando o limite de nível de linha é fornecido:
|
Sim | Sim | Sim, quando o limite de nível de linha é fornecido | Não | Sim. Gera apenas observações ao analisar o comprimento mínimo e máximo | Sim |
ColumnNamesMatchPattern | Verifica se os nomes das colunas correspondem a padrões definidos. Útil para equipes de governança imporem consistência nos nomes das colunas. | Um regex para nomes de colunas | Dataset.*.ColumnNamesPatternMatchRatio |
Sim | Não | Não | Não | Não | Não |
ColumnValues | Verifica se os dados são consistentes de acordo com os valores definidos. Essa regra é compatível com expressões regulares. | Exatamente um nome de coluna |
Métrica adicional quando o limite de nível de linha é fornecido:
|
Sim | Sim | Sim, quando o limite de nível de linha é fornecido | Não | Sim. Gera apenas observações ao analisar valores mínimos e máximos | Sim |
Completeness | Verifica se há espaços em branco ou nulos nos dados. | Exatamente um nome de coluna |
|
Sim | Sim | Sim | Sim | Sim | Sim |
CustomSql | Os clientes podem implementar praticamente qualquer tipo de verificação de qualidade de dados em SQL. |
Uma instrução SQL (Opcional) Um limite em nível de linha |
Métrica adicional quando o limite de nível de linha é fornecido:
|
Sim | Não | Sim, quando o limite de nível de linha é fornecido | Sim | Não | Não |
DataFreshness | Verifica se os dados estão atualizados. | Exatamente um nome de coluna | Column.[Column].DataFreshness.Compliance |
Sim | Não | Sim | Não | Não | Sim |
DatasetMatch | Compara dois conjuntos de dados e identifica se eles estão sincronizados. |
Nome de um conjunto de dados de referência Um mapeamento de colunas (Opcional) Colunas para verificar as correspondências |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
Sim | Não | Sim | Sim | Não | Não |
DistinctValuesCount | Verifica a existência de valores duplicados. | Exatamente um nome de coluna | Column.[Column].DistinctValuesCount |
Sim | Sim | Sim | Sim | Sim | Sim |
DetectAnomalies | Verifica anomalias nas métricas relatadas de outro tipo de regra. | Um tipo de regra | Métricas relatadas pelo argumento do tipo de regra | Sim | Não | Não | Não | Não | Não |
Entropia | Verifica a entropia dos dados. | Exatamente um nome de coluna | Column.[Column].Entropy |
Sim | Sim | Não | Sim | Não | Sim |
IsComplete | Verifica se 100% dos dados estão completos. | Exatamente um nome de coluna | Column.[Column].Completeness |
Sim | Não | Sim | Não | Não | Sim |
IsPrimaryKey | Verifica se uma coluna é uma chave primária (não NULA e exclusiva). | Exatamente um nome de coluna |
Para colunas únicas:
Para várias colunas:
|
Sim | Não | Sim | Não | Não | Sim |
IsUnique | Verifica se 100% dos dados estão exclusivos. | Exatamente um nome de coluna | Column.[Column].Uniqueness |
Sim | Não | Sim | Não | Não | Sim |
Média | Verifica se a média atende ao limite definido. | Exatamente um nome de coluna | Column.[Column].Mean |
Sim | Sim | Sim | Sim | Não | Sim |
ReferentialIntegrity | Verifica se dois conjuntos de dados têm integridade referencial. |
Um ou mais nomes de coluna do conjunto de dados Um ou mais nomes de coluna do conjunto de dados de referência |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
Sim | Não | Sim | Sim | Não | Não |
RowCount | Verifica se a contagem de registros atende a um limite. | Nenhum | Dataset.*.RowCount |
Sim | Sim | Não | Sim | Sim | Sim |
RowCountMatch | Verifica se há correspondência nas contagens de registros entre dois conjuntos de dados. | Alias do conjunto de dados de referência | Dataset.[ReferenceDatasetAlias].RowCountMatch |
Sim | Não | Não | Sim | Não | Não |
StandardDeviation | Verifica se o desvio padrão atende ao limite. | Exatamente um nome de coluna | Column.[Column].StandardDeviation |
Sim | Sim | Sim | Sim | Não | Sim |
SchemaMatch | Verifica se há correspondência de esquema entre dois conjuntos de dados. | Alias do conjunto de dados de referência | Dataset.[ReferenceDatasetAlias].SchemaMatch |
Sim | Não | Não | Sim | Não | Não |
Soma | Verifica se a soma atende ao limite definido. | Exatamente um nome de coluna | Column.[Column].Sum |
Sim | Sim | Não | Sim | Não | Sim |
Exclusividade | Verifica se a exclusividade do conjunto de dados atende ao limite. | Exatamente um nome de coluna | Column.[Column].Uniqueness |
Sim | Sim | Sim | Sim | Não | Sim |
UniqueValueRatio | Verifica se a razão de valores exclusivos atende ao limite. | Exatamente um nome de coluna | Column.[Column].UniqueValueRatio |
Sim | Sim | Sim | Sim | Não | Sim |
Tópicos
- AggregateMatch
- ColumnCorrelation
- ColumnCount
- ColumnDataType
- ColumnExists
- ColumnLength
- ColumnNamesMatchPattern
- ColumnValues
- Completeness
- CustomSQL
- DataFreshness
- DatasetMatch
- DistinctValuesCount
- Entropia
- IsComplete
- IsPrimaryKey
- IsUnique
- Média
- ReferentialIntegrity
- RowCount
- RowCountMatch
- StandardDeviation
- Sum
- SchemaMatch
- Exclusividade
- UniqueValueRatio
- DetectAnomalies