DQDLriferimento del tipo di regola - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

DQDLriferimento del tipo di regola

Questa sezione riporta un riferimento per ogni tipo di regola supportato da AWS Glue Data Quality.

Nota
  • DQDLattualmente non supporta dati di colonna annidati o di tipo elenco.

  • I valori tra parentesi nella tabella seguente verranno sostituiti con le informazioni fornite negli argomenti delle regole.

  • Le regole richiedono in genere un argomento aggiuntivo per l'espressione.

RuleType Descrizione Argomenti Metriche riportate Supportato come regola? Supportato come analizzatore? Restituisce risultati a livello di riga? Supporto per regole dinamiche? Genera osservazioni Supporta la sintassi della clausola Where?
AggregateMatch Verifica se due set di dati corrispondono confrontando parametri di riepilogo come l'importo totale delle vendite. È utile agli istituti finanziari per confrontare se tutti i dati vengono importati dai sistemi di origine. Una o più aggregazioni

Quando i nomi della prima e della seconda colonna di aggregazione corrispondono:

Column.[Column].AggregateMatch

Quando i nomi della prima e della seconda colonna di aggregazione non corrispondono:

Column.[Column1,Column2].AggregateMatch

No No No No No
AllStatistics Analizzatore autonomo per raccogliere più metriche per la colonna fornita di un set di dati. Un nome colonna

Per le colonne di tutti i tipi:

Dataset.*.RowCount

Column.[Column].Completeness

Column.[Column].Uniqueness

Metriche aggiuntive per le colonne con valori stringa:

ColumnLength metrics

Metriche aggiuntive per le colonne con valori numerici:

ColumnValues metrics

No No No No No
ColumnCorrelation Verifica il grado di correlazione tra due colonne. Esattamente due nomi di colonne Multicolumn.[Column1,Column2].ColumnCorrelation No No
ColumnCount Verifica se delle colonne vengono eliminate. Nessuno Dataset.*.ColumnCount No No
ColumnDataType Verifica se una colonna è conforme a un tipo di dati. Esattamente un nome di colonna Column.[Column].ColumnDataType.Compliance No No Sì, nell'espressione di soglia a livello di riga No
ColumnExists Verifica se esistono colonne in un set di dati. Ciò consente ai clienti di creare piattaforme di dati self-service per garantire la disponibilità di determinate colonne. Esattamente un nome di colonna N/D No No No No No
ColumnLength Verifica se la lunghezza dei dati è coerente. Esattamente un nome di colonna

Column.[Column].MaximumLength

Column.[Column].MinimumLength

Metrica aggiuntiva quando viene fornita la soglia a livello di riga:

Column.[Column].ColumnValues.Compliance

Sì, quando viene fornita la soglia a livello di riga No Sì. Genera solo osservazioni analizzando la lunghezza minima e quella massima
ColumnNamesMatchPattern Verifica se i nomi delle colonne corrispondono ai modelli definiti. È utile ai team di governance per far rispettare la coerenza dei nomi delle colonne. Un'espressione regolare per i nomi delle colonne Dataset.*.ColumnNamesPatternMatchRatio No No No No No
ColumnValues Verifica se i dati sono coerenti per valori definiti. Questa regola supporta le espressioni regolari. Esattamente un nome di colonna

Column.[Column].Maximum

Column.[Column].Minimum

Metrica aggiuntiva quando viene fornita la soglia a livello di riga:

Column.[Column].ColumnValues.Compliance

Sì, quando viene fornita la soglia a livello di riga No Sì. Genera solo osservazioni analizzando i valori minimi e quelli massimi
Completezza Verifica la presenza di eventuali dati vuoti o NULLs mancanti. Esattamente un nome di colonna

Column.[Column].Completeness

CustomSql I clienti possono implementare quasi tutti i tipi di controlli di qualità dei datiSQL.

Istruzione di un SQL comunicato

(Facoltativo) Una soglia a livello di riga

Dataset.*.CustomSQL

Metrica aggiuntiva quando viene fornita la soglia a livello di riga:

Dataset.*.CustomSQL.Compliance

No Sì, quando viene fornita la soglia a livello di riga No No
DataFreshness Verifica se i dati sono aggiornati. Esattamente un nome di colonna Column.[Column].DataFreshness.Compliance No No No
DatasetMatch Confronta due set di dati e identifica se sono sincronizzati.

Nome di un set di dati di riferimento

Una mappatura delle colonne

(Facoltativo) Colonne da controllare per cercare corrispondenze

Dataset.[ReferenceDatasetAlias].DatasetMatch No No No
DistinctValuesCount Verifica la presenza di valori duplicati. Esattamente un nome di colonna Column.[Column].DistinctValuesCount
DetectAnomalies Verifica la presenza di anomalie nelle metriche riportate di un altro tipo di regola. Un tipo di regola Metriche riportate dall'argomento del tipo di regola No No No No No
Entropia Verifica l'entropia dei dati. Esattamente un nome di colonna Column.[Column].Entropy No No
IsComplete Verifica se il 100% dei dati è completo. Esattamente un nome di colonna Column.[Column].Completeness No No No
IsPrimaryKey Verifica se una colonna è una chiave primaria (non NULL univoca). Esattamente un nome di colonna

Per colonna singola:

Column.[Column].Uniqueness

Per più colonne:

Multicolumn.[CommaDelimitedColumns].Uniqueness

No No No
IsUnique Verifica se il 100% dei dati è univoco. Esattamente un nome di colonna Column.[Column].Uniqueness No No No
Media Verifica se la media corrisponde alla soglia impostata. Esattamente un nome di colonna Column.[Column].Mean No
ReferentialIntegrity Verifica se due set di dati hanno un'integrità referenziale.

Uno o più nomi di colonne dal set di dati

Uno o più nomi di colonne dal set di dati di riferimento

Column.[ReferenceDatasetAlias].ReferentialIntegrity No No No
RowCount Verifica se il conteggio dei record corrisponde a una soglia. Nessuno Dataset.*.RowCount No
RowCountMatch Verifica se il conteggio dei record tra due set di dati corrisponde. Alias del set di dati di riferimento Dataset.[ReferenceDatasetAlias].RowCountMatch No No No No
StandardDeviation Verifica se la deviazione standard corrisponde alla soglia. Esattamente un nome di colonna Column.[Column].StandardDeviation No
SchemaMatch Verifica se il numero di record tra due set di dati corrisponde. Alias del set di dati di riferimento Dataset.[ReferenceDatasetAlias].SchemaMatch No No No No
Somma Verifica se la somma corrisponde a una soglia impostata. Esattamente un nome di colonna Column.[Column].Sum No No
Univocità Verifica se l'unicità del set di dati corrisponde alla soglia. Esattamente un nome di colonna Column.[Column].Uniqueness No
UniqueValueRatio Verifica se la porzione di valore univoco corrisponde alla soglia. Esattamente un nome di colonna Column.[Column].UniqueValueRatio No
FileFreshness Verifica se i file di Simple Storage Service (Amazon S3) sono aggiornati. Percorso del file o della cartella e soglia.

Dataset.*.FileFreshness.Compliance

Dataset.*.FileCount

No No No No No
FileMatch Verifica se il contenuto del file corrisponde a un checksum o ad un altro file. Questa regola utilizza i checksum per verificare se due file sono uguali. Percorso del file o della cartella di origine e percorso del file o della cartella di destinazione. Non viene generata alcuna statistica. No No No No No
FileSize Verifica se la dimensione di un file corrisponde a una condizione specificata. Percorso e soglia del file o della cartella.

Dataset.*.FileSize.Compliance

Dataset.*.FileCount

Dataset.*.MaximumFileSize

Dataset.*.MinimumFileSize

No No No No No
FileUniqueness Verifica se i file sono unici utilizzando i checksum. Percorso e soglia del file o della cartella.

Dataset.*.FileUniquenessRatio

Dataset.*.FileCount

No No No No No