Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
DQDLriferimento del tipo di regola
Questa sezione riporta un riferimento per ogni tipo di regola supportato da AWS Glue Data Quality.
Nota
DQDLattualmente non supporta dati di colonna annidati o di tipo elenco.
I valori tra parentesi nella tabella seguente verranno sostituiti con le informazioni fornite negli argomenti delle regole.
Le regole richiedono in genere un argomento aggiuntivo per l'espressione.
RuleType | Descrizione | Argomenti | Metriche riportate | Supportato come regola? | Supportato come analizzatore? | Restituisce risultati a livello di riga? | Supporto per regole dinamiche? | Genera osservazioni | Supporta la sintassi della clausola Where? |
---|---|---|---|---|---|---|---|---|---|
AggregateMatch | Verifica se due set di dati corrispondono confrontando parametri di riepilogo come l'importo totale delle vendite. È utile agli istituti finanziari per confrontare se tutti i dati vengono importati dai sistemi di origine. | Una o più aggregazioni |
Quando i nomi della prima e della seconda colonna di aggregazione corrispondono:
Quando i nomi della prima e della seconda colonna di aggregazione non corrispondono:
|
Sì | No | No | No | No | No |
AllStatistics | Analizzatore autonomo per raccogliere più metriche per la colonna fornita di un set di dati. | Un nome colonna |
Per le colonne di tutti i tipi:
Metriche aggiuntive per le colonne con valori stringa:
Metriche aggiuntive per le colonne con valori numerici:
|
No | Sì | No | No | No | No |
ColumnCorrelation | Verifica il grado di correlazione tra due colonne. | Esattamente due nomi di colonne | Multicolumn.[Column1,Column2].ColumnCorrelation |
Sì | Sì | No | Sì | No | Sì |
ColumnCount | Verifica se delle colonne vengono eliminate. | Nessuno | Dataset.*.ColumnCount |
Sì | Sì | No | Sì | Sì | No |
ColumnDataType | Verifica se una colonna è conforme a un tipo di dati. | Esattamente un nome di colonna | Column.[Column].ColumnDataType.Compliance |
Sì | No | No | Sì, nell'espressione di soglia a livello di riga | No | Sì |
ColumnExists | Verifica se esistono colonne in un set di dati. Ciò consente ai clienti di creare piattaforme di dati self-service per garantire la disponibilità di determinate colonne. | Esattamente un nome di colonna | N/D | Sì | No | No | No | No | No |
ColumnLength | Verifica se la lunghezza dei dati è coerente. | Esattamente un nome di colonna |
Metrica aggiuntiva quando viene fornita la soglia a livello di riga:
|
Sì | Sì | Sì, quando viene fornita la soglia a livello di riga | No | Sì. Genera solo osservazioni analizzando la lunghezza minima e quella massima | Sì |
ColumnNamesMatchPattern | Verifica se i nomi delle colonne corrispondono ai modelli definiti. È utile ai team di governance per far rispettare la coerenza dei nomi delle colonne. | Un'espressione regolare per i nomi delle colonne | Dataset.*.ColumnNamesPatternMatchRatio |
Sì | No | No | No | No | No |
ColumnValues | Verifica se i dati sono coerenti per valori definiti. Questa regola supporta le espressioni regolari. | Esattamente un nome di colonna |
Metrica aggiuntiva quando viene fornita la soglia a livello di riga:
|
Sì | Sì | Sì, quando viene fornita la soglia a livello di riga | No | Sì. Genera solo osservazioni analizzando i valori minimi e quelli massimi | Sì |
Completezza | Verifica la presenza di eventuali dati vuoti o NULLs mancanti. | Esattamente un nome di colonna |
|
Sì | Sì | Sì | Sì | Sì | Sì |
CustomSql | I clienti possono implementare quasi tutti i tipi di controlli di qualità dei datiSQL. |
Istruzione di un SQL comunicato (Facoltativo) Una soglia a livello di riga |
Metrica aggiuntiva quando viene fornita la soglia a livello di riga:
|
Sì | No | Sì, quando viene fornita la soglia a livello di riga | Sì | No | No |
DataFreshness | Verifica se i dati sono aggiornati. | Esattamente un nome di colonna | Column.[Column].DataFreshness.Compliance |
Sì | No | Sì | No | No | Sì |
DatasetMatch | Confronta due set di dati e identifica se sono sincronizzati. |
Nome di un set di dati di riferimento Una mappatura delle colonne (Facoltativo) Colonne da controllare per cercare corrispondenze |
Dataset.[ReferenceDatasetAlias].DatasetMatch |
Sì | No | Sì | Sì | No | No |
DistinctValuesCount | Verifica la presenza di valori duplicati. | Esattamente un nome di colonna | Column.[Column].DistinctValuesCount |
Sì | Sì | Sì | Sì | Sì | Sì |
DetectAnomalies | Verifica la presenza di anomalie nelle metriche riportate di un altro tipo di regola. | Un tipo di regola | Metriche riportate dall'argomento del tipo di regola | Sì | No | No | No | No | No |
Entropia | Verifica l'entropia dei dati. | Esattamente un nome di colonna | Column.[Column].Entropy |
Sì | Sì | No | Sì | No | Sì |
IsComplete | Verifica se il 100% dei dati è completo. | Esattamente un nome di colonna | Column.[Column].Completeness |
Sì | No | Sì | No | No | Sì |
IsPrimaryKey | Verifica se una colonna è una chiave primaria (non NULL univoca). | Esattamente un nome di colonna |
Per colonna singola:
Per più colonne:
|
Sì | No | Sì | No | No | Sì |
IsUnique | Verifica se il 100% dei dati è univoco. | Esattamente un nome di colonna | Column.[Column].Uniqueness |
Sì | No | Sì | No | No | Sì |
Media | Verifica se la media corrisponde alla soglia impostata. | Esattamente un nome di colonna | Column.[Column].Mean |
Sì | Sì | Sì | Sì | No | Sì |
ReferentialIntegrity | Verifica se due set di dati hanno un'integrità referenziale. |
Uno o più nomi di colonne dal set di dati Uno o più nomi di colonne dal set di dati di riferimento |
Column.[ReferenceDatasetAlias].ReferentialIntegrity |
Sì | No | Sì | Sì | No | No |
RowCount | Verifica se il conteggio dei record corrisponde a una soglia. | Nessuno | Dataset.*.RowCount |
Sì | Sì | No | Sì | Sì | Sì |
RowCountMatch | Verifica se il conteggio dei record tra due set di dati corrisponde. | Alias del set di dati di riferimento | Dataset.[ReferenceDatasetAlias].RowCountMatch |
Sì | No | No | Sì | No | No |
StandardDeviation | Verifica se la deviazione standard corrisponde alla soglia. | Esattamente un nome di colonna | Column.[Column].StandardDeviation |
Sì | Sì | Sì | Sì | No | Sì |
SchemaMatch | Verifica se il numero di record tra due set di dati corrisponde. | Alias del set di dati di riferimento | Dataset.[ReferenceDatasetAlias].SchemaMatch |
Sì | No | No | Sì | No | No |
Somma | Verifica se la somma corrisponde a una soglia impostata. | Esattamente un nome di colonna | Column.[Column].Sum |
Sì | Sì | No | Sì | No | Sì |
Univocità | Verifica se l'unicità del set di dati corrisponde alla soglia. | Esattamente un nome di colonna | Column.[Column].Uniqueness |
Sì | Sì | Sì | Sì | No | Sì |
UniqueValueRatio | Verifica se la porzione di valore univoco corrisponde alla soglia. | Esattamente un nome di colonna | Column.[Column].UniqueValueRatio |
Sì | Sì | Sì | Sì | No | Sì |
FileFreshness | Verifica se i file di Simple Storage Service (Amazon S3) sono aggiornati. | Percorso del file o della cartella e soglia. |
|
Sì | No | No | No | No | No |
FileMatch | Verifica se il contenuto del file corrisponde a un checksum o ad un altro file. Questa regola utilizza i checksum per verificare se due file sono uguali. | Percorso del file o della cartella di origine e percorso del file o della cartella di destinazione. | Non viene generata alcuna statistica. | Sì | No | No | No | No | No |
FileSize | Verifica se la dimensione di un file corrisponde a una condizione specificata. | Percorso e soglia del file o della cartella. |
|
Sì | No | No | No | No | No |
FileUniqueness | Verifica se i file sono unici utilizzando i checksum. | Percorso e soglia del file o della cartella. |
|
Sì | No | No | No | No | No |
Argomenti
- AggregateMatch
- ColumnCorrelation
- ColumnCount
- ColumnDataType
- ColumnExists
- ColumnLength
- ColumnNamesMatchPattern
- ColumnValues
- Completezza
- Personalizzato SQL
- DataFreshness
- DatasetMatch
- DistinctValuesCount
- Entropia
- IsComplete
- IsPrimaryKey
- IsUnique
- Media
- ReferentialIntegrity
- RowCount
- RowCountMatch
- StandardDeviation
- Somma
- SchemaMatch
- Univocità
- UniqueValueRatio
- DetectAnomalies
- FileFreshness
- FileMatch
- FileUniqueness
- FileSize