Trovare corrispondenze incrementali - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Trovare corrispondenze incrementali

La caratteristica FindMatches permette di identificare registri duplicati o corrispondenti nel set di dati, anche quando i registri non dispongono di un identificatore univoco comune e nessun campo corrisponde esattamente. La versione iniziale di Trova corrispondenze trasforma i registri corrispondenti identificati all'interno di un singolo set di dati. Quando si aggiungono nuovi dati al set, avrai già dovuto unirli con il set di dati pulito esistente e rieseguire la corrispondenza con il set di dati unito completo.

La funzione di corrispondenza incrementale semplifica la corrispondenza con i registri incrementali rispetto ai set di dati corrispondenti esistenti. Supponiamo che desideri abbinare i dati dei potenziali clienti con i set di dati esistenti dei clienti. La funzionalità di corrispondenza incrementale offre la flessibilità necessaria per abbinare centinaia di migliaia di nuovi prospect con un database esistente di prospect e potenziali clienti combinando i risultati in un unico database o tabella. Corrispondendo solo tra i set di dati nuovi ed esistenti, l'ottimizzazione delle corrispondenze incrementali di ricerca riduce i tempi di calcolo, riducendo anche i costi.

L'uso della corrispondenza incrementale è simile a Trova corrispondenze come descritto in Tutorial: creazione di una trasformazione basata su machine learning con AWS Glue. Questo argomento identifica solo le differenze con la corrispondenza incrementale.

Per ulteriori informazioni, leggi il post del blog su Corrispondenza incrementale dei dati.

Esecuzione di un processo di corrispondenza incrementale

Per la seguente procedura, supponiamo quanto segue:

  • Hai eseguito il crawling del set di dati esistente nella tabella first_records. Il set di dati first_records deve essere un set di dati corrispondente o l'output del processo corrispondente.

  • Hai creato e addestrato una trasformazione Find matches (Trova corrispondenze) con AWS Glue Glue versione 2.0. Questa è l'unica versione di AWS Glue che supporti le corrispondenze incrementali.

  • Il linguaggio ETL è Scala. Si noti che anche Python è supportato.

  • Il modello già generato viene chiamato demo-xform.

  1. Esegui la scansione del set di dati incrementale nella tabella second_records.

  2. Nel riquadro di navigazione della console di AWS Glue, scegliere Jobs (Processi).

  3. Scegliere Add job (Aggiungi processo) e seguire la procedura guidata per creare un processo ETL Spark con uno script generato. Per le proprietà della trasformazione scegliere i seguenti valori:

    1. Per Name (Nome), scegli demo-etl.

    2. Alla voce IAM role (Ruolo IAM), scegli un ruolo IAM che disponga delle autorizzazioni per accedere ai dati di origine su Amazon S3, ai file di etichettatura dei dati e alle operazioni API di AWS Glue.

    3. Alla voce ETL language (Linguaggio ETL) scegli Scala.

    4. Come Script file name (Nome del file di script), scegli demo-etl. Questo è il nome del file dello script Scala.

    5. Per Data source (Origine dati), scegli first_records. L'origine dati scelta deve corrispondere allo schema dell'origine dati della trasformazione basata su machine learning.

    6. Alla voce Transform type (Tipo di trasformazione), scegliere Find matching records (Individuazione record corrispondenti) per creare un processo che utilizza una trasformazione basata su machine learning.

    7. Seleziona l'opzione di corrispondenza incrementale e per Data source (Origine dati) seleziona la tabella denominata second_records.

    8. Alla voce Transform (Trasformazione), scegli demo-xform, la trasformazione basata su machine learning utilizzata del processo.

    9. Scegli Create tables in your data target (Crea tabelle nella tua destinazione di dati) o Use tables in the catalogo dati and update your data target (Usa tabelle nel catalogo dati e aggiorna la destinazione dati).

  4. Scegliere Save job and edit script (Salva processo e modifica script) per visualizzare la pagina dell'editor dello script.

  5. Scegliere Run job (Esegui processo) per avviare l'esecuzione del processo.