Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Utilizzo delle trasformazioni basate su machine learning

Modalità Focus
Utilizzo delle trasformazioni basate su machine learning - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Puoi utilizzarle AWS Glue per creare trasformazioni di machine learning personalizzate che possono essere utilizzate per pulire i dati. È possibile creare queste trasformazioni al momento della creazione di un processo nella console di AWS Glue .

Per informazioni su come creare una trasformazione basata su machine learning, consultare Corrispondenza dei record con FindMatches AWS Lake Formation.

Proprietà della trasformazione

Per visualizzare una trasformazione basata su machine learning esistente AWS Management Console, accedere alla e aprire AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/. Nel pannello di navigazione sotto Integrazione dati e ETL scegli Strumenti di classificazione dei dati > Corrispondenza dei record.

Le proprietà di ogni trasformazione:

Nome trasformazione

Il nome univoco che assegnato alla trasformazione al momento della creazione.

ID

Un identificatore unico della trasformazione.

Numero delle etichette

Il numero di etichette nel file di etichettatura fornito per l'addestramento della trasformazione.

Stato

Indica se la trasformazione è Ready (Pronta) o Needs training (Ha bisogno di addestramento). Per eseguire correttamente una trasformazione basata su machine learning in un processo, questa deve trovarsi nello stato Ready (Pronta).

Creato

La data di creazione della trasformazione.

Modificato

La data dell'ultimo aggiornamento della trasformazione.

Descrizione

La descrizione fornita per la trasformazione, se ne è stata fornita una.

AWS Glue version

La versione di AWS Glue usato.

ID esecuzione

Il nome univoco che assegnato alla trasformazione al momento della creazione.

Tipo di attività

Il tipo di trasformazione basata su machine learning; ad esempio, Find matching records (Rilevamento record corrispondenti).

Stato

Indica lo stato dell'esecuzione dell'attività. Gli stati possibili comprendono:

  • Avvio in corso

  • In esecuzione

  • In arresto

  • Arrestato

  • Riuscito

  • Non riuscito

  • Timeout

Errore

Se lo stato è Non riuscito, viene visualizzato un messaggio di errore che descrive il motivo dell'errore.

Aggiunta e modifica della trasformazione basata su machine learning

È possibile visualizzare, eliminare, configurare e insegnare o ottimizzare una trasformazione su AWS Glue console. Selezionare la casella di controllo accanto alla trasformazione nell'elenco, scegliere Action (Operazione) e quindi scegliere l'operazione che si desidera eseguire.

Creazione di una nuova trasformazione ML

Per aggiungere una nuova trasformazione di machine learning, scegli Crea trasformazione. Segui le istruzioni nella procedura guidata Aggiungi crawler. Per ulteriori informazioni, consulta Corrispondenza dei record con FindMatches AWS Lake Formation.

Fase 1: Imposta le proprietà della trasformazione.

  1. Inserisci il nome e la descrizione (facoltativo).

  2. Facoltativamente, imposta la configurazione di sicurezza. Per informazioni, consulta Utilizzo della crittografia dati con le trasformazioni basate su machine learning.

  3. Facoltativamente, configura le impostazioni di esecuzione delle attività. Le impostazioni di esecuzione delle attività consentono di personalizzare la modalità di esecuzione dell'attività. Seleziona il tipo di e il numero di worker, il timeout dell'attività (in minuti), il numero di nuovi tentativi e AWS Glue versione.

  4. Facoltativamente, imposta i tag. I tag sono etichette che possono essere assegnate a una AWS risorsa. Ciascun tag è formato da una chiave e da un valore facoltativo. È possibile utilizzare i tag per cercare e filtrare la risorsa o monitorare i AWS costi.

Fase 2: Scegli la tabella e la chiave primaria.

  1. Seleziona AWS Glue Tabella e database del catalogo.

  2. Scegli una chiave primaria dalla tabella selezionata. La colonna della chiave primaria contiene in genere un identificatore univoco per ogni record nell'origine dati.

Fase 3. Seleziona le opzioni di ottimizzazione.

  1. Per Richiamo o precisione, scegli il valore di regolazione per ottimizzare la trasformazione in modo da favorire il richiamo o la precisione. Per impostazione predefinita, è selezionata l'opzione Bilanciato, ma puoi scegliere di favorire il richiamo o la precisione; puoi anche scegliere l'opzione Personalizzato e inserire un valore compreso tra 0,0 e 1,0 (inclusi).

  2. Per Costo o precisione inferiore, scegli il valore di regolazione per favorire un costo o una precisione inferiori oppure scegli Personalizzato e inserisci un valore compreso tra 0,0 e 1,0 (inclusi).

  3. Per Forza corrispondenza, scegli Forza l'output a corrispondere alle etichette se desideri addestrare la trasformazione ML forzando l'output a corrispondere alle etichette utilizzate.

Fase 4. Revisione e creazione.

  1. Esamina le opzioni per i passaggi da 1 a 3.

  2. Scegli Modifica per qualsiasi passaggio che desideri modificare. Scegli Crea trasformazione per completare la procedura guidata di creazione della trasformazione.

Utilizzo della crittografia dati con le trasformazioni basate su machine learning

Quando si aggiunge una trasformazione basata su machine learning a AWS Glue, è possibile specificare facoltativamente una configurazione di sicurezza associata all'origine dati o alla destinazione dati. Se il bucket Amazon S3 utilizzato per memorizzare i dati è crittografato con una configurazione di sicurezza, specifica la stessa configurazione di sicurezza durante la creazione della trasformazione.

È inoltre possibile scegliere di utilizzare la crittografia lato server con AWS KMS (SSE-KMS) per crittografare il modello e le etichette per impedire a persone non autorizzate di ispezionarlo. Se si sceglie questa opzione, viene richiesto di scegliere AWS KMS key per nome, oppure puoi scegliere Enter a key ARN. Se si sceglie di inserire il ARN per la KMS chiave, viene visualizzato un secondo campo in cui è possibile inserire la KMS chiaveARN.

Nota

Attualmente, le trasformazioni ML che usano una chiave di crittografia personalizzata non sono supportate nelle seguenti Regioni:

  • Asia Pacifico (Osaka): ap-northeast-3

Visualizzazione dei dettagli della trasformazione

Visualizzazione delle proprietà della trasformazione

La pagina Proprietà della trasformazione include gli attributi della trasformazione. Mostra i dettagli relativi alla definizione della trasformazione, tra cui i seguenti:

  • Transform name (Nome della trasformazione) mostra il nome della trasformazione.

  • Tipo elenca il tipo della trasformazione.

  • Stato indica se la trasformazione è pronta per essere utilizzata in uno script o un processo.

  • Force output to match labels (Forza l'output affinché corrisponda alle etichette) mostra se la trasformazione esegue una forzatura affinché l'output corrisponda alle etichette indicate dall'utente.

  • La versione Spark è correlata alla AWS Glue versione che hai scelto nelle proprietà Task run durante l'aggiunta della trasformazione. AWS Glue 1.0 e Spark 2.4 sono consigliati per la maggior parte dei clienti. Per ulteriori informazioni, consulta AWS Glue Versioni.

Schede Cronologia, Stima qualità e Tag

I dettagli includono le informazioni definite al momento della creazione della trasformazione. Per visualizzare i dettagli di una trasformazione, selezionare la trasformazione nell'elenco delle Machine learning transforms (Trasformazioni basate su machine learning) e rivedere le informazioni contenute nelle seguenti schede:

  • Cronologia

  • Stima della qualità

  • Tag

Cronologia

La scheda History (Cronologia) mostra la cronologia delle esecuzioni della trasformazione. Per addestrare una trasformazione, vengono eseguiti diversi tipi di attività. Per ogni attività, i parametri di esecuzione includono:

  • Run ID è un identificatore creato da AWS Glue per ogni esecuzione di questa attività.

  • Task type (Tipo di attività) mostra il tipo di attività eseguita.

  • Status (Stato) mostra la corretta conclusione di ogni esecuzione posizionando quella più recente in cima all'elenco.

  • Errore mostra i dettagli di un messaggio di errore se l'esecuzione non riesce.

  • Start time (Orario inizio) mostra la data e l'ora (ora locale) in cui è stato avviato il processo.

  • Orario fine mostra la data e l'ora (ora locale) in cui il processo è finito.

  • Log collega ai log scritti in stdout per questa esecuzione di processo.

    Il link Log porta ad Amazon CloudWatch Logs. Qui è possibile visualizzare i dettagli sulle tabelle create in AWS Glue Data Catalog e gli eventuali errori riscontrati. Puoi gestire il periodo di conservazione dei log nella CloudWatch console. Il periodo di conservazione dei log di default è Never Expire. Per ulteriori informazioni su come modificare il periodo di conservazione, consultare Modifica del periodo di conservazione dei dati di CloudWatch log nella Guida per l'utente di Amazon CloudWatch Logs.

  • File di etichettatura mostra un link ad Amazon S3 che permette di raggiungere un file di etichettatura generato.

Stima della qualità

La scheda Estimate quality (Stima qualità) mostra i parametri utilizzati per misurare la qualità della trasformazione. Le stime vengono calcolate confrontando le previsioni di corrispondenza delle trasformazioni utilizzando un sottoinsieme di dati etichettati rispetto alle etichette fornite. Queste stime sono approssimative. Da questa scheda è possibile richiamare l'esecuzione dell'attività Estimate quality (Stima qualità).

La scheda Estimate quality (Stima qualità) mostra i parametri dell'ultima esecuzione Estimate quality (Stima qualità), incluse le seguenti proprietà:

  • Area under the Precision-Recall curve (Area sotto la curva precisione-recupero) è un singolo numero che stima il limite superiore della qualità complessiva della trasformazione. È indipendente dalla scelta del parametro precisione-recupero. Valori più elevati indicano che si dispone di un compromesso precisione-recupero migliore.

  • Precision (Precisione) stima la frequenza di correttezza della trasformazione quando prevede una corrispondenza.

  • Recall upper limit (Limite superiore recupero) stima quanto spesso la trasformazione prevede una corrispondenza in caso di effettiva presenza.

  • F1 stima l'accuratezza della trasformazione con un valore tra 0 e 1, dove 1 è la migliore precisione. Per ulteriori informazioni, consulta la voce F1 score su Wikipedia.

  • La tabella Column importance (Importanza colonna) mostra i nomi delle colonne e il punteggio di importanza per ogni colonna. L'importanza delle colonne consente di comprendere il modo in cui queste contribuiscono al modello, identificando quali colonne nei record vengono maggiormente utilizzate per la corrispondenza. Questi dati possono richiedere di aggiungere o modificare il set di etichette per aumentare o diminuire l'importanza delle colonne.

    La colonna Importance (Importanza) fornisce un punteggio numerico per ogni colonna, come decimale non maggiore di 1,0.

Per ulteriori informazioni su come comprendere le stime della qualità rispetto alla vera qualità, consultare Stime della qualità rispetto alla qualità end-to-end (true).

Per ulteriori informazioni sull'ottimizzazione della trasformazione, consultare Ottimizzazione delle trasformazioni basate su machine learning in AWS Glue.

Stime della qualità rispetto alla qualità end-to-end (true)

AWS Glue stima la qualità della trasformazione passando al modello addestrato tramite machine learning interno un certo numero di coppie di record per i quali sono state fornite delle etichette corrispondenti ma che il modello non ha mai visto in precedenza. Queste stime di qualità sono una funzione della qualità del modello addestrato tramite machine learning (che dipende dal numero di record etichettati per "addestrare" la trasformazione). Il end-to-end richiamo o true (che non viene calcolato automaticamente daML transform) è influenzato anche dal meccanismo di ML transform filtro che offre un'ampia gamma di possibili corrispondenze al modello di machine learning.

È possibile ottimizzare tale metodo di filtraggio principalmente utilizzando il cursore Costo o accuratezza inferiore. Spostando il cursore verso Accuratezza per favorire questo aspetto, il sistema esegue una ricerca più vasta e approfondita delle coppie di record che potrebbero rappresentare delle corrispondenze. Ulteriori coppie di record vengono inviate al modello di machine learning e il recupero ML transform del end-to-end o reale si avvicina al parametro di recupero stimato. Di conseguenza, le modifiche nella end-to-end qualità delle corrispondenze derivanti dalle modifiche del tradeoff costi/accuratezza non si riflettono in genere nella stima della qualità.

Tag

I tag sono etichette che possono essere assegnate a una AWS risorsa. Ciascun tag è formato da una chiave e da un valore facoltativo. È possibile utilizzare i tag per cercare e filtrare la risorsa o monitorare i AWS costi.

Insegnamento delle trasformazioni utilizzando le etichette

È possibile insegnare la trasformazione ML tramite le etichette (esempi) scegliendo Insegna la trasformazione dalla pagina dei dettagli della trasformazione ML. Quando addestri l'algoritmo di machine learning fornendo esempi (chiamati etichette), puoi scegliere etichette esistenti da utilizzare o creare un file di etichettatura.

La schermata mostra una schermata della procedura guidata per Insegnare la trasformazione utilizzando le etichette.
  • Etichettatura: se hai delle etichette, scegli Ho delle etichette. Se non disponi di etichette, puoi comunque proseguire con il passaggio successivo per generare un file di etichettatura.

  • Genera un file di etichettatura — AWS Glue estrae i record dai dati di origine e suggerisce potenziali record corrispondenti. Scegli il bucket Amazon S3 per archiviare il file di etichette generato. Scegli Genera file di etichettatura per avviare il processo. Al termine, scegli Scarica il file di etichettatura. Il file scaricato avrà una colonna per le etichette in cui potrai inserire le etichette.

  • Carica etichette da Amazon S3: scegli il file di etichettatura completo dal bucket Amazon S3 in cui è archiviato il file di etichette. Quindi, scegli se aggiungere le etichette alle etichette esistenti o sovrascriverle. Scegli Carica file di etichettatura da Amazon S3.

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.