API machine learning - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

API machine learning

L'API Machine learning descrive i tipi di dati relativi al machine learning e include le API per la creazione, l'eliminazione o l'aggiornamento di una trasformazione, oppure l'avvio dell'esecuzione di un'attività di machine learning.

Tipi di dati

TransformParameters struttura

I parametri specifici dell'algoritmo che sono associati alla trasformazione basata su machine learning.

Campi
  • TransformType. Obbligatorio: stringa UTF-8 (valori validi: FIND_MATCHES).

    Il tipo di trasformazione basata su machine learning.

    Per ulteriori informazioni sui tipi di trasformazioni basate su machine learning, consultare Creazione di trasformazioni basate su machine learning.

  • FindMatchesParameters: un oggetto FindMatchesparametri.

    I parametri dell'algoritmo di rilevamento delle corrispondenze.

EvaluationMetrics struttura

I parametri di valutazione forniscono una stima della qualità della trasformazione basata su machine learning.

Campi
  • TransformType. Obbligatorio: stringa UTF-8 (valori validi: FIND_MATCHES).

    Il tipo di trasformazione basata su machine learning.

  • FindMatchesMetrics: un oggetto FindMatchesmetriche.

    I parametri di valutazione per l'algoritmo di rilevamento delle corrispondenze.

Struttura MLTransform

Una struttura per la trasformazione basata su machine learning.

Campi
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID univoco della trasformazione generato per la trasformazione basata su machine learning. L'ID è garantito univoco e non si modifica nel tempo.

  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome definito dall'utente per la trasformazione basata su machine learning. I nomi non sono garantite come univoci e possono essere modificati in qualsiasi momento.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una testo descrittivo esteso definito dall'utente per la trasformazione basata su machine learning. Le descrizioni non sono garantite come univoche e possono essere modificate in qualsiasi momento.

  • Status: stringa UTF-8 (valori validi: NOT_READY | READY | DELETING).

    Lo stato corrente della trasformazione basata su machine learning.

  • CreatedOn: timestamp.

    Un Timestamp. La data e l'ora di creazione di questa trasformazione basata su machine learning.

  • LastModifiedOn: timestamp.

    Un Timestamp. L'ultimo istante temporale in cui questa trasformazione basata su machine learning è stata modificata.

  • InputRecordTables: una matrice di oggetti GlueTable, non superiore a 10 strutture.

    Un elenco di definizioni di AWS Glue tabella utilizzate dalla trasformazione.

  • Parameters: un oggetto TransformParameters.

    Oggetto TransformParameters. È possibile utilizzare i parametri per ottimizzare (personalizzare) il comportamento della trasformazione basata su machine learning specificando i dati da utilizzare per l'addestramento e le preferenze sui vari compromessi (ad esempio precisione vs. recupero o accuratezza vs. costo).

  • EvaluationMetrics: un oggetto EvaluationMetrics.

    Oggetto EvaluationMetrics. I parametri di valutazione forniscono una stima della qualità della trasformazione basata su machine learning.

  • LabelCount: numero (intero).

    Un identificatore di conteggio per i file di etichettatura generati da AWS Glue per questa trasformazione. Man mano che si crea una trasformazione migliore, è possibile scaricare, etichettare e caricare il file di etichettatura in modo iterativo.

  • Schema: una matrice di oggetti SchemaColumn, non superiore a 100 strutture.

    Una mappa di coppie chiave-valore che rappresenta le colonne e i tipi di dati sui quali può essere eseguita questa trasformazione. È imposto un limite massimo di 100 colonne.

  • Role: stringa UTF-8.

    Il nome o il nome della risorsa Amazon (ARN) del ruolo IAM con le autorizzazioni richieste. Le autorizzazioni richieste includono sia le autorizzazioni AWS Glue del ruolo di servizio per AWS Glue le risorse sia le autorizzazioni Amazon S3 richieste dalla trasformazione.

    • Questo ruolo richiede le autorizzazioni AWS Glue del ruolo di servizio per consentire l'accesso alle risorse in. AWS Glue Consulta Collegamento di una policy agli utenti IAM che accedono a AWS Glue.

    • Questo ruolo ha bisogno dell'autorizzazione per accedere a origini, destinazioni, cartella temporanea, script e librerie di Amazon Simple Storage Service (Amazon S3) utilizzate dall'esecuzione di questa attività di trasformazione.

  • GlueVersion: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #20.

    Questo valore determina con quale versione di AWS Glue questa trasformazione di machine learning è compatibile. Glue 1.0 è consigliata per la maggior parte dei clienti. Se il valore non è impostato, la compatibilità di Glue è impostata per default su Glue 0.9. Per ulteriori informazioni, consulta Versioni di AWS Glue nella guida per gli sviluppatori.

  • MaxCapacity: numero (doppio).

    Il numero di unità di elaborazione AWS Glue dati (DPU) assegnate alle esecuzioni delle attività per questa trasformazione. È possibile allocare da 2 a 100 DPU; l'impostazione di default è 10. Una DPU è una misura relativa della potenza di elaborazione ed è costituita da 4 vCPU di capacità di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    MaxCapacity è un'opzione mutuamente esclusiva con NumberOfWorkers e WorkerType.

    • Se NumberOfWorkers o WorkerType è impostata, MaxCapacity può essere impostata.

    • Se MaxCapacity è impostata, né NumberOfWorkersWorkerType possono essere impostate.

    • Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

    • MaxCapacity e NumberOfWorkers devono essere entrambe almeno 1.

    Quando il campo WorkerType è impostato su un valore diverso da Standard, il campo MaxCapacity è impostato automaticamente e diventa di sola lettura.

  • WorkerType: stringa UTF-8 (valori validi: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Il tipo di worker predefinito allocato al momento dell'esecuzione di un'attività di questa trasformazione. Accetta un valore Standard, G.1X o G.2X.

    • Per il tipo di worker Standard, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 50 GB e 2 esecutori.

    • Per il tipo di worker G.1X, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 64 GB e 1 esecutore.

    • Per il tipo di worker G.2X, ciascun worker fornisce 8 vCPU, 32 GB di memoria, disco da 128 GB e 1 esecutore.

    MaxCapacity è un'opzione mutuamente esclusiva con NumberOfWorkers e WorkerType.

    • Se NumberOfWorkers o WorkerType è impostata, MaxCapacity può essere impostata.

    • Se MaxCapacity è impostata, né NumberOfWorkersWorkerType possono essere impostate.

    • Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

    • MaxCapacity e NumberOfWorkers devono essere entrambe almeno 1.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di uno specifico workerType allocati al momento dell'esecuzione di un'attività della trasformazione.

    Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

  • Timeout: numero (intero), almeno 1.

    Il timeout in minuti della trasformazione basata su machine learning.

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi dopo la conclusione non corretta di un MLTaskRun della trasformazione basata su machine learning.

  • TransformEncryption: un oggetto TransformEncryption.

    Le encryption-at-rest impostazioni della trasformazione che si applicano all'accesso ai dati dell'utente. Le trasformazioni di machine learning possono accedere ai dati utente crittografati in Amazon S3 utilizzando il servizio di gestione delle chiavi.

FindMatchesParameters struttura

I parametri per configurare la trasformazione di rilevamento delle corrispondenze.

Campi
  • PrimaryKeyColumnName: stringa UTF-8, non inferiore a 1 o superiore a 1024 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome di una colonna che identifica in modo univoco le righe nella tabella di origine. Utilizzata per identificare i registri corrispondenti.

  • PrecisionRecallTradeoff: numero (doppio), non superiore a 1,0.

    Il valore selezionato durante l'ottimizzazione della trasformazione per indicare la distribuzione tra precisione e recupero. Il valore 0,5 significa nessuna preferenza; il valore 1 significa una tendenza esclusiva verso la precisione e un valore di 0 significa una tendenza al recupero. Poiché si tratta di un compromesso, la scelta di valori prossimi a 1 significa recupero molto basso mentre la scelta di valori prossimi a 0 comporta una precisione molto bassa.

    Il parametro precisione indica la frequenza con cui il modello risulta corretto quando prevede una corrispondenza.

    Il parametro recupero indica quanto spesso il modello riesce a prevedere la corrispondenza quando questa è in effetti presente.

  • AccuracyCostTradeoff – Numero (doppio), non superiore a 1,0.

    Il valore selezionato durante l'ottimizzazione della trasformazione per indicare la distribuzione tra accuratezza e costo. Il valore 0,5 significa che il sistema bilancia accuratezza e costi. Il valore 1 significa una tendenza esclusiva verso l'accuratezza, che spesso implica un costo superiore, talvolta notevolmente superiore. Il valore 0 significa una tendenza esclusiva verso il costo, che può portare a una trasformazione FindMatches meno accurata, talvolta con un livello di accuratezza inaccettabilmente basso.

    L'accuratezza misura la capacità della trasformazione di individuare veri positivi e veri negativi. L'incremento dell'accuratezza implica maggiori risorse di elaborazione e costi superiori. Tuttavia permette di raggiungere anche un livello maggiore di recupero.

    Il costo misura la quantità di risorse di elaborazione, e quindi di denaro, che viene utilizzata per eseguire la trasformazione.

  • EnforceProvidedLabels: booleano.

    Il valore che server per attivare o disattivare la forzatura dell'output affinché corrisponda alle etichette fornite dagli utenti. Se il valore è True, la trasformazione find matches forza l'output affinché corrisponda alle etichette fornite. I risultati sostituiscono i normali risultati della combinazione. Se il valore è False, la trasformazione find matches non garantisce che tutte le etichette fornite siano rispettate e i risultati si basano sul modello addestrato.

    Si noti che l'impostazione di questo valore su true può incrementare il tempo di esecuzione della combinazione.

FindMatchesMetrics struttura

I parametri di valutazione per l'algoritmo di rilevamento delle corrispondenze. La qualità della trasformazione basata su machine learning è misurato chiedendo alla trasformazione di prevedere alcune corrispondenze e confrontando i risultati con alcune corrispondenze note dello stesso set di dati. I parametri di qualità sono basati su un sottoinsieme dei dati, perciò non sono assolutamente precisi.

Campi
  • AreaUnderPRCurve – Numero (doppio), non superiore a 1,0.

    L'area sotto la curva di precisione/recupero (AUPRC) è un singolo numero che misura la qualità complessiva della trasformazione, indipendente dalla scelta effettuata tra precisione e recupero. Valori più elevati indicano che si dispone di un compromesso tra precisione e recupero più interessante.

    Per ulteriori informazioni, consulta la voce Precisione e recupero su Wikipedia.

  • Precision – Numero (doppio), non superiore a 1,0.

    Il parametro precisione indica la frequenza con cui la trasformazione risulta corretta quando prevede una corrispondenza. Nello specifico, misura la capacità della trasformazione di individuare i veri positivi rispetto al totale dei veri positivi possibili.

    Per ulteriori informazioni, consulta la voce Precisione e recupero su Wikipedia.

  • Recall – Numero (doppio), non superiore a 1,0.

    Il parametro recupero indica quanto spesso la trasformazione riesce a prevedere la corrispondenza quando questa è in effetti presente. Nello specifico, misura la capacità della trasformazione di individuare i veri positivi rispetto al totale dei registri che compongono i dati di origine.

    Per ulteriori informazioni, consulta la voce Precisione e recupero su Wikipedia.

  • F1 – Numero (doppio), non superiore a 1,0.

    Il parametro F1 massimo indica l'accuratezza della trasformazione con un valore tra 0 e 1, dove 1 è la migliore precisione.

    Per ulteriori informazioni, consulta la voce F1 score su Wikipedia.

  • ConfusionMatrix: un oggetto ConfusionMatrix.

    La matrice di confusione mostra gli elementi che la trasformazione sta predicendo in modo accurato e quali tipi di errori sta commettendo.

    Per ulteriori informazioni, consulta la voce MAtrice di confusione su Wikipedia.

  • ColumnImportances – Una serie di oggetti ColumnImportance, non superiore a 100 strutture.

    Un elenco di strutture ColumnImportance contenenti parametri sull'importanza delle colonne, ordinate in ordine di importanza decrescente.

ConfusionMatrix struttura

La matrice di confusione mostra gli elementi che la trasformazione sta predicendo in modo accurato e quali tipi di errori sta commettendo.

Per ulteriori informazioni, consulta la voce MAtrice di confusione su Wikipedia.

Campi
  • NumTruePositives: numero (lungo).

    Il numero di corrispondenze nei dati correttamente rilevate dalla trasformazione, nella matrice di confusione della trasformazione.

  • NumFalsePositives: numero (lungo).

    Il numero di mancate corrispondenze nei dati che la trasformazione ha erroneamente classificato come corrispondenza, nella matrice di confusione della trasformazione.

  • NumTrueNegatives: numero (lungo).

    Il numero di mancate corrispondenze nei dati che la trasformazione ha correttamente rifiutato, nella matrice di confusione della trasformazione.

  • NumFalseNegatives: numero (lungo).

    Il numero di corrispondenze nei dati che la trasformazione non ha rilevato, nella matrice di confusione della trasformazione.

GlueTable struttura

Il database e la AWS Glue Data Catalog tabella utilizzati per i dati di input o output.

Campi
  • DatabaseName: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome del database in AWS Glue Data Catalog.

  • TableName: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome della tabella in AWS Glue Data Catalog.

  • CatalogId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco per AWS Glue Data Catalog.

  • ConnectionName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Nome della connessione a AWS Glue Data Catalog.

  • AdditionalOptions: una matrice di mappe di coppie chiave-valore, non meno di 1 o più di 10 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Ogni valore è una stringa Description, non superiore a 2.048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Opzioni aggiuntive per la tabella. Al momento sono supportate due chiavi:

    • pushDownPredicate: filtra le partizioni senza dover elencare e leggere tutti i file nel set di dati.

    • catalogPartitionPredicate: per utilizzare l'eliminazione delle partizioni lato server utilizzando gli indici delle partizioni in AWS Glue Data Catalog.

TaskRun struttura

I parametri di campionamento associati alla trasformazione basata su machine learning.

Campi
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione.

  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco di questa esecuzione dell'attività.

  • Status: stringa UTF-8 (valori validi: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Lo stato corrente dell'esecuzione dell'attività invocata.

  • LogGroupName: stringa UTF-8.

    I nomi dei gruppi di log per la conservazione sicura dei log, associati a questa esecuzione dell'attività.

  • Properties: un oggetto TaskRunproprietà.

    Specifica le proprietà di configurazione associate a questa esecuzione dell'attività.

  • ErrorString: stringa UTF-8.

    L'elenco delle stringhe di errore associate a questa esecuzione dell'attività.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione dell'attività.

  • LastModifiedOn: timestamp.

    L'ultimo istante temporale in cui è stata modificata l'esecuzione dell'attività invocata.

  • CompletedOn: timestamp.

    L'ultimo istante temporale in cui è stata conclusa l'esecuzione dell'attività invocata.

  • ExecutionTime: numero (intero).

    Quantità di tempo (in secondi) durante la quale l'esecuzione dell'attività ha utilizzato le risorse.

TransformFilterCriteria struttura

I criteri utilizzati per filtrare la trasformazione basata su machine learning.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un nome di trasformazione univoco utilizzato per filtrare la trasformazione basata su machine learning.

  • TransformType: stringa UTF-8 (valori validi: FIND_MATCHES).

    Il tipo di trasformazione basata su machine learning utilizzata per filtrare le trasformazioni basate su machine learning.

  • Status: stringa UTF-8 (valori validi: NOT_READY | READY | DELETING).

    Filtra l'elenco delle trasformazioni basate su machine learning in base all'ultimo stato della trasformazione (per valutare se una trasformazione può essere utilizzata o meno). Uno dei valori "NOT_READY", "READY" o "DELETING".

  • GlueVersion: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #20.

    Questo valore determina con quale versione di AWS Glue questa trasformazione di machine learning è compatibile. Glue 1.0 è consigliata per la maggior parte dei clienti. Se il valore non è impostato, la compatibilità di Glue è impostata per default su Glue 0.9. Per ulteriori informazioni, consulta Versioni di AWS Glue nella guida per gli sviluppatori.

  • CreatedBefore: timestamp.

    La data e l'ora prima della quale le trasformazioni sono state create.

  • CreatedAfter: timestamp.

    La data e l'ora dopo la quale le trasformazioni sono state create.

  • LastModifiedBefore: timestamp.

    Filtra le trasformazioni la cui ultima modifica è avvenuta prima di questa data.

  • LastModifiedAfter: timestamp.

    Filtra le trasformazioni la cui ultima modifica è avvenuta dopo questa data.

  • Schema – Una serie di oggetti SchemaColumn, non superiore a 100 strutture.

    Filtra i set di dati con uno specifico schema. L'oggetto Map<Column, Type> è una matrice di coppie chiave-valore che rappresenta lo schema accettato da questa trasformazione, dove Column è il nome di una colonna e Type è il tipo di dati, ad esempio un intero o una stringa. È imposto un limite massimo di 100 colonne.

TransformSortCriteria struttura

I criteri di ordinamento associati alla trasformazione basata su machine learning.

Campi
  • Column. Obbligatorio: stringa UTF-8 (valori validi: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED).

    La colonna da utilizzare nel criterio di ordinamento associato alla trasformazione basata su machine learning.

  • SortDirection: obbligatorio: stringa UTF-8 (valori validi: DESCENDING | ASCENDING).

    Il tipo di ordinamento da utilizzare nel criterio di ordinamento associato alla trasformazione basata su machine learning.

TaskRunFilterCriteria struttura

I criteri che vengono utilizzati per filtrare le esecuzioni di attività della trasformazione basata su machine learning.

Campi
  • TaskRunType: stringa UTF-8 (valori validi: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Il tipo di esecuzione dell'attività.

  • Status: stringa UTF-8 (valori validi: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Lo stato attuale dell'esecuzione dell'attività.

  • StartedBefore: timestamp.

    Filtra le esecuzioni delle attività avviate prima di questa data.

  • StartedAfter: timestamp.

    Filtra le esecuzioni delle attività avviate dopo questa data.

TaskRunSortCriteria struttura

I criteri di ordinamento utilizzati per ordinare l'elenco delle esecuzioni delle attività della trasformazione basata su machine learning.

Campi
  • Column: obbligatorio: stringa UTF-8 (valori validi: TASK_RUN_TYPE | STATUS | STARTED).

    La colonna da usare per ordinare l'elenco delle esecuzioni delle attività della trasformazione basata su machine learning.

  • SortDirection: obbligatorio: stringa UTF-8 (valori validi: DESCENDING | ASCENDING).

    Il tipo di ordinamento da usare per ordinare l'elenco delle esecuzioni delle attività della trasformazione basata su machine learning.

TaskRunProperties struttura

Le proprietà di configurazione dell'esecuzione dell'attività.

Campi
  • TaskType: stringa UTF-8 (valori validi: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    Il tipo di esecuzione dell'attività.

  • ImportLabelsTaskRunProperties: un oggetto ImportLabelsTaskRunproprietà.

    Le proprietà di configurazione per l'esecuzione di un'attività di importazione di etichette.

  • ExportLabelsTaskRunProperties: un oggetto ExportLabelsTaskRunproprietà.

    Le proprietà di configurazione per l'esecuzione di un'attività di esportazione di etichette.

  • LabelingSetGenerationTaskRunProperties: un oggetto LabelingSetGenerationTaskRunProperties.

    Le proprietà di configurazione per l'esecuzione di un'attività di generazione di un set di etichettatura.

  • FindMatchesTaskRunProperties: un oggetto FindMatchesTaskRunproprietà.

    Le proprietà di configurazione per l'esecuzione di un'attività di rilevamento delle corrispondenze.

FindMatchesTaskRunProperties struttura

Specifica le proprietà di configurazione per l'esecuzione di un'attività di rilevamento delle corrispondenze.

Campi
  • JobId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID del processo dell'esecuzione di un'attività di rilevamento delle corrispondenze.

  • JobName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome assegnato al processo dell'esecuzione di un'attività di rilevamento delle corrispondenze.

  • JobRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID di esecuzione del processo dell'esecuzione di un'attività di rilevamento delle corrispondenze.

ImportLabelsTaskRunProperties struttura

Specifica le proprietà di configurazione per l'esecuzione di un'attività di importazione delle etichette.

Campi
  • InputS3Path: stringa UTF-8.

    Il percorso Amazon Simple Storage Service (Amazon S3) da dove saranno importate le etichette.

  • Replace: booleano.

    Indica se sovrascrivere le etichette esistenti.

ExportLabelsTaskRunProperties struttura

Specifica le proprietà di configurazione per l'esecuzione di un'attività di esportazione delle etichette.

Campi
  • OutputS3Path: stringa UTF-8.

    Il percorso Amazon Simple Storage Service (Amazon S3) dove saranno esportate le etichette.

LabelingSetGenerationTaskRunProperties struttura

Specifica le proprietà di configurazione per l'esecuzione di un'attività di generazione di un set di etichettatura.

Campi
  • OutputS3Path: stringa UTF-8.

    Il percorso Amazon Simple Storage Service (Amazon S3) dove sarà generato il set di etichettatura.

SchemaColumn struttura

Una coppia chiave-valore che rappresenta una colonna e un tipo di dati sui quali può essere eseguita questa trasformazione. Il parametro Schema di MLTransform può contenere fino a 100 di queste strutture.

Campi
  • Name: stringa UTF-8, non inferiore a 1 o superiore a 1024 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della colonna.

  • DataType: stringa UTF-8, non superiore a 131072 byte di lunghezza, corrispondente a Single-line string pattern.

    Il tipo di dati della colonna.

TransformEncryption struttura

Le encryption-at-rest impostazioni della trasformazione che si applicano all'accesso ai dati dell'utente. Le trasformazioni di machine learning possono accedere ai dati utente crittografati in Amazon S3 utilizzando il servizio di gestione delle chiavi.

Inoltre, le etichette importate e le trasformazioni addestrate possono ora essere crittografate utilizzando una chiave del servizio di gestione delle chiavi fornita dal cliente.

Campi
  • MlUserDataEncryption: un oggetto UserDataCrittografia ML.

    Un oggetto MLUserDataEncryption contenente la modalità di crittografia e l'ID chiave KMS fornito dal cliente.

  • TaskRunSecurityConfigurationName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome della configurazione di sicurezza.

UserDataEncryption Struttura ML

Le encryption-at-rest impostazioni della trasformazione che si applicano all'accesso ai dati dell'utente.

Campi
  • MlUserDataEncryptionMode: obbligatorio: stringa UTF-8 (valori validi: DISABLED | SSE-KMS="SSEKMS").

    La modalità di crittografia applicata ai dati utente. I valori validi sono:

    • DISABLED: la crittografia è disattivata

    • SSEKMS: utilizzo della crittografia lato server con AWS Key Management Service (SSE-KMS) per i dati utente archiviati in Amazon S3.

  • KmsKeyId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'ID della chiave KMS fornita dal cliente.

ColumnImportance struttura

Una struttura contenente il nome della colonna e il punteggio di importanza della colonna per una colonna.

L'importanza delle colonne consente di comprendere il modo in cui queste contribuiscono al modello, identificando quali colonne nei registri sono più importanti di altre.

Campi
  • ColumnName: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome di una colonna.

  • Importance – Numero (doppio), non superiore a 1,0.

    Punteggio di importanza per la colonna, come numero decimale.

Operazioni

Operazione CreateMLTransform (Python: create_ml_transform)

Crea una trasformazione dell'apprendimento AWS Glue automatico. Questa operazione crea la trasformazione e tutti i parametri necessari per l'addestramento.

Richiamare questa operazione come primo passo del processo di utilizzo di una trasformazione basata su machine learning (come ad esempio la trasformazione FindMatches) per la deduplicazione dei dati. È possibile fornire una Description facoltativa, nonché i parametri che si desiderano utilizzare per l'algoritmo.

È inoltre necessario specificare determinati parametri per le attività eseguite per conto dell'utente nell'ambito dell'apprendimento dai dati e della creazione di una trasformazione di apprendimento automatico di alta qualità. AWS Glue Questi parametri includono Role e, facoltativamente, AllocatedCapacity, Timeout e MaxRetries. Per ulteriori informazioni, consulta la pagina sui processi.

Richiesta
  • Name: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome univoco assegnato alla trasformazione al momento della creazione.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione della trasformazione basata su machine learning che viene definita. L'impostazione predefinita è una stringa vuota.

  • InputRecordTables: obbligatorio: una matrice di oggetti GlueTable, non superiore a 10 strutture.

    Un elenco di definizioni di AWS Glue tabella utilizzate dalla trasformazione.

  • Parameters: obbligatorio: un oggetto TransformParameters.

    I parametri algoritmici specifici per il tipo di trasformazione usata. Condizionalmente dipendenti dal tipo di trasformazione.

  • Role. Obbligatorio: stringa UTF-8.

    Il nome o il nome della risorsa Amazon (ARN) del ruolo IAM con le autorizzazioni richieste. Le autorizzazioni richieste includono sia le autorizzazioni AWS Glue del ruolo di servizio per AWS Glue le risorse sia le autorizzazioni Amazon S3 richieste dalla trasformazione.

    • Questo ruolo richiede le autorizzazioni AWS Glue del ruolo di servizio per consentire l'accesso alle risorse in. AWS Glue Consulta Collegamento di una policy agli utenti IAM che accedono a AWS Glue.

    • Questo ruolo ha bisogno dell'autorizzazione per accedere a origini, destinazioni, cartella temporanea, script e librerie di Amazon Simple Storage Service (Amazon S3) utilizzate dall'esecuzione di questa attività di trasformazione.

  • GlueVersion: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #20.

    Questo valore determina con quale versione di AWS Glue questa trasformazione di machine learning è compatibile. Glue 1.0 è consigliata per la maggior parte dei clienti. Se il valore non è impostato, la compatibilità di Glue è impostata per default su Glue 0.9. Per ulteriori informazioni, consulta Versioni di AWS Glue nella guida per gli sviluppatori.

  • MaxCapacity: numero (doppio).

    Il numero di unità di elaborazione AWS Glue dati (DPU) assegnate alle esecuzioni delle attività per questa trasformazione. È possibile allocare da 2 a 100 DPU; l'impostazione di default è 10. Una DPU è una misura relativa della potenza di elaborazione ed è costituita da 4 vCPU di capacità di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    MaxCapacity è un'opzione mutuamente esclusiva con NumberOfWorkers e WorkerType.

    • Se NumberOfWorkers o WorkerType è impostata, MaxCapacity può essere impostata.

    • Se MaxCapacity è impostata, né NumberOfWorkersWorkerType possono essere impostate.

    • Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

    • MaxCapacity e NumberOfWorkers devono essere entrambe almeno 1.

    Quando il campo WorkerType è impostato su un valore diverso da Standard, il campo MaxCapacity è impostato automaticamente e diventa di sola lettura.

    Quando il campo WorkerType è impostato su un valore diverso da Standard, il campo MaxCapacity è impostato automaticamente e diventa di sola lettura.

  • WorkerType: stringa UTF-8 (valori validi: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguita questa attività. Accetta un valore Standard, G.1X o G.2X.

    • Per il tipo di worker Standard, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 50 GB e 2 esecutori.

    • Per il tipo di worker G.1X, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 64 GB e 1 esecutore.

    • Per il tipo di worker G.2X, ciascun worker fornisce 8 vCPU, 32 GB di memoria, disco da 128 GB e 1 esecutore.

    MaxCapacity è un'opzione mutuamente esclusiva con NumberOfWorkers e WorkerType.

    • Se NumberOfWorkers o WorkerType è impostata, MaxCapacity può essere impostata.

    • Se MaxCapacity è impostata, né NumberOfWorkersWorkerType possono essere impostate.

    • Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

    • MaxCapacity e NumberOfWorkers devono essere entrambe almeno 1.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguita questa attività.

    Se WorkerType è impostata, NumberOfWorkers è obbligatoria (e viceversa).

  • Timeout: numero (intero), almeno 1.

    Il timeout dell'esecuzione dell'attività per questa trasformazione in minuti. Questo è il periodo di tempo massimo durante il quale un'attività in esecuzione per questa trasformazione può consumare risorse prima di essere terminata e impostata allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi di un'attività della trasformazione dopo un'esecuzione conclusa con esito negativo.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    I tag da utilizzare con questa trasformazione basata su machine learning. È possibile utilizzare tag per limitare l'accesso alla trasformazione basata su machine learning. Per ulteriori informazioni sui tag in AWS Glue, consulta AWS Tags in AWS Glue nella guida per sviluppatori.

  • TransformEncryption: un oggetto TransformEncryption.

    Le encryption-at-rest impostazioni della trasformazione che si applicano all'accesso ai dati dell'utente. Le trasformazioni di machine learning possono accedere ai dati utente crittografati in Amazon S3 utilizzando il servizio di gestione delle chiavi.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco generato per la trasformazione.

Errori
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

Operazione UpdateMLTransform (Python: update_ml_transform)

Aggiorna una trasformazione basata su machine learning esistente. Richiamare questa operazione per ottimizzare i parametri dell'algoritmo al fine di ottenere risultati migliori.

Dopo aver invocato questa operazione, è possibile richiamare l'operazione StartMLEvaluationTaskRun per valutare in che modo i nuovi parametri hanno raggiunto gli obiettivi (ad esempio migliorare la qualità della trasformazione basata su machine learning o renderla più conveniente).

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco generato al momento della creazione della trasformazione.

  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome univoco assegnato alla trasformazione al momento della creazione.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione della trasformazione. L'impostazione predefinita è una stringa vuota.

  • Parameters: un oggetto TransformParameters.

    I parametri di configurazione specifici per il tipo di trasformazione (algoritmo) utilizzato. Condizionalmente dipendenti dal tipo di trasformazione.

  • Role: stringa UTF-8.

    Il nome o il nome della risorsa Amazon (ARN) del ruolo IAM con le autorizzazioni richieste.

  • GlueVersion: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #20.

    Questo valore determina con quale versione di AWS Glue questa trasformazione di machine learning è compatibile. Glue 1.0 è consigliata per la maggior parte dei clienti. Se il valore non è impostato, la compatibilità di Glue è impostata per default su Glue 0.9. Per ulteriori informazioni, consulta Versioni di AWS Glue nella guida per gli sviluppatori.

  • MaxCapacity: numero (doppio).

    Il numero di unità di elaborazione AWS Glue dati (DPU) assegnate alle esecuzioni delle attività per questa trasformazione. È possibile allocare da 2 a 100 DPU; l'impostazione di default è 10. Una DPU è una misura relativa della potenza di elaborazione ed è costituita da 4 vCPU di capacità di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    Quando il campo WorkerType è impostato su un valore diverso da Standard, il campo MaxCapacity è impostato automaticamente e diventa di sola lettura.

  • WorkerType: stringa UTF-8 (valori validi: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguita questa attività. Accetta un valore Standard, G.1X o G.2X.

    • Per il tipo di worker Standard, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 50 GB e 2 esecutori.

    • Per il tipo di worker G.1X, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 64 GB e 1 esecutore.

    • Per il tipo di worker G.2X, ciascun worker fornisce 8 vCPU, 32 GB di memoria, disco da 128 GB e 1 esecutore.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguita questa attività.

  • Timeout: numero (intero), almeno 1.

    Il timeout dell'esecuzione dell'attività per questa trasformazione in minuti. Questo è il periodo di tempo massimo durante il quale un'attività in esecuzione per questa trasformazione può consumare risorse prima di essere terminata e impostata allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi di un'attività della trasformazione dopo un'esecuzione conclusa con esito negativo.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Identificatore univoco della trasformazione che è stata aggiornata.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

Operazione DeleteMLTransform (Python: delete_ml_transform)

Elimina una trasformazione di apprendimento AWS Glue automatico. Le trasformazioni basate su machine learning sono un tipo speciale di trasformazione che utilizza il machine learning per interpretare i dettagli della trasformazione da eseguire imparando da esempi forniti da operatori umani. Queste trasformazioni vengono quindi salvate da. AWS Glue Se una trasformazione non è più necessaria, è possibile eliminarla invocando DeleteMLTransforms. Tuttavia, tutti i AWS Glue lavori che fanno ancora riferimento alla trasformazione eliminata non avranno più esito positivo.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione da eliminare.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione che è stata eliminata.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetMLTransform (Python: get_ml_transform)

Ottiene un artefatto di trasformazione basato sull'apprendimento AWS Glue automatico e tutti i metadati corrispondenti. Le trasformazioni basate su machine learning sono un tipo speciale di trasformazione che utilizza il machine learning per interpretare i dettagli della trasformazione da eseguire imparando da esempi forniti da operatori umani. Queste trasformazioni vengono quindi salvate da. AWS GlueÈ possibile recuperare i metadati invocando GetMLTransform.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione, generato al momento della creazione della trasformazione.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione, generato al momento della creazione della trasformazione.

  • Name: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Il nome univoco assegnato alla trasformazione al momento della creazione.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Una descrizione della trasformazione.

  • Status: stringa UTF-8 (valori validi: NOT_READY | READY | DELETING).

    L'ultima stato noto della trasformazione (per indicare se può essere utilizzata o meno). Uno dei valori "NOT_READY", "READY" o "DELETING".

  • CreatedOn: timestamp.

    La data e l'ora di creazione della trasformazione.

  • LastModifiedOn: timestamp.

    La data e l'ora in cui la trasformazione è stata modificata l'ultima volta.

  • InputRecordTables – Una serie di oggetti GlueTable, non superiore a 10 strutture.

    Un elenco di definizioni di AWS Glue tabella utilizzate dalla trasformazione.

  • Parameters: un oggetto TransformParameters.

    I parametri di configurazione specifici per l'algoritmo utilizzato.

  • EvaluationMetrics: un oggetto EvaluationMetrics.

    I parametri di valutazione più recenti.

  • LabelCount: numero (intero).

    Il numero di etichette disponibili per questa trasformazione.

  • Schema – Una serie di oggetti SchemaColumn, non superiore a 100 strutture.

    L'oggetto Map<Column, Type> che rappresenta lo schema accettato da questa trasformazione. È imposto un limite massimo di 100 colonne.

  • Role: stringa UTF-8.

    Il nome o il nome della risorsa Amazon (ARN) del ruolo IAM con le autorizzazioni richieste.

  • GlueVersion: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #20.

    Questo valore determina con quale versione di AWS Glue questa trasformazione di machine learning è compatibile. Glue 1.0 è consigliata per la maggior parte dei clienti. Se il valore non è impostato, la compatibilità di Glue è impostata per default su Glue 0.9. Per ulteriori informazioni, consulta Versioni di AWS Glue nella guida per gli sviluppatori.

  • MaxCapacity: numero (doppio).

    Il numero di unità di elaborazione AWS Glue dati (DPU) assegnate alle esecuzioni delle attività per questa trasformazione. È possibile allocare da 2 a 100 DPU; l'impostazione di default è 10. Una DPU è una misura relativa della potenza di elaborazione ed è costituita da 4 vCPU di capacità di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    Quando il campo WorkerType è impostato su un valore diverso da Standard, il campo MaxCapacity è impostato automaticamente e diventa di sola lettura.

  • WorkerType: stringa UTF-8 (valori validi: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguita questa attività. Accetta un valore Standard, G.1X o G.2X.

    • Per il tipo di worker Standard, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 50 GB e 2 esecutori.

    • Per il tipo di worker G.1X, ciascun worker fornisce 4 vCPU, 16 GB di memoria, disco da 64 GB e 1 esecutore.

    • Per il tipo di worker G.2X, ciascun worker fornisce 8 vCPU, 32 GB di memoria, disco da 128 GB e 1 esecutore.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguita questa attività.

  • Timeout: numero (intero), almeno 1.

    Il timeout dell'esecuzione dell'attività per questa trasformazione in minuti. Questo è il periodo di tempo massimo durante il quale un'attività in esecuzione per questa trasformazione può consumare risorse prima di essere terminata e impostata allo stato TIMEOUT. Il valore di default è 2.880 minuti (48 ore).

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi di un'attività della trasformazione dopo un'esecuzione conclusa con esito negativo.

  • TransformEncryption: un oggetto TransformEncryption.

    Le encryption-at-rest impostazioni della trasformazione che si applicano all'accesso ai dati dell'utente. Le trasformazioni di machine learning possono accedere ai dati utente crittografati in Amazon S3 utilizzando il servizio di gestione delle chiavi.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione GetMLTransforms (Python: get_ml_transforms)

Ottiene un elenco ordinabile e filtrabile di trasformazioni di AWS Glue machine learning esistenti. Le trasformazioni basate su machine learning sono un tipo speciale di trasformazione che utilizza il machine learning per interpretare i dettagli della trasformazione da eseguire imparando da esempi forniti da operatori umani. Queste trasformazioni vengono quindi salvate da AWS Glue ed è possibile recuperarne i metadati chiamando. GetMLTransforms

Richiesta
  • NextToken: stringa UTF-8.

    Un token di paginazione per partizionare i risultati.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Numero massimo di risultati da restituire.

  • Filter: un oggetto TransformFiltercriteri.

    Il criterio di filtraggio della trasformazione.

  • Sort: un oggetto TransformSortcriteri.

    Il criterio di ordinamento.

Risposta
  • Transforms: obbligatorio: una matrice di oggetti MLTransform.

    Un elenco di trasformazioni basate su machine learning.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

Operazione ListMLTransforms (Python: list_ml_transforms)

Recupera un elenco ordinabile e filtrabile delle trasformazioni di AWS Glue machine learning esistenti in questo AWS account o le risorse con il tag specificato. L'operazione accetta il campo facoltativo Tags che si può utilizzare come filtro per la risposta in modo che le risorse con tag possano essere recuperate come gruppo. Se si sceglie di utilizzare il filtro dei tag, potranno essere recuperate solo le risorse con tag.

Richiesta
  • NextToken: stringa UTF-8.

    Token di continuazione, se si tratta di una richiesta di continuazione.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    La dimensione massima di un elenco da restituire.

  • Filter: un oggetto TransformFiltercriteri.

    Un elemento TransformFilterCriteria utilizzato per filtrare la trasformazione basata su machine learning.

  • Sort: un oggetto TransformSortcriteri.

    Un elemento TransformSortCriteria usato per ordinare le trasformazioni basate su machine learning.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.

    Ogni valore è una stringa UTF-8, lunga non più di 256 byte.

    Specifica che vengono restituite solo le risorse con tag.

Risposta
  • TransformIds. Obbligatorio: una matrice di stringhe UTF-8.

    Gli identificatori di tutte le trasformazioni basate su machine learning nell'account o le trasformazioni basate su machine learning con i tag specificati.

  • NextToken: stringa UTF-8.

    Token di continuazione, se l'elenco restituito non contiene l'ultimo parametro disponibile.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

EvaluationTaskRun Azione StartML (Python: start_ml_evaluation_task_run)

Avvia un'attività per stimare la qualità della trasformazione.

Quando fornisci set di etichette come esempi di verità, l'apprendimento AWS Glue automatico utilizza alcuni di questi esempi per trarne insegnamenti. Le altre etichette sono impiegate come test per stimare la qualità.

Restituisce un identificatore univoco dell'esecuzione. È possibile invocare GetMLTaskRun per ottenere ulteriori informazioni sulle statistiche di EvaluationTaskRun.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

Risposta
  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco associato a questa esecuzione.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

LabelingSetGenerationTaskRun Azione StartML (Python: start_ml_labeling_set_generation_task_run)

Avvia il flusso di apprendimento attivo della trasformazione basata su machine learning per migliorare la qualità della trasformazione generando set di etichette e aggiungendo etichette.

Al termine di StartMLLabelingSetGenerationTaskRun, AWS Glue avrà generato un "set di etichettatura" o un set di domande a cui l'operatore umano è chiamato a rispondere.

Nel caso della trasformazione FindMatches, queste domande seguono la seguente struttura: "Qual è il modo corretto per raggruppare queste righe in gruppi costituiti interamente di registri corrispondenti?"

Dopo il completamento del processo di etichettatura, è possibile caricare le etichette con una chiamata a StartImportLabelsTaskRun. Al termine di StartImportLabelsTaskRun, tutte le esecuzioni successive della trasformazione basata su machine learning utilizzeranno le etichette nuove e migliorate ed eseguiranno una trasformazione di maggiore qualità.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • OutputS3Path. Obbligatorio: stringa UTF-8.

    Il percorso Amazon Simple Storage Service (Amazon S3) dove si genera il set di etichettatura.

Risposta
  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

TaskRun Azione getML (Python: get_ml_task_run)

Recupera i dettagli di una specifica esecuzione di attività su una trasformazione basata su machine learning. Le attività di machine learning sono attività asincrone eseguite per conto dell'utente nell'ambito di vari flussi di lavoro di AWS Glue machine learning. È possibile verificare le statistiche di ogni esecuzione di attività invocando GetMLTaskRun con il TaskRunID e il TransformID della sua trasformazione padre.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • TaskRunId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione dell'attività.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione dell'attività.

  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione associato a questa esecuzione di attività.

  • Status: stringa UTF-8 (valori validi: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Lo stato di questa esecuzione dell'attività.

  • LogGroupName: stringa UTF-8.

    I nomi dei gruppi di log associati all'esecuzione dell'attività.

  • Properties: un oggetto TaskRunproprietà.

    L'elenco delle proprietà associate all'esecuzione dell'attività.

  • ErrorString: stringa UTF-8.

    Le stringhe di errore associate all'esecuzione dell'attività.

  • StartedOn: timestamp.

    La data e l'ora in cui è stata avviata questa esecuzione dell'attività.

  • LastModifiedOn: timestamp.

    La data e l'ora in questa esecuzione dell'attività è stata modificata l'ultima volta.

  • CompletedOn: timestamp.

    La data e l'ora in cui eseguire questa esecuzione dell'attività è stata completata.

  • ExecutionTime: numero (intero).

    Quantità di tempo (in secondi) durante la quale l'esecuzione dell'attività ha utilizzato le risorse.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRuns Azione getML (Python: get_ml_task_runs)

Restituisce un elenco di esecuzioni di una trasformazione basata su machine learning. Le attività di machine learning sono attività asincrone eseguite per conto dell'utente nell'ambito di vari flussi di lavoro di AWS Glue machine learning. È possibile ottenere un elenco filtrabile e ordinabile delle esecuzioni delle attività di machine learning invocando GetMLTaskRuns con il TransformID della trasformazione padre e altri parametri facoltativi come documentato in questa sezione.

Questa operazione restituisce un elenco di storico di esecuzioni e deve essere paginato.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • NextToken: stringa UTF-8.

    Un token per l'impaginazione dei risultati. L'impostazione predefinita è vuota.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    Numero massimo di risultati da restituire.

  • Filter: un oggetto TaskRunFilterCriteria.

    I criteri di filtro, nella struttura TaskRunFilterCriteria, per l'esecuzione dell'attività.

  • Sort: un oggetto TaskRunSortCriteria.

    I criteri di ordinamento, nella struttura TaskRunSortCriteria, per l'esecuzione dell'attività.

Risposta
  • TaskRuns: una matrice di oggetti TaskRun.

    Un elenco delle esecuzioni di attività associate alla trasformazione.

  • NextToken: stringa UTF-8.

    Un token di impaginazione, se sono disponibili altri risultati.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

TaskRun Azione CancelML (Python: cancel_ml_task_run)

Annulla (interrompe) un'esecuzione dell'attività. Le attività di machine learning sono attività asincrone eseguite per conto dell'utente nell'ambito di vari flussi di lavoro di machine learning. AWS Glue È possibile annullare un'attività di machine learning in qualsiasi momento invocando CancelMLTaskRun con l'TransformID della trasformazione padre dell'esecuzione dell'attività e il TaskRunId dell'esecuzione dell'attività.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • TaskRunId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    Un identificatore univoco dell'esecuzione dell'attività.

Risposta
  • TransformId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione dell'attività.

  • Status: stringa UTF-8 (valori validi: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    Lo stato di questa esecuzione.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun azione (Python: start_export_labels_task_run)

Avvia un'operazione asincrona di esportazione di tutti i dati etichettati per una determinata trasformazione. Questa attività è l'unica chiamata API relativa alle etichette che non fa parte del tipico flusso di lavoro di addestramento attivo. Generalmente si utilizza StartExportLabelsTaskRun quando si desidera operare contemporaneamente su tutte le etichette, ad esempio quando si desidera rimuovere o modificare delle etichette che sono state indicate in precedenza come verità. Questa operazione API accetta il TransformId le cui etichette si desiderano esportare e un percorso su Amazon Simple Storage Service (Amazon S3) su cui esportare le etichette. L'operazione restituisce un TaskRunId. È possibile controllare lo stato dell'esecuzione dell'attività invocando l'API GetMLTaskRun.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • OutputS3Path. Obbligatorio: stringa UTF-8.

    Il percorso di Amazon S3 su cui esportare le etichette.

Risposta
  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione dell'attività.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun azione (Python: start_import_labels_task_run)

Consente di fornire ulteriori etichette (esempi di verità) da utilizzare per addestrare la trasformazione basata su machine learning e migliorarne la qualità. Questa operazione API viene in genere utilizzata come parte del flusso di lavoro di addestramento attivo che inizia con l'invocazione di StartMLLabelingSetGenerationTaskRun e che ha come risultato finale il miglioramento della qualità della trasformazione basata su machine learning.

Al completamento di StartMLLabelingSetGenerationTaskRun, il machine learning di AWS Glue avrà generato una serie di domande a cui l'operatore umano è chiamato a rispondere. (L'attività di risposta a tali domande è spesso denominata "etichettatura" all'interno dei flussi di lavoro di machine learning). Nel caso della trasformazione FindMatches, queste domande seguono la seguente struttura: "Qual è il modo corretto per raggruppare queste righe in gruppi costituiti interamente di registri corrispondenti?" Dopo il completamento del processo di etichettatura, gli utenti caricano le proprie risposte/etichette con una chiamata a StartImportLabelsTaskRun. Al termine di StartImportLabelsTaskRun, tutte le esecuzioni successive della trasformazione basata su machine learning utilizzeranno le etichette nuove e migliorate ed eseguiranno una trasformazione di maggiore qualità.

Per impostazione predefinita, StartMLLabelingSetGenerationTaskRun apprende continuamente dalle etichette caricate e le combina a meno che il parametro Replace non sia impostato su "true". Se Replace è impostato su "true", StartImportLabelsTaskRun elimina e dimentica tutte le etichette caricate in precedenza e apprende solo dal set esatto appena caricato. La sostituzione delle etichette può essere utile se ci si rende conto di aver precedentemente caricato delle etichette errate e si ritiene che ciò possa avere ripercussioni negative sulla qualità della trasformazione.

È possibile controllare lo stato dell'esecuzione dell'attività invocando l'operazione GetMLTaskRun.

Richiesta
  • TransformId: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco della trasformazione basata su machine learning.

  • InputS3Path. Obbligatorio: stringa UTF-8.

    Il percorso Amazon Simple Storage Service (Amazon S3) da cui si importano le etichette.

  • ReplaceAllLabels: booleano.

    Indica se sovrascrivere le etichette esistenti.

Risposta
  • TaskRunId: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.

    L'identificatore univoco dell'esecuzione dell'attività.

Errori
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException