Elaborazione dei dati tramite il comando dataprocessing - Amazon Neptune

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Elaborazione dei dati tramite il comando dataprocessing

Si utilizza il comando dataprocessing in Neptune ML per creare un processo di elaborazione dei dati, controllarne lo stato, arrestarlo o elencare tutti i processi di elaborazione dei dati attivi.

Creazione di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Un tipico comando dataprocessing in Neptune ML per la creazione di un nuovo processo ha il seguente aspetto:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Un comando per avviare una rielaborazione incrementale ha il seguente aspetto:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
Parametri per il comando dataprocessing per la creazione del processo
  • id (facoltativo): identificatore univoco per il nuovo processo.

    Tipo: stringa. Impostazione predefinita: un UUID generato automaticamente.

  • previousDataProcessingJobId (facoltativo): ID del processo di elaborazione dei dati completato che è stato eseguito su una versione precedente dei dati.

    Tipo: stringa. Impostazione predefinita: none.

    Nota: usa questo parametro per l'elaborazione incrementale dei dati, per aggiornare il modello in caso di modifica dei dati del grafo (ma non quando i dati sono stati eliminati).

  • inputDataS3Location (obbligatorio): URI della posizione Amazon S3 in cui SageMaker deve scaricare i dati necessari per eseguire il processo di elaborazione dei dati.

    Tipo: stringa.

  • processedDataS3Location (obbligatorio): URI della posizione Amazon S3 in cui SageMaker deve scaricare i risultati di un processo di elaborazione dei dati.

    Tipo: stringa.

  • sagemakerIamRoleArn (facoltativo): nome ARN di un ruolo IAM per l'esecuzione di SageMaker.

    Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

  • neptuneIamRoleArn (facoltativo): nome della risorsa Amazon (ARN) di un ruolo IAM che SageMaker può assumere per eseguire attività per tuo conto.

    Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

  • processingInstanceType (facoltativo): tipo di istanza ML utilizzata durante l'elaborazione dei dati. La sua memoria deve essere sufficientemente grande da contenere il set di dati elaborato.

    Tipo: stringa. Impostazione predefinita: tipo ml.r5 più piccolo, la cui memoria è dieci volte più grande delle dimensioni dei dati dei grafi esportati su disco.

    Nota: Neptune ML può selezionare automaticamente il tipo di istanza. Per informazioni, consultare Selezione di un'istanza per l'elaborazione dei dati.

  • processingInstanceVolumeSizeInGB (facoltativo): dimensioni del volume del disco dell'istanza di elaborazione. Sia i dati di input che i dati elaborati vengono archiviati su disco, quindi le dimensioni del volume devono essere sufficientemente grandi da contenere entrambi i set di dati.

    Tipo: numero intero. Default: 0

    Nota: se non è specificato o se è pari a 0, Neptune ML sceglie automaticamente le dimensioni del volume in base a quelle dei dati.

  • processingTimeOutInSeconds (facoltativo): timeout in secondi per il processo di elaborazione dei dati.

    Tipo: numero intero. Impostazione predefinita: 86,400 (7 giorni)

  • modelType (facoltativo): uno dei due tipi di modello attualmente supportati da Neptune ML: modelli a grafo eterogenei (heterogeneous) e grafo della conoscenza (kge).

    Tipo: stringa. Impostazione predefinita: none.

    Nota: se non è specificato, Neptune ML sceglie automaticamente il tipo di modello in base ai dati.

  • configFileName (facoltativo): file di specifica dei dati che descrive come caricare i dati dei grafi esportati per l'addestramento. Il file viene generato automaticamente dal kit di strumenti di esportazione Neptune.

    Tipo: stringa. Default: training-data-configuration.json

  • subnets (facoltativo): ID delle sottoreti nel VPC Neptune.

    Tipo: elenco di stringhe. Impostazione predefinita: none.

  • securityGroupIds (facoltativo): ID del gruppo di sicurezza del VPC.

    Tipo: elenco di stringhe. Impostazione predefinita: none.

  • volumeEncryptionKMSKey (facoltativo): chiave AWS Key Management Service (AWS KMS) usata da SageMaker per crittografare i dati nel volume di archiviazione collegato alle istanze di calcolo ML che eseguono il processo di elaborazione.

    Tipo: stringa. Impostazione predefinita: none.

  • enableInterContainerTrafficEncryption (facoltativo): abilita o disabilita la crittografia del traffico tra container nei processi di addestramento o di ottimizzazione degli iperparametri.

    Tipo: booleano. Impostazione predefinita: True.

    Nota

    Il parametro enableInterContainerTrafficEncryption è disponibile solo nel rilascio del motore 1.2.0.2.R3.

  • s3OutputEncryptionKMSKey (facoltativo): chiave AWS Key Management Service (AWS KMS) utilizzata da SageMaker per crittografare l'output del processo di addestramento.

    Tipo: stringa. Impostazione predefinita: none.

Recupero dello stato di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Un comando dataprocessing di esempio in Neptune ML per lo stato di un processo ha il seguente aspetto:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
Parametri per il comando dataprocessing per lo stato del processo
  • id (obbligatorio): identificatore univoco del processo di elaborazione dei dati.

    Tipo: stringa.

  • neptuneIamRoleArn (facoltativo): nome ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse SageMaker e Amazon S3.

    Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

Arresto di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Un comando dataprocessing di esempio in Neptune ML per l'arresto di un processo ha il seguente aspetto:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Oppure questo:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
Parametri per il comando dataprocessing per l'arresto del processo
  • id (obbligatorio): identificatore univoco del processo di elaborazione dei dati.

    Tipo: stringa.

  • neptuneIamRoleArn (facoltativo): nome ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse SageMaker e Amazon S3.

    Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

  • clean (facoltativo): questo flag specifica che tutti gli artefatti Amazon S3 devono essere eliminati quando il processo viene arrestato.

    Tipo: Boolean Default: FALSE

Elenco dei processi di elaborazione dei dati attivi con il comando dataprocessing in Neptune ML.

Un comando dataprocessing di esempio in Neptune ML per l'elenco dei processi attivi ha il seguente aspetto:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Oppure questo:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
Parametri per il comando dataprocessing per l'elenco dei processi
  • maxItems (facoltativo): numero massimo di elementi da restituire.

    Tipo: numero intero. Default: 10 Valore massimo consentito: 1024.

  • neptuneIamRoleArn (facoltativo): nome ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse SageMaker e Amazon S3.

    Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.