Creazione un processo di elaborazione dei dati Recupero dello stato del processo Arresto di un processo Elenchi di processi

Elaborazione dei dati tramite il comando `dataprocessing`

Si utilizza il comando dataprocessing in Neptune ML per creare un processo di elaborazione dei dati, controllarne lo stato, arrestarlo o elencare tutti i processi di elaborazione dei dati attivi.

Creazione di un processo di elaborazione dei dati con il comando `dataprocessing` in Neptune ML

Un tipico comando dataprocessing in Neptune ML per la creazione di un nuovo processo ha il seguente aspetto:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)"
      }'

Un comando per avviare una rielaborazione incrementale ha il seguente aspetto:


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for this job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)"
        "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)"
}'

Parametri per il comando `dataprocessing` per la creazione del processo

id (facoltativo): identificatore univoco per il nuovo processo.

Tipo: stringa. Impostazione predefinita: un UUID generato automaticamente.
previousDataProcessingJobId (facoltativo): ID del processo di elaborazione dei dati completato che è stato eseguito su una versione precedente dei dati.

Tipo: stringa. Impostazione predefinita: none.

Nota: usa questo parametro per l'elaborazione incrementale dei dati, per aggiornare il modello in caso di modifica dei dati del grafo (ma non quando i dati sono stati eliminati).
inputDataS3Location— (Obbligatorio) L'URI della posizione Amazon S3 in cui desideri che l' SageMaker IA scarichi i dati necessari per eseguire il processo di elaborazione dei dati.

Tipo: stringa.
processedDataS3Location— (Obbligatorio) L'URI della posizione Amazon S3 in cui desideri che l' SageMaker IA salvi i risultati di un processo di elaborazione dati.

Tipo: stringa.
sagemakerIamRoleArn— (Facoltativo) L'ARN di un ruolo IAM per l'esecuzione dell' SageMaker IA.

Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.
neptuneIamRoleArn— (Facoltativo) L'Amazon Resource Name (ARN) di un ruolo IAM che l' SageMaker IA può assumere per eseguire attività per tuo conto.

Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.
processingInstanceType (facoltativo): tipo di istanza ML utilizzata durante l'elaborazione dei dati. La sua memoria deve essere sufficientemente grande da contenere il set di dati elaborato.

Tipo: stringa. Impostazione predefinita: tipo ml.r5 più piccolo, la cui memoria è dieci volte più grande delle dimensioni dei dati dei grafi esportati su disco.

Nota: Neptune ML può selezionare automaticamente il tipo di istanza. Consultare Selezione di un'istanza per l'elaborazione dei dati.
processingInstanceVolumeSizeInGB (facoltativo): dimensioni del volume del disco dell'istanza di elaborazione. Sia i dati di input che i dati elaborati vengono archiviati su disco, quindi le dimensioni del volume devono essere sufficientemente grandi da contenere entrambi i set di dati.

Tipo: numero intero. Default: 0

Nota: se non è specificato o se è pari a 0, Neptune ML sceglie automaticamente le dimensioni del volume in base a quelle dei dati.
processingTimeOutInSeconds (facoltativo): timeout in secondi per il processo di elaborazione dei dati.

Tipo: numero intero. Impostazione predefinita: 86,400 (7 giorni)
modelType (facoltativo): uno dei due tipi di modello attualmente supportati da Neptune ML: modelli a grafo eterogenei (heterogeneous) e grafo della conoscenza (kge).

Tipo: stringa. Impostazione predefinita: none.

Nota: se non è specificato, Neptune ML sceglie automaticamente il tipo di modello in base ai dati.
configFileName (facoltativo): file di specifica dei dati che descrive come caricare i dati dei grafi esportati per l'addestramento. Il file viene generato automaticamente dal kit di strumenti di esportazione Neptune.

Tipo: stringa. Default: training-data-configuration.json
subnets— (Facoltativo) Le sottoreti IDs del VPC di Neptune.

Tipo: elenco di stringhe. Impostazione predefinita: none.
securityGroupIds— (Facoltativo) Il gruppo di sicurezza VPC. IDs

Tipo: elenco di stringhe. Impostazione predefinita: none.
volumeEncryptionKMSKey— (Facoltativo) La chiave AWS Key Management Service (AWS KMS) utilizzata da SageMaker AI per crittografare i dati sul volume di archiviazione collegato alle istanze di calcolo ML che eseguono il processo di elaborazione.

Tipo: stringa. Impostazione predefinita: none.
enableInterContainerTrafficEncryption (facoltativo): abilita o disabilita la crittografia del traffico tra container nei processi di addestramento o di ottimizzazione degli iperparametri.

Tipo: booleano. Impostazione predefinita: True.

Nota
Il parametro enableInterContainerTrafficEncryption è disponibile solo nel rilascio del motore 1.2.0.2.R3.
s3OutputEncryptionKMSKey— (Facoltativo) La chiave AWS Key Management Service (AWS KMS) utilizzata dall' SageMaker IA per crittografare l'output del processo di formazione.

Tipo: stringa. Impostazione predefinita: none.

Recupero dello stato di un processo di elaborazione dei dati con il comando `dataprocessing` in Neptune ML

Un comando dataprocessing di esempio in Neptune ML per lo stato di un processo ha il seguente aspetto:


curl -s \
  "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \
  | python -m json.tool

Parametri per il comando `dataprocessing` per lo stato del processo

id (obbligatorio): identificatore univoco del processo di elaborazione dei dati.

Tipo: stringa.
neptuneIamRoleArn— (Facoltativo) L'ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse AI e SageMaker Amazon S3.

Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

Arresto di un processo di elaborazione dei dati con il comando `dataprocessing` in Neptune ML

Un comando dataprocessing di esempio in Neptune ML per l'arresto di un processo ha il seguente aspetto:


curl -s \
  -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Oppure questo:


curl -s \
  -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"

Parametri per il comando `dataprocessing` per l'arresto del processo

id (obbligatorio): identificatore univoco del processo di elaborazione dei dati.

Tipo: stringa.
neptuneIamRoleArn— (Facoltativo) L'ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse AI e SageMaker Amazon S3.

Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.
clean (facoltativo): questo flag specifica che tutti gli artefatti Amazon S3 devono essere eliminati quando il processo viene arrestato.

Tipo: Boolean Default: FALSE

Elenco dei processi di elaborazione dei dati attivi con il comando `dataprocessing` in Neptune ML.

Un comando dataprocessing di esempio in Neptune ML per l'elenco dei processi attivi ha il seguente aspetto:


curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Oppure questo:


curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"

Parametri per il comando `dataprocessing` per l'elenco dei processi

maxItems (facoltativo): numero massimo di elementi da restituire.

Tipo: numero intero. Default: 10 Valore massimo consentito: 1024.
neptuneIamRoleArn— (Facoltativo) L'ARN di un ruolo IAM che fornisce a Neptune l'accesso alle risorse AI e SageMaker Amazon S3.

Tipo: stringa. Nota: deve essere elencato nel gruppo di parametri del cluster database o si verificherà un errore.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

API Neptune ML

Comando modeltraining

Elaborazione dei dati tramite il comando dataprocessing

Creazione di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Parametri per il comando dataprocessing per la creazione del processo

Nota

Recupero dello stato di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Parametri per il comando dataprocessing per lo stato del processo

Arresto di un processo di elaborazione dei dati con il comando dataprocessing in Neptune ML

Parametri per il comando dataprocessing per l'arresto del processo

Elenco dei processi di elaborazione dei dati attivi con il comando dataprocessing in Neptune ML.

Parametri per il comando dataprocessing per l'elenco dei processi