Procesamiento de datos mediante el comando dataprocessing - Amazon Neptune

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesamiento de datos mediante el comando dataprocessing

El comando dataprocessing de Neptune ML se utiliza para crear un trabajo de procesamiento de datos, comprobar su estado, detenerlo o enumerar todos los trabajos de procesamiento de datos activos.

Creación de un trabajo de procesamiento de datos mediante el comando dataprocessing de Neptune ML

Un comando típico dataprocessing de Neptune ML para crear un nuevo trabajo tiene el siguiente aspecto:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

Un comando para iniciar el reprocesamiento incremental tiene el siguiente aspecto:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
Parámetros para la creación de trabajos de dataprocessing
  • id: (opcional) un identificador único para el trabajo nuevo.

    Tipo: cadena. Valor predeterminado: un UUID generado automáticamente.

  • previousDataProcessingJobId: (opcional) el ID de trabajo de un trabajo de procesamiento de datos completado que se ejecuta en una versión anterior de los datos.

    Tipo: cadena. Valor predeterminado: ninguno.

    Nota: Úselo para el procesamiento incremental de datos, para actualizar el modelo cuando los datos del gráfico cambien (pero no cuando se eliminen los datos).

  • inputDataS3Location: (obligatorio) el URI de la ubicación de Amazon S3 en la que desea que SageMaker descargue los datos necesarios para ejecutar el trabajo de procesamiento de datos.

    Tipo: cadena.

  • processedDataS3Location: (obligatorio) el URI de la ubicación de Amazon S3 en la que desea que SageMaker guarde los resultados de un trabajo de procesamiento de datos.

    Tipo: cadena.

  • sagemakerIamRoleArn: (opcional) el ARN de un rol de IAM para la ejecución de SageMaker.

    Tipo: cadena. Nota: Debe figurar en el grupo de parámetros del clúster de base de datos o se producirá un error.

  • neptuneIamRoleArn: (opcional) el nombre de recurso de Amazon (ARN) de un rol de IAM que Amazon SageMaker puede asumir para realizar tareas en su nombre.

    Tipo: cadena. Nota: Debe figurar en el grupo de parámetros del clúster de base de datos o se producirá un error.

  • processingInstanceType: (opcional) el tipo de instancia de ML que se utiliza durante el procesamiento de datos. Su memoria debe ser lo suficientemente grande como para incluir el conjunto de datos procesado.

    Tipo: cadena. Valor predeterminado: el tipo ml.r5 de menor tamaño cuya memoria es diez veces mayor que el tamaño de los datos de gráficos exportados en el disco.

    Nota: Neptune ML puede seleccionar el tipo de instancia automáticamente. Consulte Selección de una instancia para el procesamiento de datos.

  • processingInstanceVolumeSizeInGB: (opcional) el tamaño del volumen del disco de la instancia de procesamiento. Tanto los datos de entrada como los datos procesados se almacenan en el disco, por lo que el tamaño del volumen debe ser lo suficientemente grande como para incluir ambos conjuntos de datos.

    Tipo: número entero. Valor predeterminado: 0.

    Nota: Si no se especifica o el valor es 0, Neptune ML elige el tamaño del volumen automáticamente en función del tamaño de los datos.

  • processingTimeOutInSeconds: (opcional) tiempo de espera en segundos para el trabajo de procesamiento de datos.

    Tipo: número entero. Valor predeterminado: 86,400 (un día).

  • modelType: (opcional) uno de los dos tipos de modelos que Neptune ML admite actualmente: modelos de subgráficos heterogéneos (heterogeneous) y gráficos de conocimientos (kge).

    Tipo: cadena. Valor predeterminado: ninguno.

    Nota: Si no se especifica, Neptune ML elige automáticamente el modelo en función de los datos.

  • configFileName: (opcional) un archivo de especificación de datos que describe cómo cargar los datos de gráficos exportados para el entrenamiento. El kit de herramientas de exportación de Neptune genera automáticamente el archivo.

    Tipo: cadena. Valor predeterminado: training-data-configuration.json.

  • subnets: (opcional) los ID de las subredes de la VPC de Neptune.

    Tipo: lista de cadenas. Valor predeterminado: ninguno.

  • securityGroupIds: (opcional) los ID del grupo de seguridad de la VPC.

    Tipo: lista de cadenas. Valor predeterminado: ninguno.

  • volumeEncryptionKMSKey: (opcional) la clave de AWS Key Management Service (AWS KMS) que SageMaker utiliza para cifrar los datos del volumen de almacenamiento asociado con las instancias de computación de ML que ejecutan el trabajo de procesamiento.

    Tipo: cadena. Valor predeterminado: ninguno.

  • enableInterContainerTrafficEncryption: (opcional) habilite o deshabilite el cifrado del tráfico entre contenedores en trabajos de entrenamiento o de ajuste de hiperparámetros.

    Tipo: booleano. Valor predeterminado: true.

    nota

    El parámetro enableInterContainerTrafficEncryption solo está disponible en la versión 1.2.0.2.R3 del motor.

  • s3OutputEncryptionKMSKey: (opcional) la clave AWS Key Management Service (AWS KMS) que SageMaker utiliza para cifrar el resultado del trabajo de entrenamiento.

    Tipo: cadena. Valor predeterminado: ninguno.

Obtención del estado de un trabajo de procesamiento de datos mediante el comando dataprocessing de Neptune ML

Un ejemplo del comando dataprocessing de Neptune ML para el estado de un trabajo:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
Parámetros para el estado del trabajo de dataprocessing
  • id: (obligatorio) el identificador único del trabajo de procesamiento de datos.

    Tipo: cadena.

  • neptuneIamRoleArn: (opcional) el ARN de un rol de IAM que proporciona a Neptune acceso a los recursos de SageMaker y Amazon S3.

    Tipo: cadena. Nota: Debe figurar en el grupo de parámetros del clúster de base de datos o se producirá un error.

Detención de un trabajo de procesamiento de datos mediante el comando dataprocessing de Neptune ML

Un ejemplo del comando dataprocessing de Neptune ML para detener un trabajo:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

Otro ejemplo:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
Parámetros para el trabajo de detención de dataprocessing
  • id: (obligatorio) el identificador único del trabajo de procesamiento de datos.

    Tipo: cadena.

  • neptuneIamRoleArn: (opcional) el ARN de un rol de IAM que proporciona a Neptune acceso a los recursos de SageMaker y Amazon S3.

    Tipo: cadena. Nota: Debe figurar en el grupo de parámetros del clúster de base de datos o se producirá un error.

  • clean: (opcional) este indicador especifica que todos los artefactos de Amazon S3 deben eliminarse cuando se detiene el trabajo.

    Tipo: booleano. Valor predeterminado: FALSE.

Enumeración de trabajos de procesamiento de datos activos mediante el comando dataprocessing de Neptune ML

Un ejemplo del comando dataprocessing de Neptune ML para enumerar los trabajos activos:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

Otro ejemplo:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
Parámetros para los trabajos de enumeración de dataprocessing
  • maxItems: (opcional) el número máximo de elementos que devolver.

    Tipo: número entero. Valor predeterminado: 10. Valor máximo permitido: 1024.

  • neptuneIamRoleArn: (opcional) el ARN de un rol de IAM que proporciona a Neptune acceso a los recursos de SageMaker y Amazon S3.

    Tipo: cadena. Nota: Debe figurar en el grupo de parámetros del clúster de base de datos o se producirá un error.