Ejecución remota del procesador de características del almacén de características - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución remota del procesador de características del almacén de características

Para ejecutar sus procesadores de funciones en conjuntos de datos grandes que requieren un hardware más potente que el disponible localmente, puede decorar su código con el @remote decorador para ejecutar su código Python local como un trabajo de SageMaker entrenamiento distribuido de uno o varios nodos. Para obtener más información sobre cómo ejecutar el código como un trabajo de SageMaker formación, consulte. Ejecuta tu código local como un trabajo SageMaker de formación

A continuación hay un ejemplo de uso del decorador @remote junto con el decorador @feature_processor.

from sagemaker.remote_function.spark_config import SparkConfig from sagemaker.remote_function import remote from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/') OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group' @remote( spark_config=SparkConfig(), instance_type="ml.m5.2xlarge", dependencies="/local/requirements.txt" ) @feature_processor( inputs=[CSV_DATA_SOURCE], output=OUTPUT_FG, ) def transform(csv_input_df): return csv_input_df transform()

El parámetro spark_config indica que el trabajo remoto se ejecuta como una aplicación de Spark. La SparkConfig instancia se puede usar para configurar la configuración de Spark y proporcionar dependencias adicionales a la aplicación SparkJARs, como archivos y archivos de Python.

Para realizar iteraciones más rápidas a la hora de desarrollar el código de procesamiento de características, puede especificar el argumento keep_alive_period_in_seconds en el decorador @remote para conservar los recursos configurados en un grupo en caliente para los siguientes trabajos de entrenamiento. Para obtener más información sobre las piscinas calientes, consulte KeepAlivePeriodInSeconds la guía de API referencia.

El siguiente código es un ejemplo de requirements.txt: local.

sagemaker>=2.167.0

Esto instalará la SageMaker SDK versión correspondiente en el trabajo remoto que se requiere para ejecutar el método anotado por@feature-processor.