Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecución remota del procesador de características del almacén de características
Para ejecutar sus procesadores de funciones en conjuntos de datos grandes que requieren un hardware más potente que el disponible localmente, puede decorar su código con el @remote
decorador para ejecutar su código Python local como un trabajo de SageMaker entrenamiento distribuido de uno o varios nodos. Para obtener más información sobre cómo ejecutar el código como un trabajo de SageMaker formación, consulte. Ejecuta tu código local como un trabajo SageMaker de formación
A continuación hay un ejemplo de uso del decorador @remote
junto con el decorador @feature_processor
.
from sagemaker.remote_function.spark_config import SparkConfig from sagemaker.remote_function import remote from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/') OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group' @remote( spark_config=SparkConfig(), instance_type="ml.m5.2xlarge", dependencies="/local/requirements.txt" ) @feature_processor( inputs=[CSV_DATA_SOURCE], output=OUTPUT_FG, ) def transform(csv_input_df): return csv_input_df transform()
El parámetro spark_config
indica que el trabajo remoto se ejecuta como una aplicación de Spark. La SparkConfig
instancia se puede usar para configurar la configuración de Spark y proporcionar dependencias adicionales a la aplicación SparkJARs, como archivos y archivos de Python.
Para realizar iteraciones más rápidas a la hora de desarrollar el código de procesamiento de características, puede especificar el argumento keep_alive_period_in_seconds
en el decorador @remote
para conservar los recursos configurados en un grupo en caliente para los siguientes trabajos de entrenamiento. Para obtener más información sobre las piscinas calientes, consulte KeepAlivePeriodInSeconds
la guía de API referencia.
El siguiente código es un ejemplo de requirements.txt:
local.
sagemaker>=2.167.0
Esto instalará la SageMaker SDK versión correspondiente en el trabajo remoto que se requiere para ejecutar el método anotado por@feature-processor
.