Executar o Processador de atributos do Feature Store remotamente - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Executar o Processador de atributos do Feature Store remotamente

Para executar seus processadores de recursos em grandes conjuntos de dados que exigem hardware mais poderoso do que o disponível localmente, você pode decorar seu código com o @remote decorador para executar seu código Python local como um trabalho de treinamento distribuído de um ou vários nós SageMaker . Para obter mais informações sobre como executar seu código como um trabalho de SageMaker treinamento, consulteExecute seu código local como um trabalho SageMaker de treinamento.

Veja a seguir um exemplo de uso do decorador @remote junto com o decorador @feature_processor.

from sagemaker.remote_function.spark_config import SparkConfig from sagemaker.remote_function import remote from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/') OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group' @remote( spark_config=SparkConfig(), instance_type="ml.m5.2xlarge", dependencies="/local/requirements.txt" ) @feature_processor( inputs=[CSV_DATA_SOURCE], output=OUTPUT_FG, ) def transform(csv_input_df): return csv_input_df transform()

O parâmetro spark_config indica que o trabalho remoto é executado como um aplicativo do Spark. A SparkConfig instância pode ser usada para configurar a configuração do Spark e fornecer dependências adicionais ao aplicativo Spark, como arquivos Python e arquivos. JARs

Para iterações mais rápidas ao desenvolver seu código de processamento de atributos, você pode especificar o argumento keep_alive_period_in_seconds no decorador @remote para reter os recursos configurados em um grupo de aquecimento para trabalhos de treinamento subsequentes. Para obter mais informações sobre piscinas aquecidas, consulte KeepAlivePeriodInSeconds o Guia API de referência.

O código a seguir é um exemplo do local requirements.txt:.

sagemaker>=2.167.0

Isso instalará a SageMaker SDK versão correspondente no trabalho remoto, necessária para executar o método anotado por. @feature-processor