Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécution à distance de l'intégrateur de fonctionnalités Feature Store
Pour exécuter vos Feature Processors sur de grands ensembles de données qui nécessitent un matériel plus puissant que celui disponible localement, vous pouvez décorer votre code avec le @remote
décorateur pour exécuter votre code Python local sous forme de tâche d' SageMaker entraînement distribuée à un ou plusieurs nœuds. Pour plus d'informations sur l'exécution de votre code en tant que tâche de SageMaker formation, consultezExécutez votre code local en tant que tâche SageMaker de formation.
Voici un exemple d'utilisation du décorateur @remote
avec le décorateur @feature_processor
.
from sagemaker.remote_function.spark_config import SparkConfig from sagemaker.remote_function import remote from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/') OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group' @remote( spark_config=SparkConfig(), instance_type="ml.m5.2xlarge", dependencies="/local/requirements.txt" ) @feature_processor( inputs=[CSV_DATA_SOURCE], output=OUTPUT_FG, ) def transform(csv_input_df): return csv_input_df transform()
Le paramètre spark_config
indique que la tâche distante s'exécute en tant qu'application Spark. L'SparkConfig
instance peut être utilisée pour configurer la configuration Spark et fournir des dépendances supplémentaires à l'application SparkJARs, telles que des fichiers Python et des fichiers.
Pour accélérer les itérations lors du développement de votre code de fonctionnalisation, vous pouvez spécifier l'argument keep_alive_period_in_seconds
dans le décorateur @remote
afin de retenir les ressources configurées dans un groupe d'instances pré-initialisées pour les tâches d'entraînement suivantes. Pour plus d'informations sur les piscines chaudes, consultez KeepAlivePeriodInSeconds
le guide API de référence.
Le code suivant est un exemple de fichier requirements.txt:
local :
sagemaker>=2.167.0
Cela installera la SageMaker SDK version correspondante dans la tâche distante requise pour exécuter la méthode annotée par@feature-processor
.