遠端執行功能儲存功能處理器 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

遠端執行功能儲存功能處理器

若要在需要比本機功能更強大的硬體的大型資料集上執行 Feature Processor,您可以使用@remote裝飾器裝飾程式碼,以將本機 Python 程式碼作為單一或多節點分散式 SageMaker 訓練任務執行。如需將程式碼作為 SageMaker 訓練任務執行的詳細資訊,請參閱 將本機程式碼作為 SageMaker 訓練任務執行

以下是 @remote 裝飾器和 @feature_processor 裝飾器的使用範例。

from sagemaker.remote_function.spark_config import SparkConfig from sagemaker.remote_function import remote from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/') OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group' @remote( spark_config=SparkConfig(), instance_type="ml.m5.2xlarge", dependencies="/local/requirements.txt" ) @feature_processor( inputs=[CSV_DATA_SOURCE], output=OUTPUT_FG, ) def transform(csv_input_df): return csv_input_df transform()

spark_config參數指出遠端工作以 Spark 應用程式的形式執行。SparkConfig 執行個體可用來設定 Spark 組態,並為 Spark 應用程式提供其他相依性,例如 Python 檔案JARs、 和 檔案。

為了在開發特徵處理代碼時更快地迭代,您可以在@remote裝飾器中指定keep_alive_period_in_seconds引數,以將設定的資源保留在暖集區中,以供後續訓練任務使用。如需暖集區的詳細資訊,請參閱 API 參考指南KeepAlivePeriodInSeconds中的 。

以下是本機 requirements.txt: 範例

sagemaker>=2.167.0

這將在遠端任務中安裝對應的 SageMaker SDK版本,這是執行 註釋的方法所需的版本@feature-processor