Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Um Ihre Feature-Prozessoren auf großen Datensätzen auszuführen, für die Hardware erforderlich ist, die leistungsfähiger ist als die lokal verfügbare, können Sie Ihren Code mit dem @remote
Decorator dekorieren, um Ihren lokalen Python-Code als verteilten SageMaker Trainingsjob mit einem oder mehreren Knoten auszuführen. Weitere Informationen zur Ausführung Ihres Codes als SageMaker Trainingsjob finden Sie unter. Führen Sie Ihren lokalen Code als SageMaker Trainingsjob aus
Im Folgenden finden Sie ein Anwendungsbeispiel für den @remote
Decorator zusammen mit dem @feature_processor
Decorator.
from sagemaker.remote_function.spark_config import SparkConfig
from sagemaker.remote_function import remote
from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor
CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/')
OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group'
@remote(
spark_config=SparkConfig(),
instance_type="ml.m5.2xlarge",
dependencies="/local/requirements.txt"
)
@feature_processor(
inputs=[CSV_DATA_SOURCE],
output=OUTPUT_FG,
)
def transform(csv_input_df):
return csv_input_df
transform()
Der spark_config
Parameter gibt an, dass der Remote-Job als Spark-Anwendung ausgeführt wird. Die SparkConfig
Instanz kann verwendet werden, um die Spark-Konfiguration zu konfigurieren und zusätzliche Abhängigkeiten für die Spark-Anwendung bereitzustellen, z. B. Python-Dateien JARs, und -Dateien.
Für schnellere Iterationen bei der Entwicklung Ihres Feature-Verarbeitungscodes können Sie das keep_alive_period_in_seconds
Argument im @remote
Decorator angeben, um die konfigurierten Ressourcen für nachfolgende Trainingsaufgaben in einem warmen Pool aufzubewahren. Weitere Informationen über warme Pools finden Sie unter KeepAlivePeriodInSeconds
im API Reference Guide.
Im Folgenden Code sehen Sie ein Beispiel für eine lokale requirements.txt:
sagemaker>=2.167.0
Dadurch wird die entsprechende SageMaker SDK-Version im Remote-Job installiert, die für die Ausführung der Methode mit den Anmerkungen von @feature-processor
erforderlich ist.