Beispiele für Notizbücher mit integrierten Debuger-Regeln Beispielcode für integrierte Debuger-Regeln Verwenden Sie die integrierten Debuger-Regeln mit Parameteränderungen

Beispiel-Notebooks und Codebeispiele zur Konfiguration von Debugger-Regeln

In den folgenden Abschnitten werden Notizbücher und Codebeispiele zur Verwendung von Debugger-Regeln zur Überwachung von SageMaker Trainingsaufträgen bereitgestellt.

Themen

Beispiele für Notizbücher mit integrierten Debuger-Regeln
Beispielcode für integrierte Debuger-Regeln
Verwenden Sie die integrierten Debuger-Regeln mit Parameteränderungen

Beispiele für Notizbücher mit integrierten Debuger-Regeln

Die folgenden Beispiel-Notebooks zeigen, wie die integrierten Debuger-Regeln verwendet werden, wenn Trainingsjobs mit Amazon SageMaker ausgeführt werden:

Wenn Sie die Beispiel-Notizbücher in SageMaker Studio ausführen, finden Sie die Trainingsjob-Testversion, die auf der Registerkarte Studio-Experimentliste erstellt wurde. Wie im folgenden Screenshot gezeigt, können Sie beispielsweise das Fenster Testkomponente beschreiben Ihres aktuellen Trainingsauftrags finden und öffnen. Auf der Registerkarte Debugger können Sie überprüfen, ob die Debugger-Regeln vanishing_gradient() undloss_not_decreasing(), die Trainingssitzung parallel überwachen. Eine vollständige Anleitung, wie Sie die Komponenten Ihrer Trainingsjob-Testversion in der Studio-Benutzeroberfläche finden, finden Sie unter SageMaker Studio — Experimente, Versuche und Testkomponenten anzeigen.

Ein Bild der Ausführung eines Trainingsjobs mit in SageMaker Studio aktivierten integrierten Debugger-Regeln

Es gibt zwei Möglichkeiten, die integrierten Debuger-Regeln in der SageMaker Umgebung zu verwenden: Stellen Sie die integrierten Regeln so bereit, wie sie vorbereitet sind, oder passen Sie ihre Parameter nach Ihren Wünschen an. Im Folgenden erfahren Sie anhand von Beispielcodes, wie Sie integrierte Regeln verwenden.

Beispielcode für integrierte Debuger-Regeln

Das folgende Codebeispiel zeigt, wie die integrierten Debugger-Regeln mit der Methode Rule.sagemaker festgelegt werden. Um die integrierten Regeln anzugeben, die Sie ausführen möchten, verwenden Sie den rules_configs API Vorgang, um die integrierten Regeln aufzurufen. Eine vollständige Liste der integrierten Debugger-Regeln und Standardparameterwerte finden Sie unter Liste der integrierten Debuger-Regeln.


import sagemaker
from sagemaker.tensorflow import TensorFlow
from sagemaker.debugger import Rule, CollectionConfig, rule_configs

# call built-in rules that you want to use.
built_in_rules=[ 
            Rule.sagemaker(rule_configs.vanishing_gradient())
            Rule.sagemaker(rule_configs.loss_not_decreasing())
]

# construct a SageMaker estimator with the Debugger built-in rules
sagemaker_estimator=TensorFlow(
    entry_point='directory/to/your_training_script.py',
    role=sm.get_execution_role(),
    base_job_name='debugger-built-in-rules-demo',
    instance_count=1,
    instance_type="ml.p3.2xlarge",
    framework_version="2.9.0",
    py_version="py39",

    # debugger-specific arguments below
    rules=built_in_rules
)
sagemaker_estimator.fit()

Anmerkung

Die integrierten Debugger-Regeln werden parallel zu Ihrem Trainingsauftrag ausgeführt. Die maximale Anzahl von integrierten Regelcontainern für einen Trainingsauftrag ist 20.

Weitere Informationen über die Debugger-Regelklasse, Methoden und Parameter finden Sie in der SageMaker Debugger-Regelklasse in Amazon SageMaker Python. SDK

Ein Beispiel für die Anpassung der Debugger-Regelparameter finden Sie im folgenden Abschnitt Verwenden Sie die integrierten Debuger-Regeln mit Parameteränderungen.

Verwenden Sie die integrierten Debuger-Regeln mit Parameteränderungen

Das folgende Codebeispiel zeigt die Struktur der integrierten Regeln zur Anpassung von Parametern. In diesem Beispiel erfasst stalled_training_rule alle 50 Schritte die losses Tensorerfassung aus einem Trainingsauftrag und alle 10 Schritte aus einer Evaluierungsphase. Wenn der Trainingsprozess ins Stocken gerät und 120 Sekunden lang keine Tensorausgaben erfasst werden, stoppt der stalled_training_rule den Trainingsjob.


import sagemaker
from sagemaker.tensorflow import TensorFlow
from sagemaker.debugger import Rule, CollectionConfig, rule_configs

# call the built-in rules and modify the CollectionConfig parameters

base_job_name_prefix= 'smdebug-stalled-demo-' + str(int(time.time()))

built_in_rules_modified=[
    Rule.sagemaker(
        base_config=rule_configs.stalled_training_rule(),
        rule_parameters={
                'threshold': '120',
                'training_job_name_prefix': base_job_name_prefix,
                'stop_training_on_fire' : 'True'
        }
        collections_to_save=[ 
            CollectionConfig(
                name="losses", 
                parameters={
                      "train.save_interval": "50"
                      "eval.save_interval": "10"
                } 
            )
        ]
    )
]

# construct a SageMaker estimator with the modified Debugger built-in rule
sagemaker_estimator=TensorFlow(
    entry_point='directory/to/your_training_script.py',
    role=sm.get_execution_role(),
    base_job_name=base_job_name_prefix,
    instance_count=1,
    instance_type="ml.p3.2xlarge",
    framework_version="2.9.0",
    py_version="py39",

    # debugger-specific arguments below
    rules=built_in_rules_modified
)
sagemaker_estimator.fit()

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konfigurieren Sie die integrierten Debugger-Regeln mit benutzerdefinierten Parameterwerten

Deaktivieren Sie den Debugger