Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Trova ulteriori informazioni e riferimenti sull'uso di Amazon SageMaker Debugger nei seguenti argomenti.
Argomenti
Amazon SageMaker Debugger APIs
Amazon SageMaker Debugger dispone di operazioni API in diverse località che vengono utilizzate per implementare il monitoraggio e l'analisi dell'addestramento dei modelli.
Amazon SageMaker Debugger fornisce anche l'SDK sagemaker-debugger
Python
L'Amazon SageMaker AI Python SDK è un SDKSMDebug
Python per monitorare e analizzare questi tensori utilizzando stimatori AI. SageMaker
Debugger ha aggiunto operazioni e tipi all' SageMaker API Amazon che consentono alla piattaforma di utilizzare Debugger durante l'addestramento di un modello e di gestire la configurazione di input e output.
-
CreateTrainingJob
eUpdateTrainingJob
usa il seguente Debugger per configurare raccolte di tensori, regole, immagini di regole e opzioni APIs di profilazione: -
DescribeTrainingJob
fornisce una descrizione completa di un processo di addestramento, incluse le seguenti configurazioni di Debugger e gli stati di valutazione delle regole:
Le operazioni dell'API di configurazione delle regole utilizzano la funzionalità di SageMaker elaborazione durante l'analisi dell'addestramento di un modello. Per ulteriori informazioni sull' SageMaker elaborazione, vedereCarichi di lavoro di trasformazione dei dati con Processing SageMaker .
Immagini Docker per le regole del Debugger
Amazon SageMaker AI fornisce due set di immagini Docker per le regole: un set per la valutazione delle regole fornite dall' SageMaker IA (regole integrate) e un set per la valutazione delle regole personalizzate fornite nei file sorgente Python.
Se utilizzi l'SDK Amazon SageMaker PythonConfigureTrainingJob
Se non si utilizza l'SDK SageMaker Python, è necessario recuperare un'immagine base del contenitore precostruita pertinente per le regole del Debugger. Amazon SageMaker Debugger fornisce immagini Docker predefinite per regole integrate e personalizzate e le immagini vengono archiviate in Amazon Elastic Container Registry (Amazon ECR). Per estrarre un'immagine da un repository Amazon ECR (o per inviare un'immagine a uno di essi), utilizza l'URL completo del registro dell'immagine utilizzando l'CreateTrainingJob
API. SageMaker L'intelligenza artificiale utilizza i seguenti modelli di URL per l'indirizzo del registro delle immagini del contenitore di regole Debugger.
<account_id>.dkr.ecr.<Region>.amazonaws.com/<ECR repository name>:<tag>
Per l'ID dell'account in ogni AWS regione, il nome del repository Amazon ECR e il valore del tag, consulta i seguenti argomenti.
Argomenti
Immagine Amazon SageMaker Debugger URIs per valutatori di regole integrati
Utilizza i seguenti valori per i componenti del registro URLs per le immagini che forniscono regole integrate per Amazon SageMaker Debugger. Per informazioni sull'account IDs, consulta la tabella seguente.
Nome del repository ECR: sagemaker-debugger-rules
Tag: ultimo
Esempio di URL del Registro completo:
904829902805.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rules:latest
Account IDs per le immagini del contenitore di regole integrate per regione AWS
Regione | account_id |
---|---|
af-south-1 |
314341159256 |
ap-east-1 |
199566480951 |
ap-northeast-1 |
430734990657 |
ap-northeast-2 |
578805364391 |
ap-south-1 |
904829902805 |
ap-southeast-1 |
972752614525 |
ap-southeast-2 |
184798709955 |
ca-central-1 |
519511493484 |
cn-north-1 |
618459771430 |
cn-northwest-1 |
658757709296 |
eu-central-1 |
482524230118 |
eu-north-1 |
314864569078 |
eu-south-1 |
563282790590 |
eu-west-1 |
929884845733 |
eu-west-2 |
250201462417 |
eu-west-3 |
447278800020 |
me-south-1 |
986000313247 |
sa-east-1 |
818342061345 |
us-east-1 |
503895931360 |
us-east-2 |
915447279597 |
us-west-1 |
685455198987 |
us-west-2 |
895741380848 |
us-gov-west-1 |
515509971035 |
Immagine Amazon SageMaker Debugger URIs per valutatori di regole personalizzati
Utilizza i seguenti valori per i componenti dell'URL del registro per le immagini che forniscono valutatori di regole personalizzati per Amazon SageMaker Debugger. Per informazioni sull'account IDs, consulta la tabella seguente.
Nome del repository ECR: sagemaker-debugger-rule-evaluator
Tag: ultimo
Esempio di URL del Registro completo:
552407032007.dkr.ecr.ap-south-1.amazonaws.com/sagemaker-debugger-rule-evaluator:latest
Account IDs per le immagini del contenitore Custom Rules per regione AWS
Regione | account_id |
---|---|
af-south-1 |
515950693465 |
ap-east-1 |
645844755771 |
ap-northeast-1 |
670969264625 |
ap-northeast-2 |
326368420253 |
ap-south-1 |
552407032007 |
ap-southeast-1 |
631532610101 |
ap-southeast-2 |
445670767460 |
ca-central-1 |
105842248657 |
cn-north-1 |
617202126805 |
cn-northwest-1 |
658559488188 |
eu-central-1 |
691764027602 |
eu-north-1 |
091235270104 |
eu-south-1 |
335033873580 |
eu-west-1 |
606966180310 |
eu-west-2 |
074613877050 |
eu-west-3 |
224335253976 |
me-south-1 |
050406412588 |
sa-east-1 |
466516958431 |
us-east-1 |
864354269164 |
us-east-2 |
840043622174 |
us-west-1 |
952348334681 |
us-west-2 |
759209512951 |
us-gov-west-1 |
515361955729 |
Eccezioni di Amazon SageMaker Debugger
Amazon SageMaker Debugger è progettato per tenere conto del fatto che i tensori necessari per eseguire una regola potrebbero non essere disponibili in ogni fase. Quindi genera alcune eccezioni che ti permettono di controllare cosa succede quando manca un tensore. Queste eccezioni sono disponibili nel modulo smdebug.exceptions
from smdebug.exceptions import *
Sono disponibili le seguenti eccezioni:
-
TensorUnavailableForStep
– il tensore richiesto non è disponibile per la fase. Questo potrebbe significare che questa fase potrebbe non essere salvata dall'hook o che questa fase potrebbe aver salvato alcuni tensori ma il tensore richiesto non è parte di essi. Si noti che in presenza di questa eccezione, il questo tensore non può mai diventare disponibile per questa fase in futuro. Se il tensore ha delle riduzioni salvate per la fase, ti avviserà che possono sottoposte a query. -
TensorUnavailable
– questo tensore non viene salvato o non è stato salvato dall'APIsmdebug
. Ciò significa che questo tensore non viene mai visto per nessuna fase insmdebug
. -
StepUnavailable
– la fase non è stata salvata e Debugger non ha ricevuto dati dalla fase. -
StepNotYetAvailable
– la fase non è stata ancora visualizzata dasmdebug
. Potrebbe essere disponibile in futuro se l’addestramento è ancora in corso. Debugger carica automaticamente i nuovi dati quando disponibili. -
NoMoreData
– generata alla fine dell’addestramento. Quando viene visualizzata questa eccezione, non ci sono più fasi e non ci sono più tensori da salvare. -
IndexReaderException
– il lettore dell'indice non è valido. -
InvalidWorker
– è stato richiamato un worker che non era valido. -
RuleEvaluationConditionMet
– la valutazione della regola durante la fase ha portato al soddisfacimento della condizione. -
InsufficientInformationForRuleInvocation
– sono state fornite informazioni insufficienti per richiamare la regola.
Formazione distribuita supportata da Amazon SageMaker Debugger
L'elenco seguente mostra l'ambito di validità e le considerazioni per l'utilizzo di Debugger in processi di addestramento con framework di deep learning e varie opzioni di addestramento distribuito.
-
Horovod
Ambito di validità dell'utilizzo di Debugger per processi di addestramento con Horovod
Framework Deep Learning Apache MXNet TensorFlow 1.x TensorFlow 2.x TensorFlow 2.x con Keras PyTorch Colli di bottiglia di bottiglia del sistema di monitoraggio Sì Sì Sì Sì Sì Operazioni del framework di profilazione No No No Sì Sì Debug dei tensori di output del modello Sì Sì Sì Sì Sì -
SageMaker Dati distribuiti AI in parallelo
Ambito di validità dell'utilizzo di Debugger per lavori di formazione con dati distribuiti paralleli di SageMaker intelligenza artificiale
Framework Deep Learning TensorFlow 2.x TensorFlow 2.x con Keras PyTorch Colli di bottiglia di bottiglia del sistema di monitoraggio Sì Sì Sì Operazioni del framework di profilazione No* No** Sì Debug dei tensori di output del modello Sì Sì Sì * Debugger non supporta la profilazione del framework per 2.x. TensorFlow
** SageMaker AI distributed data parallel non supporta TensorFlow 2.x con l'implementazione Keras.
-
SageMaker Modello parallelo distribuito AI: Debugger non supporta l'addestramento parallelo su modelli distribuiti SageMaker AI.
-
Formazione distribuita con checkpoint SageMaker AI: Debugger non è disponibile per i lavori di formazione quando sono abilitati sia l'opzione di formazione distribuita che i checkpoint AI. SageMaker È possibile che venga visualizzato un errore simile al seguente:
SMDebug Does Not Currently Support Distributed Training Jobs With Checkpointing Enabled
Per utilizzare Debugger per lavori di formazione con opzioni di formazione distribuite, devi disabilitare il checkpointing SageMaker AI e aggiungere funzioni di checkpoint manuali allo script di addestramento. Per ulteriori informazioni sull'uso di Debugger con opzioni di addestramento e checkpoint distribuiti, consulta Utilizzo di dati distribuiti SageMaker AI in parallelo con Amazon SageMaker Debugger e checkpoint e Salvataggio dei checkpoint.
-
Server di parametri: Debugger non supporta l'addestramento distribuito basato su server di parametri.
-
La profilazione delle operazioni del framework di formazione distribuito, come il
AllReduced
funzionamento parallelo dei dati distribuiti di SageMaker intelligenza artificiale e le operazioni Horovod, non è disponibile.