Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esplora la dashboard di Amazon SageMaker Debugger Insights
Quando avvii un processo di SageMaker formazione, SageMaker Debugger inizia a monitorare l'utilizzo delle risorse delle istanze Amazon EC2 per impostazione predefinita. È possibile tenere traccia dei tassi di utilizzo del sistema, della panoramica delle statistiche e dell'analisi delle regole integrate tramite il pannello di controllo delle Informazioni. Questa guida illustra il contenuto della dashboard di SageMaker Debugger Insights nelle seguenti schede: Metriche e regole di sistema.
Nota
La dashboard SageMaker Debugger Insights esegue un'applicazione Studio Classic su un'ml.m5.4xlarge
istanza per elaborare e renderizzare le visualizzazioni. Ogni scheda SageMaker Debugger Insights esegue una sessione del kernel di Studio Classic. Più sessioni del kernel per più schede di SageMaker Debugger Insights vengono eseguite sulla singola istanza. Quando si chiude una scheda SageMaker Debugger Insights, viene chiusa anche la sessione del kernel corrispondente. L'applicazione Studio Classic rimane attiva e addebita i costi per l'utilizzo dell'istanza. ml.m5.4xlarge
Per informazioni sui prezzi, consulta la pagina SageMaker dei prezzi di Amazon
Importante
Quando hai finito di usare la dashboard di SageMaker Debugger Insights, chiudi l'ml.m5.4xlarge
istanza per evitare addebiti. Per istruzioni sulla modalità di arresto di un'istanza, consultare Chiudi l'istanza Amazon SageMaker Debugger Insights.
Importante
Nei report, i grafici e le raccomandazioni sono forniti a scopo informativo e non sono definitivi. Sei responsabile della tua valutazione indipendente delle informazioni.
Argomenti
Parametri del sistema
Nella scheda Metriche di sistema, puoi utilizzare la tabella di riepilogo e i grafici delle serie temporali per comprendere l'utilizzo delle risorse.
Riepilogo dell'utilizzo delle risorse
Questa tabella riassuntiva mostra le statistiche relative alle metriche di utilizzo delle risorse di calcolo di tutti i nodi (denominate algo-n). Le metriche di utilizzo delle risorse includono l'CPUutilizzo totale, l'utilizzo totale, l'GPUutilizzo totale della memoria, l'utilizzo totale della CPU memoria, il tempo di attesa I/O totale GPU e la rete totale in byte. La tabella mostra i valori minimo e massimo e i percentili p99, p90 e p50.
Grafici delle serie temporali di utilizzo delle risorse
Utilizza i grafici delle serie temporali per visualizzare maggiori dettagli sull'utilizzo delle risorse e identificare a quale intervallo di tempo ogni istanza mostra tassi di utilizzo indesiderati, ad esempio scarso GPU utilizzo e CPU colli di bottiglia che possono causare lo spreco di un'istanza costosa.
L'interfaccia utente del controller del grafico delle serie temporali
La schermata seguente mostra il controller dell'interfaccia utente per la regolazione dei grafici delle serie temporali.
-
algo-1: usa questo menu a discesa per scegliere il nodo che vuoi esaminare.
-
Ingrandisci: usa questo pulsante per ingrandire i grafici delle serie temporali e visualizzare intervalli di tempo più brevi.
-
Zoom indietro: utilizza questo pulsante per rimpicciolire i grafici delle serie temporali e visualizzare intervalli di tempo più ampi.
-
Esegui una panoramica a sinistra: sposta i grafici delle serie temporali su un intervallo temporale precedente.
-
Esegui una panoramica a destra: sposta i grafici delle serie temporali su un intervallo temporale successivo.
-
Correggi intervallo di tempo: utilizza questa casella di controllo per correggere o ripristinare i grafici delle serie temporali in modo da mostrare l'intera vista dal primo punto dati all'ultimo punto dati.
CPUutilizzo e tempo di attesa I/O
I primi due grafici mostrano l'CPUutilizzo e il tempo di attesa I/O nel tempo. Per impostazione predefinita, i grafici mostrano la media del tasso di CPU utilizzo e del tempo di attesa I/O impiegato sui core. CPU È possibile selezionare uno o più CPU core selezionando le etichette per rappresentarli graficamente su un unico grafico e confrontare l'utilizzo tra i core. Puoi trascinare e ingrandire e rimpicciolire per esaminare più da vicino intervalli di tempo specifici.
GPUutilizzo e utilizzo della memoria GPU
I grafici seguenti mostrano l'utilizzo e GPU l'utilizzo della GPU memoria nel tempo. In base all’impostazione predefinita, i grafici mostrano il tasso di utilizzo medio nel tempo. È possibile selezionare le etichette GPU principali per visualizzare il tasso di utilizzo di ciascun core. Il calcolo del tasso di utilizzo medio rispetto al numero totale di GPU core mostra l'utilizzo medio dell'intera risorsa del sistema hardware. Osservando il tasso di utilizzo medio, puoi verificare l'utilizzo complessivo delle risorse di sistema di un'EC2istanza Amazon. La figura seguente mostra un esempio di processo di formazione su un'ml.p3.16xlarge
istanza con 8 GPU core. È possibile controllare se il lavoro di formazione è ben distribuito, utilizzandolo appieno. GPUs
Utilizzo complessivo del sistema nel tempo
La seguente mappa termica mostra un esempio dell'utilizzo dell'intero sistema di un'ml.p3.16xlarge
istanza nel tempo, proiettato sul grafico bidimensionale. Ogni CPU GPU nucleo è elencato sull'asse verticale e l'utilizzo viene registrato nel tempo con uno schema di colori, in cui i colori brillanti rappresentano un utilizzo ridotto e i colori più scuri rappresentano un utilizzo elevato. Consulta la barra dei colori etichettata sul lato destro del grafico per scoprire quale livello di colore corrisponde a quale frequenza di utilizzo.
Regolamento
Utilizza la scheda Regole per trovare un riepilogo dell'analisi delle regole di profilazione relative al tuo processo di addestramento. Se la regola di profilazione viene attivata con il processo di addestramento, il testo appare evidenziato con il testo bianco pieno. Le regole inattive sono disattivate nel testo grigio. Per attivare queste regole, segui le istruzioni all'indirizzo Usa le regole di profilazione integrate gestite da Amazon SageMaker Debugger.