Esplora la dashboard di Amazon SageMaker Debugger Insights

Quando avvii un processo di SageMaker formazione, SageMaker Debugger inizia a monitorare l'utilizzo delle risorse delle istanze Amazon EC2 per impostazione predefinita. È possibile tenere traccia dei tassi di utilizzo del sistema, della panoramica delle statistiche e dell'analisi delle regole integrate tramite il pannello di controllo delle Informazioni. Questa guida illustra il contenuto della dashboard di SageMaker Debugger Insights nelle seguenti schede: Metriche e regole di sistema.

Nota

La dashboard SageMaker Debugger Insights esegue un'applicazione Studio Classic su un'ml.m5.4xlargeistanza per elaborare e renderizzare le visualizzazioni. Ogni scheda SageMaker Debugger Insights esegue una sessione del kernel di Studio Classic. Più sessioni del kernel per più schede di SageMaker Debugger Insights vengono eseguite sulla singola istanza. Quando si chiude una scheda SageMaker Debugger Insights, viene chiusa anche la sessione del kernel corrispondente. L'applicazione Studio Classic rimane attiva e addebita i costi per l'utilizzo dell'istanza. ml.m5.4xlarge Per informazioni sui prezzi, consulta la pagina dei prezzi di Amazon SageMaker AI.

Importante

Quando hai finito di usare la dashboard di SageMaker Debugger Insights, chiudi l'ml.m5.4xlargeistanza per evitare addebiti. Per istruzioni sulla modalità di arresto di un'istanza, consultare Chiudi l'istanza Amazon SageMaker Debugger Insights.

Importante

Nei report, i grafici e le raccomandazioni sono forniti a scopo informativo e non sono definitivi. Sei responsabile della tua valutazione indipendente delle informazioni.

Parametri del sistema

Nella scheda Metriche di sistema, puoi utilizzare la tabella di riepilogo e i grafici delle serie temporali per comprendere l'utilizzo delle risorse.

Riepilogo dell'utilizzo delle risorse

Questa tabella riassuntiva mostra le statistiche relative alle metriche di utilizzo delle risorse di calcolo di tutti i nodi (denominate algo-n). Le metriche di utilizzo delle risorse includono l'utilizzo totale della CPU, l'utilizzo totale della GPU, l'utilizzo totale della memoria della CPU, l'utilizzo totale della memoria GPU, il tempo di attesa I/O totale e la rete totale in byte. La tabella mostra i valori minimo e massimo e i percentili p99, p90 e p50.

Una tabella riassuntiva dell'utilizzo delle risorse

Grafici delle serie temporali di utilizzo delle risorse

Utilizza i grafici delle serie temporali per visualizzare maggiori dettagli sull'utilizzo delle risorse e identificare in quale intervallo di tempo ogni istanza mostra un tasso di utilizzo indesiderato, ad esempio un basso utilizzo della GPU, e i colli di bottiglia della CPU che possono causare lo spreco della costosa istanza.

L'interfaccia utente del controller del grafico delle serie temporali

La schermata seguente mostra il controller dell'interfaccia utente per la regolazione dei grafici delle serie temporali.

Il controller dell'interfaccia utente nella dashboard di Debugger Insights. SageMaker

algo-1: usa questo menu a discesa per scegliere il nodo che vuoi esaminare.
Ingrandisci: usa questo pulsante per ingrandire i grafici delle serie temporali e visualizzare intervalli di tempo più brevi.
Zoom indietro: utilizza questo pulsante per rimpicciolire i grafici delle serie temporali e visualizzare intervalli di tempo più ampi.
Esegui una panoramica a sinistra: sposta i grafici delle serie temporali su un intervallo temporale precedente.
Esegui una panoramica a destra: sposta i grafici delle serie temporali su un intervallo temporale successivo.
Correggi intervallo di tempo: utilizza questa casella di controllo per correggere o ripristinare i grafici delle serie temporali in modo da mostrare l'intera vista dal primo punto dati all'ultimo punto dati.

Utilizzo della CPU e tempo di attesa I/O

I primi due grafici mostrano l'utilizzo della CPU e il tempo di attesa I/O nel tempo. In base all’impostazione predefinita, i grafici mostrano la media del tasso di utilizzo della CPU e del tempo di attesa I/O impiegato sui core CPU. È possibile selezionare uno o più core della CPU selezionando le etichette per rappresentarle graficamente su un unico grafico e confrontare l'utilizzo tra i core. Puoi trascinare e ingrandire e rimpicciolire per esaminare più da vicino intervalli di tempo specifici.

Utilizzo della GPU e utilizzo della memoria GPU

I grafici seguenti mostrano l'utilizzo della GPU e della memoria GPU nel tempo. In base all’impostazione predefinita, i grafici mostrano il tasso di utilizzo medio nel tempo. Puoi selezionare le etichette dei core della GPU per visualizzare il tasso di utilizzo di ciascun core. Il calcolo del tasso di utilizzo medio rispetto al numero totale di core GPU mostra l'utilizzo medio dell'intera risorsa del sistema hardware. Osservando il tasso di utilizzo medio, puoi verificare l'utilizzo complessivo delle risorse di sistema di un' EC2 istanza Amazon. La figura seguente mostra un processo di addestramento di esempio su un'istanza ml.p3.16xlarge con 8 core GPU. Puoi controllare se il lavoro di formazione è ben distribuito, sfruttando appieno tutto. GPUs

Utilizzo complessivo del sistema nel tempo

La seguente mappa termica mostra un esempio dell'utilizzo dell'intero sistema di un'ml.p3.16xlargeistanza nel tempo, proiettato sul grafico bidimensionale. Ogni core di CPU e GPU è elencato nell’asse verticale e l'utilizzo viene registrato nel tempo con uno schema di colori, in cui i colori brillanti rappresentano un utilizzo ridotto e i colori più scuri rappresentano un utilizzo elevato. Consulta la barra dei colori etichettata sul lato destro del grafico per scoprire quale livello di colore corrisponde a quale frequenza di utilizzo.

Regolamento

Utilizza la scheda Regole per trovare un riepilogo dell'analisi delle regole di profilazione relative al tuo processo di addestramento. Se la regola di profilazione viene attivata con il processo di addestramento, il testo appare evidenziato con il testo bianco pieno. Le regole inattive sono disattivate nel testo grigio. Per attivare queste regole, segui le istruzioni all'indirizzo Usa le regole di profilazione integrate gestite da Amazon SageMaker Debugger.

La scheda Regole nella dashboard di SageMaker Debugger Insights

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

SageMaker Controller di dashboard Debugger Insights

Chiudi Debugger Insights SageMaker