Profil dan optimalkan kinerja komputasi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Profil dan optimalkan kinerja komputasi

Saat melatih model pembelajaran state-of-the-art mendalam yang berkembang pesat dalam ukuran, menskalakan pekerjaan pelatihan model tersebut ke cluster GPU besar dan mengidentifikasi masalah kinerja komputasi dari miliaran dan triliunan operasi dan komunikasi dalam setiap iterasi proses penurunan gradien menjadi tantangan.

SageMaker menyediakan alat profil untuk memvisualisasikan dan mendiagnosis masalah komputasi kompleks yang timbul dari menjalankan pekerjaan pelatihan pada sumber daya komputasi awan. AWS Ada dua opsi pembuatan profil yang SageMaker menawarkan: Amazon SageMaker Profiler dan monitor pemanfaatan sumber daya di Amazon SageMaker Studio Classic. Lihat perkenalan berikut dari dua fungsi untuk mendapatkan wawasan cepat dan pelajari mana yang akan digunakan tergantung pada kebutuhan Anda.

Amazon SageMaker Profiler

Amazon SageMaker Profiler adalah kemampuan pembuatan profil yang dapat digunakan untuk menyelami sumber daya komputasi yang disediakan saat melatih model pembelajaran mendalam, dan mendapatkan visibilitas ke detail tingkat operasi. SageMaker SageMaker Profiler menyediakan modul Python untuk menambahkan anotasi PyTorch di seluruh TensorFlow atau melatih skrip dan mengaktifkan Profiler. SageMaker Anda dapat mengakses modul melalui SageMaker Python SDK dan AWS Deep Learning Containers.

Dengan SageMaker Profiler, Anda dapat melacak semua aktivitas pada CPU dan GPU, seperti pemanfaatan CPU dan GPU, kernel berjalan pada GPU, peluncuran kernel pada CPU, operasi sinkronisasi, operasi memori di seluruh CPU dan GPU, latensi antara peluncuran kernel dan proses yang sesuai, dan transfer data antara CPU dan GPU.

SageMaker Profiler juga menawarkan antarmuka pengguna (UI) yang memvisualisasikan profil, ringkasan statistik peristiwa yang diprofilkan, dan garis waktu pekerjaan pelatihan untuk melacak dan memahami hubungan waktu peristiwa antara GPU dan CPU.

Untuk mempelajari lebih lanjut tentang SageMaker Profiler, lihatMenggunakan Amazon SageMaker Profiler untuk membuat profil aktivitas pada sumber daya AWS komputasi.

Memantau sumber daya AWS komputasi di Amazon SageMaker Studio Classic

SageMaker juga menyediakan antarmuka pengguna di Studio Classic untuk memantau pemanfaatan sumber daya pada tingkat tinggi, tetapi dengan perincian yang lebih besar dibandingkan dengan metrik pemanfaatan default yang dikumpulkan dari hingga. SageMaker CloudWatch

Untuk pekerjaan pelatihan apa pun yang Anda jalankan dalam SageMaker menggunakan SageMaker Python SDK, SageMaker mulailah membuat profil metrik pemanfaatan sumber daya dasar, seperti pemanfaatan CPU, pemanfaatan GPU, pemanfaatan memori GPU, jaringan, dan waktu tunggu I/O. Ini mengumpulkan metrik pemanfaatan sumber daya ini setiap 500 milidetik.

Dibandingkan dengan CloudWatch metrik Amazon, yang mengumpulkan metrik pada interval 1 detik, fungsionalitas pemantauan SageMaker memberikan perincian yang lebih halus ke dalam metrik pemanfaatan sumber daya hingga interval 100 milidetik (0,1 detik), sehingga Anda dapat menyelam jauh ke dalam metrik pada tingkat operasi atau langkah.

Untuk mengakses dasbor untuk memantau metrik pemanfaatan sumber daya dari pekerjaan pelatihan, lihat UI SageMaker Debugger di Eksperimen Studio. SageMaker