Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
CloudWatch solusi: NVIDIA GPU beban kerja di Amazon EC2
Solusi ini membantu Anda mengonfigurasi pengumpulan out-of-the-box metrik menggunakan CloudWatch agen untuk NVIDIA GPU beban kerja yang berjalan pada EC2 instance. Selain itu, ini membantu Anda mengatur CloudWatch dasbor yang telah dikonfigurasi sebelumnya. Untuk informasi umum tentang semua solusi CloudWatch observabilitas, lihatCloudWatch solusi observabilitas.
Topik
Persyaratan
Solusi ini relevan untuk kondisi berikut:
-
Hitung: Amazon EC2
-
Mendukung hingga 500 GPUs di semua EC2 contoh dalam satu Wilayah AWS
-
Versi terbaru dari CloudWatch agent
-
SSMagen diinstal pada EC2 contoh
-
EC2Instans harus memiliki NVIDIA driver yang diinstal. NVIDIAdriver sudah diinstal sebelumnya pada beberapa Amazon Machine Images (AMIs). Jika tidak, Anda dapat melakukan instalasi driver secara manual. Untuk informasi selengkapnya, lihat Menginstal NVIDIA driver di instance Linux.
catatan
AWS Systems Manager (SSMagen) sudah diinstal sebelumnya pada beberapa Amazon Machine Images (AMIs) yang disediakan oleh AWS dan pihak ketiga tepercaya. Jika agen tidak diinstal, Anda dapat menginstalnya secara manual menggunakan prosedur untuk jenis sistem operasi Anda.
Manfaat
Solusi ini memberikan NVIDIA pemantauan, memberikan wawasan berharga untuk kasus penggunaan berikut:
-
Analisis GPU dan penggunaan memori untuk kemacetan kinerja atau kebutuhan akan sumber daya tambahan.
-
Pantau suhu dan daya tarik untuk memastikan GPUs beroperasi dalam batas aman.
-
Evaluasi kinerja encoder untuk beban kerja GPU video.
-
Verifikasi PCIe konektivitas untuk generasi dan lebar yang diharapkan.
-
Pantau kecepatan GPU clock untuk mendeteksi masalah penskalaan dan pelambatan.
Di bawah ini adalah keuntungan utama dari solusi ini:
-
Mengotomatiskan pengumpulan metrik untuk NVIDIA menggunakan konfigurasi CloudWatch agen, menghilangkan instrumentasi manual.
-
Menyediakan CloudWatch dasbor terkonsolidasi yang telah dikonfigurasi sebelumnya untuk NVIDIA metrik. Dasbor akan secara otomatis menangani metrik dari NVIDIA EC2 instance baru yang dikonfigurasi menggunakan solusi, bahkan jika metrik tersebut tidak ada saat Anda pertama kali membuat dasbor.
Gambar berikut adalah contoh dasbor untuk solusi ini.
Biaya
Solusi ini membuat dan menggunakan sumber daya di akun Anda. Anda dikenakan biaya untuk penggunaan standar, termasuk yang berikut:
-
Semua metrik yang dikumpulkan oleh CloudWatch agen dikenakan biaya sebagai metrik khusus. Jumlah metrik yang digunakan oleh solusi ini tergantung pada jumlah EC2 host.
-
Setiap EC2 host yang dikonfigurasi untuk solusi menerbitkan total 17 metrik per. GPU
-
-
Satu dasbor khusus.
-
APIoperasi yang diminta oleh CloudWatch agen untuk mempublikasikan metrik. Dengan konfigurasi default untuk solusi ini, CloudWatch agen memanggil PutMetricDatasekali setiap menit untuk setiap EC2 host. Ini berarti PutMetricDataAPIakan dipanggil
30*24*60=43,200
dalam bulan 30 hari untuk setiap EC2 tuan rumah.
Untuk informasi selengkapnya tentang CloudWatch harga, lihat CloudWatch Harga Amazon
Kalkulator harga dapat membantu Anda memperkirakan perkiraan biaya bulanan untuk menggunakan solusi ini.
Untuk menggunakan kalkulator harga untuk memperkirakan biaya solusi bulanan Anda
-
Untuk Pilih Wilayah, pilih Wilayah tempat Anda ingin menerapkan solusi.
-
Di bagian Metrik, untuk Jumlah metrik, masukkan.
17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution
-
Di APIsbagian, untuk Jumlah API permintaan, masukkan
43200 * number of EC2 instances configured for this solution
. -
Secara default, CloudWatch agen melakukan satu PutMetricDataoperasi setiap menit untuk setiap EC2 host.
-
Di bagian Dasbor dan Alarm, untuk Jumlah Dasbor, masukkan.
1
-
Anda dapat melihat perkiraan biaya bulanan Anda di bagian bawah kalkulator harga.
CloudWatch konfigurasi agen untuk solusi ini
CloudWatch Agen adalah perangkat lunak yang berjalan terus menerus dan otonom di server Anda dan di lingkungan kontainer. Ini mengumpulkan metrik, log, dan jejak dari infrastruktur dan aplikasi Anda dan mengirimkannya ke dan CloudWatch X-Ray.
Untuk informasi lebih lanjut tentang CloudWatch agen, lihatKumpulkan metrik, log, dan jejak dengan agen CloudWatch .
Konfigurasi agen dalam solusi ini mengumpulkan satu set metrik untuk membantu Anda mulai memantau dan mengamati Anda. NVIDIA GPU CloudWatch Agen dapat dikonfigurasi untuk mengumpulkan lebih banyak NVIDIA GPU metrik daripada tampilan dasbor secara default. Untuk daftar semua NVIDIA GPU metrik yang dapat Anda kumpulkan, lihatKumpulkan NVIDIA GPU metrik.
Konfigurasi agen untuk solusi ini
Metrik yang dikumpulkan oleh agen ditentukan dalam konfigurasi agen. Solusi ini menyediakan konfigurasi agen untuk mengumpulkan metrik yang direkomendasikan dengan dimensi yang sesuai untuk dasbor solusi.
Gunakan konfigurasi CloudWatch agen berikut pada EC2 instance dengan NVIDIAGPUs. Konfigurasi akan disimpan sebagai parameter di SSM Parameter Store, seperti yang dijelaskan nantiLangkah 2: Simpan file konfigurasi CloudWatch agen yang direkomendasikan di Systems Manager Parameter Store.
{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }
Menyebarkan agen untuk solusi Anda
Ada beberapa pendekatan untuk menginstal CloudWatch agen, tergantung pada kasus penggunaan. Sebaiknya gunakan Systems Manager untuk solusi ini. Ini memberikan pengalaman konsol dan membuatnya lebih mudah untuk mengelola armada server yang dikelola dalam satu AWS akun. Petunjuk di bagian ini menggunakan Systems Manager dan ditujukan untuk saat Anda tidak menjalankan CloudWatch agen dengan konfigurasi yang ada. Anda dapat memeriksa apakah CloudWatch agen berjalan dengan mengikuti langkah-langkah diVerifikasi bahwa CloudWatch agen sedang berjalan.
Jika Anda sudah menjalankan CloudWatch agen di EC2 host tempat beban kerja diterapkan dan mengelola konfigurasi agen, Anda dapat melewati instruksi di bagian ini dan mengikuti mekanisme penerapan yang ada untuk memperbarui konfigurasi. Pastikan untuk menggabungkan konfigurasi agen NVIDIA GPU dengan konfigurasi agen yang ada, lalu menerapkan konfigurasi gabungan. Jika Anda menggunakan Systems Manager untuk menyimpan dan mengelola konfigurasi CloudWatch agen, Anda dapat menggabungkan konfigurasi ke nilai parameter yang ada. Untuk informasi selengkapnya, lihat Mengelola file konfigurasi CloudWatch agen.
catatan
Menggunakan Systems Manager untuk menerapkan konfigurasi CloudWatch agen berikut akan menggantikan atau menimpa konfigurasi CloudWatch agen yang ada pada instans Anda. EC2 Anda dapat memodifikasi konfigurasi ini agar sesuai dengan lingkungan unik atau kasus penggunaan Anda. Metrik yang ditentukan dalam konfigurasi adalah minimum yang diperlukan untuk dasbor yang disediakan solusinya.
Proses penyebaran mencakup langkah-langkah berikut:
-
Langkah 1: Pastikan bahwa EC2 instance target memiliki IAM izin yang diperlukan.
-
Langkah 2: Simpan file konfigurasi agen yang direkomendasikan di Systems Manager Parameter Store.
-
Langkah 3: Instal CloudWatch agen pada satu atau lebih EC2 contoh menggunakan AWS CloudFormation tumpukan.
-
Langkah 4: Verifikasi pengaturan agen dikonfigurasi dengan benar.
Langkah 1: Pastikan EC2 instance target memiliki izin yang diperlukan IAM
Anda harus memberikan izin kepada Systems Manager untuk menginstal dan mengkonfigurasi CloudWatch agen. Anda juga harus memberikan izin kepada CloudWatch agen untuk mempublikasikan telemetri dari EC2 instans Anda ke. CloudWatch Pastikan bahwa IAM peran yang dilampirkan pada instance memiliki mazonSSMManaged InstanceCore IAM kebijakan CloudWatchAgentServerPolicydan A terlampir.
-
Untuk membuat peran, lihatBuat IAM peran untuk digunakan dengan CloudWatch agen di EC2 instans Amazon.
-
Setelah peran dibuat, lampirkan peran ke EC2 instance Anda. Untuk melampirkan peran ke EC2 instance, ikuti langkah-langkah di Lampirkan IAM peran ke instance.
Langkah 2: Simpan file konfigurasi CloudWatch agen yang direkomendasikan di Systems Manager Parameter Store
Parameter Store menyederhanakan pemasangan CloudWatch agen pada EC2 instance dengan menyimpan dan mengelola parameter konfigurasi dengan aman, menghilangkan kebutuhan akan nilai hard-code. Ini memastikan proses penyebaran yang lebih aman dan fleksibel, memungkinkan manajemen terpusat dan pembaruan konfigurasi yang lebih mudah di beberapa instance.
Gunakan langkah-langkah berikut untuk menyimpan file konfigurasi CloudWatch agen yang direkomendasikan sebagai parameter di Parameter Store.
Untuk membuat file konfigurasi CloudWatch agen sebagai parameter
Buka AWS Systems Manager konsol di https://console.aws.amazon.com/systems-manager/
. -
Verifikasi bahwa Wilayah yang dipilih di konsol adalah Wilayah tempat NVIDIA GPU beban kerja berjalan.
-
Dari panel navigasi, pilih Manajemen Aplikasi, Parameter Store.
-
Ikuti langkah-langkah ini untuk membuat parameter baru untuk konfigurasi.
-
Pilih Buat parameter.
-
Di kotak Nama, masukkan nama yang akan Anda gunakan untuk mereferensikan file konfigurasi CloudWatch agen di langkah selanjutnya. Misalnya,
AmazonCloudWatch-NVIDIA-GPU-Configuration
. -
(Opsional) Dalam Deskripsi kotak, ketikkan deskripsi untuk parameter.
-
Untuk tingkat Parameter, pilih Standar.
-
Untuk Type, pilih String.
-
Untuk tipe Data, pilih teks.
-
Di kotak Nilai, tempel JSON blok terkait yang terdaftar diKonfigurasi agen untuk solusi ini.
-
Pilih Buat parameter.
-
Langkah 3: Instal CloudWatch agen dan terapkan konfigurasi menggunakan AWS CloudFormation templat
Anda dapat menggunakan AWS CloudFormation untuk menginstal agen dan mengonfigurasinya untuk menggunakan konfigurasi CloudWatch agen yang Anda buat di langkah sebelumnya.
Untuk menginstal dan mengkonfigurasi CloudWatch agen untuk solusi ini
-
Buka wizard AWS CloudFormation Quick create stack menggunakan link ini: https://console.aws.amazon.com/cloudformation/home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw - agent-installation-template -1.0.0.json
. -
Verifikasi bahwa Wilayah yang dipilih di konsol adalah Wilayah tempat NVIDIA GPU beban kerja berjalan.
-
Untuk nama Stack, masukkan nama untuk mengidentifikasi tumpukan ini, seperti
CWAgentInstallationStack
. -
Di bagian Parameter, tentukan yang berikut ini:
-
Untuk CloudWatchAgentConfigSSM, masukkan nama parameter Systems Manager untuk konfigurasi agen yang Anda buat sebelumnya, seperti
AmazonCloudWatch-NVIDIA-GPU-Configuration
. -
Untuk memilih instance target, Anda memiliki dua opsi.
-
Untuk InstanceIds, tentukan daftar instance IDs daftar instance yang dibatasi koma IDs di mana Anda ingin menginstal CloudWatch agen dengan konfigurasi ini. Anda dapat membuat daftar satu contoh atau beberapa contoh.
-
Jika Anda menerapkan pada skala besar, Anda dapat menentukan TagKeydan yang sesuai TagValueuntuk menargetkan semua EC2 instance dengan tag dan nilai ini. Jika Anda menentukan a TagKey, Anda harus menentukan yang sesuai TagValue. (Untuk grup Auto Scaling, tentukan
aws:autoscaling:groupName
TagKeydan tentukan nama grup Auto Scaling untuk digunakan ke semua TagValueinstance dalam grup Auto Scaling.)
-
-
-
Tinjau pengaturan, lalu pilih Buat tumpukan.
Jika Anda ingin mengedit file templat terlebih dahulu untuk menyesuaikannya, pilih opsi Unggah file templat di bawah Buat Wisaya Tumpukan untuk mengunggah templat yang diedit. Untuk informasi selengkapnya, lihat Membuat tumpukan di AWS CloudFormation konsol.
catatan
Setelah langkah ini selesai, parameter Systems Manager ini akan dikaitkan dengan CloudWatch agen yang berjalan dalam instance yang ditargetkan. Ini artinya bahwa:
-
Jika parameter Systems Manager dihapus, agen akan berhenti.
-
Jika parameter Systems Manager diedit, perubahan konfigurasi akan secara otomatis berlaku untuk agen pada frekuensi terjadwal yaitu 30 hari secara default.
-
Jika Anda ingin segera menerapkan perubahan pada parameter Systems Manager ini, Anda harus menjalankan langkah ini lagi. Untuk informasi selengkapnya tentang asosiasi, lihat Bekerja dengan asosiasi di Systems Manager.
Langkah 4: Verifikasi pengaturan agen dikonfigurasi dengan benar
Anda dapat memverifikasi apakah CloudWatch agen diinstal dengan mengikuti langkah-langkah diVerifikasi bahwa CloudWatch agen sedang berjalan. Jika CloudWatch agen tidak diinstal dan berjalan, pastikan Anda telah mengatur semuanya dengan benar.
-
Pastikan Anda telah melampirkan peran dengan izin yang benar untuk EC2 instance seperti yang dijelaskan dalamLangkah 1: Pastikan EC2 instance target memiliki izin yang diperlukan IAM.
-
Pastikan Anda telah mengonfigurasi parameter JSON untuk Systems Manager dengan benar. Ikuti langkah-langkah di Memecahkan masalah pemasangan agen dengan CloudWatch AWS CloudFormation.
Jika semuanya diatur dengan benar, maka Anda akan melihat NVIDIA GPU metrik yang dipublikasikan. CloudWatch Anda dapat memeriksa CloudWatch konsol untuk memverifikasi bahwa mereka sedang dipublikasikan.
Untuk memverifikasi bahwa NVIDIA GPU metrik sedang dipublikasikan ke CloudWatch
Buka CloudWatch konsol di https://console.aws.amazon.com/cloudwatch/
. -
Pilih Metrik, Semua Metrik.
-
Pastikan Anda telah memilih Wilayah tempat Anda menerapkan solusi, dan pilih Ruang nama khusus,. CWAgent
-
Cari metrik yang disebutkan dalamKonfigurasi agen untuk solusi ini, seperti
nvidia_smi_utilization_gpu
. Jika Anda melihat hasil untuk metrik ini, maka metrik sedang dipublikasikan ke. CloudWatch
Buat dasbor NVIDIA GPU solusi
Dasbor yang disediakan oleh solusi ini menyajikan NVIDIA GPUs metrik dengan menggabungkan dan menyajikan metrik di semua instance. Dasbor menunjukkan rincian kontributor teratas (10 teratas per widget metrik) untuk setiap metrik. Ini membantu Anda mengidentifikasi outlier atau instance dengan cepat yang berkontribusi secara signifikan terhadap metrik yang diamati.
Untuk membuat dasbor, Anda dapat menggunakan opsi berikut:
Gunakan CloudWatch konsol untuk membuat dasbor.
Gunakan AWS CloudFormation konsol untuk menyebarkan dasbor.
Unduh AWS CloudFormation infrastruktur sebagai kode dan integrasikan sebagai bagian dari otomatisasi integrasi berkelanjutan (CI) Anda.
Dengan menggunakan CloudWatch konsol untuk membuat dasbor, Anda dapat melihat pratinjau dasbor sebelum benar-benar membuat dan mengisi daya.
catatan
Dasbor yang dibuat dengan AWS CloudFormation solusi ini menampilkan metrik dari Wilayah tempat solusi diterapkan. Pastikan untuk membuat AWS CloudFormation tumpukan di Wilayah tempat NVIDIA GPU metrik Anda dipublikasikan.
Jika Anda telah menentukan namespace khusus selain CWAgent dalam konfigurasi CloudWatch agen, Anda harus mengubah AWS CloudFormation template untuk dasbor untuk diganti CWAgent dengan namespace khusus yang Anda gunakan.
Untuk membuat dasbor melalui CloudWatch Konsol
-
Buka Dasbor Buat CloudWatch Konsol menggunakan tautan ini: https://console.aws.amazon.com/cloudwatch/beranda? #dashboards? dashboardTemplate= NvidiaGpuOnEc 2&referrer=os-catalog
. -
Verifikasi bahwa Wilayah yang dipilih di konsol adalah Wilayah tempat NVIDIA GPU beban kerja berjalan.
-
Masukkan nama dasbor, lalu pilih Create Dashboard.
Untuk membedakan dasbor ini dengan mudah dari dasbor serupa di Wilayah lain, sebaiknya sertakan nama Wilayah di nama dasbor, seperti.
NVIDIA-GPU-Dashboard-us-east-1
-
Pratinjau dasbor dan pilih Simpan untuk membuat dasbor.
Untuk membuat dasbor melalui AWS CloudFormation
-
Buka wizard AWS CloudFormation Quick create stack menggunakan link ini: https://console.aws.amazon.com/cloudformation/home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json
. -
Verifikasi bahwa Wilayah yang dipilih di konsol adalah Wilayah tempat NVIDIA GPU beban kerja berjalan.
-
Untuk nama Stack, masukkan nama untuk mengidentifikasi tumpukan ini, seperti
NVIDIA-GPU-DashboardStack
. -
Di bagian Parameter, tentukan nama dasbor di bawah DashboardNameparameter.
-
Untuk membedakan dasbor ini dengan mudah dari dasbor serupa di Wilayah lain, sebaiknya sertakan nama Wilayah di nama dasbor, seperti.
NVIDIA-GPU-Dashboard-us-east-1
-
Akui kemampuan akses untuk transformasi di bawah Kemampuan dan transformasi. Perhatikan bahwa AWS CloudFormation tidak menambahkan IAM sumber daya apa pun.
-
Tinjau pengaturan, lalu pilih Buat tumpukan.
-
Setelah status tumpukan adalah CREATE_ COMPLETE, pilih tab Sumber Daya di bawah tumpukan yang dibuat dan kemudian pilih tautan di bawah ID Fisik untuk pergi ke dasbor. Anda juga dapat mengakses dasbor di CloudWatch konsol dengan memilih Dasbor di panel navigasi kiri konsol, dan menemukan nama dasbor di bawah Dasbor Kustom.
Jika Anda ingin mengedit file templat untuk menyesuaikannya untuk tujuan apa pun, Anda dapat menggunakan opsi Unggah file templat di bawah Buat Wisaya Tumpukan untuk mengunggah templat yang diedit. Untuk informasi selengkapnya, lihat Membuat tumpukan di AWS CloudFormation konsol. Anda dapat menggunakan tautan ini untuk mengunduh templat: https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json
Memulai dengan NVIDIA GPU dasbor
Berikut adalah beberapa tugas yang dapat Anda coba dengan NVIDIA GPU dasbor baru. Tugas-tugas ini memungkinkan Anda untuk memvalidasi bahwa dasbor berfungsi dengan benar dan memberi Anda beberapa pengalaman langsung menggunakannya untuk memantau Anda. NVIDIA GPUs Saat Anda mencobanya, Anda akan terbiasa dengan menavigasi dasbor dan menafsirkan metrik yang divisualisasikan.
Tinjau GPU pemanfaatan
Dari bagian Utilisasi, temukan widget Pemanfaatan dan GPUPemanfaatan Memori. Ini menunjukkan persentase waktu yang GPU digunakan secara aktif untuk perhitungan dan persentase memori global yang dibaca atau ditulis, masing-masing. Pemanfaatan yang tinggi dapat menunjukkan potensi kemacetan kinerja atau kebutuhan akan sumber daya tambahan. GPU
Analisis penggunaan GPU memori
Di bagian Memory, temukan widget Total Memory, Used Memory, dan Free Memory. Ini memberikan wawasan tentang kapasitas memori keseluruhan GPUs dan berapa banyak memori yang saat ini dikonsumsi atau tersedia. Tekanan memori dapat menyebabkan masalah atau out-of-memory kesalahan kinerja, jadi penting untuk memantau metrik ini dan memastikan memori yang cukup tersedia untuk beban kerja Anda.
Pantau suhu dan daya tarik
Di bagian Temperatur/Daya, temukan widget GPUTemperature and Power Draw. Metrik ini penting untuk memastikan bahwa Anda GPUs beroperasi dalam batas termal dan daya yang aman.
Identifikasi kinerja encoder
Di bagian Encoder, temukan widget Encoder Session Count, AverageFPS, dan Average Latency. Metrik ini relevan jika Anda menjalankan beban kerja pengkodean video pada Anda. GPUs Pantau metrik ini untuk memastikan bahwa encoder Anda berkinerja optimal dan mengidentifikasi potensi kemacetan atau masalah kinerja.
Periksa status PCIe tautan
Di PCIebagian ini, temukan widget Pembuatan PCIe PCIe Tautan dan Lebar Tautan. Metrik ini memberikan informasi tentang PCIe tautan yang menghubungkan GPU ke sistem host. Pastikan tautan beroperasi pada generasi dan lebar yang diharapkan untuk menghindari potensi keterbatasan kinerja karena PCIe kemacetan.
Tinjau GPU jam
Di bagian Jam, temukan widget Jam Grafis, Jam SM, Jam Memori, dan Jam Video. Metrik ini menunjukkan frekuensi operasi saat ini dari berbagai GPU komponen. Memantau jam ini dapat membantu mengidentifikasi potensi masalah dengan penskalaan GPU jam atau pelambatan frekuensi, yang dapat memengaruhi kinerja.