SageMaker HyperPodagen pemantauan kesehatan - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SageMaker HyperPodagen pemantauan kesehatan

SageMaker HyperPod agen pemantauan kesehatan terus memantau status kesehatan dari setiap contoh GPU berbasis atau berbasis Tranium. Ketika mendeteksi setiap contoh atau GPU kegagalan, agen menandai instance sebagai tidak sehat.

Periksa hasil yang dikumpulkan oleh agen SageMaker HyperPod pemantau kesehatan

Agen SageMaker HyperPod pemantauan kesehatan adalah fitur pemeriksaan out-of-the-box kesehatan dan terus berjalan di semua cluster. HyperPod Agen pemantauan kesehatan menerbitkan kejadian kesehatan yang terdeteksi pada GPU atau instans Trn ke CloudWatch bawah grup log Cluster. /aws/sagemaker/Clusters/

Log deteksi dari agen pemantauan HyperPod kesehatan dibuat sebagai aliran log terpisah yang dinamai SagemakerHealthMonitoringAgent untuk setiap node. Anda dapat menanyakan log deteksi menggunakan wawasan CloudWatch log sebagai berikut.

fields @timestamp, @message | filter @message like /HealthMonitoringAgentDetectionEvent/

Ini harus mengembalikan output yang mirip dengan berikut ini.

2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"} 2024-08-21T11:35:35.532-07:00 {"level":"info","ts":"2024-08-21T18:35:35Z","msg":"NPD caught event: %v","details: ":{"severity":"warn","timestamp":"2024-08-22T20:59:29Z","reason":"XidHardwareFailure","message":"Node condition NvidiaErrorReboot is now: True, reason: XidHardwareFailure, message: \"NVRM: Xid (PCI:0000:b9:00): 71, pid=<unknown>, name=<unknown>, NVLink: fatal error detected on link 6(0x10000, 0x0, 0x0, 0x0, 0x0, 0x0, 0x0)\""},"HealthMonitoringAgentDetectionEvent":"HealthEvent"}