本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
收集 NVIDIA GPU 指標
您可以使用 CloudWatch 代理程式,從 Linux 伺服器收集 NVIDIA GPU 指標。若要設定此項目,請在 CloudWatch 代理程式組態檔案的 metrics_collected
區段中新增 nvidia_gpu
區段。如需詳細資訊,請參閱Linux 區段。
此外,執行個體必須已安裝 NVIDIA 驅動程式。某些 Amazon Machine Image (AMI) 上預先安裝了 NVIDIA 驅動程式。或者,可以手動安裝驅動程式。如需詳細資訊,請參閱在 Linux 執行個體上安裝 NVIDIA 驅動程式。
可以收集以下指標。收集的所有這些指標都沒有 CloudWatch Unit
,但您可以透過向 CloudWatch 代理程式組態檔案新增參數來為每個指標指定單位。如需詳細資訊,請參閱Linux 區段。
指標 | CloudWatch 中的指標名稱 | 描述 |
---|---|---|
|
|
在過去的抽樣週期內,GPU 上的一個或多個核心執行的時間百分比。 |
|
|
核心 GPU 溫度 (以攝氏度為單位)。 |
|
|
整個電路板的最後一次測量功耗 (以瓦特為單位)。 |
|
|
在過去的抽樣週期內讀取或寫入全域 (裝置) 記憶體的時間百分比。 |
|
|
裝置風扇目前計劃執行的最大風扇速度百分比。 |
|
|
記錄的記憶體總計 (MB)。 |
|
|
使用的記憶體 (MB)。 |
|
|
可用的記憶體 (MB)。 |
|
|
目前連結版本。 |
|
|
目前連結頻寬。 |
|
|
目前編碼器工作階段數。 |
|
|
每秒編碼影格的移動平均值。 |
|
|
編碼延遲的移動平均值 (以微秒為單位)。 |
|
|
圖形 (著色器) 時脈的目前頻率。 |
|
|
串流多處理器 (SM) 時脈的目前頻率。 |
|
|
記憶體時脈的目前頻率。 |
|
|
影片 (編碼器與解碼器) 時脈的目前頻率。 |
所有這些指標均採用以下維度進行收集:
維度 | 描述 |
---|---|
|
此伺服器上 GPU 的唯一識別碼。表示裝置的 NVIDIA 管理庫 (NVML) 索引。 |
|
GPU 的類型。例如 |
|
伺服器主機名稱。 |