Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Metrik Wawasan Kontainer Amazon EKS dan Kubernetes
Tabel berikut mencantumkan metrik dan dimensi yang dikumpulkan Container Insights untuk Amazon EKS dan Kubernetes. Metrik-metrik ini berada di namespace ContainerInsights
. Untuk informasi selengkapnya, lihat Metrik.
Jika Anda tidak melihat metrik Wawasan Kontainer di konsol Anda, maka Anda harus memastikan bahwa telah menyelesaikan penyiapan Wawasan Kontainer. Metrik tidak akan ditampilkan sebelum Wawasan Kontainer telah disiapkan sepenuhnya. Untuk informasi selengkapnya, lihat Menyiapkan Wawasan Kontainer.
Jika Anda menggunakan versi 1.5.0 atau yang lebih baru dari EKS add-on Amazon atau versi 1.300035.0 CloudWatch agen, sebagian besar metrik yang tercantum dalam tabel berikut dikumpulkan untuk node Linux dan Windows. Lihat kolom Nama Metrik tabel untuk melihat metrik mana yang tidak dikumpulkan untuk Windows.
Dengan Wawasan Kontainer versi asli, metrik-metrik tersebut akan dikenai biaya sebagai metrik kustom. Dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, metrik Container Insights dibebankan per observasi alih-alih dibebankan per metrik yang disimpan atau log yang tertelan. Untuk informasi selengkapnya tentang CloudWatch harga, lihat CloudWatch Harga Amazon
catatan
Di Windows, metrik jaringan seperti pod_network_rx_bytes
dan tidak pod_network_tx_bytes
dikumpulkan untuk wadah proses host.
Nama metrik | Dimensi-dimensi dengan versi Wawasan Kontainer apa pun | Dimensi tambahan dengan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS | Deskripsi |
---|---|---|---|
|
|
Jumlah simpul pekerja yang mengalami kegagalan dalam klaster. Sebuah simpul dianggap mengalami kegagalan jika mengalami kondisi simpul apa pun. Untuk informasi selengkapnya tentang hal itu, silakan lihat Kondisi |
|
|
|
Jumlah total simpul pekerja yang ada di klaster. |
|
|
|
Jumlah pod yang berjalan untuk masing-masing namespace dalam sumber daya yang ditentukan oleh dimensi-dimensi yang sedang Anda gunakan. |
|
|
|
|
Jumlah maksimum CPU unit yang dapat ditetapkan untuk satu node dalam cluster ini. |
|
|
Persentase CPU unit yang dicadangkan untuk komponen node, seperti kubelet, kube-proxy, dan Docker. Rumus: catatan
|
|
|
|
|
Jumlah CPU unit yang digunakan pada node di cluster. |
|
|
Persentase total CPU unit yang digunakan pada node di cluster. Rumus: |
|
|
|
Persentase total kapasitas sistem file yang sedang digunakan pada satu simpul tunggal dalam klaster. Rumus: catatan
|
|
|
|
|
Jumlah memori maksimum, dalam byte, yang dapat ditetapkan ke satu simpul tunggal dalam klaster ini. |
Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows. |
|
Jumlah total inode (yang digunakan dan tidak digunakan) pada sebuah simpul. |
|
Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows. |
|
Jumlah inode yang tidak digunakan pada sebuah simpul. |
|
|
|
Persentase memori yang saat ini sedang digunakan pada simpul di klaster. Rumus: catatan
|
|
|
|
Persentase memori yang saat ini sedang digunakan oleh simpul atau simpul-simpul tersebut. Ini adalah persentase penggunaan memori simpul yang dibagi dengan batasan memori simpul. Rumus: |
|
|
|
|
Jumlah memori, dalam byte, yang sedang digunakan dalam serangkaian simpul dalam klaster. |
|
|
Jumlah total byte per detik yang ditransmisikan dan diterima melalui jaringan untuk setiap simpul dalam sebuah klaster. Rumus: catatan
|
|
|
|
Jumlah kontainer yang sedang berjalan untuk setiap simpul dalam sebuah klaster. |
|
|
|
Jumlah pod yang sedang berjalan untuk setiap simpul dalam sebuah klaster. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan sumber daya yang dapat dialokasikan, yang didefinisikan sebagai sisa kapasitas simpul setelah memperhitungkan reservasi daemon sistem dan ambang batas pengosongan keras. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod yang dapat ditetapkan ke sebuah simpul berdasarkan kapasitasnya. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan apakah kondisi status node |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan apakah kondisi status simpul dalam keadaan |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan apakah kondisi status simpul dalam keadaan |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan apakah kondisi status simpul dalam keadaan |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan apakah salah satu kondisi status simpul Unknown. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah paket yang diterima dan kemudian dijatuhkan oleh sebuah antarmuka jaringan pada simpul. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah paket yang akan ditransmisikan tetapi dijatuhkan oleh sebuah antarmuka jaringan pada simpul. |
|
Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows. |
|
Jumlah total byte yang ditransfer oleh semua operasi I/O pada simpul. |
|
Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows. |
|
Jumlah total operasi I/O yang ada di simpul. |
|
|
|
|
CPUKapasitas yang dicadangkan per pod dalam sebuah cluster. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Persentase CPU unit yang digunakan oleh pod. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Persentase CPU unit yang digunakan oleh pod relatif terhadap batas pod. Rumus: catatan
|
|
|
|
Persentase memori yang dicadangkan untuk pod. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Persentase memori yang saat ini sedang digunakan oleh satu pod atau banyak pod. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Persentase memori yang sedang digunakan oleh pod relatif terhadap batas pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Jumlah byte per detik yang sedang diterima melalui jaringan oleh pod. Rumus: catatan
|
|
Namespace, Layanan, Namespace,
|
|
Jumlah byte per detik yang sedang ditransmisikan melalui jaringan oleh pod. Rumus: catatan
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
CPUPermintaan untuk pod. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Permintaan memori untuk pod. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
CPUBatas yang ditentukan untuk kontainer di dalam pod. Jika ada kontainer di pod yang tidak memiliki CPU batas yang ditentukan, metrik ini tidak akan muncul. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Batas memori yang ditentukan untuk kontainer-kontainer yang ada dalam pod. Jika ada kontainer di dalam pod yang tidak memiliki batas memori yang ditentukan, metrik ini tidak akan ditampilkan. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa semua kontainer yang ada dalam pod telah dihentikan, dan setidaknya satu kontainer telah diakhiri dengan status bukan nol atau dihentikan oleh sistem. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa semua kontainer yang ada dalam pod sudah siap, setelah mencapai kondisi |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa semua kontainer yang ada dalam pod sedang berjalan. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa pod telah dijadwalkan untuk sebuah simpul. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa status pod tidak dapat diperoleh. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa pod telah diterima oleh klaster tetapi satu atau beberapa kontainer belum siap. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Menunjukkan bahwa semua kontainer yang ada dalam pod telah berhasil dihentikan dan tidak akan dimulai ulang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer yang ditentukan dalam spesifikasi pod. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer yang ada dalam pod yang saat ini berada dalam status |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer yang ada dalam pod yang berada dalam status |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer di pod yang tertunda karena |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer di pod yang tertunda dengan alasannya |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah container di pod yang tertunda dengan alasan |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer di pod yang tertunda karena |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer di pod yang berada dalam |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Melaporkan jumlah kontainer di pod yang tertunda dengan alasannya |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah paket yang diterima dan kemudian menghapus sebuah antarmuka jaringan untuk pod. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah paket yang seharusnya ditransmisikan tetapi dihapus untuk pod. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Persentase CPU unit yang digunakan oleh kontainer. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Persentase CPU unit yang digunakan oleh kontainer relatif terhadap batas kontainer. Jika wadah tidak memiliki CPU batas yang ditentukan, metrik ini tidak muncul. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Persentase unit memori yang sedang digunakan oleh kontainer. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Persentase unit memori yang sedang digunakan oleh kontainer relatif terhadap batas kontainer. Jika kontainer tidak memiliki batas memori yang ditentukan, maka metrik ini tidak akan ditampilkan. Rumus: catatan
|
|
Metrik ini hanya tersedia dengan Container Insights dengan peningkatan observabilitas untuk Amazon. EKS Ini tidak tersedia di Windows. |
|
Jumlah kegagalan alokasi memori yang dialami oleh kontainer. |
|
|
PodName, |
Jumlah total kontainer yang memulai ulang di sebuah pod. |
|
|
Layanan,
|
Jumlah pod yang menjalankan satu layanan atau banyak layanan di klaster. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod yang dikehendaki untuk beban kerja sebagaimana yang ditentukan dalam spesifikasi beban kerja. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod untuk sebuah beban kerja yang telah mencapai status siap. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod untuk sebuah beban kerja yang tersedia. Sebuah pod yang tersedia ketika sudah siap untuk |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah pod untuk sebuah beban kerja yang tidak tersedia. Sebuah pod yang tersedia ketika sudah siap untuk |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah objek yang disimpan di etcd pada saat pemeriksaan terakhir. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah total API permintaan ke server KubernetesAPI. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Tanggapi latensi untuk API permintaan ke server API Kubernetes. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Latensi pengendali penerimaan, dalam satuan detik. Admission controller adalah kode yang mencegat permintaan ke server API Kubernetes. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Leponse latency yang dialami oleh klien yang memanggil server Kubernetes. API Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah total API permintaan ke API server Kubernetes yang dibuat oleh klien. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Latensi respons API panggilan ke Etcd. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Ukuran file basis data penyimpanan yang dialokasikan secara fisik, dalam satuan byte. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah permintaan aktif yang berjalan lama ke server API Kubernetes. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah permintaan yang sedang diproses oleh server KubernetesAPI. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Latensi webhook penerimaan, dalam satuan detik. Webhook masuk adalah HTTP callback yang menerima permintaan masuk dan melakukan sesuatu dengannya. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Latensi sub-langkah penerimaan, dalam satuan detik. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah permintaan yang tidak digunakan lagi di server APIs Kubernetes. API |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah permintaan ke API server Kubernetes yang direspon dengan kode respons 5XX. HTTP |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Latensi respons objek daftar dari Etcd. Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Nomor antrian permintaan antri oleh server Kubernetes. API Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
|
Metrik ini hanya tersedia dengan Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS |
|
Jumlah permintaan yang ditolak oleh API subsistem Prioritas dan Keadilan Metrik ini bersifat eksperimental dan dapat berubah pada rilis Kubernetes di masa mendatang. |
NVIDIAGPUmetrik
Dimulai dengan 1.300034.0
versi CloudWatch agen, Container Insights dengan kemampuan observasi yang ditingkatkan untuk Amazon EKS mengumpulkan NVIDIA GPU metrik dari EKS beban kerja secara default. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.3.0-eksbuild.1
atau yang lebih baru. Untuk informasi selengkapnya, lihat Instal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. NVIDIAGPUMetrik yang dikumpulkan ini tercantum dalam tabel di bagian ini.
Agar Container Insights dapat mengumpulkan NVIDIA GPU metrik, Anda harus memenuhi prasyarat berikut:
Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru.
v1.3.0-eksbuild.1
Plugin NVIDIA perangkat untuk Kubernetes
harus diinstal di cluster. Toolkit NVIDIA kontainer
harus diinstal pada node cluster. Misalnya, akselerasi Amazon AMIs yang EKS dioptimalkan dibangun dengan komponen yang diperlukan.
Anda dapat memilih untuk tidak mengumpulkan NVIDIA GPU metrik dengan menyetel accelerated_compute_metrics
opsi di file konfigurasi CloudWatch agen beginn. false
Untuk informasi selengkapnya dan contoh konfigurasi opt-out, lihat. (Opsional) Konfigurasi tambahan
Nama metrik | Dimensi | Deskripsi |
---|---|---|
|
|
Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke wadah. |
|
|
Byte frame buffer yang digunakan pada GPU (s) dialokasikan ke wadah. |
|
|
Persentase buffer bingkai yang digunakan dari GPU (s) yang dialokasikan ke wadah. |
|
|
Penggunaan daya dalam watt dari GPU (s) dialokasikan ke wadah. |
|
|
Suhu dalam derajat celcius dari GPU (s) yang dialokasikan ke wadah. |
|
|
Persentase pemanfaatan GPU (s) yang dialokasikan ke wadah. |
|
|
Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke node. |
|
|
Byte frame buffer yang digunakan pada GPU (s) dialokasikan ke node. |
|
|
Persentase frame buffer yang digunakan pada GPU (s) dialokasikan ke node. |
|
|
Penggunaan daya dalam watt dari GPU (s) dialokasikan ke node. |
|
|
Suhu dalam derajat celcius dari GPU (s) dialokasikan ke node. |
|
|
Persentase pemanfaatan GPU (s) yang dialokasikan ke node. |
|
|
Ukuran buffer frame total, dalam byte, pada GPU (s) yang dialokasikan ke pod. |
|
|
Byte frame buffer yang digunakan pada GPU (s) yang dialokasikan ke pod. |
|
|
Persentase buffer frame yang digunakan dari GPU (s) yang dialokasikan ke pod. |
|
|
Penggunaan daya dalam watt yang GPU dialokasikan ke pod. |
|
|
Suhu dalam derajat celcius dari GPU (s) yang dialokasikan ke polong. |
|
|
Persentase pemanfaatan GPU (s) yang dialokasikan ke pod. |
AWS Metrik neuron untuk AWS Trainium dan Inferensia AWS
Dimulai dengan versi 1.300036.0
CloudWatch agen, Container Insights dengan observabilitas yang ditingkatkan untuk Amazon EKS mengumpulkan metrik komputasi yang dipercepat dari akselerator AWS Trainium dan AWS Inferentia secara default. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.5.0-eksbuild.1
atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang AWS Trainium, lihat AWS Trainium
Agar Container Insights dapat mengumpulkan metrik AWS Neuron, Anda harus memenuhi prasyarat berikut:
Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru.
v1.5.0-eksbuild.1
Driver Neuron
harus diinstal pada node cluster. Plugin perangkat Neuron
harus diinstal pada cluster. Misalnya, akselerasi Amazon AMIs yang EKS dioptimalkan dibangun dengan komponen yang diperlukan.
Metrik yang dikumpulkan tercantum dalam tabel di bagian ini. Metrik dikumpulkan untuk AWS Trainium, AWS Inferentia, dan Inferentia2. AWS
CloudWatch Agen mengumpulkan metrik ini dari monitor Neuron
Nama metrik | Dimensi | Deskripsi |
---|---|---|
|
|
NeuronCore pemanfaatan, selama periode ditangkap NeuronCore dialokasikan ke wadah. Unit: Persen |
|
|
Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke wadah (atau bobot selama inferensi). Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk kode yang dapat dieksekusi model oleh NeuronCore yang dialokasikan ke wadah. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke wadah. Wilayah memori ini dicadangkan untuk model. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke wadah. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke wadah. Unit: Bita |
|
|
Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke wadah. Unit: Bita |
|
|
Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron pada node. Unit: Jumlah |
|
|
NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke pod. Unit: Persen |
|
|
Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke pod (atau bobot selama inferensi). Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke pod. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagi dari model oleh NeuronCore yang dialokasikan ke pod. Wilayah memori ini dicadangkan untuk model. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore dialokasikan ke pod. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore dialokasikan ke pod. Unit: Bita |
|
|
Jumlah total memori yang digunakan oleh NeuronCore dialokasikan ke pod. Unit: Bita |
|
|
Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron yang dialokasikan ke pod. Unit: Bita |
|
|
NeuronCore Pemanfaatan selama periode yang ditangkap dari NeuronCore dialokasikan ke node. Unit: Persen |
|
|
Jumlah memori perangkat yang digunakan untuk konstanta selama pelatihan oleh NeuronCore yang dialokasikan ke node (atau bobot selama inferensi). Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk kode executable model oleh NeuronCore yang dialokasikan ke node. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk scratchpad yang dibagikan dari model oleh NeuronCore yang dialokasikan ke node. Ini adalah wilayah memori yang disediakan untuk model. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk runtime Neuron oleh NeuronCore yang dialokasikan ke node. Unit: Bita |
|
|
Jumlah memori perangkat yang digunakan untuk tensor oleh NeuronCore yang dialokasikan ke node. Unit: Bita |
|
|
Jumlah total memori yang digunakan oleh NeuronCore yang dialokasikan ke node. Unit: Bita |
|
|
Jumlah total kesalahan eksekusi pada node. Ini dihitung oleh CloudWatch agen dengan menggabungkan kesalahan dari jenis berikut: Unit: Jumlah |
|
|
Total penggunaan memori perangkat Neuron dalam byte pada node. Unit: Bita |
|
|
Dalam hitungan detik, latensi untuk eksekusi pada node diukur dengan runtime Neuron. Unit: Detik |
|
|
Jumlah ECC peristiwa yang dikoreksi dan tidak dikoreksi untuk on-chip SRAM dan memori perangkat perangkat Neuron pada node. Unit: Jumlah |
AWS Metrik Adaptor Kain Elastis (EFA)
Dimulai dengan versi 1.300037.0
CloudWatch agen, Container Insights dengan kemampuan observasi yang disempurnakan untuk Amazon EKS mengumpulkan metrik AWS Elastic Fabric Adapter (EFA) dari cluster EKS Amazon di instans Linux. CloudWatch Agen harus diinstal menggunakan versi EKS add-on CloudWatch Observability v1.5.2-eksbuild.1
atau yang lebih baru. Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang Adaptor Kain AWS Elastis, lihat Adaptor Kain Elastis
Agar Container Insights mengumpulkan metrik adaptor Kain AWS Elastis, Anda harus memenuhi prasyarat berikut:
Anda harus menggunakan Wawasan Kontainer dengan kemampuan observasi yang ditingkatkan untuk AmazonEKS, dengan versi EKS add-on Amazon CloudWatch Observability atau yang lebih baru.
v1.5.2-eksbuild.1
Plugin EFA perangkat harus diinstal pada cluster. Untuk informasi lebih lanjut, lihat aws-efa-k8 s-device-plugin
di GitHub.
Metrik yang dikumpulkan tercantum dalam tabel berikut.
Nama metrik | Dimensi | Deskripsi |
---|---|---|
|
|
Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Byte/Detik |
|
|
Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Hitung/Detik |
|
|
Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke wadah. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke pod. Satuan: Hitung/Detik |
|
|
Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang diterima oleh EFA perangkat yang dialokasikan ke node. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan oleh EFA perangkat yang dialokasikan ke node. Satuan: Byte/Detik |
|
|
Jumlah paket yang diterima dan kemudian dijatuhkan oleh EFA perangkat yang dialokasikan ke node. Satuan: Hitung/Detik |
|
|
Jumlah byte per detik yang diterima menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke node. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang ditransmisikan menggunakan operasi baca akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke pod. Satuan: Byte/Detik |
|
|
Jumlah byte per detik yang diterima selama operasi penulisan akses memori langsung jarak jauh oleh EFA perangkat yang dialokasikan ke node. Satuan: Byte/Detik |
Amazon SageMaker HyperPod metrik
Dimulai dengan versi v2.0.1-eksbuild.1
EKS add-on CloudWatch Observability, Container Insights dengan observabilitas yang disempurnakan untuk Amazon secara otomatis Amazon SageMaker HyperPod mengumpulkan metrik dari klaster EKS Amazon. EKS Untuk informasi selengkapnya tentang add-on, lihatInstal CloudWatch agen dengan EKS add-on Amazon CloudWatch Observability atau bagan Helm. Untuk informasi lebih lanjut tentang Amazon SageMaker HyperPod, lihat Amazon SageMaker HyperPod.
Metrik yang dikumpulkan tercantum dalam tabel berikut.
Nama metrik | Dimensi | Deskripsi |
---|---|---|
|
|
Menunjukkan jika sebuah node diberi label sebagai Unit: Jumlah |
|
|
Menunjukkan jika sebuah node diberi label sebagai Unit: Jumlah |
|
|
Menunjukkan jika sebuah node diberi label sebagai Jika pemulihan node otomatis diaktifkan, node akan secara otomatis diganti oleh Amazon SageMaker HyperPod. Unit: Jumlah |
|
|
Menunjukkan jika sebuah node diberi label sebagai Jika pemulihan node otomatis diaktifkan, node akan secara otomatis reboot oleh. Amazon SageMaker HyperPod Unit: Jumlah |