Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Log dan Metrik Pipa Inferensi
Pemantauan penting untuk menjaga keandalan, ketersediaan, dan kinerja sumber SageMaker daya Amazon. Untuk memantau dan memecahkan masalah performa pipeline inferensi, gunakan CloudWatch log Amazon dan pesan kesalahan. Untuk informasi tentang alat pemantauan yang SageMaker menyediakan, lihatAlat untuk memantau AWS sumber daya yang disediakan saat menggunakan Amazon SageMaker.
Gunakan Metrik untuk Memantau Model Multi-kontainer
Untuk memantau model multi-kontainer di Inference Pipelines, gunakan Amazon. CloudWatch CloudWatchmengumpulkan data mentah dan memprosesnya menjadi metrik yang dapat dibaca, mendekati waktu nyata. SageMakerpekerjaan pelatihan dan titik akhir menulis CloudWatch metrik dan log di namespace. AWS/SageMaker
Tabel berikut mencantumkan metrik dan dimensi untuk hal-hal berikut:
-
Pemanggilan titik akhir
-
Pekerjaan pelatihan, pekerjaan transformasi batch, dan instance titik akhir
Dimensi adalah pasangan nama/nilai yang secara unik mengidentifikasi metrik. Anda dapat menetapkan hingga 10 dimensi ke metrik. Untuk informasi lebih lanjut tentang pemantauan dengan CloudWatch, lihatMetrik untuk memantau Amazon SageMaker dengan Amazon CloudWatch.
Metrik Pemanggilan Titik Akhir
AWS/SageMaker
Namespace menyertakan metrik permintaan berikut dari panggilan ke. InvokeEndpoint
Metrik dilaporkan pada interval 1 menit.
Metrik | Deskripsi |
---|---|
Invocation4XXErrors |
Jumlah Satuan: Tidak ada Statistik yang valid: |
Invocation5XXErrors |
Jumlah Satuan: Tidak ada Statistik yang valid: |
Invocations |
Untuk mendapatkan jumlah total permintaan yang dikirim ke titik akhir model, gunakan Satuan: Tidak ada Statistik yang valid: |
InvocationsPerInstance |
Jumlah pemanggilan titik akhir yang dikirim ke model, dinormalisasi oleh masing-masing. Satuan: Tidak ada Statistik valid: |
ModelLatency |
Waktu yang dibutuhkan model atau model untuk merespons. Ini termasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah. ModelLatency adalah total waktu yang dibutuhkan oleh semua kontainer dalam pipa inferensi.Unit: Mikrodetik Statistik yang valid: |
OverheadLatency |
Waktu ditambahkan ke waktu yang dibutuhkan untuk menanggapi permintaan klien dengan biaya SageMaker overhead. Unit: Mikrodetik Statistik yang valid: |
ContainerLatency |
Waktu yang dibutuhkan wadah Inference Pipelines untuk merespons seperti yang dilihat dari. SageMaker ContainerLatency termasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah.Unit: Mikrodetik Statistik yang valid: |
Dimensi untuk Metrik Pemanggilan Titik Akhir
Dimensi | Deskripsi |
---|---|
EndpointName, VariantName, ContainerName |
Memfilter metrik pemanggilan titik akhir untuk a |
Untuk titik akhir pipeline inferensi, cantumkan metrik CloudWatch latensi per kontainer di akun Anda sebagai Metrik Kontainer Titik Akhir dan Metrik Varian Titik Akhir di namespace, sebagai berikut. SageMaker ContainerLatency
Metrik hanya muncul untuk pipa inferensi.
Untuk setiap titik akhir dan setiap kontainer, metrik latensi menampilkan nama untuk penampung, titik akhir, varian, dan metrik.
Training Job, Batch Transform Job, dan Metrik Instance Endpoint
Ruang nama/aws/sagemaker/TrainingJobs
,/aws/sagemaker/TransformJobs
, dan /aws/sagemaker/Endpoints
menyertakan metrik berikut untuk pekerjaan pelatihan dan instance titik akhir.
Metrik dilaporkan pada interval 1 menit.
Metrik | Deskripsi |
---|---|
CPUUtilization |
Persentase CPU unit yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilainya berkisar dari 0% hingga 100%, dan dikalikan dengan jumlah. CPUs Misalnya, jika ada empatCPUs, Untuk pekerjaan pelatihan, Untuk pekerjaan transformasi batch, Untuk model multi-kontainer, Untuk varian endpoint, Unit: Persen |
MemoryUtilization |
Persentase memori yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilai ini berkisar dari 0% hingga 100%. Untuk pekerjaan pelatihan, Untuk pekerjaan transformasi batch, MemoryUtilization adalah jumlah memori yang digunakan oleh semua kontainer yang berjalan pada instance.Untuk varian endpoint, Unit: Persen |
GPUUtilization |
Persentase GPU unit yang digunakan oleh kontainer yang berjalan pada sebuah instance. Untuk pekerjaan pelatihan, Untuk pekerjaan transformasi batch, Untuk model multi-kontainer, Untuk varian endpoint, Unit: Persen |
GPUMemoryUtilization |
Persentase GPU memori yang digunakan oleh kontainer yang berjalan pada sebuah instance. GPUMemoryUtilizationberkisar dari 0% hingga 100% dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empatGPUs, Untuk pekerjaan pelatihan, Untuk pekerjaan transformasi batch, Untuk model multi-kontainer, Untuk varian endpoint, Unit: Persen |
DiskUtilization |
Persentase ruang disk yang digunakan oleh kontainer yang berjalan pada sebuah instance. DiskUtilization berkisar dari 0% hingga 100%. Metrik ini tidak didukung untuk pekerjaan transformasi batch. Untuk pekerjaan pelatihan, Untuk varian endpoint, Unit: Persen |
Dimensi untuk Training Job, Batch Transform Job, dan Endpoint Instance Metrics
Dimensi | Deskripsi |
---|---|
Host |
Untuk pekerjaan pelatihan, Untuk pekerjaan transformasi batch, Untuk titik akhir, |
Untuk membantu Anda men-debug pekerjaan pelatihan, titik akhir, dan konfigurasi siklus hidup instance notebook, kirimkan SageMaker juga apa pun yang dikirim oleh container algoritme, wadah model, atau konfigurasi siklus hidup instance notebook ke atau ke Amazon Logs. stdout
stderr
CloudWatch Anda dapat menggunakan informasi ini untuk debugging dan untuk menganalisis kemajuan.
Gunakan Log untuk Memantau Pipa Inferensi
Tabel berikut mencantumkan grup log dan aliran log SageMaker. mengirim ke Amazon CloudWatch
Pengaliran log adalah urutan log acara yang berbagi sumber yang sama. Setiap sumber log yang CloudWatch terpisah menjadi aliran log terpisah. Grup log adalah grup log stream yang berbagi pengaturan retensi, pemantauan, dan kontrol akses yang sama.
Log
Catat Nama Grup | Nama Aliran Log |
---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
catatan
SageMakermembuat grup /aws/sagemaker/NotebookInstances
log saat Anda membuat instance notebook dengan konfigurasi siklus hidup. Untuk informasi selengkapnya, lihat Kustomisasi instance SageMaker notebook menggunakan LCC skrip.
Untuk informasi selengkapnya tentang SageMaker pencatatan, lihatGrup log dan aliran yang SageMaker dikirimkan Amazon ke Amazon CloudWatch Logs.