Log dan Metrik Pipa Inferensi

Pemantauan penting untuk menjaga keandalan, ketersediaan, dan kinerja sumber SageMaker daya Amazon. Untuk memantau dan memecahkan masalah performa pipeline inferensi, gunakan CloudWatch log Amazon dan pesan kesalahan. Untuk informasi tentang alat pemantauan yang SageMaker menyediakan, lihatAlat untuk memantau AWS sumber daya yang disediakan saat menggunakan Amazon SageMaker.

Gunakan Metrik untuk Memantau Model Multi-kontainer

Untuk memantau model multi-kontainer di Inference Pipelines, gunakan Amazon. CloudWatch CloudWatchmengumpulkan data mentah dan memprosesnya menjadi metrik yang dapat dibaca, mendekati waktu nyata. SageMakerpekerjaan pelatihan dan titik akhir menulis CloudWatch metrik dan log di namespace. AWS/SageMaker

Tabel berikut mencantumkan metrik dan dimensi untuk hal-hal berikut:

Pemanggilan titik akhir
Pekerjaan pelatihan, pekerjaan transformasi batch, dan instance titik akhir

Dimensi adalah pasangan nama/nilai yang secara unik mengidentifikasi metrik. Anda dapat menetapkan hingga 10 dimensi ke metrik. Untuk informasi lebih lanjut tentang pemantauan dengan CloudWatch, lihatMetrik untuk memantau Amazon SageMaker dengan Amazon CloudWatch.

Metrik Pemanggilan Titik Akhir

AWS/SageMakerNamespace menyertakan metrik permintaan berikut dari panggilan ke. InvokeEndpoint

Metrik dilaporkan pada interval 1 menit.

Metrik	Deskripsi
`Invocation4XXErrors`	Jumlah `InvokeEndpoint` permintaan yang dikembalikan oleh model kode `4xx` HTTP respons. Untuk setiap `4xx` tanggapan, SageMaker kirimkan a`1`. Satuan: Tidak ada Statistik yang valid: `Average`, `Sum`
`Invocation5XXErrors`	Jumlah `InvokeEndpoint` permintaan yang dikembalikan oleh model kode `5xx` HTTP respons. Untuk setiap `5xx` tanggapan, SageMaker kirimkan a`1`. Satuan: Tidak ada Statistik yang valid: `Average`, `Sum`
`Invocations`	`number of InvokeEndpoint`Permintaan dikirim ke titik akhir model. Untuk mendapatkan jumlah total permintaan yang dikirim ke titik akhir model, gunakan `Sum` statistik. Satuan: Tidak ada Statistik yang valid: `Sum`, `Sample Count`
`InvocationsPerInstance`	Jumlah pemanggilan titik akhir yang dikirim ke model, dinormalisasi oleh masing-masing. `InstanceCount` `ProductionVariant` SageMakermengirimkan 1/ `numberOfInstances` sebagai nilai untuk setiap permintaan, di mana `numberOfInstances` adalah jumlah instance aktif untuk ProductionVariant di titik akhir pada saat permintaan. Satuan: Tidak ada Statistik valid: `Sum`
`ModelLatency`	Waktu yang dibutuhkan model atau model untuk merespons. Ini termasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah. `ModelLatency`adalah total waktu yang dibutuhkan oleh semua kontainer dalam pipa inferensi. Unit: Mikrodetik Statistik yang valid:`Average`,`Sum`,`Min`,`Max`, Jumlah Sampel
`OverheadLatency`	Waktu ditambahkan ke waktu yang dibutuhkan untuk menanggapi permintaan klien dengan biaya SageMaker overhead. `OverheadLatency`diukur dari waktu yang SageMaker menerima permintaan hingga mengembalikan respons ke klien, dikurangi`ModelLatency`. Latensi overhead dapat bervariasi tergantung pada ukuran payload permintaan dan respons, frekuensi permintaan, dan otentikasi atau otorisasi permintaan, di antara faktor-faktor lainnya. Unit: Mikrodetik Statistik yang valid:`Average`,`Sum`,`Min`,`Max`, `Sample Count`
`ContainerLatency`	Waktu yang dibutuhkan wadah Inference Pipelines untuk merespons seperti yang dilihat dari. SageMaker `ContainerLatency`termasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah. Unit: Mikrodetik Statistik yang valid:`Average`,`Sum`,`Min`,`Max`, `Sample Count`

Dimensi untuk Metrik Pemanggilan Titik Akhir

Dimensi	Deskripsi
`EndpointName, VariantName, ContainerName`	Memfilter metrik pemanggilan titik akhir untuk a `ProductionVariant` pada titik akhir yang ditentukan dan untuk varian yang ditentukan.

Untuk titik akhir pipeline inferensi, cantumkan metrik CloudWatch latensi per kontainer di akun Anda sebagai Metrik Kontainer Titik Akhir dan Metrik Varian Titik Akhir di namespace, sebagai berikut. SageMaker ContainerLatencyMetrik hanya muncul untuk pipa inferensi.

Untuk setiap titik akhir dan setiap kontainer, metrik latensi menampilkan nama untuk penampung, titik akhir, varian, dan metrik.

Training Job, Batch Transform Job, dan Metrik Instance Endpoint

Ruang nama/aws/sagemaker/TrainingJobs,/aws/sagemaker/TransformJobs, dan /aws/sagemaker/Endpoints menyertakan metrik berikut untuk pekerjaan pelatihan dan instance titik akhir.

Metrik dilaporkan pada interval 1 menit.

Metrik	Deskripsi
`CPUUtilization`	Persentase CPU unit yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilainya berkisar dari 0% hingga 100%, dan dikalikan dengan jumlah. CPUs Misalnya, jika ada empatCPUs, `CPUUtilization` dapat berkisar dari 0% hingga 400%. Untuk pekerjaan pelatihan, `CPUUtilization` adalah CPU pemanfaatan wadah algoritma yang berjalan pada instance. Untuk pekerjaan transformasi batch, `CPUUtilization` adalah CPU pemanfaatan wadah transformasi yang berjalan pada instance. Untuk model multi-kontainer, `CPUUtilization` adalah jumlah CPU pemanfaatan oleh semua kontainer yang berjalan pada instance. Untuk varian endpoint, `CPUUtilization` adalah jumlah CPU pemanfaatan oleh semua container yang berjalan pada instance. Unit: Persen
`MemoryUtilization`	Persentase memori yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilai ini berkisar dari 0% hingga 100%. Untuk pekerjaan pelatihan, `MemoryUtilization` adalah memori yang digunakan oleh wadah algoritma yang berjalan pada instance. Untuk pekerjaan transformasi batch, `MemoryUtilization` adalah memori yang digunakan oleh wadah transformasi yang berjalan pada instance. Untuk model multi-kontainer, `MemoryUtilization` adalah jumlah memori yang digunakan oleh semua kontainer yang berjalan pada instance. Untuk varian endpoint, `MemoryUtilization` adalah jumlah memori yang digunakan oleh semua container yang berjalan pada instance. Unit: Persen
`GPUUtilization`	Persentase GPU unit yang digunakan oleh kontainer yang berjalan pada sebuah instance. `GPUUtilization`berkisar dari 0% hingga 100% dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empatGPUs, `GPUUtilization` dapat berkisar dari 0% hingga 400%. Untuk pekerjaan pelatihan, `GPUUtilization` adalah yang GPU digunakan oleh wadah algoritma yang berjalan pada instance. Untuk pekerjaan transformasi batch, `GPUUtilization` adalah yang GPU digunakan oleh wadah transformasi yang berjalan pada instance. Untuk model multi-kontainer, `GPUUtilization` adalah jumlah yang GPU digunakan oleh semua kontainer yang berjalan pada instance. Untuk varian endpoint, `GPUUtilization` adalah jumlah yang GPU digunakan oleh semua container yang berjalan pada instance. Unit: Persen
`GPUMemoryUtilization`	Persentase GPU memori yang digunakan oleh kontainer yang berjalan pada sebuah instance. GPUMemoryUtilizationberkisar dari 0% hingga 100% dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empatGPUs, `GPUMemoryUtilization` dapat berkisar dari 0% hingga 400%. Untuk pekerjaan pelatihan, `GPUMemoryUtilization` adalah GPU memori yang digunakan oleh wadah algoritma yang berjalan pada instance. Untuk pekerjaan transformasi batch, `GPUMemoryUtilization` adalah GPU memori yang digunakan oleh wadah transformasi yang berjalan pada instance. Untuk model multi-kontainer, `GPUMemoryUtilization` adalah jumlah yang GPU digunakan oleh semua kontainer yang berjalan pada instance. Untuk varian endpoint, `GPUMemoryUtilization` adalah jumlah GPU memori yang digunakan oleh semua container yang berjalan pada instance. Unit: Persen
`DiskUtilization`	Persentase ruang disk yang digunakan oleh kontainer yang berjalan pada sebuah instance. DiskUtilization berkisar dari 0% hingga 100%. Metrik ini tidak didukung untuk pekerjaan transformasi batch. Untuk pekerjaan pelatihan, `DiskUtilization` adalah ruang disk yang digunakan oleh wadah algoritma yang berjalan pada instance. Untuk varian endpoint, `DiskUtilization` adalah jumlah ruang disk yang digunakan oleh semua kontainer yang disediakan yang berjalan pada instance. Unit: Persen

Dimensi untuk Training Job, Batch Transform Job, dan Endpoint Instance Metrics

Dimensi Deskripsi

Dimensi	Deskripsi
`Host`	Untuk pekerjaan pelatihan, `Host` memiliki format`[training-job-name]/algo-[instance-number-in-cluster]`. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance pelatihan yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/TrainingJobs` namespace. Untuk pekerjaan transformasi batch, `Host` memiliki format`[transform-job-name]/[instance-id]`. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance transformasi batch yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/TransformJobs` namespace. Untuk titik akhir, `Host` memiliki format`[endpoint-name]/[ production-variant-name ]/[instance-id]`. Gunakan dimensi ini untuk memfilter metrik instance untuk titik akhir, varian, dan instance yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/Endpoints` namespace.

Host

Untuk pekerjaan pelatihan, Host memiliki format[training-job-name]/algo-[instance-number-in-cluster]. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance pelatihan yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/TrainingJobs namespace.

Untuk pekerjaan transformasi batch, Host memiliki format[transform-job-name]/[instance-id]. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance transformasi batch yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/TransformJobs namespace.

Untuk titik akhir, Host memiliki format[endpoint-name]/[ production-variant-name ]/[instance-id]. Gunakan dimensi ini untuk memfilter metrik instance untuk titik akhir, varian, dan instance yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/Endpoints namespace.

Untuk membantu Anda men-debug pekerjaan pelatihan, titik akhir, dan konfigurasi siklus hidup instance notebook, kirimkan SageMaker juga apa pun yang dikirim oleh container algoritme, wadah model, atau konfigurasi siklus hidup instance notebook ke atau ke Amazon Logs. stdout stderr CloudWatch Anda dapat menggunakan informasi ini untuk debugging dan untuk menganalisis kemajuan.

Gunakan Log untuk Memantau Pipa Inferensi

Tabel berikut mencantumkan grup log dan aliran log SageMaker. mengirim ke Amazon CloudWatch

Pengaliran log adalah urutan log acara yang berbagi sumber yang sama. Setiap sumber log yang CloudWatch terpisah menjadi aliran log terpisah. Grup log adalah grup log stream yang berbagi pengaturan retensi, pemantauan, dan kontrol akses yang sama.

Log

Catat Nama Grup	Nama Aliran Log
`/aws/sagemaker/TrainingJobs`	`[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]`
`/aws/sagemaker/Endpoints/[EndpointName]`	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]`
	`[production-variant-name]/[instance-id]/[container-name provided in the SageMaker model] (For Inference Pipelines)`Untuk log Inference Pipelines, jika Anda tidak memberikan nama kontainer, CloudWatch gunakancontainer-1, container-2, dan seterusnya, dalam urutan kontainer disediakan dalam model.
`/aws/sagemaker/NotebookInstances`	`[notebook-instance-name]/[LifecycleConfigHook]`
`/aws/sagemaker/TransformJobs`	`[transform-job-name]/[instance-id]-[epoch_timestamp]`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log`
	`[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker model] (For Inference Pipelines)`Untuk log Inference Pipelines, jika Anda tidak memberikan nama kontainer, CloudWatch gunakancontainer-1, container-2, dan seterusnya, dalam urutan kontainer disediakan dalam model.

catatan

SageMakermembuat grup /aws/sagemaker/NotebookInstances log saat Anda membuat instance notebook dengan konfigurasi siklus hidup. Untuk informasi selengkapnya, lihat Kustomisasi instance SageMaker notebook menggunakan LCC skrip.

Untuk informasi selengkapnya tentang SageMaker pencatatan, lihatGrup log dan aliran yang SageMaker dikirimkan Amazon ke Amazon CloudWatch Logs.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Batch berubah

Pemecahan Masalah