Log dan Metrik Pipa Inferensi - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Log dan Metrik Pipa Inferensi

Pemantauan penting untuk menjaga keandalan, ketersediaan, dan kinerja sumber SageMaker daya Amazon. Untuk memantau dan memecahkan masalah performa pipeline inferensi, gunakan CloudWatch log Amazon dan pesan kesalahan. Untuk informasi tentang alat pemantauan yang SageMaker menyediakan, lihatMemantau AWS sumber daya yang disediakan saat menggunakan Amazon SageMaker.

Gunakan Metrik untuk Memantau Model Multi-kontainer

Untuk memantau model multi-kontainer di Inference Pipelines, gunakan Amazon. CloudWatch CloudWatchmengumpulkan data mentah dan memprosesnya menjadi metrik yang dapat dibaca, mendekati waktu nyata. SageMakerpekerjaan pelatihan dan titik akhir menulis CloudWatch metrik dan log di namespace. AWS/SageMaker

Tabel berikut mencantumkan metrik dan dimensi untuk hal-hal berikut:

  • Pemanggilan titik akhir

  • Pekerjaan pelatihan, pekerjaan transformasi batch, dan instance titik akhir

Dimensi adalah pasangan nama/nilai yang secara unik mengidentifikasi metrik. Anda dapat menetapkan hingga 10 dimensi ke metrik. Untuk informasi lebih lanjut tentang pemantauan dengan CloudWatch, lihatPantau Amazon SageMaker dengan Amazon CloudWatch.

Metrik Pemanggilan Titik Akhir

AWS/SageMakerNamespace menyertakan metrik permintaan berikut dari panggilan ke. InvokeEndpoint

Metrik dilaporkan pada interval 1 menit.

Metrik Deskripsi
Invocation4XXErrors

Jumlah InvokeEndpoint permintaan yang model mengembalikan kode respons 4xx HTTP untuk. Untuk setiap 4xx tanggapan, SageMaker kirimkan a1.

Satuan: Tidak ada

Statistik yang valid: Average, Sum

Invocation5XXErrors

Jumlah InvokeEndpoint permintaan yang model mengembalikan kode respons 5xx HTTP untuk. Untuk setiap 5xx tanggapan, SageMaker kirimkan a1.

Satuan: Tidak ada

Statistik yang valid: Average, Sum

Invocations

number of InvokeEndpointPermintaan dikirim ke titik akhir model.

Untuk mendapatkan jumlah total permintaan yang dikirim ke titik akhir model, gunakan Sum statistik.

Satuan: Tidak ada

Statistik yang valid: Sum, Sample Count

InvocationsPerInstance

Jumlah pemanggilan titik akhir yang dikirim ke model, dinormalisasi oleh masing-masing. InstanceCount ProductionVariant SageMakermengirimkan 1/ numberOfInstances sebagai nilai untuk setiap permintaan, di mana numberOfInstances adalah jumlah instance aktif untuk ProductionVariant di titik akhir pada saat permintaan.

Satuan: Tidak ada

Statistik valid: Sum

ModelLatency Waktu yang dibutuhkan model atau model untuk merespons. Ini termasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah. ModelLatencyadalah total waktu yang dibutuhkan oleh semua kontainer dalam pipa inferensi.

Unit: Mikrodetik

Statistik yang valid:Average,Sum,Min,Max, Jumlah Sampel

OverheadLatency

Waktu ditambahkan ke waktu yang dibutuhkan untuk menanggapi permintaan klien dengan biaya SageMaker overhead. OverheadLatencydiukur dari waktu yang SageMaker menerima permintaan hingga mengembalikan respons ke klien, dikurangiModelLatency. Latensi overhead dapat bervariasi tergantung pada ukuran payload permintaan dan respons, frekuensi permintaan, dan otentikasi atau otorisasi permintaan, di antara faktor-faktor lainnya.

Unit: Mikrodetik

Statistik yang valid:Average,Sum,Min,Max, Sample Count

ContainerLatency Waktu yang dibutuhkan wadah Inference Pipelines untuk merespons seperti yang dilihat dari. SageMaker ContainerLatencytermasuk waktu yang dibutuhkan untuk mengirim permintaan, untuk mengambil respons dari wadah model, dan untuk menyelesaikan inferensi dalam wadah.

Unit: Mikrodetik

Statistik yang valid:Average,Sum,Min,Max, Sample Count

Dimensi untuk Metrik Pemanggilan Titik Akhir

Dimensi Deskripsi
EndpointName, VariantName, ContainerName

Memfilter metrik pemanggilan titik akhir untuk a ProductionVariant pada titik akhir yang ditentukan dan untuk varian yang ditentukan.

Untuk titik akhir pipeline inferensi, cantumkan metrik CloudWatch latensi per kontainer di akun Anda sebagai Metrik Kontainer Titik Akhir dan Metrik Varian Titik Akhir di namespace, sebagai berikut. SageMaker ContainerLatencyMetrik hanya muncul untuk pipa inferensi.

CloudWatch Dasbor untuk pipeline inferensi mencantumkan metrik latensi untuk setiap titik akhir untuk setiap kontainer.

Untuk setiap titik akhir dan setiap kontainer, metrik latensi menampilkan nama untuk penampung, titik akhir, varian, dan metrik.

Metrik latensi untuk titik akhir.

Training Job, Batch Transform Job, dan Metrik Instance Endpoint

Ruang nama/aws/sagemaker/TrainingJobs,/aws/sagemaker/TransformJobs, dan /aws/sagemaker/Endpoints menyertakan metrik berikut untuk pekerjaan pelatihan dan instance titik akhir.

Metrik dilaporkan pada interval 1 menit.

Metrik Deskripsi
CPUUtilization

Persentase unit CPU yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilainya berkisar dari 0% hingga 100%, dan dikalikan dengan jumlah CPU. Misalnya, jika ada empat CPU, CPUUtilization dapat berkisar dari 0% hingga 400%.

Untuk pekerjaan pelatihan, CPUUtilization adalah pemanfaatan CPU dari wadah algoritma yang berjalan pada instance.

Untuk pekerjaan transformasi batch, CPUUtilization adalah pemanfaatan CPU dari wadah transformasi yang berjalan pada instance.

Untuk model multi-kontainer, CPUUtilization adalah jumlah pemanfaatan CPU oleh semua kontainer yang berjalan pada instance.

Untuk varian endpoint, CPUUtilization adalah jumlah pemanfaatan CPU oleh semua container yang berjalan pada instance.

Unit: Persen

MemoryUtilization

Persentase memori yang digunakan oleh kontainer yang berjalan pada sebuah instance. Nilai ini berkisar dari 0% hingga 100%.

Untuk pekerjaan pelatihan, MemoryUtilization adalah memori yang digunakan oleh wadah algoritma yang berjalan pada instance.

Untuk pekerjaan transformasi batch, MemoryUtilization adalah memori yang digunakan oleh wadah transformasi yang berjalan pada instance.

Untuk model multi-kontainer, MemoryUtilization adalah jumlah memori yang digunakan oleh semua kontainer yang berjalan pada instance.

Untuk varian endpoint, MemoryUtilization adalah jumlah memori yang digunakan oleh semua container yang berjalan pada instance.

Unit: Persen

GPUUtilization

Persentase unit GPU yang digunakan oleh kontainer yang berjalan pada sebuah instance. GPUUtilizationberkisar dari 0% hingga 100% dan dikalikan dengan jumlah GPU. Misalnya, jika ada empat GPU, GPUUtilization dapat berkisar dari 0% hingga 400%.

Untuk pekerjaan pelatihan, GPUUtilization adalah GPU yang digunakan oleh wadah algoritma yang berjalan pada instance.

Untuk pekerjaan transformasi batch, GPUUtilization adalah GPU yang digunakan oleh wadah transformasi yang berjalan pada instance.

Untuk model multi-kontainer, GPUUtilization adalah jumlah GPU yang digunakan oleh semua kontainer yang berjalan pada instance.

Untuk varian endpoint, GPUUtilization adalah jumlah GPU yang digunakan oleh semua container yang berjalan pada instance.

Unit: Persen

GPUMemoryUtilization

Persentase memori GPU yang digunakan oleh kontainer yang berjalan pada sebuah instance. GPU MemoryUtilization berkisar dari 0% hingga 100% dan dikalikan dengan jumlah GPU. Misalnya, jika ada empat GPU, GPUMemoryUtilization dapat berkisar dari 0% hingga 400%.

Untuk pekerjaan pelatihan, GPUMemoryUtilization adalah memori GPU yang digunakan oleh wadah algoritma yang berjalan pada instance.

Untuk pekerjaan transformasi batch, GPUMemoryUtilization adalah memori GPU yang digunakan oleh wadah transformasi yang berjalan pada instance.

Untuk model multi-kontainer, GPUMemoryUtilization adalah jumlah GPU yang digunakan oleh semua kontainer yang berjalan pada instance.

Untuk varian endpoint, GPUMemoryUtilization adalah jumlah memori GPU yang digunakan oleh semua container yang berjalan pada instance.

Unit: Persen

DiskUtilization

Persentase ruang disk yang digunakan oleh kontainer yang berjalan pada sebuah instance. DiskUtilization berkisar dari 0% hingga 100%. Metrik ini tidak didukung untuk pekerjaan transformasi batch.

Untuk pekerjaan pelatihan, DiskUtilization adalah ruang disk yang digunakan oleh wadah algoritma yang berjalan pada instance.

Untuk varian endpoint, DiskUtilization adalah jumlah ruang disk yang digunakan oleh semua kontainer yang disediakan yang berjalan pada instance.

Unit: Persen

Dimensi untuk Training Job, Batch Transform Job, dan Endpoint Instance Metrics

Dimensi Deskripsi
Host

Untuk pekerjaan pelatihan, Host memiliki format[training-job-name]/algo-[instance-number-in-cluster]. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance pelatihan yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/TrainingJobs namespace.

Untuk pekerjaan transformasi batch, Host memiliki format[transform-job-name]/[instance-id]. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance transformasi batch yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/TransformJobs namespace.

Untuk titik akhir, Host memiliki format[endpoint-name]/[ production-variant-name ]/[instance-id]. Gunakan dimensi ini untuk memfilter metrik instance untuk titik akhir, varian, dan instance yang ditentukan. Format dimensi ini hanya ada di /aws/sagemaker/Endpoints namespace.

Untuk membantu Anda men-debug pekerjaan pelatihan, titik akhir, dan konfigurasi siklus hidup instance notebook, kirimkan SageMaker juga apa pun yang dikirim oleh container algoritme, wadah model, atau konfigurasi siklus hidup instance notebook ke atau ke Amazon Logs. stdout stderr CloudWatch Anda dapat menggunakan informasi ini untuk debugging dan untuk menganalisis kemajuan.

Gunakan Log untuk Memantau Pipa Inferensi

Tabel berikut mencantumkan grup log dan aliran log SageMaker. mengirim ke Amazon CloudWatch

Pengaliran log adalah urutan log acara yang berbagi sumber yang sama. Setiap sumber log yang CloudWatch terpisah menjadi aliran log terpisah. Grup log adalah grup log stream yang berbagi pengaturan retensi, pemantauan, dan kontrol akses yang sama.

Log

Catat Nama Grup Nama Aliran Log
/aws/sagemaker/TrainingJobs

[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]

/aws/sagemaker/Endpoints/[EndpointName]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]/[container-name provided in the SageMaker model] (For Inference Pipelines)Untuk log Inference Pipelines, jika Anda tidak memberikan nama kontainer, CloudWatch gunakan**container-1, container-2**, dan seterusnya, dalam urutan kontainer disediakan dalam model.

/aws/sagemaker/NotebookInstances

[notebook-instance-name]/[LifecycleConfigHook]

/aws/sagemaker/TransformJobs

[transform-job-name]/[instance-id]-[epoch_timestamp]

[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log

[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker model] (For Inference Pipelines)Untuk log Inference Pipelines, jika Anda tidak memberikan nama kontainer, CloudWatch gunakan**container-1, container-2**, dan seterusnya, dalam urutan kontainer disediakan dalam model.

catatan

SageMakermembuat grup /aws/sagemaker/NotebookInstances log saat Anda membuat instance notebook dengan konfigurasi siklus hidup. Untuk informasi selengkapnya, lihat Kustomisasi instance SageMaker notebook menggunakan skrip LCC.

Untuk informasi selengkapnya tentang SageMaker pencatatan, lihatLog SageMaker Acara Amazon dengan Amazon CloudWatch.