Alarm dan log untuk melacak metrik dari titik akhir asinkron - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Alarm dan log untuk melacak metrik dari titik akhir asinkron

Anda dapat memantau SageMaker AI menggunakan Amazon CloudWatch, yang mengumpulkan data mentah dan memprosesnya menjadi metrik yang dapat dibaca, mendekati waktu nyata. Dengan Amazon CloudWatch, Anda dapat mengakses informasi historis dan mendapatkan perspektif yang lebih baik tentang kinerja aplikasi atau layanan web Anda. Untuk informasi selengkapnya tentang Amazon CloudWatch, lihat Apa itu Amazon CloudWatch?

Pemantauan CloudWatch dengan

Metrik di bawah ini adalah daftar lengkap metrik untuk titik akhir asinkron dan berada di namespace. AWS/SageMaker Metrik apa pun yang tidak tercantum di bawah ini tidak dipublikasikan jika titik akhir diaktifkan untuk inferensi asinkron. Metrik tersebut mencakup (tetapi tidak terbatas pada):

  • OverheadLatency

  • Invokasi

  • InvocationsPerInstance

Metrik Titik Akhir Umum

Metrik ini sama dengan metrik yang diterbitkan untuk titik akhir waktu nyata hari ini. Untuk informasi selengkapnya tentang metrik lain di Amazon CloudWatch, lihat Memantau SageMaker AI dengan Amazon CloudWatch.

Nama Metrik Deskripsi Unit/Statistik

Invocation4XXErrors

Jumlah permintaan di mana model mengembalikan kode respons HTTP 4xx. Untuk setiap respons 4xx, 1 dikirim; jika tidak, 0 dikirim.

Satuan: Tidak ada

Statistik yang valid: Rata-rata, Jumlah

Invocation5XXErrors

Jumlah InvokeEndpoint permintaan di mana model mengembalikan kode respons HTTP 5xx. Untuk setiap respons 5xx, 1 dikirim; jika tidak, 0 dikirim.

Satuan: Tidak ada

Statistik yang valid: Rata-rata, Jumlah

ModelLatency

Interval waktu yang dibutuhkan oleh model untuk merespons seperti yang dilihat dari SageMaker AI. Interval ini mencakup waktu komunikasi lokal yang diambil untuk mengirim permintaan dan untuk mengambil respons dari wadah model dan waktu yang dibutuhkan untuk menyelesaikan inferensi dalam wadah.

Unit: Mikrodetik

Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel

Metrik Titik Akhir Inferensi Asinkron

Metrik ini diterbitkan untuk titik akhir yang diaktifkan untuk inferensi asinkron. Metrik berikut diterbitkan dengan EndpointName dimensi:

Nama Metrik Deskripsi Unit/Statistik

ApproximateBacklogSize

Jumlah item dalam antrian untuk titik akhir yang saat ini sedang diproses atau belum diproses.

Unit: Jumlah

Statistik yang valid: Rata-rata, Maks, Min

ApproximateBacklogSizePerInstance

Jumlah item dalam antrian dibagi dengan jumlah instance di belakang titik akhir. Metrik ini terutama digunakan untuk menyiapkan penskalaan otomatis aplikasi untuk titik akhir berkemampuan asinkron.

Unit: Jumlah

Statistik yang valid: Rata-rata, Maks, Min

ApproximateAgeOfOldestRequest

Usia permintaan tertua dalam antrian.

Unit: detik

Statistik yang valid: Rata-rata, Maks, Min

HasBacklogWithoutCapacity

Nilai metrik ini adalah 1 ketika ada permintaan dalam antrian tetapi nol contoh di belakang titik akhir. Nilainya ada 0 di waktu lainnya. Anda dapat menggunakan metrik ini untuk menskalakan otomatis titik akhir Anda dari nol instance setelah menerima permintaan baru dalam antrian.

Unit: Jumlah

Statistik yang valid: Rata-rata

Metrik berikut diterbitkan dengan VariantName dimensi EndpointName dan:

Nama Metrik Deskripsi Unit/Statistik

RequestDownloadFailures

Ketika kegagalan inferensi terjadi karena masalah saat mengunduh permintaan dari Amazon S3.

Unit: Jumlah

Statistik yang valid: Jumlah

ResponseUploadFailures

Ketika kegagalan inferensi terjadi karena masalah saat mengunggah respons ke Amazon S3.

Unit: Jumlah

Statistik yang valid: Jumlah

NotificationFailures

Saat terjadi masalah, publikasi notifikasi.

Unit: Jumlah

Statistik yang valid: Jumlah

RequestDownloadLatency

Total waktu untuk mengunduh payload permintaan.

Unit: Mikrodetik

Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel

ResponseUploadLatency

Total waktu untuk mengunggah payload respons.

Unit: Mikrodetik

Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel

ExpiredRequests

Jumlah permintaan dalam antrian yang gagal karena mencapai permintaan TTL yang ditentukan.

Unit: Jumlah

Statistik yang valid: Jumlah

InvocationFailures

Jika doa gagal karena alasan apa pun.

Unit: Jumlah

Statistik yang valid: Jumlah

InvocationsProcesssed

Jumlah pemanggilan asinkron yang diproses oleh titik akhir.

Unit: Jumlah

Statistik yang valid: Jumlah

TimeInBacklog

Total waktu permintaan antri sebelum diproses. Ini tidak termasuk waktu pemrosesan aktual (yaitu waktu pengunduhan, waktu unggah, latensi model).

Unit: Milidetik

Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel

TotalProcessingTime

Waktu permintaan inferensi diterima oleh SageMaker AI hingga saat permintaan selesai diproses. Ini termasuk waktu dalam backlog dan waktu untuk mengunggah dan mengirim pemberitahuan respons, jika ada.

Unit: Milidetik

Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel

Inferensi SageMaker Asinkron Amazon juga mencakup metrik tingkat host. Untuk informasi tentang metrik tingkat host, lihat Pekerjaan SageMaker AI dan Metrik Titik Akhir.

Log

Selain log wadah Model yang dipublikasikan ke Amazon CloudWatch di akun Anda, Anda juga mendapatkan log platform baru untuk melacak dan men-debug permintaan inferensi.

Log baru diterbitkan di bawah Endpoint Log Group:

/aws/sagemaker/Endpoints/[EndpointName]

Nama log stream terdiri dari:

[production-variant-name]/[instance-id]/data-log.

Baris log berisi ID inferensi permintaan sehingga kesalahan dapat dengan mudah dipetakan ke permintaan tertentu.