Tentukan metrik yang telah ditentukan (CloudWatch metrik: InvocationsPerInstance)Tentukan metrik standar resolusi tinggi (CloudWatch metrik: dan) ConcurrentRequestsPerModel ConcurrentRequestsPerCopy Tentukan metrik khusus (CloudWatchmetrik:CPUUtilization)Tentukan metrik khusus (CloudWatch metrik: ExplanationsPerInstance)Tentukan periode cooldown

Menentukan kebijakan penskalaan

Sebelum menambahkan kebijakan penskalaan ke model, simpan konfigurasi kebijakan Anda sebagai JSON blok dalam file teks. Anda menggunakan file teks tersebut saat menjalankan AWS Command Line Interface (AWS CLI) atau Application Auto API Scaling. Anda dapat mengoptimalkan penskalaan dengan memilih CloudWatch metrik yang sesuai. Namun, sebelum menggunakan metrik khusus dalam produksi, Anda harus menguji penskalaan otomatis dengan metrik khusus Anda.

Bagian ini menunjukkan contoh konfigurasi kebijakan untuk kebijakan penskalaan pelacakan target.

Topik

Tentukan metrik yang telah ditentukan (CloudWatch metrik: InvocationsPerInstance)
Tentukan metrik standar resolusi tinggi (CloudWatch metrik: dan) ConcurrentRequestsPerModel ConcurrentRequestsPerCopy
Tentukan metrik khusus (CloudWatchmetrik:CPUUtilization)
Tentukan metrik khusus (CloudWatch metrik: ExplanationsPerInstance)
Tentukan periode cooldown

Tentukan metrik yang telah ditentukan (CloudWatch metrik: InvocationsPerInstance)

Berikut ini adalah contoh konfigurasi kebijakan pelacakan target untuk varian yang menjaga pemanggilan rata-rata per instance pada 70. Simpan konfigurasi ini dalam file bernama config.json.


{
    "TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
    }
}

Untuk informasi selengkapnya, lihat TargetTrackingScalingPolicyConfigurationdi Referensi Application Auto Scaling. API

Tentukan metrik standar resolusi tinggi (CloudWatch metrik: dan) ConcurrentRequestsPerModel ConcurrentRequestsPerCopy

Dengan CloudWatch metrik resolusi tinggi berikut, Anda dapat menyetel kebijakan penskalaan untuk volume permintaan bersamaan yang diterima model Anda:

ConcurrentRequestsPerModel: Jumlah permintaan bersamaan yang diterima oleh wadah model.
ConcurrentRequestsPerCopy: Jumlah permintaan bersamaan yang diterima oleh komponen inferensi.

Metrik ini melacak jumlah permintaan simultan yang ditangani oleh container model Anda, termasuk permintaan yang diantrian di dalam container. Untuk model yang mengirimkan respons inferensi mereka sebagai aliran token, metrik ini melacak setiap permintaan hingga model mengirimkan token terakhir untuk permintaan tersebut.

Sebagai metrik resolusi tinggi, mereka memancarkan data lebih sering daripada metrik standar. CloudWatch Metrik standar, seperti InvocationsPerInstance metrik, memancarkan data setiap menit sekali. Namun, metrik resolusi tinggi ini memancarkan data setiap 10 detik. Oleh karena itu, ketika lalu lintas bersamaan ke model Anda meningkat, kebijakan Anda bereaksi dengan menskalakan jauh lebih cepat daripada metrik standar. Namun, karena lalu lintas ke model Anda berkurang, kebijakan Anda menskalakan dengan kecepatan yang sama seperti untuk metrik standar.

Berikut ini adalah contoh konfigurasi kebijakan pelacakan target yang menambahkan instance jika jumlah permintaan bersamaan per model melebihi 5. Simpan konfigurasi ini dalam file bernama config.json.


{
    "TargetValue": 5.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantConcurrentRequestsPerModelHighResolution"
    }
}

Jika Anda menggunakan komponen inferensi untuk menerapkan beberapa model ke titik akhir yang sama, Anda dapat membuat kebijakan yang setara. Dalam hal ini, atur PredefinedMetricType keSageMakerInferenceComponentConcurrentRequestsPerCopyHighResolution.

Untuk informasi selengkapnya, lihat TargetTrackingScalingPolicyConfigurationdi Referensi Application Auto Scaling. API

Tentukan metrik khusus (CloudWatchmetrik:CPUUtilization)

Untuk membuat kebijakan penskalaan pelacakan target dengan metrik kustom, tentukan nama metrik, namespace, unit, statistik, dan dimensi nol atau lebih. Dimensi terdiri dari nama dimensi dan nilai dimensi. Anda dapat menggunakan metrik varian produksi apa pun yang berubah sebanding dengan kapasitas.

Contoh konfigurasi berikut menunjukkan kebijakan penskalaan pelacakan target dengan metrik kustom. Kebijakan ini menskalakan varian berdasarkan CPU pemanfaatan rata-rata 50 persen di semua kasus. Simpan konfigurasi ini dalam file bernama config.json.


{
    "TargetValue": 50.0,
    "CustomizedMetricSpecification":
    {
        "MetricName": "CPUUtilization",
        "Namespace": "/aws/sagemaker/Endpoints",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "VariantName","Value": "my-variant"}
        ],
        "Statistic": "Average",
        "Unit": "Percent"
    }
}

Untuk informasi selengkapnya, lihat CustomizedMetricSpecificationdi Referensi Application Auto Scaling. API

Tentukan metrik khusus (CloudWatch metrik: ExplanationsPerInstance)

Ketika titik akhir mengaktifkan penjelasan online, ia memancarkan ExplanationsPerInstance metrik yang menghasilkan jumlah rata-rata catatan yang dijelaskan per menit, per contoh, untuk sebuah varian. Pemanfaatan sumber daya untuk menjelaskan catatan bisa lebih berbeda dari catatan prediksi. Kami sangat menyarankan menggunakan metrik ini untuk penskalaan pelacakan target titik akhir dengan kemampuan penjelasan online diaktifkan.

Anda dapat membuat beberapa kebijakan pelacakan target untuk target yang dapat diskalakan. Pertimbangkan untuk menambahkan InvocationsPerInstance kebijakan dari Tentukan metrik yang telah ditentukan (CloudWatch metrik: InvocationsPerInstance) bagian (selain ExplanationsPerInstance kebijakan). Jika sebagian besar pemanggilan tidak menampilkan penjelasan karena nilai ambang batas yang ditetapkan dalam EnableExplanations parameter, maka titik akhir dapat memilih kebijakan. InvocationsPerInstance Jika ada banyak penjelasan, titik akhir dapat menggunakan kebijakan. ExplanationsPerInstance

Contoh konfigurasi berikut menunjukkan kebijakan penskalaan pelacakan target dengan metrik kustom. Skala kebijakan menyesuaikan jumlah instance varian sehingga setiap instance memiliki ExplanationsPerInstance metrik 20. Simpan konfigurasi ini dalam file bernama config.json.


{
    "TargetValue": 20.0,
    "CustomizedMetricSpecification":
    {
        "MetricName": "ExplanationsPerInstance",
        "Namespace": "AWS/SageMaker",
        "Dimensions": [
            {"Name": "EndpointName", "Value": "my-endpoint" },
            {"Name": "VariantName","Value": "my-variant"}
        ],
        "Statistic": "Sum"
    }
}

Untuk informasi selengkapnya, lihat CustomizedMetricSpecificationdi Referensi Application Auto Scaling. API

Tentukan periode cooldown

Anda dapat secara opsional menentukan periode cooldown dalam kebijakan penskalaan pelacakan target Anda dengan menentukan dan parameter. ScaleOutCooldown ScaleInCooldown

Berikut ini adalah contoh konfigurasi kebijakan pelacakan target untuk varian yang menjaga pemanggilan rata-rata per instance pada 70. Konfigurasi kebijakan menyediakan periode cooldown scale-in 10 menit (600 detik) dan periode cooldown scale-out 5 menit (300 detik). Simpan konfigurasi ini dalam file bernama config.json.


{
    "TargetValue": 70.0,
    "PredefinedMetricSpecification":
    {
        "PredefinedMetricType": "SageMakerVariantInvocationsPerInstance"
    },
    "ScaleInCooldown": 600,
    "ScaleOutCooldown": 300
}

Untuk informasi selengkapnya, lihat TargetTrackingScalingPolicyConfigurationdi Referensi Application Auto Scaling. API

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Daftarkan model

Menerapkan kebijakan penskalaan