Lasttest Ihrer Auto -Scaling-Konfiguration - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Lasttest Ihrer Auto -Scaling-Konfiguration

Führen Sie Lasttests durch, um eine Skalierungskonfiguration auszuwählen, die Ihren Wünschen entspricht.

Bei den folgenden Richtlinien für Lasttests wird davon ausgegangen, dass Sie eine Skalierungsrichtlinie verwenden, die die vordefinierte Zielmetrik verwendetSageMakerVariantInvocationsPerInstance.

Bestimmen der Leistungseigenschaften

Führen Sie Lasttests durch, um die höchste Auslastung InvocationsPerInstance, die Ihre Produktionsvariante Ihres Modells verarbeiten kann, und die Latenz der Anfragen, während die Nebenläufigkeit zunimmt, zu finden.

Dieser Wert hängt vom ausgewählten Instance-Typ, von den Nutzlasten, die Kunden in der Regel an Ihr Modell senden sowie von der Performance der externen Abhängigkeiten Ihres Modells ab.

Um die Spitze requests-per-second (RPS) zu ermitteln, die die Produktionsvariante Ihres Modells bewältigen kann, und die Latenz von Anfragen
  1. Richten Sie mithilfe einer einzigen Instance einen Endpunkt für Ihr Modell ein. Informationen zum Einrichten eines Endpunkts finden Sie unter Stellen Sie das Modell für SageMaker Hosting-Services bereit.

  2. Verwenden Sie ein Lasttest-Tool, um eine zunehmende Anzahl parallel Anfragen zu generieren RPS und die Latenz in der Ausgabe des Lasttesttools zu überwachen und zu modellieren.

    Anmerkung

    Sie können requests-per-minute stattdessen auch überwachenRPS. In diesem Fall multiplizieren Sie in der Gleichung nicht mit 60, um SageMakerVariantInvocationsPerInstance, wie unten veranschaulicht, zu berechnen.

    Wenn die Modelllatenz zunimmt oder der Anteil erfolgreicher Transaktionen abnimmt, ist dies der SpitzenwertRPS, den Ihr Modell bewältigen kann.

Berechnen der Ziellast

Nachdem Sie die Leistungsmerkmale der Variante ermittelt RPS haben, können Sie festlegen, wie viel maximal an eine Instanz gesendet werden darf. Die Schwellenwert, der für die Skalierung verwendet wurde, muss kleiner sein als dieser Maximalwert. Verwenden Sie die folgende Gleichung in Kombination mit Lasttests, um den richtigen Wert für die SageMakerVariantInvocationsPerInstance Zielmetrik in Ihrer Skalierungskonfiguration zu ermitteln.

SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

Wo MAX_RPS ist das MaximumRPS, das Sie zuvor festgelegt haben, und SAFETY_FACTOR ist der Sicherheitsfaktor, den Sie ausgewählt haben, um sicherzustellen, dass Ihre Kunden das Maximum nicht überschreitenRPS. Multiplizieren Sie mit 60, um von RPS invocations-per-minute bis umzurechnen, sodass es der CloudWatch Metrik pro Minute entspricht, die für die Implementierung von Auto Scaling SageMaker verwendet wird (Sie müssen dies nicht tun, wenn Sie requests-per-minute stattdessen gemessen haben requests-per-second).

Anmerkung

SageMaker empfiehlt, den Test mit einem Wert SAFETY_FACTOR von 0,5 zu beginnen. Testen Sie Ihre Skalierungskonfiguration, um sicherzustellen, dass sie so funktioniert, wie Sie es von Ihrem Modell erwarten, um den Kundenverkehr auf Ihrem Endpunkt sowohl zu erhöhen als auch zu verringern.