Bewährte Methoden zur Optimierung von Inference-Kosten - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bewährte Methoden zur Optimierung von Inference-Kosten

Der folgende Inhalt enthält Techniken und Überlegungen zur Optimierung der Kosten von Endpunkten. Anhand dieser Empfehlungen können Sie die Kosten für neue und auch für bestehende Endpunkte optimieren.

Bewährte Methoden

Folgen Sie diesen bewährten Methoden, um Ihre Kosten für SageMaker KI-Inferenzen zu optimieren.

SageMaker KI bietet 4 verschiedene Inferenzoptionen, um die beste Inferenzoption für die jeweilige Aufgabe bereitzustellen. Sie können evtl. Kosten sparen, indem Sie die Inference-Option auswählen, die am besten zu Ihrem Workload passt.

  • Verwenden Sie Echtzeit-Inferenz für Workloads mit niedriger Latenz und vorhersehbaren Datenverkehrsmustern, die gleichbleibende Latenzeigenschaften aufweisen müssen und immer verfügbar sein müssen. Sie zahlen für die Nutzung der Instance.

  • Verwenden Sie Serverless Inference für synchrone Workloads, die ein Datenverkehrsmuster mit vielen Spitzen haben und Schwankungen der p99-Latenz akzeptieren können. Eine Serverless Inference passt sich automatisch Ihrem Workload-Traffic an, so dass Sie nicht für ungenutzte Ressourcen bezahlen müssen. Sie bezahlen nur für die Dauer der Inference-Anfrage. Dasselbe Modell und dieselben Container können für Echtzeit- und Serverless Inferences verwendet werden. Sie können daher zwischen diesen beiden Betriebsarten wechseln, wenn sich Ihre Anforderungen ändern.

  • Verwenden Sie asynchrone Inference für asynchrone Workloads, die bis zu 1 GB an Daten (wie Textkorpus, Bild, Video und Ton) verarbeiten, die latenz- und kostensensitiv sind. Mit asynchroner Inference können Sie die Kosten kontrollieren, indem Sie eine feste Anzahl der Instances für die optimale Verarbeitungsrate angeben, anstatt einer Bereitstellung für Spitzenzeiten. Sie können auch auf Null herunterskalieren, um noch mehr Kosten zu sparen.

  • Verwenden Sie Batch-Inference für Workloads, für die Sie Inferences für einen großen Datensatz für Prozesse brauchen, die offline ablaufen (d. h. für die Sie keinen persistenten Endpunkt brauchen). Sie zahlen für die Instance für die Dauer des Batch-Inference-Auftrags.

  • Wenn Sie über ein einheitliches Nutzungsniveau für alle SageMaker KI-Dienste verfügen, können Sie sich für einen SageMaker KI-Sparplan entscheiden, mit dem Sie Ihre Kosten um bis zu 64% senken können.

  • Amazon SageMaker AI Savings Plans bieten ein flexibles Preismodell für Amazon SageMaker AI als Gegenleistung für die Verpflichtung zu einer gleichbleibenden Nutzungsdauer (gemessen in USD/Stunde) für eine Laufzeit von einem oder drei Jahren. Diese Pläne gelten automatisch für berechtigte SageMaker AI-ML-Instanznutzungen, einschließlich SageMaker Studio Classic Notebook, SageMaker On-Demand-Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference und SageMaker Batch Transform, unabhängig von Instance-Familie, Größe oder Region. Beispielsweise können Sie die Nutzung von einer CPU ml.c5.xlarge-Instance, die in US East (Ohio) läuft, zu einer ml.INF1-Instance in US West (Oregon) für Inferenz-Workloads jederzeit ändern und automatisch weiterhin den Savings Plans Plan-Preis zahlen.

  • SageMaker Inference verfügt über mehr als 70 Instanztypen und -größen, die zur Bereitstellung von ML-Modellen verwendet werden können, darunter AWS Inferentia- und Graviton-Chipsätze, die für ML optimiert sind. Durch die Auswahl der richtigen Instance für Ihr Modell können Sie sicherstellen, dass Sie über die leistungsstärkste Instance zu den niedrigsten Kosten für Ihre Modelle verfügen.

  • Mithilfe der Inferenzempfehlung können Sie schnell verschiedene Instances vergleichen, um die Leistung des Modells und die Kosten zu verstehen. Anhand dieser Ergebnisse können Sie die Instance auswählen, die Sie mit der optimalen Kapitalrendite bereitstellen möchten.

  • Ohne Auto Scaling müssen Sie Vorkehrungen für Verkehrsspitzen treffen, oder Sie laufen Gefahr, dass Ihr Modell nicht verfügbar ist. Wenn der Datenverkehr zu Ihrem Modell nicht den ganzen Tag über konstant ist, wird es zu viel ungenutzte Kapazität geben. Dies führt zu geringer Auslastung und Ressourcenverschwendung.

  • Autoscaling ist eine out-of-the-box Funktion, die Ihre Workloads überwacht und die Kapazität dynamisch anpasst, um eine konstante und vorhersehbare Leistung zu möglichst niedrigen Kosten aufrechtzuerhalten. Steigt die Arbeitslast, so werden durch das Auto Scaling mehr Instances online bereitgestellt. Wenn die Workload abnimmt, werden durch Auto Scaling unnötige Instances entfernt. So können Sie Ihre Datenverarbeitungskosten senken. Weitere Informationen finden Sie unter Konfiguration von Autoscaling-Inferenzendpunkten in Amazon SageMaker AI im AWS Machine Learning Learning-Blog.