Bewährte Methoden zur Optimierung von Inference-Kosten

Der folgende Inhalt enthält Techniken und Überlegungen zur Optimierung der Kosten von Endpunkten. Anhand dieser Empfehlungen können Sie die Kosten für neue und auch für bestehende Endpunkte optimieren.

Bewährte Methoden

Folgen Sie diesen bewährten Methoden, um Ihre Kosten für SageMaker KI-Inferenzen zu optimieren.

SageMaker KI bietet 4 verschiedene Inferenzoptionen, um die beste Inferenzoption für die jeweilige Aufgabe bereitzustellen. Sie können evtl. Kosten sparen, indem Sie die Inference-Option auswählen, die am besten zu Ihrem Workload passt.

Verwenden Sie Echtzeit-Inferenz für Workloads mit niedriger Latenz und vorhersehbaren Datenverkehrsmustern, die gleichbleibende Latenzeigenschaften aufweisen müssen und immer verfügbar sein müssen. Sie zahlen für die Nutzung der Instance.
Verwenden Sie Serverless Inference für synchrone Workloads, die ein Datenverkehrsmuster mit vielen Spitzen haben und Schwankungen der p99-Latenz akzeptieren können. Eine Serverless Inference passt sich automatisch Ihrem Workload-Traffic an, so dass Sie nicht für ungenutzte Ressourcen bezahlen müssen. Sie bezahlen nur für die Dauer der Inference-Anfrage. Dasselbe Modell und dieselben Container können für Echtzeit- und Serverless Inferences verwendet werden. Sie können daher zwischen diesen beiden Betriebsarten wechseln, wenn sich Ihre Anforderungen ändern.
Verwenden Sie asynchrone Inference für asynchrone Workloads, die bis zu 1 GB an Daten (wie Textkorpus, Bild, Video und Ton) verarbeiten, die latenz- und kostensensitiv sind. Mit asynchroner Inference können Sie die Kosten kontrollieren, indem Sie eine feste Anzahl der Instances für die optimale Verarbeitungsrate angeben, anstatt einer Bereitstellung für Spitzenzeiten. Sie können auch auf Null herunterskalieren, um noch mehr Kosten zu sparen.
Verwenden Sie Batch-Inference für Workloads, für die Sie Inferences für einen großen Datensatz für Prozesse brauchen, die offline ablaufen (d. h. für die Sie keinen persistenten Endpunkt brauchen). Sie zahlen für die Instance für die Dauer des Batch-Inference-Auftrags.

Wenn Sie über ein einheitliches Nutzungsniveau für alle SageMaker KI-Dienste verfügen, können Sie sich für einen SageMaker KI-Sparplan entscheiden, mit dem Sie Ihre Kosten um bis zu 64% senken können.
Amazon SageMaker AI Savings Plans bieten ein flexibles Preismodell für Amazon SageMaker AI als Gegenleistung für die Verpflichtung zu einer gleichbleibenden Nutzungsdauer (gemessen in USD/Stunde) für eine Laufzeit von einem oder drei Jahren. Diese Pläne gelten automatisch für berechtigte SageMaker AI-ML-Instanznutzungen, einschließlich SageMaker Studio Classic Notebook, SageMaker On-Demand-Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference und SageMaker Batch Transform, unabhängig von Instance-Familie, Größe oder Region. Beispielsweise können Sie die Nutzung von einer CPU ml.c5.xlarge-Instance, die in US East (Ohio) läuft, zu einer ml.INF1-Instance in US West (Oregon) für Inferenz-Workloads jederzeit ändern und automatisch weiterhin den Savings Plans Plan-Preis zahlen.

Nicht optimierte Modelle können zu längeren Laufzeiten führen und mehr Ressourcen verbrauchen. Sie können sich dafür entscheiden, mehr oder größere Instances zu verwenden, um die Leistung zu verbessern. Dies führt jedoch zu höheren Kosten.
Wenn Sie Ihre Modelle so optimieren, dass sich ihre Leistung verbessert, können Sie evtl. die Kosten senken, indem Sie weniger oder kleinere Instances verwenden und dabei dieselben oder bessere Leistungsmerkmale beibehalten. Sie können Neo mit AI Inference verwendenSageMaker , um Modelle automatisch zu optimieren. SageMaker Weitere Informationen und Beispiele finden Sie unter Optimierung der Modellleistung mit SageMaker Neo.

SageMaker Inference verfügt über mehr als 70 Instanztypen und -größen, die zur Bereitstellung von ML-Modellen verwendet werden können, darunter AWS Inferentia- und Graviton-Chipsätze, die für ML optimiert sind. Durch die Auswahl der richtigen Instance für Ihr Modell können Sie sicherstellen, dass Sie über die leistungsstärkste Instance zu den niedrigsten Kosten für Ihre Modelle verfügen.

Mithilfe der Inferenzempfehlung können Sie schnell verschiedene Instances vergleichen, um die Leistung des Modells und die Kosten zu verstehen. Anhand dieser Ergebnisse können Sie die Instance auswählen, die Sie mit der optimalen Kapitalrendite bereitstellen möchten.

Die Kosten können sich schnell summieren, wenn Sie mehrere Endpunkte bereitstellen, insbesondere wenn die Endpunkte die zugrundeliegenden Instances nicht voll auslasten. Um herauszufinden, ob die Instance nicht ausgelastet ist, überprüfen Sie die Nutzungsmetriken (CPUGPU, usw.) in Amazon CloudWatch für Ihre Instances. Wenn Sie mehrere solche Endpunkte haben, können Sie die Modelle oder Container auf diesen Endpunkten zu einem einzigen Endpunkt kombinieren.
Mithilfe von Endpunkten mit mehreren Modellen (MME) oder Endpunkten mit mehreren Containern (MCE) können Sie mehrere ML-Modelle oder Container in einem einzigen Endpunkt bereitstellen, um die Instance für mehrere Modelle oder Container gemeinsam zu nutzen und Ihre Investitionsrendite zu verbessern. Weitere Informationen finden Sie unter Sparen Sie Inferenzkosten durch die Verwendung von Amazon SageMaker AI-Endpunkten mit mehreren Modellen oder Bereitstellen mehrerer Serving-Container auf einer einzigen Instance mithilfe von Amazon SageMaker AI-Endpunkten mit mehreren Containern im Machine Learning Learning-Blog. AWS

Ohne Auto Scaling müssen Sie Vorkehrungen für Verkehrsspitzen treffen, oder Sie laufen Gefahr, dass Ihr Modell nicht verfügbar ist. Wenn der Datenverkehr zu Ihrem Modell nicht den ganzen Tag über konstant ist, wird es zu viel ungenutzte Kapazität geben. Dies führt zu geringer Auslastung und Ressourcenverschwendung.
Autoscaling ist eine out-of-the-box Funktion, die Ihre Workloads überwacht und die Kapazität dynamisch anpasst, um eine konstante und vorhersehbare Leistung zu möglichst niedrigen Kosten aufrechtzuerhalten. Steigt die Arbeitslast, so werden durch das Auto Scaling mehr Instances online bereitgestellt. Wenn die Workload abnimmt, werden durch Auto Scaling unnötige Instances entfernt. So können Sie Ihre Datenverarbeitungskosten senken. Weitere Informationen finden Sie unter Konfiguration von Autoscaling-Inferenzendpunkten in Amazon SageMaker AI im AWS Machine Learning Learning-Blog.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fehlerbehebung bei Bereitstellungen

Bewährte Methoden zur Minimierung von Unterbrechungen bei Treiber-Upgrades GPU