Bewährte Methoden zur Optimierung von Inference-Kosten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bewährte Methoden zur Optimierung von Inference-Kosten

Der folgende Inhalt enthält Techniken und Überlegungen zur Optimierung der Kosten von Endpunkten. Anhand dieser Empfehlungen können Sie die Kosten für neue und auch für bestehende Endpunkte optimieren.

Bewährte Methoden

Folgen Sie diesen bewährten Methoden, um Ihre SageMaker Inferenzkosten zu optimieren.

SageMaker bietet 4 verschiedene Inferenzoptionen, um die beste Inferenzoption für die jeweilige Aufgabe bereitzustellen. Sie können evtl. Kosten sparen, indem Sie die Inference-Option auswählen, die am besten zu Ihrem Workload passt.

  • Verwenden Sie Echtzeit-Inferenz für Workloads mit niedriger Latenz und vorhersehbaren Datenverkehrsmustern, die gleichbleibende Latenzeigenschaften aufweisen müssen und immer verfügbar sein müssen. Sie zahlen für die Nutzung der Instance.

  • Verwenden Sie Serverless Inference für synchrone Workloads, die ein Datenverkehrsmuster mit vielen Spitzen haben und Schwankungen der p99-Latenz akzeptieren können. Eine Serverless Inference passt sich automatisch Ihrem Workload-Traffic an, so dass Sie nicht für ungenutzte Ressourcen bezahlen müssen. Sie bezahlen nur für die Dauer der Inference-Anfrage. Dasselbe Modell und dieselben Container können für Echtzeit- und Serverless Inferences verwendet werden. Sie können daher zwischen diesen beiden Betriebsarten wechseln, wenn sich Ihre Anforderungen ändern.

  • Verwenden Sie asynchrone Inference für asynchrone Workloads, die bis zu 1 GB an Daten (wie Textkorpus, Bild, Video und Ton) verarbeiten, die latenz- und kostensensitiv sind. Mit asynchroner Inference können Sie die Kosten kontrollieren, indem Sie eine feste Anzahl der Instances für die optimale Verarbeitungsrate angeben, anstatt einer Bereitstellung für Spitzenzeiten. Sie können auch auf Null herunterskalieren, um noch mehr Kosten zu sparen.

  • Verwenden Sie Batch-Inference für Workloads, für die Sie Inferences für einen großen Datensatz für Prozesse brauchen, die offline ablaufen (d. h. für die Sie keinen persistenten Endpunkt brauchen). Sie zahlen für die Instance für die Dauer des Batch-Inference-Auftrags.

  • Wenn Sie über ein einheitliches Nutzungsniveau für alle SageMaker Dienste verfügen, können Sie sich für einen SageMaker Savings Plan entscheiden, mit dem Sie Ihre Kosten um bis zu 64% senken können.

  • SageMaker Amazon-Sparpläne bieten ein flexibles Preismodell für Amazon SageMaker als Gegenleistung für die Verpflichtung zu einer gleichbleibenden Nutzungsdauer (gemessen in USD/Stunde) für eine Laufzeit von einem oder drei Jahren. Diese Pläne gelten automatisch für berechtigte SageMaker ML-Instance-Nutzungen wie SageMaker Studio Classic Notebook, SageMaker On-Demand-Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference und SageMaker Batch Transform, unabhängig von Instance-Familie, Größe oder Region. Sie können z. B. jederzeit die Nutzung von einer CPU-Instance ml.c5.xlarge, die in USA Ost (Ohio) läuft, auf eine ml.INF1-Instance in USA West (Oregon) für Inference-Workloads ändern und automatisch weiterhin den Preis für den Savings Plan bezahlen.

  • Nicht optimierte Modelle können zu längeren Laufzeiten führen und mehr Ressourcen verbrauchen. Sie können sich dafür entscheiden, mehr oder größere Instances zu verwenden, um die Leistung zu verbessern. Dies führt jedoch zu höheren Kosten.

  • Wenn Sie Ihre Modelle so optimieren, dass sich ihre Leistung verbessert, können Sie evtl. die Kosten senken, indem Sie weniger oder kleinere Instances verwenden und dabei dieselben oder bessere Leistungsmerkmale beibehalten. Sie können SageMaker Neo mit SageMaker Inference verwenden, um Modelle automatisch zu optimieren. Weitere Informationen und Beispiele finden Sie unter Optimieren Sie die Modellleistung mit Neo.

  • SageMaker Inference verfügt über mehr als 70 Instanztypen und -größen, die zur Bereitstellung von ML-Modellen verwendet werden können, darunter AWS Inferentia- und Graviton-Chipsätze, die für ML optimiert sind. Durch die Auswahl der richtigen Instance für Ihr Modell können Sie sicherstellen, dass Sie über die leistungsstärkste Instance zu den niedrigsten Kosten für Ihre Modelle verfügen.

  • Mithilfe der Inferenzempfehlung können Sie schnell verschiedene Instances vergleichen, um die Leistung des Modells und die Kosten zu verstehen. Anhand dieser Ergebnisse können Sie die Instance auswählen, die Sie mit der optimalen Kapitalrendite bereitstellen möchten.

  • Ohne Auto Scaling müssen Sie Vorkehrungen für Verkehrsspitzen treffen, oder Sie laufen Gefahr, dass Ihr Modell nicht verfügbar ist. Wenn der Datenverkehr zu Ihrem Modell nicht den ganzen Tag über konstant ist, wird es zu viel ungenutzte Kapazität geben. Dies führt zu geringer Auslastung und Ressourcenverschwendung.

  • Autoscaling ist eine out-of-the-box Funktion, die Ihre Workloads überwacht und die Kapazität dynamisch anpasst, um eine konstante und vorhersehbare Leistung zu möglichst niedrigen Kosten aufrechtzuerhalten. Steigt die Arbeitslast, so werden durch das Auto Scaling mehr Instances online bereitgestellt. Wenn die Workload abnimmt, werden durch Auto Scaling unnötige Instances entfernt. So können Sie Ihre Datenverarbeitungskosten senken. Weitere Informationen finden Sie unter Konfiguration von Autoscaling-Inferenzendpunkten in SageMaker Amazon im AWS Machine Learning Learning-Blog.