Modelle für Inference einsetzen

Fokusmodus

Modelle für Inference einsetzen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Mit Amazon SageMaker AI können Sie beginnen, Vorhersagen oder Schlussfolgerungen aus Ihren trainierten Modellen für maschinelles Lernen zu ziehen. SageMaker KI bietet eine breite Auswahl an ML-Infrastruktur- und Modellbereitstellungsoptionen, um all Ihre Anforderungen an ML-Inferenz zu erfüllen. Mit SageMaker AI Inference können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den betrieblichen Aufwand reduzieren. SageMaker KI bietet Ihnen verschiedene Inferenzoptionen, z. B. Echtzeit-Endpunkte für Inferenzen mit geringer Latenz, serverlose Endpunkte für vollständig verwaltete Infrastruktur und auto-scaling sowie asynchrone Endpunkte für Batches von Anfragen. Indem Sie die für Ihren Anwendungsfall geeignete Inferenzoption nutzen, können Sie eine effiziente und modellhafte Implementierung und Inferenz sicherstellen.

Wählen Sie eine Funktion

Es gibt mehrere Anwendungsfälle für den Einsatz von ML-Modellen mit SageMaker KI. In diesem Abschnitt werden diese Anwendungsfälle sowie die SageMaker KI-Funktion beschrieben, die wir für jeden Anwendungsfall empfehlen.

Anwendungsfälle

Im Folgenden sind die wichtigsten Anwendungsfälle für den Einsatz von ML-Modellen mit SageMaker KI aufgeführt.

Anwendungsfall 1: Stellen Sie ein Modell für maschinelles Lernen in einer Low-Code- oder No-Code-Umgebung bereit. Für Anfänger oder SageMaker KI-Neulinge können Sie vortrainierte Modelle mit Amazon SageMaker JumpStart über die Amazon SageMaker Studio-Oberfläche bereitstellen, ohne dass komplexe Konfigurationen erforderlich sind.
Anwendungsfall 2: Verwenden Sie Code, um Modelle für maschinelles Lernen mit mehr Flexibilität und Kontrolle bereitzustellen. Erfahrene ML-Praktiker können mithilfe der ModelBuilder Klasse im SageMaker KI-Python-SDK, die eine detaillierte Kontrolle über verschiedene Einstellungen wie Instanztypen, Netzwerkisolierung und Ressourcenzuweisung bietet, ihre eigenen Modelle mit benutzerdefinierten Einstellungen für ihre Anwendungsanforderungen bereitstellen.
Anwendungsfall 3: Implementieren Sie Modelle für maschinelles Lernen in großem Maßstab. Fortgeschrittene Benutzer und Unternehmen, die Modelle in der Produktion skalierbar verwalten möchten, können die Tools AWS SDK für Python (Boto3) und AWS CloudFormation zusammen mit den gewünschten Infrastructure-as-Code- (IaC) - und CI/CD-Tools verwenden, um Ressourcen bereitzustellen und das Ressourcenmanagement zu automatisieren.

Empfohlene Features

In der folgenden Tabelle werden die wichtigsten Überlegungen und Kompromisse für SageMaker KI-Funktionen beschrieben, die für jeden Anwendungsfall gelten.

	Anwendungsfall 1	Anwendungsfall 2	Anwendungsfall 3
SageMaker KI-Funktion	Verwenden Sie es JumpStart in Studio, um die Bereitstellung Ihres grundlegenden Modells zu beschleunigen.	Stellen Sie ModelBuilder Modelle mithilfe des SageMaker Python-SDK bereit.	Stellen Sie Modelle in großem Maßstab bereit und verwalten Sie sie mit AWS CloudFormation.
Beschreibung	Verwenden Sie die Studio-Benutzeroberfläche, um vortrainierte Modelle aus einem Katalog für vorkonfigurierte Inferenzendpunkte bereitzustellen. Diese Option ist ideal für Citizen Data Scientists oder für alle, die ein Modell bereitstellen möchten, ohne komplexe Einstellungen konfigurieren zu müssen.	Verwenden Sie die `ModelBuilder` Klasse aus dem Amazon SageMaker AI Python SDK, um Ihr eigenes Modell bereitzustellen und Bereitstellungseinstellungen zu konfigurieren. Diese Option ist ideal für erfahrene Datenwissenschaftler oder für alle, die ihr eigenes Modell bereitstellen müssen und eine genaue Kontrolle benötigen.	Verwenden Sie AWS CloudFormation und Infrastructure as Code (IaC) für die programmatische Steuerung und Automatisierung bei der Bereitstellung und Verwaltung von KI-Modellen. SageMaker Diese Option ist ideal für fortgeschrittene Benutzer, die konsistente und wiederholbare Bereitstellungen benötigen.
Optimiert für	Schnelle und optimierte Bereitstellungen beliebter Open-Source-Modelle	Bereitstellung Ihrer eigenen Modelle	Kontinuierliche Verwaltung von Modellen in der Produktion
Überlegungen	Fehlende Anpassung an Container-Einstellungen und spezifische Anwendungsanforderungen	Keine Benutzeroberfläche, erfordert, dass Sie mit der Entwicklung und Wartung von Python-Code vertraut sind	Erfordert Infrastrukturmanagement und organisatorische Ressourcen sowie Vertrautheit mit den AWS SDK für Python (Boto3) oder mit AWS CloudFormation Vorlagen.
Empfohlene Umgebung	Eine SageMaker KI-Domäne	Eine Python-Entwicklungsumgebung, die mit Ihren AWS Anmeldeinformationen konfiguriert ist und das SageMaker Python-SDK installiert ist, oder eine SageMaker AI-IDE wie SageMaker JupyterLab	Die AWS CLI, eine lokale Entwicklungsumgebung und die Tools Infrastructure as Code (IaC) und CI/CD

Zusätzliche Optionen

SageMaker KI bietet verschiedene Optionen für Ihre Inferenz-Anwendungsfälle, sodass Sie die technische Breite und Tiefe Ihrer Implementierungen selbst bestimmen können:

Bereitstellung eines Modells auf einem Endpunkt. Ziehen Sie bei der Bereitstellung Ihres Modells die folgenden Optionen in Betracht:
- Echtzeit-Inferenz. Inferenz in Echtzeit ist ideal für Inferenz-Workloads, bei denen Sie interaktive Anforderungen mit geringer Latenz haben.
- Bereitstellen von Modellen mit Amazon SageMaker Serverless Inference. Verwenden Sie Serverless Inference, um Modelle bereitzustellen, ohne die zugrunde liegende Infrastruktur konfigurieren oder verwalten zu müssen. Diese Option ist ideal für Workloads, bei denen es zwischen den einzelnen Datenausfällen Leerlaufzeiten gibt, und die Kaltstarts tolerieren können.
- Asynchrone Inferenz-Inferenz. stellt eingehende Anfragen in eine Warteschlange und verarbeitet sie asynchron. Diese Option ist ideal für Anfragen mit großen Nutzlasten (bis zu 1 GB), langen Verarbeitungszeiten (bis zu einer Stunde asynchroner Inferenz) und Latenzanforderungen, die nahezu in Echtzeit erforderlich sind
Kostenoptimierung. Um Ihre Inferenzkosten zu optimieren, sollten Sie die folgenden Optionen in Betracht ziehen:
- Optimierung der Modellleistung mit SageMaker Neo. Verwenden Sie SageMaker Neo, um Ihre Machine-Learning-Modelle mit besserer Leistung und Effizienz zu optimieren und auszuführen. So können Sie die Rechenkosten minimieren, indem Sie Modelle automatisch für die Ausführung in Umgebungen wie AWS Inferentia-Chips optimieren.
- Automatische Skalierung von Amazon SageMaker AI-Modellen. Verwenden Sie Autoscaling, um die Rechenressourcen für Ihre Endgeräte dynamisch an die Muster des eingehenden Datenverkehrs anzupassen. So können Sie Ihre Kosten optimieren, indem Sie nur für die Ressourcen bezahlen, die Sie zu einem bestimmten Zeitpunkt tatsächlich nutzen.