Inferenzoptionen in Amazon SageMaker

SageMaker bietet mehrere Inferenzoptionen, sodass Sie die Option auswählen können, die am besten zu Ihrem Workload passt:

Echtzeit-Inferenz: Echtzeit-Inferenz eignet sich ideal für Online-Inferences, die eine geringe Latenz oder einen hohen Durchsatz erfordern. Verwenden Sie Echtzeit-Inferenz für einen persistenten und vollständig verwalteten Endpunkt (RESTAPI), der anhaltenden Datenverkehr verarbeiten kann, unterstützt durch den Instance-Typ Ihrer Wahl. Echtzeit-Inferenz kann Nutzlasten von bis zu 6 MB und Verarbeitungszeiten von 60 Sekunden unterstützen.
Serverlose Inferenz: Serverlose Inferenz ist ideal, wenn Sie intermittierende oder unvorhersehbare Datenverkehrsmuster haben. SageMaker verwaltet die gesamte zugrunde liegende Infrastruktur, sodass keine Instanzen oder Skalierungsrichtlinien verwaltet werden müssen. Sie bezahlen nur für das, was Sie tatsächlich nutzen und nicht für Leerlaufzeit. Unterstützt werden Nutzlasten bis 4 MB und Verarbeitungszeiten von bis zu 60 Sekunden.
Batch-Transformation: Die Batch-Transformation eignet sich für die Offline-Verarbeitung, wenn große Datenmengen im Voraus verfügbar sind und Sie keinen persistenten Endpunkt brauchen. Sie können die Batch-Transformation auch zum Vorverarbeiten von Datensätzen verwenden. Es kann große Datensätze unterstützen, deren GBs Größe und Verarbeitungszeit mehrere Tage betragen.
Asynchrone Inference: Die Asynchrone Inference eignet sich ideal, wenn Sie Anfragen in eine Warteschlange stellen möchten und große Nutzlasten mit langen Verarbeitungszeiten haben. Die asynchrone Inference unterstützt Nutzlasten bis 1 GB und lange Verarbeitungszeiten von bis zu einer Stunde. Sie können Ihren Endpunkt auch auf 0 herunterskalieren, wenn keine Anfragen verarbeitet werden müssen.

Das folgende Diagramm zeigt die obigen Informationen in einem Flussdiagramm. Damit können Sie diejenige Option auswählen, die am besten zu Ihrem Anwendungsfall passt.

Liste der Vorteile der einzelnen SageMaker Inferenzoptionen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Optionen für die Bereitstellung von Modellen und das Abrufen von Schlussfolgerungen

Erweiterte Endpunkt-Optionen