

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# SageMaker Folgerung
<a name="nova-model-sagemaker-inference"></a>

Benutzerdefinierte Amazon Nova-Modelle sind jetzt auf SageMaker Inference verfügbar. Wenn Amazon Nova aktiviert ist SageMaker, können Sie damit beginnen, Prognosen oder Schlussfolgerungen aus Ihren trainierten benutzerdefinierten Amazon Nova-Modellen zu ziehen. SageMaker bietet eine breite Auswahl an Optionen zur ML-Infrastruktur und Modellbereitstellung, um all Ihren Anforderungen an ML-Inferenz gerecht zu werden. Mit SageMaker Inferenz können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den betrieblichen Aufwand reduzieren.

SageMaker bietet Ihnen verschiedene Inferenzoptionen, z. B. Echtzeit-Endpunkte für Inferenzen mit geringer Latenz und asynchrone Endpunkte für Batches von Anfragen. Indem Sie die für Ihren Anwendungsfall geeignete Inferenzoption nutzen, können Sie eine effiziente Modellbereitstellung und Inferenz sicherstellen. [Weitere Informationen zur Inferenz finden Sie unter Bereitstellen von Modellen für SageMaker Inferenz.](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html)

**Wichtig**  
Bei Inferenz werden nur benutzerdefinierte Modelle und LoRA-merged Modelle mit vollem Rang unterstützt. SageMaker Verwenden Sie Amazon Bedrock für LoRa-Modelle und Basismodelle, die nicht zusammengeführt wurden.

## Features
<a name="nova-sagemaker-inference-features"></a>

Die folgenden Funktionen sind für Amazon Nova-Modelle auf SageMaker Inferenz verfügbar:

**Funktionen des Modells**
+ Textgenerierung

**Bereitstellung und Skalierung**
+ Real-time Endpunkte mit benutzerdefinierter Instanzauswahl
+ Auto Scaling — Passen Sie die Kapazität automatisch an die Verkehrsmuster an, um Kosten und GPU-Auslastung zu optimieren. Weitere Informationen finden Sie unter [Automatisches Skalieren von SageMaker Amazon-Modellen](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Streaming-API-Unterstützung für die Token-Generierung in Echtzeit

**Überwachung und Optimierung**
+  CloudWatch Amazon-Integration für Überwachung und Benachrichtigungen
+ Optimierung der Verfügbarkeit und Zone-aware Latenz durch VPC-Konfiguration

**Entwicklungstools**
+ AWS CLI support — Weitere Informationen finden Sie unter [AWS CLI-Befehlsreferenz für SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/).
+  Notebook-Integration über SDK-Unterstützung

## Unterstützte Modelle und Instanzen
<a name="nova-sagemaker-inference-supported"></a>

Bei der Erstellung Ihrer SageMaker Inferenzendpunkte können Sie zwei Umgebungsvariablen festlegen, um Ihre Bereitstellung zu konfigurieren: `CONTEXT_LENGTH` und. `MAX_CONCURRENCY`
+ `CONTEXT_LENGTH`— Maximale Gesamtlänge des Tokens (Eingabe \+ Ausgabe) pro Anfrage
+ `MAX_CONCURRENCY`— Maximale Anzahl gleichzeitiger Anfragen, die der Endpunkt bearbeiten wird

In der folgenden Tabelle sind die unterstützten Amazon Nova-Modelle, Instance-Typen und unterstützten Konfigurationen aufgeführt. Die MAX\_CONCURRENCY-Werte stellen die maximale unterstützte Parallelität für jede CONTEXT\_LENGTH-Einstellung dar:


****  


- **Amazon Nova Micro**
  - **Instance-Typ:** ml.g5.12xlarge / **Unterstützte Konfigurationen:** CONTEXT\_LENGTH: 4000, MAX\_PARALLELITÄT: 12<br />KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 6 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g5.24xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6e.xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 2 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6e.2xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 2 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6e.4xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 4 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6.12xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 4000, MAXIMALE PARALLELITÄT: 12<br />KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 6 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6.24xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.g6.48xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 12 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.p5.48xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 16000, MAXIMALE PARALLELITÄT: 128<br />KONTEXTLÄNGE: 64000, MAXIMALE PARALLELITÄT: 32<br />KONTEXTLÄNGE: 128000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Nein

- **Amazon Nova Lite**
  - **Instance-Typ:** ml.g6.12xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 2 / **FP8-Quantisierung erforderlich:** Ja — Standardmäßig aktiviert
  - **Instance-Typ:** ml.g6.24xlarge / **Unterstützte Konfigurationen:** CONTEXT\_LENGTH: 8000, MAX\_CONCURRENCY: 4 / **FP8-Quantisierung erforderlich:** Ja — Standardmäßig aktiviert
  - **Instance-Typ:** ml.g6.48xlarge / **Unterstützte Konfigurationen:** CONTEXT\_LENGTH: 4000, MAX\_CONCURRENCY: 16<br />KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Nein
  - **Instance-Typ:** ml.p5.48xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 16000, MAXIMALE PARALLELITÄT: 128<br />KONTEXTLÄNGE: 60000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Nein

- **Nova 2 Lite**
  - **Instance-Typ:** ml.g6.48xlarge / **Unterstützte Konfigurationen:** KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 8 / **FP8-Quantisierung erforderlich:** Ja — Standardmäßig aktiviert
  - **Instance-Typ:** ml.p5.48xlarge / **Unterstützte Konfigurationen:** CONTEXT\_LENGTH: 16000, MAX\_CONCURRENCY: 128<br />KONTEXTLÄNGE: 64000, MAXIMALE PARALLELITÄT: 32<br />KONTEXTLÄNGE: 128000, MAXIMALE PARALLELITÄT: 8<br />KONTEXTLÄNGE: 256000, MAXIMALE PARALLELITÄT: 2 / **FP8-Quantisierung erforderlich:** Nein



**Anmerkung**  
In Fällen, in denen die FP8-Quantisierung erforderlich ist, ist sie standardmäßig aktiviert.  
Die angezeigten MAX\_CONCURRENCY-Werte sind Obergrenzen für jede CONTEXT\_LENGTH-Einstellung. Sie können niedrigere Kontextlängen bei derselben Parallelität verwenden, aber eine Überschreitung dieser Werte führt dazu, dass die Endpunkterstellung fehlschlägt. SageMaker   
Zum Beispiel auf Amazon Nova Micro mit einem ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000``MAX_CONCURRENCY=12`, → Gültig
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=12` → Abgelehnt (Parallelitätslimit ist 6 bei einer Kontextlänge von 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → Gültig
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=6` → Gültig
`CONTEXT_LENGTH=10000`→ Abgelehnt (die maximale Kontextlänge beträgt 8000 auf dieser Instanz)

## Inferenzkomponenten
<a name="nova-sagemaker-inference-components"></a>

Sie können Amazon Nova-Modelle mithilfe von SageMaker Inferenzkomponenten bereitstellen, die es Ihnen ermöglichen, mehrere Modelle auf einem einzigen Endpunkt zu hosten und die Ressourcennutzung zu optimieren. Mit Inferenzkomponenten können Sie die Rechenressourcen (CPU, Arbeitsspeicher, GPU) angeben, die für jedes Modell erforderlich sind, wodurch effizientes Hosting mehrerer Modelle auf einer gemeinsam genutzten Infrastruktur ermöglicht wird.

In der folgenden Tabelle sind die Mindestanforderungen an Rechenressourcen für jedes Amazon Nova-Modell aufgeführt, wenn Inferenzkomponenten verwendet werden:


****  

| Modell | Minimale Anzahl an CPU-Kernen | Minimaler Arbeitsspeicher (MB) | Minimale GPU-Anzahl | 
| --- | --- | --- | --- | 
| Amazon Nova Micro | 15 | 25000 | 4 | 
| Amazon Nova Lite | 20 | 35000 | 4 | 
| Nova 2 Lite | 20 | 100000 | 4 | 

**Anmerkung**  
Die `ComputeResourceRequirements` Werte müssen die in der obigen Tabelle aufgeführten Mindestanforderungen für das Modell, das Sie bereitstellen, erfüllen oder übertreffen. Wenn Sie Werte verwenden, die unter den Mindestanforderungen liegen, schlägt die Erstellung der Inferenzkomponenten fehl.  
Sie können mehrere Inferenzkomponenten auf demselben Endpunkt bereitstellen, sofern die Gesamtressourcenanforderungen die Kapazität der Instanz nicht überschreiten.  
Die Anzahl der Inferenzkomponenten, die Sie auf einem einzelnen Endpunkt hosten können, hängt von den verfügbaren Ressourcen des Instanztyps und den Mindestanforderungen der einzelnen Modelle ab. Zum Beispiel auf einem `ml.p5.48xlarge` (8 GPUs, 192 vCPUs, \~1 TB Speicher):  
1 Amazon Nova Micro-Inferenzkomponente (4 GPUs, 15 CPU-Kerne, 25000 MB) → Gültig
2 Amazon Nova Micro-Inferenzkomponenten (insgesamt 8 GPUs, 30 CPU-Kerne, 50000 MB) → Gültig (passt in die Instance-Kapazität)
1 Nova 2 Lite-Inferenzkomponente (4 GPUs, 20 CPU-Kerne, 100000 MB) → Gültig
2 Nova 2 Lite-Inferenzkomponenten (insgesamt 8 GPUs, 40 CPU-Kerne, 200000 MB) → Gültig
3 Amazon Nova Micro-Inferenzkomponenten (insgesamt 12 GPUs) → Abgelehnt (mehr als 8 verfügbare GPUs)

## AWS Unterstützte Regionen
<a name="nova-sagemaker-inference-regions"></a>

In der folgenden Tabelle sind die AWS Regionen aufgeführt, in denen Amazon Nova-Modelle auf SageMaker Inferenz verfügbar sind:


****  

| Name der Region | Regionscode | Verfügbarkeit | 
| --- | --- | --- | 
| USA Ost (Nord-Virginia) | us-east-1 | Available (Verfügbar) | 
| USA West (Oregon) | us-west-2 | Available (Verfügbar) | 

## Unterstützte Container-Images
<a name="nova-sagemaker-inference-container-images"></a>

In der folgenden Tabelle sind die Container-Image-URIs für Amazon Nova-Modelle nach SageMaker Inferenz nach Regionen aufgeführt. Das `SM-Inference-latest` Tag zeigt derzeit auf. `v1.4`


****  

| Region | Container-Image-URIs | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Bewährte Methoden
<a name="nova-sagemaker-inference-best-practices"></a>

Bewährte Methoden für die Bereitstellung und Verwaltung von Modellen auf SageMaker finden Sie unter [Bewährte Methoden für SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Support
<a name="nova-sagemaker-inference-support"></a>

Bei Problemen und Support mit Amazon Nova-Modellen auf SageMaker Inferenz wenden Sie sich über die Konsole oder Ihren AWS Kundenbetreuer an den AWS Support.

**Topics**
+ [Features](#nova-sagemaker-inference-features)
+ [Unterstützte Modelle und Instanzen](#nova-sagemaker-inference-supported)
+ [Inferenzkomponenten](#nova-sagemaker-inference-components)
+ [AWS Unterstützte Regionen](#nova-sagemaker-inference-regions)
+ [Unterstützte Container-Images](#nova-sagemaker-inference-container-images)
+ [Bewährte Methoden](#nova-sagemaker-inference-best-practices)
+ [Support](#nova-sagemaker-inference-support)
+ [Erste Schritte](nova-sagemaker-inference-getting-started.md)
+ [Funktionen des Inferenzcontainers](nova-sagemaker-inference-container-features.md)
+ [API-Referenz](nova-sagemaker-inference-api-reference.md)
+ [Evaluieren Sie auf SageMaker Inference gehostete Modelle](nova-eval-on-sagemaker-inference.md)
+ [Einsatz von Amazon Nova Forge-Modellen bei der Missbrauchserkennung von Amazon SageMaker Inference](nova-sagemaker-inference-abuse-detection.md)