

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Multimodaler Support für Amazon Nova
<a name="modalities"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Die multimodale Dokumentation zu Amazon Nova 2 finden Sie unter [Multimodal Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html).

Amazon-Nova-Verständnismodelle sind multimodale Verständnismodelle, d. h. sie unterstützen multimodale Eingaben wie Bilder, Videos und Dokumente, um auf der Grundlage der bereitgestellten Inhalte Schlussfolgerungen zu ziehen und Fragen zu beantworten. Amazon-Nova-Modelle sind mit innovativen Bildverarbeitungsfunktionen ausgestattet, die es dem Modell ermöglichen, Bilder, Dokumente und Videos zu verstehen und zu analysieren, wodurch multimodale Anwendungsfälle realisiert werden können.

Der folgende Abschnitt enthält Richtlinien für die Arbeit mit Bildern, Dokumenten und Videos in Amazon Nova. Dazu gehören die verwendeten Vorverarbeitungsstrategien, Codebeispiele und relevante Einschränkungen, die zu berücksichtigen sind.

**Topics**
+ [Unterstützter Inhaltstyp nach Modalität](#modalities-content)
+ [Bildverständnis](modalities-image.md)
+ [Video-Verständnis](modalities-video.md)
+ [Verstehen von Dokumenten](modalities-document.md)
+ [Fehlerbehandlung](text-error-handing.md)

## Unterstützter Inhaltstyp nach Modalität
<a name="modalities-content"></a>

Die folgenden Informationen beschreiben die von der Mediendatei unterstützten Dateiformate und die akzeptierte Eingabemethode.


| Mediendateityp | Unterstützte Datei-Formate | **Eingabemethode** | Parsing-Strategie | 
| --- |--- |--- |--- |
| Image | PNG, JPG, JPEG, GIF, WEBP | Base64 Amazon-S3-URI | Visuelles Bildverständnis | 
| Text-Dokument *(Nur Converse-API)* | CSV, XLS, XLSX, HTML, TXT, MD, DOC | Bytes Amazon-S3-URI | Textverständnis nur aus dem Dokument. | 
| Mediendokument *(Nur Converse-API)* | PDF, DOCX | Bytes Amazon-S3-URI | Text mit verschachteltem Bildverständnis | 
| Video | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Base64 Amazon-S3-URI | Visuelles Videoverständnis | 

**Anmerkung**  
Sie können bis zu fünf Dateien von Ihrem Computer oder 1 000 Dateien von Amazon S3 hinzufügen. Jede Datei darf nicht mehr als 1 GB groß sein, wenn sie von Amazon S3 hochgeladen wird. Die Gesamtgröße der hochgeladenen Dateien darf 25 MB beim Hochladen von Ihrem Computer oder 2 GB beim Hochladen von Amazon S3 nicht überschreiten.

Da 25 MB die Gesamtgrenze für die Nutzdaten darstellt, stellen Sie bitte sicher, dass Sie den Base64-Overhead berücksichtigen. Bedenken Sie bei Ihrer Arbeit, dass Bibliotheken und Frameworks Speicherplatz beanspruchen und übertragene Medieninhalte schnell zu einer erheblichen Speicherbelastung führen können. Bei der Verwendung von Videos sollte die Angabe eines `s3Location` viele Speicherprobleme verringern.

**Anmerkung**  
Große Videos und Dokumente benötigen unabhängig von der Eingabemethode Zeit für die Verarbeitung. Wenn das boto3 SDK beim Warten auf eine Antwort von eine Zeitüberschreitung eintritt, stellen Sie sicher Amazon Bedrock, dass Sie einen geeigneten [read\$1timeout-Wert](https://botocore.amazonaws.com/v1/documentation/api/latest/reference/config.html) gesetzt haben und boto3 mindestens auf Version 1.38 aktualisiert haben.

# Bildverständnis
<a name="modalities-image"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2 finden Sie unter [Image Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#image-understanding).

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen, wobei die Gesamtnutzdaten auf 25 MB begrenzt ist. Sie können jedoch eine Amazon-S3-URI angeben, die Ihre Bilder für die Bildverarbeitung enthält. Mit diesem Ansatz können Sie das Modell für größere und weitere Bilder nutzen, ohne durch die Beschränkung auf Nutzdaten von 25 MB eingeschränkt zu sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, Bilder klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.

## Informationen zur Bildgröße
<a name="modalities-image-resolution"></a>

Um optimale Ergebnisse zu erzielen, skaliert Amazon Nova die Eingabebilder automatisch entsprechend ihrem Seitenverhältnis und ihrer ursprünglichen Auflösung nach oben oder unten. Für jedes Bild ermittelt Amazon Nova zunächst das nächstgelegene Seitenverhältnis von 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 2:3, 2:4 und deren Transponierungen. Anschließend wird das Bild so skaliert, dass mindestens eine Seite des Bildes größer als 896 Pixel oder die Länge der kürzeren Seite des Originalbildes ist, wobei das Seitenverhältnis so weit wie möglich beibehalten wird. Es gibt eine maximale Auflösung von 8 000 x 8 000 Pixeln

## Begrenzungsrahmenerkennung
<a name="modalities-image-bounding"></a>

Die Modelle Amazon Nova Lite und Amazon Nova Pro sind darauf trainiert, Begrenzungsrahmen in Bildern präzise zu erkennen. Diese Funktion ist besonders nützlich, wenn es darum geht, die Koordinaten eines bestimmten Zielobjekts zu ermitteln. Die Funktion zur Erkennung von Begrenzungsrahmen des Amazon-Nova-Modells ermöglicht dessen Einsatz für bildbasierte Grounding-Aufgaben und trägt somit zu einem besseren Verständnis von Screenshots bei. Das Amazon-Nova-Modell gibt Begrenzungsrahmen auf einer Skala von [0, 1000) aus. Nachdem diese Koordinaten ermittelt wurden, können sie als Nachbearbeitungsschritt entsprechend den Bildabmessungen in der Größe angepasst werden.

## Konvertierung von Bildern in Token
<a name="modalities-image-tokens"></a>

Wie bereits erwähnt, wird die Größe von Bildern geändert, um die Informationsextraktion zu maximieren und gleichzeitig das Seitenverhältnis beizubehalten. Im Folgenden finden Sie einige Beispiele für Beispielabmessungen von Bildern und ungefähre Token-Berechnungen.


| image\$1resolution (HxB oder BxH) | 900 x 450 | 900 x 900 | 1 400 x 900 | 1 800 x 900 | 1 300 x 1 300 | 
| --- |--- |--- |--- |--- |--- |
| Geschätzte Token-Anzahl | \$1800 | \$11 300 | \$11 800 | \$12 400 | \$12 600 | 

Ein Beispiel wäre ein Bild mit einer Größe von 800 x 400 Pixeln, für das Sie die Anzahl der Token schätzen möchten. Aufgrund der Abmessungen beträgt die nächstgelegene Auflösung 900 x 450, um ein Seitenverhältnis von 1:2 beizubehalten. Daher liegt die ungefähre Token-Anzahl für dieses Bild bei etwa 800 Token.

# Einschränkungen beim Bildverständnis
<a name="modalities-image-limitations"></a>

Machen Sie sich mit den folgenden Einschränkungen für Amazon Nova vertraut:
+ **Verständnis mehrsprachiger Bilder:** Die Modelle verfügen über ein begrenztes Verständnis von mehrsprachigen Bildern und Videobildern und können bei ähnlichen Aufgaben Schwierigkeiten haben oder zu Halluzinationen neigen.
+ **Identifizierung von Personen**: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle werden sich weigern, solche Aufgaben auszuführen.
+ **Räumliches Denken**: Die Amazon-Nova-Modelle verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.
+ **Kleiner Text in Bildern/Videos**: Sollte der Text im Bild oder Video zu klein sein, erwägen Sie bitte, die relative Größe des Textes im Bild zu vergrößern, indem Sie den relevanten Ausschnitt zuschneiden und dabei den notwendigen Kontext beibehalten.
+ **Zählen**: Die Amazon-Nova-Modelle können eine ungefähre Anzahl von Objekten in einem Bild angeben, sind jedoch möglicherweise nicht immer präzise, insbesondere wenn es sich um eine große Anzahl kleiner Objekte handelt.
+ **Unangemessene Inhalte**: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen.
+ **Anwendungen im Gesundheitswesen**: Aufgrund der Sensibilität dieser Artefakte können Amazon-Nova-Modelle zwar allgemeine Analysen von Bildern oder Videos aus dem Gesundheitswesen durchführen, wir empfehlen Ihnen jedoch nicht, komplexe diagnostische Scans zu interpretieren. Antworten von Amazon Nova sollten niemals als Ersatz für professionelle medizinische Beratung angesehen werden.

# Beispiele zum Verständnis von Bildern
<a name="modalities-image-examples"></a>

Das folgende Beispiel zeigt, wie Sie mit eine Bildaufforderung an Amazon Nova Model senden [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html).

```
# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
# SPDX-License-Identifier: Apache-2.0
import base64
import boto3
import json
# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

MODEL_ID = "us.amazon.nova-lite-v1:0"
# Open the image you'd like to use and encode it as a Base64 string.
with open("media/sunset.png", "rb") as image_file:
    binary_data = image_file.read()
    base_64_encoded_data = base64.b64encode(binary_data)
    base64_string = base_64_encoded_data.decode("utf-8")
# Define your system prompt(s).
system_list = [    {
        "text": "You are an expert artist. When the user provides you with an image, provide 3 potential art titles"
    }
]
# Define a "user" message including both the image and a text prompt.
message_list = [
    {
        "role": "user",
        "content": [
            {
                "image": {
                    "format": "png",
                    "source": {
                        "bytes": image // Binary array (Converse API) or Base64-encoded string (Invoke API)
                    },
                }
            },
            {
                "text": "Provide art titles for this image."
            }
        ],
    }
]
# Configure the inference parameters.
inf_params = {"maxTokens": 300, "topP": 0.1, "topK": 20, "temperature": 0.3}

native_request = {
    "schemaVersion": "messages-v1",
    "messages": message_list,
    "system": system_list,
    "inferenceConfig": inf_params,
}
# Invoke the model and extract the response body.
response = client.invoke_model(modelId=MODEL_ID, body=json.dumps(native_request))
model_response = json.loads(response["body"].read())
# Pretty print the response JSON.
print("[Full Response]")
print(json.dumps(model_response, indent=2))
# Print the text content for easy readability.
content_text = model_response["output"]["message"]["content"][0]["text"]
print("\n[Response Content Text]")
print(content_text)
```

Für die Übermittlung großer Bilddateien oder mehrerer Bilddateien, deren Nutzdaten insgesamt 25 MB überschreiten, können Sie Amazon S3 verwenden. Das folgende Beispiel zeigt, wie Sie Amazon S3 zum Hochladen von Bildern auf Amazon Nova verwenden:

```
import boto3
import json
import base64
# Create a Bedrock Runtime client
client = boto3.client("bedrock-runtime", 
                      region_name="us-east-1", 
                     )
PRO_MODEL_ID = "us.amazon.nova-pro-v1:0"
LITE_MODEL_ID = "us.amazon.nova-lite-v1:0"
MICRO_MODEL_ID = "us.amazon.nova-micro-v1:0"
PREMIER_MODEL_ID = "us.amazon.nova-premier-v1:0"
messages = [
    {
        "role": "user",
        "content": [
            {
                "image": {
                    "format": "png",
                    "source": {
                        "s3Location": {
                            #Replace the s3 bucket URI 
                            "uri": "s3://demo-bucket/cat.png"
                            "bucketOwner" : "123456789012"
                        }
                    },
                }
            },
            {"text": "Describe the following image"},
        ],
    }
]
inf_params = {"maxTokens": 300, "topP": 0.1, "temperature": 0.3}
model_response = client.converse(
    modelId=LITE_MODEL_ID, messages=messages, inferenceConfig=inf_params
)
print("\n[Full Response]")
print(json.dumps(model_response, indent=2))
print("\n[Response Content Text]")
print(model_response["output"]["message"]["content"][0]["text"])
```

# Video-Verständnis
<a name="modalities-video"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2-Videos finden Sie unter [Video Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#video-understanding).

Mit den Amazon-Nova-Modellen können Sie ein einzelnes Video in die Nutzdaten einbinden, das entweder im Base64-Format oder über eine Amazon-S3-URI bereitgestellt werden kann. Bei Verwendung der Base64-Methode darf die Gesamtgröße der Nutzdaten 25 MB nicht überschreiten. Sie können jedoch ein Amazon-S3-URI für Videoinhalte angeben. Mit diesem Ansatz können Sie das Modell für längere Videos (mit einer Größe von bis zu 1 GB) nutzen, ohne durch die Beschränkung der Gesamtnutzdatengröße eingeschränkt zu sein. Amazon-Nova-Modelle können das übermittelte Video analysieren und Fragen beantworten, ein Video klassifizieren und Informationen im Video anhand der bereitgestellten Anweisungen zusammenfassen.


| Mediendateityp | Unterstützte Datei-Formate | **Eingabemethode** | 
| --- |--- |--- |
| Video | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Base64 *Empfohlen für eine Nutzdatengröße von weniger als 25 MB* | 
|  |  | Amazon-S3-URI *Empfohlen für Nutzdaten von mehr als 25 MB bis zu 2 GB. Einzelne Dateien müssen 1 GB oder kleiner sein.* | 

Es gibt keine Unterschiede in der Anzahl der Videoeingabe-Token, unabhängig davon, ob das Video als base64 (sofern es innerhalb der Größeneinschränkungen liegt) oder über einen Amazon-S3-Speicherort übermittelt wird.

Beachten Sie, dass für das 3GP-Dateiformat das in der API-Anfrage übergebene Feld „format“ das Format „three\$1gp“ haben sollte.

Bei der Verwendung von Amazon S3 stellen Sie sicher, dass Sie die Metadaten „Content-Type” auf den korrekten MIME-Typ für das Video einstellen.

## Informationen zur Videogröße
<a name="modalities-video-size"></a>

Die Videoanalysefunktionen von Amazon Nova unterstützen mehrere Seitenverhältnisse. Alle Videos werden mit Verzerrung (je nach Eingabe nach oben oder unten) auf eine quadratische Größe von **672 × 672** Pixel skaliert, bevor sie an das Modell weitergeleitet werden. Das Modell verwendet eine dynamische Sampling-Strategie, die auf der Länge des Videos basiert. Für Amazon Nova Lite und Amazon Nova Pro wird bei Videos mit einer Länge von maximal 16 Minuten eine Abtastrate von 1 Bild pro Sekunde (FPS) verwendet. Bei Videos mit einer Länge von mehr als 16 Minuten wird jedoch die Abtastrate verringert, um eine konstante Abtastrate von 960 Bildern zu gewährleisten, wobei sich die Bildabtastrate entsprechend ändert. Dieser Ansatz wurde entwickelt, um kürzere Videos im Vergleich zu längeren Videoinhalten genauer auf Szenenebene zu verstehen. Wir empfehlen, die Videolänge bei wenig Bewegung auf weniger als 1 Stunde und bei mehr Bewegung auf weniger als 16 Minuten zu beschränken. Für Amazon Nova Premier wird die Samplingrate von 1 FPS bis zu einem Limit von 3 200 Frames angewendet.

Bei der Analyse einer 4k-Version eines Videos und einer Full-HD-Version sollte kein Unterschied bestehen. Ebenso sollte ein Video mit 60 FPS aufgrund der Samplingrate von maximal 1 FPS die gleiche Leistung wie ein Video mit 30 FPS erbringen. Aufgrund der maximalen Videogröße von 1 GB ist die Verwendung einer höheren Auflösung und Bildfrequenz als erforderlich nicht vorteilhaft und schränkt die Videolänge ein, die in diese Größenbeschränkung passt. Es kann sinnvoll sein Videos, die größer als 1 GB sind, vorab zu verarbeiten.

# Einschränkungen beim Videoverständnis
<a name="modalities-video-limitations"></a>

Machen Sie sich mit den folgenden Einschränkungen für Amazon Nova vertraut:
+ **Verständnis mehrsprachiger Bilder:** Die Modelle verfügen über ein begrenztes Verständnis von mehrsprachigen Bildern und Videobildern und können bei ähnlichen Aufgaben Schwierigkeiten haben oder zu Halluzinationen neigen.
+ **Identifizierung von Personen**: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle werden sich weigern, solche Aufgaben auszuführen.
+ **Räumliches Denken**: Die Amazon-Nova-Modelle verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.
+ **Kleiner Text in Bildern/Videos**: Sollte der Text im Bild oder Video zu klein sein, erwägen Sie bitte, die relative Größe des Textes im Bild zu vergrößern, indem Sie den relevanten Ausschnitt zuschneiden und dabei den notwendigen Kontext beibehalten.
+ **Zählen**: Die Amazon-Nova-Modelle können eine ungefähre Anzahl von Objekten in einem Bild angeben, sind jedoch möglicherweise nicht immer präzise, insbesondere wenn es sich um eine große Anzahl kleiner Objekte handelt.
+ **Unangemessene Inhalte**: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen.
+ **Anwendungen im Gesundheitswesen**: Aufgrund der Sensibilität dieser Artefakte können Amazon-Nova-Modelle zwar allgemeine Analysen von Bildern oder Videos aus dem Gesundheitswesen durchführen, wir empfehlen Ihnen jedoch nicht, komplexe diagnostische Scans zu interpretieren. Antworten von Amazon Nova sollten niemals als Ersatz für professionelle medizinische Beratung angesehen werden.

## Video-Token
<a name="modalities-video-tokens"></a>

Die Länge des Videos ist der Hauptfaktor, welcher die Anzahl der generierten Token beeinflusst. Um die ungefähren Kosten zu berechnen, sollten Sie die geschätzte Anzahl der Videotoken mit dem Preis pro Token des verwendeten Modells multiplizieren.

Die folgende Tabelle enthält einige Näherungswerte für das Frame-Sampling und die Token-Nutzung pro Videolänge für Amazon Nova Pro, Lite und Micro:


| video\$1duration | 10 Sek | 30 Sek | 16 Minuten | 20 Minuten | 30 Minuten | 45 Minuten | 1 Std | 1,5 Std. | 
| --- |--- |--- |--- |--- |--- |--- |--- |--- |
| frames\$1to\$1sample | 10 | 30 | 960 | 960 | 960 | 960 | 960 | 960 | 
| sample\$1rate\$1fps | 1 | 1 | 1 | 0,755 | 0.5 | 0,35556 | 0,14 | 0,096 | 
| Geschätzte Token-Anzahl | 2.880 | 8.640 | 276.480 | 276.480 | 276.480 | 276.480 | 276.480 | 276.480 | 

Die folgende Tabelle enthält einige Näherungswerte für das Frame-Sampling und die Token-Nutzung pro Videolänge für Amazon Nova Premier:


| video\$1duration | 10 Sek | 30 Sek | 16 Minuten | 20 Minuten | 30 Minuten | 45 Minuten | 1 Std | 1,5 Std. | 
| --- |--- |--- |--- |--- |--- |--- |--- |--- |
| frames\$1to\$1sample | 10 | 30 | 960 | 1200 | 1800 | 2700 |  |  | 
| sample\$1rate\$1fps | 1 | 1 | 1 | 1 | 1 | 1 |  |  | 
| Geschätzte Token-Anzahl | 2.880 | 8.640 | 276.480 | 345.600 | 518.400 | 777.600 |  |  | 

Die folgende Tabelle enthält einige ungefähre Angaben zur Frame-Sampling und Token-Nutzung pro Videolänge für Amazon Nova Lite 1.5


| video\$1duration | 10 Sek | 30 Sek | 16 Minuten | 20 Minuten | 30 Minuten | 45 Minuten | 1 Std | 1,5 Std. | 
| --- |--- |--- |--- |--- |--- |--- |--- |--- |
| frames\$1to\$1sample | 10 | 30 | 960 | 1200 | 1800 | 2700 |  |  | 
| sample\$1rate\$1fps | 1 | 1 | 1 | 1 | 1 | 1 |  |  | 
| Geschätzte Token-Anzahl | 2.880 | 8.640 | 276.480 | 345.600 | 518.400 | 777.600 |  |  | 

# Einschränkungen beim Videoverständnis
<a name="prompting-vision-limitations"></a>

Im Folgenden sind die wichtigsten Einschränkungen aufgeführt, bei denen die Genauigkeit und Leistung der Modelle möglicherweise nicht gewährleistet werden kann.
+ **Ein Video pro Anfrage:** Derzeit unterstützt das Modell nur 1 Video pro Anfrage. Einige Frameworks und Bibliotheken verwenden Speicher, um frühere Interaktionen zu verfolgen. Möglicherweise wurde ein Video in einem früheren Kontext hinzugefügt.
+ **Keine Audiounterstützung:** Die Modelle sind derzeit darauf trainiert, Videoinhalte ausschließlich auf der Grundlage der visuellen Informationen im Video zu verarbeiten und zu verstehen. Sie sind nicht in der Lage, Audiokomponenten, die im Video vorhanden sind, zu analysieren oder zu verstehen.
+ **Zeitliche Kausalität:** Das Modell hat nur begrenzte Kenntnisse über die Kausalität von Ereignissen im Verlauf des Videos. Es beantwortet zwar gut Fragen zu einem bestimmten Zeitpunkt, schneidet aber bei Antworten, die vom Verständnis einer Abfolge von Ereignissen abhängen, nicht so gut ab
+ **Verständnis mehrsprachiger Bilder:** Die Modelle verfügen über ein begrenztes Verständnis von mehrsprachigen Bildern und Videobildern. Sie könnten bei ähnlichen Aufgaben Schwierigkeiten haben oder halluzinieren.
+ **Identifizierung von Personen**: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle werden sich weigern, solche Aufgaben auszuführen.
+ **Räumliches Denken**: Die Amazon-Nova-Modelle verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.
+ **Kleiner Text in Bildern oder Videos**: Sollte der Text im Bild oder Video zu klein sein, erwägen Sie bitte, die relative Größe des Textes im Bild zu vergrößern, indem Sie den relevanten Ausschnitt zuschneiden und dabei den notwendigen Inhalt beibehalten.
+ **Zählen**: Die Amazon-Nova-Modelle können eine ungefähre Anzahl von Objekten in einem Bild angeben, sind jedoch möglicherweise nicht immer präzise, insbesondere wenn es sich um eine große Anzahl kleiner Objekte handelt.
+ **Unangemessene Inhalte**: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen
+ **Anwendungen im Gesundheitswesen**: Aufgrund der Sensibilität dieser Artefakte können Amazon-Nova-Modelle zwar allgemeine Analysen von Bildern oder Videos aus dem Gesundheitswesen durchführen, wir empfehlen Ihnen jedoch nicht, komplexe diagnostische Scans zu interpretieren. Eine Antwort von Amazon Nova sollte niemals als Ersatz für professionelle medizinische Beratung angesehen werden.

# Beispiele zum Videoverständnis
<a name="modalities-video-examples"></a>

Das folgende Beispiel zeigt, wie Sie mit eine Videoaufforderung an Amazon Nova Model senden [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html).

```
# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
# SPDX-License-Identifier: Apache-2.0
import base64
import boto3
import json
# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

MODEL_ID = "us.amazon.nova-lite-v1:0"
# Open the image you'd like to use and encode it as a Base64 string.
with open("media/cooking-quesadilla.mp4", "rb") as video_file:
    binary_data = video_file.read()
    base_64_encoded_data = base64.b64encode(binary_data)
    base64_string = base_64_encoded_data.decode("utf-8")
# Define your system prompt(s).
system_list= [
    {
        "text": "You are an expert media analyst. When the user provides you with a video, provide 3 potential video titles"
    }
]
# Define a "user" message including both the image and a text prompt.
message_list = [
    {
        "role": "user",
        "content": [
            {
                "video": {
                    "format": "mp4",
                    "source": {
                        "bytes": video // Binary array (Converse API) or Base64-encoded string (Invoke API)
                    },
                }
            },
            {
                "text": "Provide video titles for this clip."
            },
        ],
    }
]
# Configure the inference parameters.
inf_params = {"maxTokens": 300, "topP": 0.1, "topK": 20, "temperature": 0.3}

native_request = {
    "schemaVersion": "messages-v1",
    "messages": message_list,
    "system": system_list,
    "inferenceConfig": inf_params,
}
# Invoke the model and extract the response body.
response = client.invoke_model(modelId=MODEL_ID, body=json.dumps(native_request))
model_response = json.loads(response["body"].read())
# Pretty print the response JSON.
print("[Full Response]")
print(json.dumps(model_response, indent=2))
# Print the text content for easy readability.
content_text = model_response["output"]["message"]["content"][0]["text"]
print("\n[Response Content Text]")
print(content_text)
```

Das folgende Beispiel zeigt, wie Sie ein Video über einen Amazon S3 S3-Standort an Amazon Nova mit senden [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html).

```
import base64
import boto3
import json
# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

MODEL_ID = "us.amazon.nova-lite-v1:0"
# Define your system prompt(s).
system_list = [
    {
        "text": "You are an expert media analyst. When the user provides you with a video, provide 3 potential video titles"
    }
]
# Define a "user" message including both the image and a text prompt.
message_list = [
    {
        "role": "user",
        "content": [
            {
                "video": {
                    "format": "mp4",
                    "source": {
                        "s3Location": {
                            "uri": "s3://my_bucket/my_video.mp4", 
                            "bucketOwner": "111122223333"
                        }
                    }
                }
            },
            {
                "text": "Provide video titles for this clip."
            }
        ]
    }
]
# Configure the inference parameters.
inf_params = {"maxTokens": 300, "topP": 0.1, "topK": 20, "temperature": 0.3}

native_request = {
    "schemaVersion": "messages-v1",
    "messages": message_list,
    "system": system_list,
    "inferenceConfig": inf_params,
}
# Invoke the model and extract the response body.
response = client.invoke_model(modelId=MODEL_ID, body=json.dumps(native_request))
model_response = json.loads(response["body"].read())
# Pretty print the response JSON.
print("[Full Response]")
print(json.dumps(model_response, indent=2))
# Print the text content for easy readability.
content_text = model_response["output"]["message"]["content"][0]["text"]
print("\n[Response Content Text]")
print(content_text)
```

# Verstehen von Dokumenten
<a name="modalities-document"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2-Dokumenten finden Sie unter [Document Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#document-understanding).

Die Funktion zum Verstehen von Dokumenten von Amazon Nova ermöglicht es IhnenPDFs, ganze Dokumente (Word-Dateien, Tabellen usw.) in Ihre Aufforderung aufzunehmen und Fragen oder Anfragen zu deren Inhalt zu stellen. Die multimodalen Verständnismodelle von Nova (Lite, Pro, Premier) können sowohl den Text als auch die visuellen Elemente (wie Diagramme oder Tabellen) in diesen Dokumenten interpretieren. Dies ermöglicht Anwendungsfälle wie die Beantwortung von Fragen, die Zusammenfassung und Analyse umfangreicher Berichte oder gescannter Dokumente. Zu den wichtigsten Funktionen gehören ein sehr großes Kontextfenster (1—2 Mio. Tokens) für umfangreiche Dokumente und die Möglichkeit, mehrere Dokumente in einer Abfrage zu verarbeiten. 

Amazon Nova unterscheidet zwischen zwei Arten von Dokumenteneingaben:
+ **Textbasierte Dokumenttypen** (z. B. TXT, CSV, Markdown, HTML, DOC): Diese werden hauptsächlich aufgrund ihres Textinhalts verarbeitet. Nova wird sich darauf konzentrieren, den Text in diesen Dokumenten zu verstehen und Informationen daraus zu extrahieren. 
+ **Medienbasierte Dokumenttypen** (z. B. PDF, DOCX): Diese Dateien können komplexe Layouts, Bilder, Diagramme oder eingebettete Grafiken enthalten. Bei medienbasierten Dokumenten verarbeitet Nova sowohl die visuellen als auch die textuellen Elemente. Nova verwendet visuelles Verständnis, um visuelle Inhalte — wie Diagramme, Tabellen, Diagramme oder Screenshots — zusammen mit dem Text des Dokuments zu interpretieren.

  JPEG2000 und JBIG2 werden in PDF-Dateien in Amazon Nova nicht unterstützt.

Zu den unterstützten Dateiformaten gehören gängige Dokumenttypen: Nur-Text- und strukturierte Textdateien (CSV, TXT), Tabellenkalkulationen (XLS/XLSX), HTML/Markdown, Word documents (DOC/DOCX) und PDF-Dateien. Für Bilder in Dokumenten werden Standardbildformate (PNG, JPG, GIF, WebP) verarbeitet, obwohl sie bestimmte Bildkodierungen (CYMK, SVG) PDFs enthalten, nicht unterstützt werden. 


**Größenbeschränkungen für Dokumente und Nutzungsrichtlinien**  

| Einschränkung | Limit | 
| --- | --- | 
|  Maximale Anzahl von Dokumenten  |  Bis zu 5 Dokumente pro Anfrage (gilt sowohl für den direkten Upload als auch für Amazon S3)  | 
|  Textbasierte Dokumentengröße  |  Jedes Textdokument (z. B. .txt, .csv, .md, .html, .doc) muss ≤ 4,5 MB groß sein  | 
|  Medienbasierte Dokumentgröße  |  Für PDF- und DOCX-Dateien gibt es keine individuelle Dateigrößenbeschränkung, aber: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/nova/latest/userguide/modalities-document.html)  | 
|  PDF-Inhalte werden nicht unterstützt  |  PDFs Bilder, die CMYK-Farbprofile oder SVG-Bilder enthalten, werden nicht unterstützt  | 

# Verwenden von Novas Document Understanding über die API
<a name="modalities-document-examples"></a>

Um zu veranschaulichen, wie Amazon Nova für die Qualitätssicherung (Question-Answering) oder Analyse von Dokumenten verwendet werden kann, finden Sie hier ein vereinfachtes Beispiel in Python. Wir verwenden die AWS Bedrock-API (über das Boto3-SDK), um ein PDF-Dokument zusammen mit einer Frage zu senden, die das Modell beantworten muss.

```
            
import base64
import base64
import json
import boto3

# Initialize Bedrock runtime client (adjust region as needed)
client = boto3.client("bedrock-runtime", region_name="us-east-1")

MODEL_ID = "us.amazon.nova-lite-v1:5"  # using Nova Lite model in this example

# Read the document file (PDF) in binary mode
with open("my_document.pdf", "rb") as file:
    doc_bytes = file.read()

# Construct the conversation messages with document + question
messages = [
    {
        "role": "user",
        "content": [
            {
                "document": {
                    "format": "pdf",
                    "name": "Document1",  # neutral name for the document
                    "source": {
                        "bytes": doc_bytes  # embedding the PDF content directly
                    }
                }
            },
            {
                "text": "Here is a question about the document: ... (your question) ... ?"
            }
        ]
    }
]

# Set inference parameters (optional)
inf_params = {"maxTokens": 4000, "topP": 0.1, "temperature": 0.3}

# Invoke the model
response = client.converse(modelId=MODEL_ID, messages=messages, inferenceConfig=inf_params)

# Extract and print the answer
answer_text = response["output"]["message"]["content"][0]["text"]
print(answer_text)
```

Wenn Ihre Eingabedateien groß sind (das Limit für direkte Uploads von 25 MB überschreiten) oder Sie viele Dateien haben, können Sie sie in Amazon S3 speichern und referenzieren. Dadurch wird vermieden, dass die Roh-Bytes über die Anfrage gesendet werden. Stellen Sie bei Verwendung von S3 sicher, dass der Bedrock-Dienst über die Berechtigung verfügt, auf den Bucket/das Objekt zuzugreifen. Um beispielsweise in S3 auf ein PDF zu verweisen, würde Ihre Dokumentquelle „s3Location“ anstelle von „Bytes“ verwenden, etwa so:

```
messages = [
    {
        "role": "user",
        "content": [
            {
                "document": {
                    "format": "pdf",
                    "name": "Report2023",
                    "source": {
                        "s3Location": {
                            "uri": "s3://your-bucket/path/to/document1.pdf",
                            "bucketOwner": "123456789012"
                        }
                    }
                }
            },
            {
                "text": "Summarize the key findings from the Q3 2023 report."
            }
        ]
    }
]
```

**Anmerkung**  
Dokumentnamen dürfen nur alphanumerische Zeichen, Bindestriche, Klammern und eckige Klammern enthalten.  
Das Feld `name` ist anfällig für Promptinjektionen, weil das Modell es versehentlich als Anweisungen interpretieren könnte. Daher wird empfohlen, dass Sie einen neutralen Namen angeben.

# Fehlerbehandlung
<a name="text-error-handing"></a>

Die Art und Weise, wie Fehler an den Client zurückgemeldet werden, hängt von der Art des aufgetretenen Fehlers ab. In diesem Abschnitt konzentrieren wir uns ausschließlich auf Fehlerbedingungen, die spezifisch für das Amazon-Nova-Modell sind. Die drei wichtigsten Arten von Fehlern, die Sie in Ihrem Anwendungscode behandeln sollten, sind **Eingabevalidierungsfehler**, **Fehler bei der Eingabeabweisung durch verantwortungsvolle KI (RAI)** und **Fehler bei der Ausgabeabweisung durch RAI**.

**Eingabevalidierung:** Eingabevalidierungsfehler treten auf, wenn Sie einen nicht unterstützten Wert für einen Eingabeparameter verwenden. Beispielsweise ein außerhalb des zulässigen Bereichs liegender Wert für Temperatur oder ein fehlerhaftes Format vom Eingabe-`image`. Alle Eingabevalidierungsfehler werden als **ValidationException** ausgedrückt, die eine Meldungszeichenfolge enthält, welche die Ursache des Problems beschreibt.

**RAI-Eingabeabweisungsfehler** treten auf, wenn festgestellt wird, dass einer der eingegebenen Textwerte oder Bilder gegen die AWS-Richtlinie für verantwortungsvolle KI verstößt. Diese Fehler werden als **ValidationException** mit einer der folgenden Meldungen ausgedrückt:
+ **Eingabetext**-Validierungsmeldung: „Diese Anfrage wurde von unseren Inhaltsfiltern blockiert. Bitte passen Sie Ihren Text-Prompt an, um eine neue Anfrage zu senden.“
+ **Eingabebild**-Validierungsmeldung: „Diese Anfrage wurde von unseren Inhaltsfiltern blockiert. Bitte passen Sie Ihr Eingabebild an, um eine neue Anfrage zu senden.“
+ **Eingabevideo**-Validierungsmeldung: „Diese Anfrage wurde von unseren Inhaltsfiltern blockiert. Bitte passen Sie Ihr Eingabevideo an, um eine neue Anfrage zu senden.“

Abweisungsfehler bei der RAI-Ausgabe treten auf, wenn eine Ausgabe generiert wird, diese jedoch als nicht konform mit der AWS-Richtlinie für verantwortungsvolle KI eingestuft wird. Wenn dies der Fall ist, wird keine Ausnahme verwendet. Stattdessen wird eine erfolgreiche Antwort zurückgegeben, deren Struktur ein `error`-Feld enthält, das eine Zeichenfolge mit einem der folgenden Werte ist:
+ **Ausgabetext**-Validierungsmeldung: „Der generierte Text wurde von unseren Inhaltsfiltern blockiert.“