

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Bildverständnis
<a name="modalities-image"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2 finden Sie unter [Image Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#image-understanding).

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen, wobei die Gesamtnutzdaten auf 25 MB begrenzt ist. Sie können jedoch eine Amazon-S3-URI angeben, die Ihre Bilder für die Bildverarbeitung enthält. Mit diesem Ansatz können Sie das Modell für größere und weitere Bilder nutzen, ohne durch die Beschränkung auf Nutzdaten von 25 MB eingeschränkt zu sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, Bilder klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.

## Informationen zur Bildgröße
<a name="modalities-image-resolution"></a>

Um optimale Ergebnisse zu erzielen, skaliert Amazon Nova die Eingabebilder automatisch entsprechend ihrem Seitenverhältnis und ihrer ursprünglichen Auflösung nach oben oder unten. Für jedes Bild ermittelt Amazon Nova zunächst das nächstgelegene Seitenverhältnis von 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 2:3, 2:4 und deren Transponierungen. Anschließend wird das Bild so skaliert, dass mindestens eine Seite des Bildes größer als 896 Pixel oder die Länge der kürzeren Seite des Originalbildes ist, wobei das Seitenverhältnis so weit wie möglich beibehalten wird. Es gibt eine maximale Auflösung von 8 000 x 8 000 Pixeln

## Begrenzungsrahmenerkennung
<a name="modalities-image-bounding"></a>

Die Modelle Amazon Nova Lite und Amazon Nova Pro sind darauf trainiert, Begrenzungsrahmen in Bildern präzise zu erkennen. Diese Funktion ist besonders nützlich, wenn es darum geht, die Koordinaten eines bestimmten Zielobjekts zu ermitteln. Die Funktion zur Erkennung von Begrenzungsrahmen des Amazon-Nova-Modells ermöglicht dessen Einsatz für bildbasierte Grounding-Aufgaben und trägt somit zu einem besseren Verständnis von Screenshots bei. Das Amazon-Nova-Modell gibt Begrenzungsrahmen auf einer Skala von [0, 1000) aus. Nachdem diese Koordinaten ermittelt wurden, können sie als Nachbearbeitungsschritt entsprechend den Bildabmessungen in der Größe angepasst werden.

## Konvertierung von Bildern in Token
<a name="modalities-image-tokens"></a>

Wie bereits erwähnt, wird die Größe von Bildern geändert, um die Informationsextraktion zu maximieren und gleichzeitig das Seitenverhältnis beizubehalten. Im Folgenden finden Sie einige Beispiele für Beispielabmessungen von Bildern und ungefähre Token-Berechnungen.


| image\$1resolution (HxB oder BxH) | 900 x 450 | 900 x 900 | 1 400 x 900 | 1 800 x 900 | 1 300 x 1 300 | 
| --- |--- |--- |--- |--- |--- |
| Geschätzte Token-Anzahl | \$1800 | \$11 300 | \$11 800 | \$12 400 | \$12 600 | 

Ein Beispiel wäre ein Bild mit einer Größe von 800 x 400 Pixeln, für das Sie die Anzahl der Token schätzen möchten. Aufgrund der Abmessungen beträgt die nächstgelegene Auflösung 900 x 450, um ein Seitenverhältnis von 1:2 beizubehalten. Daher liegt die ungefähre Token-Anzahl für dieses Bild bei etwa 800 Token.

# Einschränkungen beim Bildverständnis
<a name="modalities-image-limitations"></a>

Machen Sie sich mit den folgenden Einschränkungen für Amazon Nova vertraut:
+ **Verständnis mehrsprachiger Bilder:** Die Modelle verfügen über ein begrenztes Verständnis von mehrsprachigen Bildern und Videobildern und können bei ähnlichen Aufgaben Schwierigkeiten haben oder zu Halluzinationen neigen.
+ **Identifizierung von Personen**: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle werden sich weigern, solche Aufgaben auszuführen.
+ **Räumliches Denken**: Die Amazon-Nova-Modelle verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.
+ **Kleiner Text in Bildern/Videos**: Sollte der Text im Bild oder Video zu klein sein, erwägen Sie bitte, die relative Größe des Textes im Bild zu vergrößern, indem Sie den relevanten Ausschnitt zuschneiden und dabei den notwendigen Kontext beibehalten.
+ **Zählen**: Die Amazon-Nova-Modelle können eine ungefähre Anzahl von Objekten in einem Bild angeben, sind jedoch möglicherweise nicht immer präzise, insbesondere wenn es sich um eine große Anzahl kleiner Objekte handelt.
+ **Unangemessene Inhalte**: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen.
+ **Anwendungen im Gesundheitswesen**: Aufgrund der Sensibilität dieser Artefakte können Amazon-Nova-Modelle zwar allgemeine Analysen von Bildern oder Videos aus dem Gesundheitswesen durchführen, wir empfehlen Ihnen jedoch nicht, komplexe diagnostische Scans zu interpretieren. Antworten von Amazon Nova sollten niemals als Ersatz für professionelle medizinische Beratung angesehen werden.

# Beispiele zum Verständnis von Bildern
<a name="modalities-image-examples"></a>

Das folgende Beispiel zeigt, wie Sie mit eine Bildaufforderung an Amazon Nova Model senden [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html).

```
# Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
# SPDX-License-Identifier: Apache-2.0
import base64
import boto3
import json
# Create a Bedrock Runtime client in the AWS Region of your choice.
client = boto3.client(
    "bedrock-runtime",
    region_name="us-east-1",
)

MODEL_ID = "us.amazon.nova-lite-v1:0"
# Open the image you'd like to use and encode it as a Base64 string.
with open("media/sunset.png", "rb") as image_file:
    binary_data = image_file.read()
    base_64_encoded_data = base64.b64encode(binary_data)
    base64_string = base_64_encoded_data.decode("utf-8")
# Define your system prompt(s).
system_list = [    {
        "text": "You are an expert artist. When the user provides you with an image, provide 3 potential art titles"
    }
]
# Define a "user" message including both the image and a text prompt.
message_list = [
    {
        "role": "user",
        "content": [
            {
                "image": {
                    "format": "png",
                    "source": {
                        "bytes": image // Binary array (Converse API) or Base64-encoded string (Invoke API)
                    },
                }
            },
            {
                "text": "Provide art titles for this image."
            }
        ],
    }
]
# Configure the inference parameters.
inf_params = {"maxTokens": 300, "topP": 0.1, "topK": 20, "temperature": 0.3}

native_request = {
    "schemaVersion": "messages-v1",
    "messages": message_list,
    "system": system_list,
    "inferenceConfig": inf_params,
}
# Invoke the model and extract the response body.
response = client.invoke_model(modelId=MODEL_ID, body=json.dumps(native_request))
model_response = json.loads(response["body"].read())
# Pretty print the response JSON.
print("[Full Response]")
print(json.dumps(model_response, indent=2))
# Print the text content for easy readability.
content_text = model_response["output"]["message"]["content"][0]["text"]
print("\n[Response Content Text]")
print(content_text)
```

Für die Übermittlung großer Bilddateien oder mehrerer Bilddateien, deren Nutzdaten insgesamt 25 MB überschreiten, können Sie Amazon S3 verwenden. Das folgende Beispiel zeigt, wie Sie Amazon S3 zum Hochladen von Bildern auf Amazon Nova verwenden:

```
import boto3
import json
import base64
# Create a Bedrock Runtime client
client = boto3.client("bedrock-runtime", 
                      region_name="us-east-1", 
                     )
PRO_MODEL_ID = "us.amazon.nova-pro-v1:0"
LITE_MODEL_ID = "us.amazon.nova-lite-v1:0"
MICRO_MODEL_ID = "us.amazon.nova-micro-v1:0"
PREMIER_MODEL_ID = "us.amazon.nova-premier-v1:0"
messages = [
    {
        "role": "user",
        "content": [
            {
                "image": {
                    "format": "png",
                    "source": {
                        "s3Location": {
                            #Replace the s3 bucket URI 
                            "uri": "s3://demo-bucket/cat.png"
                            "bucketOwner" : "123456789012"
                        }
                    },
                }
            },
            {"text": "Describe the following image"},
        ],
    }
]
inf_params = {"maxTokens": 300, "topP": 0.1, "temperature": 0.3}
model_response = client.converse(
    modelId=LITE_MODEL_ID, messages=messages, inferenceConfig=inf_params
)
print("\n[Full Response]")
print(json.dumps(model_response, indent=2))
print("\n[Response Content Text]")
print(model_response["output"]["message"]["content"][0]["text"])
```