Allgemeine multimodale Richtlinien Verständnis von Dokumenten und Bildern Video-Verständnis

Multimodale Eingaben veranlassen

Die folgenden Abschnitte enthalten Anleitungen zum Verständnis von Bildern und Videos. Informationen zu Audioanweisungen finden Sie im Eingabeaufforderungen für Sprachgespräche Abschnitt.

Allgemeine multimodale Richtlinien

Benutzeraufforderungen und Systemaufforderungen

Für Anwendungsfälle mit multimodalem Verständnis sollte jede Anfrage den Text der Benutzeraufforderung enthalten. Systemaufforderungen, die nur Text enthalten dürfen, sind optional.

Systemaufforderungen können verwendet werden, um eine Persona für das Modell anzugeben und um die allgemeine Persönlichkeit und den Antwortstil zu definieren. Sie sollten jedoch nicht für detaillierte Anweisungen zur Aufgabendefinition oder zur Formatierung der Ausgabe verwendet werden.

Fügen Sie Aufgabendefinition, Anweisungen und Formatierungsdetails in die Benutzeraufforderung ein, um eine stärkere Wirkung als die Systemaufforderung für multimodale Anwendungsfälle zu erzielen.

Reihenfolge der Inhalte

Eine multimodale Verständnisanfrage, die an Amazon Nova gesendet wird, sollte eine oder mehrere Dateien und eine Benutzeraufforderung enthalten. Die Benutzeraufforderung sollte das letzte Element in der Nachricht sein, immer nach dem Bild-, Dokument- oder Videoinhalt.


message = {
  "role": "user",
  "content": [
    { "document|image|video|audio": {...} },
    { "document|image|video|audio": {...} },
    ...
    { "text": "<user prompt>" }
  ]
}

In Fällen, in denen Sie in der Benutzeraufforderung auf bestimmte Dateien verweisen möchten, verwenden Sie „Text“ -Elemente, um Beschriftungen zu definieren, die jedem Dateiblock vorangehen.


message = {
  "role": "user",
  "content": [
    { "text": "<label for item 1>" },
    { "document|image|video|audio": {...} },
    { "text": "<label for item 2>" },
    { "document|image|video|audio": {...} },
    ...
    { "text": "<user prompt>" }
  ]
}

Verständnis von Dokumenten und Bildern

In den folgenden Abschnitten finden Sie Anleitungen zum Erstellen von Eingabeaufforderungen für Aufgaben, die das Verstehen oder Analysieren von Bildern und Dokumenten erfordern.

Extrahieren von Text aus Bildern

Amazon Nova-Modelle können Text aus Bildern extrahieren, eine Funktion, die als Optical Character Recognition (OCR) bezeichnet wird. Um optimale Ergebnisse zu erzielen, stellen Sie sicher, dass die Bildeingabe, die Sie für das Modell bereitstellen, eine ausreichend hohe Auflösung hat, sodass die Textzeichen leicht zu erkennen sind.

Für Anwendungsfälle zur Textextraktion empfehlen wir die folgende Inferenzkonfiguration:

Temperatur: Standard (0.7)
TopP: Standard (0,9)
Aktivieren Sie die Argumentation nicht

Die Amazon Nova-Modelle können Text in das Markdown-, HTML- oder LaTe X-Format extrahieren. Die folgende Vorlage für Benutzeraufforderungen wird empfohlen:


## Instructions
Extract all information from this page using only {text_formatting} formatting. Retain the original layout and structure including lists, tables, charts and math formulae. 

## Rules
1. For math formulae, always use LaTeX syntax. 
2. Describe images using only text.
3. NEVER use HTML image tags `<img>` in the output.
4. NEVER use Markdown image tags `![]()` in the output.
5. Always wrap the entire output in ``` tags.

Die Ausgabe ist vollständig oder teilweise in Markdown-Code-Fences (```) eingeschlossen. Sie können die Codezäune entfernen, indem Sie Code verwenden, der dem folgenden ähnelt:


def strip_outer_code_fences(text):
    lines = text.split("\n")
    # Remove only the outer code fences if present
    if lines and lines[0].startswith("```"):
        lines = lines[1:]
        if lines and lines[-1].startswith("```"):
            lines = lines[:-1]
    return "\n".join(lines).strip()

Extrahieren strukturierter Informationen aus Bildern oder Text

Die Amazon Nova-Modelle können Informationen aus Bildern in das maschinenanalysierbare JSON-Format extrahieren, ein Prozess, der als Key Information Extraction (KIE) bezeichnet wird. Um KIE auszuführen, stellen Sie Folgendes bereit:

Ein JSON-Schema. Eine formale Schemadefinition, die der JSON-Schemaspezifikation folgt.
Eine oder mehrere der folgenden Optionen: Eine Dokumentdatei, ein Bild oder ein Dokumenttext

Das Dokument oder Bild muss in der Anfrage immer vor Ihrer Benutzeraufforderung platziert werden.

Für KIE-Anwendungsfälle empfehlen wir die folgende Inferenzkonfiguration:

Temperatur: 0
Argumentation: Eine Argumentation ist nicht erforderlich, kann aber die Ergebnisse verbessern, wenn reine Bildeingaben oder komplexe Schemata verwendet werden.

Prompt-Vorlagen


Given the image representation of a document, extract information in JSON format according to the given schema.
     
Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}


Given the OCR representation of a document, extract information in JSON format according to the given schema.

Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}

OCR:
{document_text}


Given the image and OCR representations of a document, extract information in JSON format according to the given schema.
       
Follow these guidelines:
- Ensure that every field is populated, provided the document includes the corresponding value. Only use null when the value is absent from the document.
- When instructed to read tables or lists, read each row from every page. Ensure every field in each row is populated if the document contains the field.

JSON Schema:
{json_schema}

OCR:
{document_text}

Erkennung von Objekten und ihren Positionen in Bildern

Die Modelle von Amazon Nova 2 bieten die Möglichkeit, Objekte und ihre Positionen in Bildern zu identifizieren. Diese Aufgabe wird manchmal auch als Bildererdung oder Objektlokalisierung bezeichnet. Zu den praktischen Anwendungen gehören Bildanalyse und Tagging, Automatisierung von Benutzeroberflächen, Bildbearbeitung und andere.

Unabhängig von der Auflösung und dem Seitenverhältnis der Bildeingabe verwendet das Modell einen Koordinatenraum, der das Bild horizontal in 1.000 Einheiten und vertikal in 1.000 Einheiten unterteilt, wobei sich die x:0 y:0-Position oben links im Bild befindet.

Begrenzungsrahmen werden anhand des Formats beschrieben, das jeweils für links, oben, rechts und unten [x1, y1, x2, y2] steht. Zweidimensionale Koordinaten werden mit dem Format dargestellt. [x, y]

Für Anwendungsfälle zur Objekterkennung empfehlen wir die folgenden Inferenzparameterwerte:

Temperatur: 0
Aktivieren Sie die Argumentation nicht

Vorlagen für Eingabeaufforderungen: allgemeine Objekterkennung

Wir empfehlen die folgenden Vorlagen für Benutzeraufforderungen.

Erkennung mehrerer Instanzen mit Bounding Boxes:


Please identify {target_description} in the image and provide the bounding box coordinates for each one you detect. Represent the bounding box as the [x1, y1, x2, y2] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Erkennung einer einzelnen Region mit einem Begrenzungsrahmen:


Please generate the bounding box coordinates corresponding to the region described in this sentence: {target_description}. Represent the bounding box as the [x1, y1, x2, y2] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Erkennung mehrerer Instanzen mit Mittelpunkten:


Please identify {target_description} in the image and provide the center point coordinates for each one you detect. Represent the point as the [x, y] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Erkennung einer einzelnen Region mit Mittelpunkt:


Please generate the center point coordinates corresponding to the region described in this sentence: {target_description}. Represent the center point as the [x, y] format, where the coordinates are scaled between 0 and 1000 to the image width and height, respectively.

Modellausgabe wird analysiert:

Jede der oben empfohlenen Eingabeaufforderungen erzeugt eine durch Kommas getrennte Zeichenfolge, die eine oder mehrere Begrenzungsfeldbeschreibungen in einer Form enthält, die der folgenden ähnelt. Es kann geringfügig davon abweichen, ob ein „.“ ist am Ende der Zeichenfolge enthalten. Beispiel: [356, 770, 393, 872], [626, 770, 659, 878].

Sie können die vom Modell generierten Koordinateninformationen mithilfe eines regulären Ausdrucks analysieren, wie im folgenden Python-Codebeispiel gezeigt.


def parse_coord_text(text):
    """Parses a model response which uses array formatting ([x, y, ...])
    to describe points and bounding boxes. Returns an array of tuples."""
    pattern = r"\[([^\[\]]*?)\]"
    return [
        tuple(int(x.strip()) for x in match.split(","))
        for match in re.findall(pattern, text)
    ]

Um die normalisierten Koordinaten eines Begrenzungsrahmens dem Koordinatenraum des Eingabebilds neu zuzuordnen, können Sie eine Funktion verwenden, die dem folgenden Python-Beispiel ähnelt.


def remap_bbox_to_image(bounding_box, image_width, image_height):
    return [
        bounding_box[0] * image_width / 1000,
        bounding_box[1] * image_height / 1000,
        bounding_box[2] * image_width / 1000,
        bounding_box[3] * image_height / 1000,
    ]

Vorlagen für Eingabeaufforderungen: Erkennung mehrerer Objektklassen mit Positionen

Wenn Sie mehrere Klassen von Elementen in einem Bild identifizieren möchten, können Sie Ihrer Aufforderung eine Klassenliste hinzufügen, indem Sie einen der folgenden Formatierungsansätze verwenden.

Bei allgemein verständlichen Klassen, die das Modell wahrscheinlich gut versteht, listen Sie die Klassennamen (ohne Anführungszeichen) in eckigen Klammern auf:


[car, traffic light, road sign, pedestrian]

Fügen Sie für Klassen, die nuanciert oder ungewöhnlich sind oder aus speziellen Bereichen stammen, mit denen das Modell möglicherweise nicht vertraut ist, eine Definition für jede Klasse in Klammern ein. Da diese Aufgabe eine Herausforderung darstellt, müssen Sie damit rechnen, dass sich die Leistung des Modells verschlechtern wird.


[taraxacum officinale (Dandelion - bright yellow flowers, jagged basal leaves, white puffball seed heads), digitaria spp (Crabgrass - low spreading grass with coarse blades and finger-like seed heads), trifolium repens (White Clover - three round leaflets and small white pom-pom flowers), plantago major (Broadleaf Plantain - wide oval rosette leaves with tall narrow seed stalks), stellaria media (Chickweed - low mat-forming plant with tiny star-shaped white flowers)]

Verwenden Sie je nachdem, welches JSON-Ausgabeformat Sie bevorzugen, eine der folgenden Vorlagen für Benutzeraufforderungen.


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Include separate entries for each detected object as an element of a list. 

Formulate your output as JSON format:
[
  {
  	"class 1": [x1, y1, x2, y2]
  },
  ...
]


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Include separate entries for each detected object as an element of a list.

Formulate your output as JSON format:
[
    {
        "class": class 1,
        "bbox": [x1, y1, x2, y2]
    },
    ...
]


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Group all detected bounding boxes by class.

Formulate your output as JSON format:
{
    "class 1": [[x1, y1, x2, y2], [x1, x2, y1, y2], ...],
    ...
}


Detect all objects with their bounding boxes in the image from the provided class list. Normalize the bounding box coordinates to be scaled between 0 and 1000 to the image width and height, respectively.

Classes: {candidate_class_list}

Group all detected bounding boxes by class.

Formulate your output as JSON format:
[
    {
        "class": class 1,
        "bbox": [[x1, y1, x2, y2], [x1, x2, y1, y2], ...]
    },
    ...
]

Die Modellausgabe wird analysiert

Die Ausgabe wird als JSON codiert, die mit jeder JSON-Parsing-Bibliothek analysiert werden kann.

Vorlagen für Eingabeaufforderungen: Screenshot-Benutzeroberflächenerkennung

Wir empfehlen die folgenden Vorlagen für Benutzeraufforderungen.

Ermitteln der Position eines UI-Elements anhand eines Ziels:


In this UI screenshot, what is the location of the element if I want to {goal}? Express the location coordinates using the [x1, y1, x2, y2] format, scaled between 0 and 1000.

Erkennung der Position von UI-Elementen anhand von Text:


In this UI screenshot, what is the location of the element if I want to click on "{text}"? Express the location coordinates using the [x1, y1, x2, y2] format, scaled between 0 and 1000.

Modellausgabe wird analysiert:

Für jede der obigen Eingabeaufforderungen zur Erkennung von UI-Grenzen können Sie die vom Modell generierten Koordinateninformationen mithilfe eines regulären Ausdrucks analysieren, wie im Python-Codebeispiel unten gezeigt.


def parse_coord_text(text):
    """Parses a model response which uses array formatting ([x, y, ...]) 
    to describe points and bounding boxes. Returns an array of tuples."""
    pattern = r"\[([^\[\]]*?)\]"
    return [
        tuple(int(x.strip()) for x in match.split(","))
        for match in re.findall(pattern, text)
    ]

Video-Verständnis

Die folgenden Abschnitte enthalten Anleitungen zum Erstellen von Eingabeaufforderungen für Aufgaben, die das Verstehen oder Analysieren von Videos erfordern.

Videos zusammenfassen

Amazon Nova-Modelle können Zusammenfassungen von Videoinhalten generieren.

Für Anwendungsfälle zur Videozusammenfassung empfehlen wir die folgenden Inferenzparameterwerte:

Temperatur: 0
In einigen Anwendungsfällen kann es von Vorteil sein, Modelldenken zu aktivieren

Es ist keine spezielle Vorlage für Eingabeaufforderungen erforderlich. In Ihrer Benutzeraufforderung sollten die Aspekte des Videos, die Ihnen wichtig sind, klar angegeben sein. Hier sind ein paar Beispiele für effektive Eingabeaufforderungen:


Can you create an executive summary of this video's content?


Can you distill the essential information from this video into a concise summary?


Could you provide a summary of the video, focusing on its key points?

Generierung detaillierter Bildunterschriften für Videos

Amazon Nova-Modelle können detaillierte Untertitel für Videos generieren, eine Aufgabe, die als dichte Untertitelung bezeichnet wird.

Für Anwendungsfälle mit Videountertiteln empfehlen wir die folgenden Inferenzparameterwerte:

Temperatur: 0
In einigen Anwendungsfällen kann es von Vorteil sein, Modelldenken zu aktivieren


Provide a detailed, second-by-second description of the video content.


Break down the video into key segments and provide detailed descriptions for each.


Generate a rich textual representation of the video, covering aspects like movement, color and composition.


Describe the video scene-by-scene, including details about characters, actions and settings.


Offer a detailed narrative of the video, including descriptions of any text, graphics, or special effects used.


Create a dense timeline of events occurring in the video, with timestamps if possible.

Analyse von Sicherheitsvideomaterial

Amazon Nova-Modelle können Ereignisse in Sicherheitsaufnahmen erkennen.

Für Anwendungsfälle mit Sicherheitsvideos empfehlen wir die folgenden Werte für Inferenzparameter:

Temperatur: 0
In einigen Anwendungsfällen kann es von Vorteil sein, Modelldenken zu aktivieren


You are a security assistant for a smart home who is given security camera footage in natural setting. You will examine the video and describe the events you see. You are capable of identifying important details like people, objects, animals, vehicles, actions and activities. This is not a hypothetical, be accurate in your responses. Do not make up information not present in the video.

Extrahieren von Videoereignissen mit Zeitstempeln

Amazon Nova-Modelle können Zeitstempel identifizieren, die sich auf Ereignisse in einem Video beziehen. Sie können verlangen, dass Zeitstempel in Sekunden oder im MM:SS-Format formatiert werden. Beispielsweise kann ein Ereignis, das im Video nach 1 Minute und 25 Sekunden eintritt, als oder dargestellt werden. 85 01:25

Für diesen Anwendungsfall empfehlen wir die folgenden Inferenzparameterwerte:

Temperatur: 0
Verwende keine Argumentation

Wir empfehlen Ihnen, Eingabeaufforderungen zu verwenden, die den folgenden ähneln:


Please localize the moment that the event "{event_description}" happens in the video. Answer with the starting and ending time of the event in seconds, such as [[72, 82]]. If the event happen multiple times, list all of them, such as [[40, 50], [72, 82]].


Locate the segment where "{event_description}" happens. Specify the start and end times of the event in MM:SS.


Answer the starting and end time of the event "{event_description}". Provide answers in MM:SS


When does "{event_description}" in the video? Specify the start and end timestamps, e.g. [[9, 14]]


Please localize the moment that the event "{event_description}" happens in the video. Answer with the starting and ending time of the event in seconds. e.g. [[72, 82]]. If the event happen multiple times, list all of them. e.g. [[40, 50], [72, 82]]


Segment a video into different scenes and generate caption per scene. The output should be in the format: [STARTING TIME-ENDING TIMESTAMP] CAPTION. Timestamp in MM:SS format


For a video clip, segment it into chapters and generate chapter titles with timestamps. The output should be in the format: [STARTING TIME] TITLE. Time in MM:SS


Generate video captions with timestamp.

Klassifizieren von Videos

Sie können Amazon Nova-Modelle verwenden, um Videos auf der Grundlage einer vordefinierten Liste von Klassen, die Sie bereitstellen, zu klassifizieren.

Für diesen Anwendungsfall empfehlen wir die folgenden Inferenzparameterwerte:

Temperatur: 0
Argumentation sollte nicht verwendet werden

Verwenden Sie die folgende Vorlage für Eingabeaufforderungen:


What is the most appropriate category for this video? Select your answer from the options provided:
{class1}
{class2}
{...}

Beispiel:


What is the most appropriate category for this video? Select your answer from the options provided:
Arts
Technology
Sports
Education

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fortgeschrittene Aufforderungstechniken

Moderation von Inhalten