

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verstehen von Dokumenten
<a name="modalities-document"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2-Dokumenten finden Sie unter [Document Understanding](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#document-understanding).

Die Funktion zum Verstehen von Dokumenten von Amazon Nova ermöglicht es IhnenPDFs, ganze Dokumente (Word-Dateien, Tabellen usw.) in Ihre Aufforderung aufzunehmen und Fragen oder Anfragen zu deren Inhalt zu stellen. Die multimodalen Verständnismodelle von Nova (Lite, Pro, Premier) können sowohl den Text als auch die visuellen Elemente (wie Diagramme oder Tabellen) in diesen Dokumenten interpretieren. Dies ermöglicht Anwendungsfälle wie die Beantwortung von Fragen, die Zusammenfassung und Analyse umfangreicher Berichte oder gescannter Dokumente. Zu den wichtigsten Funktionen gehören ein sehr großes Kontextfenster (1—2 Mio. Tokens) für umfangreiche Dokumente und die Möglichkeit, mehrere Dokumente in einer Abfrage zu verarbeiten. 

Amazon Nova unterscheidet zwischen zwei Arten von Dokumenteneingaben:
+ **Textbasierte Dokumenttypen** (z. B. TXT, CSV, Markdown, HTML, DOC): Diese werden hauptsächlich aufgrund ihres Textinhalts verarbeitet. Nova wird sich darauf konzentrieren, den Text in diesen Dokumenten zu verstehen und Informationen daraus zu extrahieren. 
+ **Medienbasierte Dokumenttypen** (z. B. PDF, DOCX): Diese Dateien können komplexe Layouts, Bilder, Diagramme oder eingebettete Grafiken enthalten. Bei medienbasierten Dokumenten verarbeitet Nova sowohl die visuellen als auch die textuellen Elemente. Nova verwendet visuelles Verständnis, um visuelle Inhalte — wie Diagramme, Tabellen, Diagramme oder Screenshots — zusammen mit dem Text des Dokuments zu interpretieren.

  JPEG2000 und JBIG2 werden in PDF-Dateien in Amazon Nova nicht unterstützt.

Zu den unterstützten Dateiformaten gehören gängige Dokumenttypen: Nur-Text- und strukturierte Textdateien (CSV, TXT), Tabellenkalkulationen (XLS/XLSX), HTML/Markdown, Word documents (DOC/DOCX) und PDF-Dateien. Für Bilder in Dokumenten werden Standardbildformate (PNG, JPG, GIF, WebP) verarbeitet, obwohl sie bestimmte Bildkodierungen (CYMK, SVG) PDFs enthalten, nicht unterstützt werden. 


**Größenbeschränkungen für Dokumente und Nutzungsrichtlinien**  

| Einschränkung | Limit | 
| --- | --- | 
|  Maximale Anzahl von Dokumenten  |  Bis zu 5 Dokumente pro Anfrage (gilt sowohl für den direkten Upload als auch für Amazon S3)  | 
|  Textbasierte Dokumentengröße  |  Jedes Textdokument (z. B. .txt, .csv, .md, .html, .doc) muss ≤ 4,5 MB groß sein  | 
|  Medienbasierte Dokumentgröße  |  Für PDF- und DOCX-Dateien gibt es keine individuelle Dateigrößenbeschränkung, aber: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/nova/latest/userguide/modalities-document.html)  | 
|  PDF-Inhalte werden nicht unterstützt  |  PDFs Bilder, die CMYK-Farbprofile oder SVG-Bilder enthalten, werden nicht unterstützt  | 

# Verwenden von Novas Document Understanding über die API
<a name="modalities-document-examples"></a>

Um zu veranschaulichen, wie Amazon Nova für die Qualitätssicherung (Question-Answering) oder Analyse von Dokumenten verwendet werden kann, finden Sie hier ein vereinfachtes Beispiel in Python. Wir verwenden die AWS Bedrock-API (über das Boto3-SDK), um ein PDF-Dokument zusammen mit einer Frage zu senden, die das Modell beantworten muss.

```
            
import base64
import base64
import json
import boto3

# Initialize Bedrock runtime client (adjust region as needed)
client = boto3.client("bedrock-runtime", region_name="us-east-1")

MODEL_ID = "us.amazon.nova-lite-v1:5"  # using Nova Lite model in this example

# Read the document file (PDF) in binary mode
with open("my_document.pdf", "rb") as file:
    doc_bytes = file.read()

# Construct the conversation messages with document + question
messages = [
    {
        "role": "user",
        "content": [
            {
                "document": {
                    "format": "pdf",
                    "name": "Document1",  # neutral name for the document
                    "source": {
                        "bytes": doc_bytes  # embedding the PDF content directly
                    }
                }
            },
            {
                "text": "Here is a question about the document: ... (your question) ... ?"
            }
        ]
    }
]

# Set inference parameters (optional)
inf_params = {"maxTokens": 4000, "topP": 0.1, "temperature": 0.3}

# Invoke the model
response = client.converse(modelId=MODEL_ID, messages=messages, inferenceConfig=inf_params)

# Extract and print the answer
answer_text = response["output"]["message"]["content"][0]["text"]
print(answer_text)
```

Wenn Ihre Eingabedateien groß sind (das Limit für direkte Uploads von 25 MB überschreiten) oder Sie viele Dateien haben, können Sie sie in Amazon S3 speichern und referenzieren. Dadurch wird vermieden, dass die Roh-Bytes über die Anfrage gesendet werden. Stellen Sie bei Verwendung von S3 sicher, dass der Bedrock-Dienst über die Berechtigung verfügt, auf den Bucket/das Objekt zuzugreifen. Um beispielsweise in S3 auf ein PDF zu verweisen, würde Ihre Dokumentquelle „s3Location“ anstelle von „Bytes“ verwenden, etwa so:

```
messages = [
    {
        "role": "user",
        "content": [
            {
                "document": {
                    "format": "pdf",
                    "name": "Report2023",
                    "source": {
                        "s3Location": {
                            "uri": "s3://your-bucket/path/to/document1.pdf",
                            "bucketOwner": "123456789012"
                        }
                    }
                }
            },
            {
                "text": "Summarize the key findings from the Q3 2023 report."
            }
        ]
    }
]
```

**Anmerkung**  
Dokumentnamen dürfen nur alphanumerische Zeichen, Bindestriche, Klammern und eckige Klammern enthalten.  
Das Feld `name` ist anfällig für Promptinjektionen, weil das Modell es versehentlich als Anweisungen interpretieren könnte. Daher wird empfohlen, dass Sie einen neutralen Namen angeben.