Seiten

Ein Dokument besteht aus einer oder mehreren Seiten. EINBlockObjekt des TypsPAGEexistiert für jede Seite des Dokuments. EINPAGEblock-Objekt enthält eine Liste der untergeordneten IDs für die Textzeilen, Schlüssel-Wert-Paare und Tabellen, die auf der Dokumentseite erkannt werden.

Der JSON für einenPAGEDer Block sieht in etwa so aus.


{

    "Geometry": .... 
    "Relationships": [
        {
            "Type": "CHILD", 
            "Ids": [
                "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", // Line - Hello, world.
                "82aedd57-187f-43dd-9eb1-4f312ca30042", // Line - How are you?
                "52be1777-53f7-42f6-a7cf-6d09bdc15a30", 
                "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c"   
            ]
        }
    ], 
    "BlockType": "PAGE", 
    "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97"  // Page identifier
},

Wenn Sie asynchrone Vorgänge mit einem mehrseitigen Dokument im PDF-Format verwenden, können Sie die Seite ermitteln, auf der sich ein Block befindet, indem Sie diePagefield desBlock-Objekt. Ein gescanntes Bild (ein Bild im JPEG-, PNG-, PDF- oder TIFF-Format) wird als einseitiges Dokument angesehen, auch wenn sich mehr als eine Dokumentseite auf dem Bild befindet. Asynchrone Operationen geben immer einPageWert 1 für gescannte Bilder.

Die Gesamtzahl der Seiten wird imPagesfield vonDocumentMetadataaus.DocumentMetadatawird mit jeder Liste vonBlockObjekte, die von einem Amazon Textract Textract-Vorgang zurückgegeben wurden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Antwortobjekte für Texterkennung und Dokumentanalyse

Zeilen und Wörter des Textes