Antwortobjekte für Texterkennung und Dokumentanalyse - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Antwortobjekte für Texterkennung und Dokumentanalyse

Wenn Amazon Textract ein Dokument verarbeitet, erstellt es eine Liste vonBlockObjekte für den erkannten oder analysierten Text. Jeder Block enthält Informationen über ein erkanntes Element, in dem er sich befindet, und das Vertrauen, das Amazon Textract in die Genauigkeit der Verarbeitung hat.

Ein Dokument besteht aus den folgenden Arten vonBlockObjekte.

Der Inhalt eines Blocks hängt von der Operation ab, die Sie aufrufen. Wenn Sie eine der Texterkennungsoperationen aufrufen, werden die Seiten, Zeilen und Wörter des erkannten Textes zurückgegeben. Weitere Informationen finden Sie unter Erkennen von Text . Wenn Sie einen der Dokumentanalysevorgänge aufrufen, werden Informationen über erkannte Seiten, Schlüssel-Wert-Paare, Tabellen, Auswahlelemente und Text zurückgegeben. Weitere Informationen finden Sie unter Analysieren von Dokumenten .

EtwasBlockObjektfelder sind beiden Verarbeitungsarten gemeinsam. Beispielsweise hat jeder Block einen eindeutigen Bezeichner.

Für Beispiele, die zeigen, wie Sie verwendenBlockobjekte, sieheTutorialsaus.

Dokument-Layout

Amazon Textract gibt eine Darstellung eines Dokuments als Liste verschiedener Arten vonBlockObjekte, die in einer Eltern-zu-Kind-Beziehung oder einem Schlüssel-Wert-Paar verknüpft sind. Metadaten, die die Anzahl der Seiten in einem Dokument angeben, werden ebenfalls zurückgegeben. Nachfolgend ist der JSON für ein typischesBlockObjekt des TypsPAGEaus.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

Ein Dokument wird aus einem oder mehrerenPAGEblockiert. Jede Seite enthält eine Liste von untergeordneten Blöcken für die auf der Seite erkannten Hauptelemente, wie Textzeilen und Tabellen. Weitere Informationen finden Sie unter Seiten .

Sie können den Typ einesBlockObjekt durch Inspizieren desBlockTypefield.

EINBlockobject enthält eine Liste von verwandtenBlockObjekte imRelationshipsFeld, das ist ein Array vonRelationshipObjekte. EINRelationshipsarray ist entweder vom Typ CHILD oder vom Typ VALUE. Ein Array vom Typ CHILD wird verwendet, um die Elemente aufzulisten, die untergeordnete Elemente des aktuellen Blocks sind. Beispiel: Wenn der aktuelle Block beispielsweise den Typ LINE hat,Relationshipsenthält eine Liste von IDs für die WORD-Blöcke, aus denen die Textzeile besteht. Um Schlüssel-Wert-Paare zu enthalten, wird ein Array vom Typ VALUE verwendet. Sie können den Typ der Beziehung bestimmen, indem Sie dieTypefield desRelationship-Objekt.

Untergeordnete Blöcke haben keine Informationen über ihre übergeordneten Blockobjekte.

Für Beispiele, die zeigenBlockInformationen finden Sie unterDokumente mit synchronen Operationen verarbeitenaus.

Wahrscheinlichkeit

Bei Amazon Textract-Operationen gibt die prozentuale Sicherheit zurück, die Amazon Textract in die Genauigkeit des erkannten Artikels hat. Um das Vertrauen zu erlangen, benutze dieConfidencefield desBlock-Objekt. Ein höherer Wert weist auf ein höheres Vertrauen hin. Je nach Szenario benötigen Erkennungen mit geringem Vertrauen möglicherweise eine visuelle Bestätigung durch einen Menschen.

Geometry

Amazon Textract Textract-Vorgänge geben mit Ausnahme der Identitätsanalyse Standortinformationen über den Standort erkannter Artikel auf einer Dokumentseite zurück. Um den Standort zu erhalten, verwenden Sie denGeometryfield desBlock-Objekt. Weitere Informationen finden Sie unterArtikelspeicherort auf einer Dokumentseite