Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Block
EINBlock
repräsentiert Elemente, die in einem Dokument innerhalb einer Gruppe von Pixeln nahe beieinander erkannt werden. Die Informationen, die in einemBlock
-Objekt hängt von der Art der Operation ab. Bei der Texterkennung für Dokumente (z.DetectDocumentText) erhalten Sie Informationen über die erkannten Wörter und Textzeilen. In der Textanalyse (zum BeispielAnalyzeDocument) können Sie auch Informationen über die Felder, Tabellen und Auswahlelemente abrufen, die im Dokument erkannt werden.
Ein Array vonBlock
-Objekte werden sowohl durch synchrone als auch durch asynchrone Operationen zurückgegeben. Bei synchronen Operationen wieDetectDocumentText, das Array vonBlock
object ist der gesamte Ergebnissatz. Bei asynchronen Operationen wieGetDocumentAnalysiswird das Array über eine oder mehrere Antworten zurückgegeben.
Weitere Informationen finden Sie unterFunktionsweise von Amazon Textractaus.
Inhalt
- BlockType
-
Der Typ des erkannten Textelements. Bei Operationen zur Texterkennung werden die folgenden Typen zurückgegeben:
-
SEITE- Enthält eine Liste der LINE
Block
Objekte, die auf einer Dokumentseite erkannt werden. -
WORT- Ein Wort wurde auf einer Dokumentseite erkannt. Ein Wort besteht aus einem oder mehreren lateinischen ISO-Basiszeichen, die nicht durch Leerzeichen getrennt sind.
-
LINIE- Eine Reihe von tabulatorgetrennten, zusammenhängenden Wörtern, die auf einer Dokumentseite erkannt werden.
In Textanalyseoperationen werden die folgenden Typen zurückgegeben:
-
SEITE- Enthält eine Liste von untergeordneten
Block
Objekte, die auf einer Dokumentseite erkannt werden. -
KEY_VALUE_SET- Speichert den KEY und VALUE
Block
-Objekte für verknüpften Text, der auf einer Dokumentseite erkannt wird. Verwenden derEntityType
-Feld, um festzustellen, ob ein KEY_VALUE_SET-Objekt ein KEY istBlock
Objekt oder ein VALUEBlock
-Objekt. -
WORT- Ein Wort, das auf einer Dokumentseite erkannt wird. Ein Wort besteht aus einem oder mehreren lateinischen ISO-Basiszeichen, die nicht durch Leerzeichen getrennt sind.
-
LINIE- Eine Reihe von tabulatorgetrennten, zusammenhängenden Wörtern, die auf einer Dokumentseite erkannt werden.
-
TABELLE- Eine Tabelle, die auf einer Dokumentseite erkannt wird. Eine Tabelle ist rasterbasierte Informationen mit zwei oder mehr Zeilen oder Spalten mit einer Zellenspanne von jeweils einer Zeile und einer Spalte.
-
ZELLE- Eine Zelle innerhalb einer erkannten Tabelle. Die Zelle ist das übergeordnete Element des Blocks, der den Text in der Zelle enthält.
-
SELECTION_ELEMENT- Ein Auswahlelement wie ein Optionsfeld (Optionsfeld) oder ein Kontrollkästchen, das auf einer Dokumentseite erkannt wird. Verwenden Sie den Wert von
SelectionStatus
um den Status des Selektionselements zu bestimmen.
Type: String (Zeichenfolge)
Zulässige Werte:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
: Erforderlich Nein
-
- ColumnIndex
-
Die Spalte, in der eine Tabellenzelle angezeigt wird. Die erste Spaltenposition ist 1.
ColumnIndex
wird nicht zurückgegeben vonDetectDocumentText
undGetDocumentTextDetection
aus.Type: Ganzzahl
Gültiger Bereich: Der Mindestwert ist.
: Erforderlich Nein
- ColumnSpan
-
Die Anzahl der Spalten, die eine Tabellenzelle umfasst. Derzeit ist dieser Wert immer 1, auch wenn die Anzahl der gespeicherten Spalten größer als 1 ist.
ColumnSpan
wird nicht zurückgegeben vonDetectDocumentText
undGetDocumentTextDetection
aus.Type: Ganzzahl
Gültiger Bereich: Der Mindestwert ist.
: Erforderlich Nein
- Confidence
-
Der Konfidenzwert, den Amazon Textract in der Genauigkeit des erkannten Textes und die Genauigkeit der Geometrie aufweist, zeigt um den erkannten Text.
Type: Gleitkommazahl
Gültiger Bereich: Der Mindestwert ist. Maximalwert 100.
: Erforderlich Nein
- EntityTypes
-
Der Typ von Entität. Folgendes kann zurückgegeben werden:
-
SCHLÜSSEL- Eine Kennung für ein Feld im Dokument.
-
WERT- Der Feldtext.
EntityTypes
wird nicht zurückgegeben vonDetectDocumentText
undGetDocumentTextDetection
aus.Type: Zeichenfolgen-Array
Zulässige Werte:
KEY | VALUE
: Erforderlich Nein
-
- Geometry
-
Die Position des erkannten Textes auf dem Bild. Es enthält einen achsorientierten, groben Begrenzungsrahmen, der den Text umgibt, und ein feinkörniges Polygon für genauere räumliche Informationen.
Typ: Geometry Objekt
: Erforderlich Nein
- Id
-
Die Kennung für den erkannten Text. Die Kennung ist nur für eine einzelne Operation eindeutig.
Type: String (Zeichenfolge)
Pattern:
.*\S.*
: Erforderlich Nein
- Page
-
Die Seite, auf der ein Block erkannt wurde.
Page
wird durch asynchrone Operationen zurückgegeben. Seitenwerte größer als 1 werden nur für mehrseitige Dokumente zurückgegeben, die im PDF- oder TIFF-Format vorliegen. Ein gescanntes Bild (JPEG/PNG), selbst wenn es mehrere Dokumentseiten enthält, gilt als einseitiges Dokument. Der Wert vonPage
ist immer 1. Synchrone Vorgänge kehren nicht zurückPage
weil jedes Eingabedokument als einseitiges Dokument angesehen wird.Type: Ganzzahl
Gültiger Bereich: Der Mindestwert ist.
: Erforderlich Nein
- Relationships
-
Eine Liste der untergeordneten Blöcke des aktuellen Blocks. Ein LINE-Objekt verfügt beispielsweise über untergeordnete Blöcke für jeden WORD-Block, der Teil der Textzeile ist. Es gibt keine Relationship-Objekte in der Liste für Beziehungen, die nicht existieren, z. B. wenn der aktuelle Block keine untergeordneten Blöcke enthält. Die Listengröße kann wie folgt sein:
-
0 - Der Block hat keine untergeordneten Blöcke.
-
1 - Der Block hat untergeordnete Blöcke.
Type: Array vonRelationshipObjekte
: Erforderlich Nein
-
- RowIndex
-
Die Zeile, in der sich eine Tabellenzelle befindet. Die erste Zeilenposition ist 1.
RowIndex
wird nicht zurückgegeben vonDetectDocumentText
undGetDocumentTextDetection
aus.Type: Ganzzahl
Gültiger Bereich: Der Mindestwert ist.
: Erforderlich Nein
- RowSpan
-
Die Anzahl der Zeilen, die eine Tabellenzelle umfasst. Derzeit ist dieser Wert immer 1, auch wenn die Anzahl der überspannten Zeilen größer als 1 ist.
RowSpan
wird nicht zurückgegeben vonDetectDocumentText
undGetDocumentTextDetection
aus.Type: Ganzzahl
Gültiger Bereich: Der Mindestwert ist.
: Erforderlich Nein
- SelectionStatus
-
Der Auswahlstatus eines Auswahlelements, z. B. ein Optionsfeld oder ein Kontrollkästchen.
Type: String (Zeichenfolge)
Zulässige Werte:
SELECTED | NOT_SELECTED
: Erforderlich Nein
- Text
-
Das Wort oder die Textzeile, die von Amazon Textract erkannt wird.
Type: String (Zeichenfolge)
: Erforderlich Nein
- TextType
-
Die Art von Text, den Amazon Textract erkannt hat. Kann nach handgeschriebenem Text und gedrucktem Text suchen.
Type: String (Zeichenfolge)
Zulässige Werte:
HANDWRITING | PRINTED
: Erforderlich Nein
Weitere Informationen finden Sie unter:
Weitere Informationen zur Verwendung dieser API in einem der sprachspezifischen AWS-SDKs finden Sie unter: