Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Oggetti di risposta di rilevamento del testo e analisi dei documenti
Quando Amazon Textract elabora un documento, crea un elenco diBlockoggetti per il testo rilevato o analizzato. Ogni blocco contiene informazioni su un articolo rilevato, dove si trova e la sicurezza di Amazon Textract nell'accuratezza dell'elaborazione.
Un documento è costituito dai seguenti tipi diBlock
objects.
Il contenuto di un blocco dipende dall'operazione chiamata. Se si chiama una delle operazioni di rilevamento del testo, vengono restituite le pagine, le righe e le parole del testo rilevato. Per ulteriori informazioni, consultare Rilevamento del testo. Se si chiama una delle operazioni di analisi del documento, vengono restituite le informazioni sulle pagine rilevate, le coppie chiave-valore, le tabelle, gli elementi di selezione e il testo. Per ulteriori informazioni, consultare Analisi di documenti.
MedioBlock
I campi dell'oggetto sono comuni a entrambi i tipi di elaborazione. Ad esempio, ogni blocco ha un identificatore univoco.
Per esempi che mostrano come utilizzareBlock
oggetti, vediTutorial.
Layout del documento
Amazon Textract restituisce una rappresentazione di un documento come elenco di diversi tipi diBlock
oggetti collegati in una relazione padre-figlio o in una coppia chiave-valore. Vengono restituiti anche i metadati che forniscono il numero di pagine in un documento. Di seguito è riportato il JSON per un tipicoBlock
Oggetto di tipoPAGE
.
{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }
Un documento è costituito da uno o più documentiPAGE
blocca. Ogni pagina contiene un elenco di blocchi figlio per gli elementi principali rilevati nella pagina, ad esempio righe di testo e tabelle. Per ulteriori informazioni, consultare Pagine.
È possibile determinare il tipo diBlock
obiettare ispezionando ilBlockType
.
UNBlock
L'oggetto contiene un elenco di elementi correlatiBlock
oggetti nelRelationships
campo, che è una serie diRelationshipobjects. UNRelationships
array è di tipo CHILD o di tipo VALUE. Un array di tipo CHILD viene utilizzato per elencare gli elementi figlio del blocco corrente. Ad esempio, se il blocco corrente è di tipo LINE,Relationships
contiene un elenco di ID per i blocchi WORD che compongono la riga di testo. Un array di tipo VALUE viene utilizzato per contenere coppie chiave-valore. È possibile determinare il tipo di relazione ispezionando ilType
del campoRelationship
oggetto.
I blocchi figlio non hanno informazioni sugli oggetti Blocco padre.
Per esempi che mostranoBlock
informazioni, consultaElaborazione di documenti con operazioni sincrone.
Confidence
L'affidabilità di Amazon Textract riguardo alla precisione dell'articolo rilevato. Per avere la fiducia, usa ilConfidence
del campoBlock
oggetto. Un valore elevato indica una maggiore confidenza. A seconda dello scenario, i rilevamenti con una bassa confidenza potrebbero aver bisogno di una conferma visiva da parte di un essere umano.
Geometria
Le operazioni di Amazon Textract, ad eccezione dell'analisi delle identità, restituiscono informazioni sulla posizione degli elementi rilevati in una pagina del documento. Per ottenere la posizione, utilizzare il moduloGeometry
del campoBlock
oggetto. Per ulteriori informazioni, consultaPosizione dell'articolo in una pagina del documento