Oggetti di risposta di rilevamento del testo e analisi dei documenti - Amazon Textract

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Oggetti di risposta di rilevamento del testo e analisi dei documenti

Quando Amazon Textract elabora un documento, crea un elenco diBlockoggetti per il testo rilevato o analizzato. Ogni blocco contiene informazioni su un articolo rilevato, dove si trova e la sicurezza di Amazon Textract nell'accuratezza dell'elaborazione.

Un documento è costituito dai seguenti tipi diBlockobjects.

Il contenuto di un blocco dipende dall'operazione chiamata. Se si chiama una delle operazioni di rilevamento del testo, vengono restituite le pagine, le righe e le parole del testo rilevato. Per ulteriori informazioni, consultare Rilevamento del testo. Se si chiama una delle operazioni di analisi del documento, vengono restituite le informazioni sulle pagine rilevate, le coppie chiave-valore, le tabelle, gli elementi di selezione e il testo. Per ulteriori informazioni, consultare Analisi di documenti.

MedioBlockI campi dell'oggetto sono comuni a entrambi i tipi di elaborazione. Ad esempio, ogni blocco ha un identificatore univoco.

Per esempi che mostrano come utilizzareBlockoggetti, vediTutorial.

Layout del documento

Amazon Textract restituisce una rappresentazione di un documento come elenco di diversi tipi diBlockoggetti collegati in una relazione padre-figlio o in una coppia chiave-valore. Vengono restituiti anche i metadati che forniscono il numero di pagine in un documento. Di seguito è riportato il JSON per un tipicoBlockOggetto di tipoPAGE.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

Un documento è costituito da uno o più documentiPAGEblocca. Ogni pagina contiene un elenco di blocchi figlio per gli elementi principali rilevati nella pagina, ad esempio righe di testo e tabelle. Per ulteriori informazioni, consultare Pagine.

È possibile determinare il tipo diBlockobiettare ispezionando ilBlockType.

UNBlockL'oggetto contiene un elenco di elementi correlatiBlockoggetti nelRelationshipscampo, che è una serie diRelationshipobjects. UNRelationshipsarray è di tipo CHILD o di tipo VALUE. Un array di tipo CHILD viene utilizzato per elencare gli elementi figlio del blocco corrente. Ad esempio, se il blocco corrente è di tipo LINE,Relationshipscontiene un elenco di ID per i blocchi WORD che compongono la riga di testo. Un array di tipo VALUE viene utilizzato per contenere coppie chiave-valore. È possibile determinare il tipo di relazione ispezionando ilTypedel campoRelationshipoggetto.

I blocchi figlio non hanno informazioni sugli oggetti Blocco padre.

Per esempi che mostranoBlockinformazioni, consultaElaborazione di documenti con operazioni sincrone.

Confidence

L'affidabilità di Amazon Textract riguardo alla precisione dell'articolo rilevato. Per avere la fiducia, usa ilConfidencedel campoBlockoggetto. Un valore elevato indica una maggiore confidenza. A seconda dello scenario, i rilevamenti con una bassa confidenza potrebbero aver bisogno di una conferma visiva da parte di un essere umano.

Geometria

Le operazioni di Amazon Textract, ad eccezione dell'analisi delle identità, restituiscono informazioni sulla posizione degli elementi rilevati in una pagina del documento. Per ottenere la posizione, utilizzare il moduloGeometrydel campoBlockoggetto. Per ulteriori informazioni, consultaPosizione dell'articolo in una pagina del documento