Documenti in testo semplice Documenti di Semi-structured File di immagine e file PDF scansionati Output di Amazon Textract Dimensioni massime dei documenti per l'analisi in tempo reale Errori nei documenti semistrutturati

Ingressi per analisi personalizzate in tempo reale

Real-time l'analisi utilizzando modelli personalizzati richiede un singolo documento come input. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare.

Argomenti

Documenti in testo semplice
Documenti di Semi-structured
File di immagine e file PDF scansionati
Output di Amazon Textract
Dimensioni massime dei documenti per l'analisi in tempo reale
Errori nei documenti semistrutturati

Documenti in testo semplice

Fornisci il documento di input come UTF-8-formatted testo.

Documenti di Semi-structured

Semi-structured i documenti includono documenti PDF nativi e documenti Word.

Per impostazione predefinita, l'analisi personalizzata in tempo reale utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File di immagine e file PDF scansionati

I tipi di immagini supportati includono JPEG, PNG e TIFF.

Per impostazione predefinita, il riconoscimento personalizzato delle entità utilizza l'operazione DetectDocumentText API Amazon Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'operazione AnalyzeDocument API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

Output di Amazon Textract

Puoi fornire l'output JSON dell'API AnalyzeDocument o dell'API Amazon DetectDocumentText Textract come input per le operazioni API in tempo reale per la classificazione personalizzata e il riconoscimento personalizzato delle entità. Amazon Comprehend supporta questo tipo di input per le operazioni API in tempo reale, ma non per la console.

Dimensioni massime dei documenti per l'analisi in tempo reale

Per tutti i tipi di documenti di input, il file di input può contenere al massimo una pagina, con non più di 10.000 caratteri.

La tabella seguente mostra le dimensioni massime dei file per i documenti di input.

Tipo di file	Dimensione massima (API)	Dimensione massima (console)
UTF-8 documenti di testo	10 KB	10 KB
documenti PDF	10 MB	5 MB
Documenti Word	10 MB	1 MB
File di immagine	10 MB	5 MB
Textract dei file di output	1 MB	n/a

Errori nei documenti semistrutturati

L'operazione ClassifyDocumento DetectEntitiesAPI può riscontrare errori a livello di documento o a livello di pagina durante l'estrazione del testo da un documento semistrutturato o da un file di immagine.

Page-level errori

Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva errori durante l'elaborazione di una pagina nel documento di input, la risposta API include una voce nell'elenco Errori per ogni errore.

La voce ErrorCode nell'elenco degli errori contiene uno dei seguenti valori:

TEXTRACT_BAD_PAGE — Amazon Textract non è in grado di leggere la pagina. Per ulteriori informazioni sui limiti di pagina in Amazon Textract, consulta Quotazioni di pagina in Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Il numero di richieste ha superato il limite di velocità effettiva. Per ulteriori informazioni sulle quote di velocità effettiva in Amazon Textract, consulta Quote predefinite in Amazon Textract.
PAGE_CHARACTERS_EXCEEDED — Troppi caratteri di testo nella pagina (massimo 10.000 caratteri).
PAGE_SIZE_EXCEEDED: la dimensione massima della pagina è 10 MB.
INTERNAL_SERVER_ERROR — La richiesta ha rilevato un problema di servizio. Prova di nuovo la richiesta API.

Document-level errori

Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva un errore a livello di documento nel documento di input, l'API restituisce una InvalidRequestException risposta di errore.

Nella risposta all'errore, il Reason campo contiene il valore. INVALID_DOCUMENT

Il Detail campo contiene uno dei seguenti valori:

DOCUMENT_SIZE_EXCEEDED — La dimensione del documento è troppo grande. Controlla le dimensioni del file e invia nuovamente la richiesta.
UNSUPPORTED_DOC_TYPE — Il tipo di documento non è supportato. Controlla il tipo di file e invia nuovamente la richiesta.
PAGE_LIMIT_EXCEEDED — Troppe pagine nel documento. Controlla il numero di pagine del file e invia nuovamente la richiesta.
TEXTRACT_ACCESS_DENIED_EXCEPTION — Accesso negato ad Amazon Textract. Verifica che il tuo account sia autorizzato a utilizzare le operazioni Amazon Textract DetectDocumentTexte AnalyzeDocumentAPI e invia nuovamente la richiesta.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Elaborazione dei documenti

Ingressi per l'analisi asincrona