Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ingressi per analisi personalizzate in tempo reale
L'analisi in tempo reale utilizzando modelli personalizzati richiede un singolo documento come input. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare.
Argomenti
Documenti in testo semplice
Fornisci il documento di input come testo in formato UTF-8.
Documenti semistrutturati
I documenti semistrutturati includono documenti PDF nativi e documenti Word.
Per impostazione predefinita, l'analisi personalizzata in tempo reale utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.
File di immagine e file PDF scansionati
I tipi di immagini supportati includono JPEG, PNG e TIFF.
Per impostazione predefinita, il riconoscimento personalizzato delle entità utilizza l'operazione DetectDocumentText
API Amazon Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'operazione AnalyzeDocument
API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.
Output di Amazon Textract
Puoi fornire l'output JSON dell'API AnalyzeDocument
o dell'API Amazon DetectDocumentText
Textract come input per le operazioni API in tempo reale per la classificazione personalizzata e il riconoscimento personalizzato delle entità. Amazon Comprehend supporta questo tipo di input per le operazioni API in tempo reale, ma non per la console.
Dimensioni massime dei documenti per l'analisi in tempo reale
Per tutti i tipi di documenti di input, il file di input può contenere al massimo una pagina, con non più di 10.000 caratteri.
La tabella seguente mostra le dimensioni massime dei file per i documenti di input.
Tipo di file | Dimensione massima (API) | Dimensione massima (console) |
---|---|---|
Documenti di testo UTF-8 | 10 KB | 10 KB |
Documenti PDF | 10 MB | 5 MB |
Documenti Word | 10 MB | 1 MB |
File di immagine | 10 MB | 5 MB |
Textract dei file di output | 1 MB | N/A |
Errori nei documenti semistrutturati
L'operazione ClassifyDocumento DetectEntitiesAPI può riscontrare errori a livello di documento o a livello di pagina durante l'estrazione del testo da un documento semistrutturato o da un file di immagine.
Errori a livello di pagina
Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva errori durante l'elaborazione di una pagina nel documento di input, la risposta API include una voce nell'elenco Errori per ogni errore.
La voce ErrorCode
nell'elenco degli errori contiene uno dei seguenti valori:
-
TEXTRACT_BAD_PAGE — Amazon Textract non è in grado di leggere la pagina. Per ulteriori informazioni sui limiti di pagina in Amazon Textract, consulta Quotazioni di pagina in Amazon Textract.
-
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Il numero di richieste ha superato il limite di velocità effettiva. Per ulteriori informazioni sulle quote di velocità effettiva in Amazon Textract, consulta Quote predefinite in Amazon Textract.
-
PAGE_CHARACTERS_EXCEEDED — Troppi caratteri di testo nella pagina (massimo 10.000 caratteri).
-
PAGE_SIZE_EXCEEDED: la dimensione massima della pagina è 10 MB.
-
INTERNAL_SERVER_ERROR — La richiesta ha rilevato un problema di servizio. Prova di nuovo la richiesta API.
Errori a livello di documento
Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva un errore a livello di documento nel documento di input, l'API restituisce una risposta di errore. InvalidRequestException
Nella risposta all'errore, il Reason campo contiene il valore. INVALID_DOCUMENT
Il Detail campo contiene uno dei seguenti valori:
-
DOCUMENT_SIZE_EXCEEDED — La dimensione del documento è troppo grande. Controlla le dimensioni del file e invia nuovamente la richiesta.
-
UNSUPPORTED_DOC_TYPE — Il tipo di documento non è supportato. Controlla il tipo di file e invia nuovamente la richiesta.
-
PAGE_LIMIT_EXCEEDED — Troppe pagine nel documento. Controlla il numero di pagine del file e invia nuovamente la richiesta.
-
TEXTRACT_ACCESS_DENIED_EXCEPTION — Accesso negato ad Amazon Textract. Verifica che il tuo account sia autorizzato a utilizzare le operazioni Amazon Textract DetectDocumentTexte AnalyzeDocumentAPI e invia nuovamente la richiesta.