Ingressi per analisi personalizzate in tempo reale - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ingressi per analisi personalizzate in tempo reale

L'analisi in tempo reale utilizzando modelli personalizzati richiede un singolo documento come input. I seguenti argomenti descrivono i tipi di documenti di input che è possibile utilizzare.

Documenti in testo semplice

Fornisci il documento di input come testo in formato UTF-8.

Documenti semistrutturati

I documenti semistrutturati includono documenti PDF nativi e documenti Word.

Per impostazione predefinita, l'analisi personalizzata in tempo reale utilizza il parser Amazon Comprehend per estrarre il testo da file Word e file PDF digitali. Per i file PDF, puoi ignorare questa impostazione predefinita e utilizzare Amazon Textract per estrarre il testo. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

File di immagine e file PDF scansionati

I tipi di immagini supportati includono JPEG, PNG e TIFF.

Per impostazione predefinita, il riconoscimento personalizzato delle entità utilizza l'operazione DetectDocumentText API Amazon Textract per estrarre il testo dai file di immagine e dai file PDF scansionati. Puoi sovrascrivere questa impostazione predefinita per utilizzare invece l'operazione AnalyzeDocument API. Per informazioni, consulta Impostazione delle opzioni di estrazione del testo.

Output di Amazon Textract

Puoi fornire l'output JSON dell'API AnalyzeDocument o dell'API Amazon DetectDocumentText Textract come input per le operazioni API in tempo reale per la classificazione personalizzata e il riconoscimento personalizzato delle entità. Amazon Comprehend supporta questo tipo di input per le operazioni API in tempo reale, ma non per la console.

Dimensioni massime dei documenti per l'analisi in tempo reale

Per tutti i tipi di documenti di input, il file di input può contenere al massimo una pagina, con non più di 10.000 caratteri.

La tabella seguente mostra le dimensioni massime dei file per i documenti di input.

Tipo di file Dimensione massima (API) Dimensione massima (console)
Documenti di testo UTF-8 10 KB 10 KB
Documenti PDF 10 MB 5 MB
Documenti Word 10 MB 1 MB
File di immagine 10 MB 5 MB
Textract dei file di output 1 MB N/A

Errori nei documenti semistrutturati

L'operazione ClassifyDocumento DetectEntitiesAPI può riscontrare errori a livello di documento o a livello di pagina durante l'estrazione del testo da un documento semistrutturato o da un file di immagine.

Errori a livello di pagina

Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva errori durante l'elaborazione di una pagina nel documento di input, la risposta API include una voce nell'elenco Errori per ogni errore.

La voce ErrorCode nell'elenco degli errori contiene uno dei seguenti valori:

  • TEXTRACT_BAD_PAGE — Amazon Textract non è in grado di leggere la pagina. Per ulteriori informazioni sui limiti di pagina in Amazon Textract, consulta Quotazioni di pagina in Amazon Textract.

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Il numero di richieste ha superato il limite di velocità effettiva. Per ulteriori informazioni sulle quote di velocità effettiva in Amazon Textract, consulta Quote predefinite in Amazon Textract.

  • PAGE_CHARACTERS_EXCEEDED — Troppi caratteri di testo nella pagina (massimo 10.000 caratteri).

  • PAGE_SIZE_EXCEEDED: la dimensione massima della pagina è 10 MB.

  • INTERNAL_SERVER_ERROR — La richiesta ha rilevato un problema di servizio. Prova di nuovo la richiesta API.

Errori a livello di documento

Se l'operazione ClassifyDocumento l'DetectEntitiesAPI rileva un errore a livello di documento nel documento di input, l'API restituisce una risposta di errore. InvalidRequestException

Nella risposta all'errore, il Reason campo contiene il valore. INVALID_DOCUMENT

Il Detail campo contiene uno dei seguenti valori:

  • DOCUMENT_SIZE_EXCEEDED — La dimensione del documento è troppo grande. Controlla le dimensioni del file e invia nuovamente la richiesta.

  • UNSUPPORTED_DOC_TYPE — Il tipo di documento non è supportato. Controlla il tipo di file e invia nuovamente la richiesta.

  • PAGE_LIMIT_EXCEEDED — Troppe pagine nel documento. Controlla il numero di pagine del file e invia nuovamente la richiesta.

  • TEXTRACT_ACCESS_DENIED_EXCEPTION — Accesso negato ad Amazon Textract. Verifica che il tuo account sia autorizzato a utilizzare le operazioni Amazon Textract DetectDocumentTexte AnalyzeDocumentAPI e invia nuovamente la richiesta.