Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Estrai automaticamente i contenuti dai file PDF utilizzando Amazon Textract
Creato da Tianxia Jia (AWS)
Ambiente: produzione | Tecnologie: apprendimento automatico e intelligenza artificiale; analisi; Big data | Servizi AWS: Amazon S3; Amazon Textract; Amazon SageMaker |
Riepilogo
Molte organizzazioni devono estrarre informazioni dai file PDF caricati nelle loro applicazioni aziendali. Ad esempio, un'organizzazione potrebbe aver bisogno di estrarre con precisione le informazioni dai file PDF fiscali o medici per l'analisi fiscale o l'elaborazione delle richieste mediche.
Sul cloud Amazon Web Services (AWS), Amazon Textract estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. Puoi utilizzare Amazon Textract nella Console di gestione AWS o implementando chiamate API. Ti consigliamo di utilizzare chiamate API programmatiche
Quando Amazon Textract elabora un file, crea il seguente elenco di Block
oggetti: pagine, righe e parole di testo, moduli (coppie chiave-valore), tabelle e celle ed elementi di selezione. Sono incluse anche altre informazioni sugli oggetti, ad esempio riquadri di delimitazione, intervalli di confidenza, ID e relazioni. Amazon Textract estrae le informazioni sul contenuto sotto forma di stringhe. I valori dei dati correttamente identificati e trasformati sono necessari perché possono essere utilizzati più facilmente dalle applicazioni downstream.
Questo modello descrive un step-by-step flusso di lavoro per l'utilizzo di Amazon Textract per estrarre automaticamente il contenuto dai file PDF ed elaborarlo in un output pulito. Il modello utilizza una tecnica di abbinamento dei modelli per identificare correttamente il campo, il nome chiave e le tabelle richiesti, quindi applica le correzioni post-elaborazione a ciascun tipo di dati. È possibile utilizzare questo modello per elaborare diversi tipi di file PDF e quindi ridimensionare e automatizzare questo flusso di lavoro per elaborare file PDF con un formato identico.
Prerequisiti e limitazioni
Prerequisiti
Un account AWS attivo.
Un bucket Amazon Simple Storage Service (Amazon S3) esistente per archiviare i file PDF dopo la conversione in formato JPEG per l'elaborazione da parte di Amazon Textract. Per ulteriori informazioni sui bucket S3, consulta la panoramica dei bucket nella documentazione di Amazon S3.
Il notebook
Textract_PostProcessing.ipynb
Jupyter (allegato), installato e configurato. Per ulteriori informazioni sui notebook Jupyter, consulta Creare un notebook Jupyter nella documentazione di Amazon. SageMakerFile PDF esistenti con un formato identico.
Una comprensione di Python.
Limitazioni
I tuoi file PDF devono essere di buona qualità e chiaramente leggibili. Si consigliano file PDF nativi, ma è possibile utilizzare documenti scansionati convertiti in formato PDF se tutte le singole parole sono chiare. Per ulteriori informazioni su questo argomento, consulta Preelaborazione dei documenti PDF con Amazon Textract: rilevamento e rimozione di elementi visivi
sul blog di AWS Machine Learning. Per i file multipagina, puoi utilizzare un'operazione asincrona o dividere i file PDF in un'unica pagina e utilizzare un'operazione sincrona. Per ulteriori informazioni su queste due opzioni, consulta Rilevamento e analisi del testo in documenti multipagina e Rilevamento e analisi del testo in documenti a pagina singola nella documentazione di Amazon Textract.
Architettura
Il flusso di lavoro di questo pattern esegue prima Amazon Textract su un file PDF di esempio (prima esecuzione) e poi lo esegue su file PDF con un formato identico al primo PDF (esecuzione ripetuta). Il diagramma seguente mostra il flusso di lavoro combinato First-time run e Repeat run che estrae automaticamente e ripetutamente il contenuto da file PDF con formati identici.
Il diagramma mostra il seguente flusso di lavoro per questo modello:
Converti un file PDF in formato JPEG e archivialo in un bucket S3.
Chiama l'API Amazon Textract e analizza il file JSON di risposta Amazon Textract.
Modifica il file JSON aggiungendo la
KeyName:DataType
coppia corretta per ogni campo obbligatorio. Crea unTemplateJSON
file per la fase Repeat run.Definite le funzioni di correzione post-elaborazione per ogni tipo di dati (ad esempio, float, integer e date).
Prepara i file PDF con un formato identico al tuo primo file PDF.
Chiama l'API Amazon Textract e analizza il codice JSON di risposta Amazon Textract.
Abbina il file JSON analizzato al file.
TemplateJSON
Implementa le correzioni successive all'elaborazione.
Il file di output JSON finale contiene i campi corretti KeyName
e Value
per ogni campo obbligatorio.
Stack tecnologico Target
Amazon SageMaker
Amazon S3
Amazon Textract
Automazione e scalabilità
Puoi automatizzare il flusso di lavoro Repeat run utilizzando una funzione AWS Lambda che avvia Amazon Textract quando viene aggiunto un nuovo file PDF ad Amazon S3. Amazon Textract esegue quindi gli script di elaborazione e l'output finale può essere salvato in una posizione di archiviazione. Per ulteriori informazioni su questo argomento, consulta Usare un trigger di Amazon S3 per richiamare una funzione Lambda nella documentazione Lambda.
Strumenti
Amazon SageMaker è un servizio di machine learning completamente gestito che ti aiuta a creare e addestrare modelli di machine learning in modo rapido e semplice, per poi distribuirli direttamente in un ambiente ospitato pronto per la produzione.
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
Amazon Textract semplifica l'aggiunta del rilevamento e dell'analisi del testo dei documenti alle tue applicazioni.
Epiche
Attività | Descrizione | Competenze richieste |
---|---|---|
Convertire il file PDF. | Nota: puoi anche utilizzare l'operazione asincrona di Amazon Textract ( | Scienziato dei dati, sviluppatore |
Analizza il codice JSON della risposta Amazon Textract. | Apri il notebook
Analizza la risposta JSON in un modulo e in una tabella utilizzando il codice seguente:
| Scienziato dei dati, sviluppatore |
Modifica il file TemplateJSON. | Modifica il codice JSON analizzato per tutte le intestazioni di tabella corrispondenti Questo modello viene utilizzato per ogni singolo tipo di file PDF, il che significa che può essere riutilizzato per file PDF con un formato identico. | Scienziato dei dati, sviluppatore |
Definire le funzioni di correzione post-elaborazione. | I valori nella risposta di Amazon Textract per il Correggi ogni tipo di dati in base al
| Scienziato dei dati, sviluppatore |
Attività | Descrizione | Competenze richieste |
---|---|---|
Prepara i file PDF. | Nota: puoi anche utilizzare l'operazione asincrona di Amazon Textract ( | Scienziato dei dati, sviluppatore |
Chiama l'API Amazon Textract. | Chiama l'API Amazon Textract utilizzando il codice seguente:
| Scienziato dei dati, sviluppatore |
Analizza il codice JSON della risposta Amazon Textract. | Analizza la risposta JSON in un modulo e in una tabella utilizzando il codice seguente:
| Scienziato dei dati, sviluppatore |
Carica il file TemplateJSON e abbinalo al JSON analizzato. | Utilizzate il
| Scienziato dei dati, sviluppatore |
Correzioni successive all'elaborazione. | Utilizza
| Scienziato dei dati, sviluppatore |