Impostazione delle opzioni di estrazione del testo - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Impostazione delle opzioni di estrazione del testo

Per impostazione predefinita, Amazon Comprehend esegue le seguenti azioni per estrarre testo da un file, in base al tipo di file di input:

  • File Word: il parser Amazon Comprehend estrae il testo.

  • File PDF digitali: il parser Amazon Comprehend estrae il testo.

  • File di immagine e file PDF scansionati: Amazon Comprehend utilizza l'API Amazon Textract per DetectDocumentText estrarre il testo.

Per i file di immagine e i file PDF, puoi utilizzare il DocumentReaderConfig parametro per sovrascrivere queste azioni di estrazione predefinite. Questo parametro è disponibile quando utilizzi la console o l'API Amazon Comprehend per analisi personalizzate in tempo reale o asincrone.

Il DocumentReaderConfig parametro contiene tre campi:

  • DocumentReadMode— Impostato SERVICE_DEFAULT per consentire ad Amazon Comprehend di eseguire le azioni predefinite.

    Imposta FORCE_DOCUMENT_READ_ACTION per utilizzare Amazon Textract per analizzare file PDF digitali.

  • DocumentReadAction— Imposta l'API Amazon Textract (DetectDocumentText o AnalyzeDocument) da utilizzare quando Amazon Comprehend utilizza Amazon Textract per l'estrazione del testo.

  • FeatureTypes— Se decidi DocumentReadActiondi utilizzare l'operazione AnalyzeDocument API, puoi aggiungere una o entrambe le FeatureTypes (TABLES, FORMS). Queste funzionalità forniscono informazioni aggiuntive sulle tabelle e sui moduli del documento. Per ulteriori informazioni su queste funzionalità, consulta Amazon Textract Document Analysis Response Objects.

I seguenti esempi mostrano come configurare DocumentReaderConfig per casi d'uso specifici:

  1. Usa Amazon Textract per tutti i file PDF.

    1. DocumentReadMode: impostato su FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction: impostato su TEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes— Non richiesto.

  2. Usa l'AnalyzeDocumentAPI Amazon Textract per tutti i file PDF e di immagine.

    1. DocumentReadMode: impostato su FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction: impostato su TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Impostato su TABLES FORMS o entrambe le funzionalità.

  3. Usa l'AnalyzeDocumentAPI Amazon Textract per i file PDF scansionati e tutti i file di immagine.

    1. DocumentReadMode: impostato su SERVICE_DEFAULT.

    2. DocumentReadAction: impostato su TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Impostato su FORMS o entrambe TABLES le funzionalità.

Per ulteriori informazioni sulle opzioni di Amazon Textract, consulta. DocumentReaderConfig