Mengatur opsi ekstraksi teks - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengatur opsi ekstraksi teks

Secara default, Amazon Comprehend melakukan tindakan berikut untuk mengekstrak teks dari file, berdasarkan jenis file input:

  • File Word — Amazon Comprehend parser mengekstrak teks.

  • File PDF digital — Amazon Comprehend parser mengekstrak teks.

  • File gambar dan file PDF yang dipindai — Amazon Comprehend menggunakan DetectDocumentText Amazon Textract API untuk mengekstrak teks.

Untuk file gambar dan file PDF, Anda dapat menggunakan DocumentReaderConfig parameter untuk mengganti tindakan ekstraksi default ini. Parameter ini tersedia saat Anda menggunakan konsol Amazon Comprehend atau API untuk analisis kustom real-time atau asinkron.

DocumentReaderConfigParameter berisi tiga bidang:

  • DocumentReadMode— Setel ke Amazon Comprehend SERVICE_DEFAULT untuk melakukan tindakan default.

    Setel FORCE_DOCUMENT_READ_ACTION untuk menggunakan Amazon Ttract untuk mengurai file PDF digital.

  • DocumentReadAction— Menetapkan Amazon Texttract API (DetectDocumentText atau AnalyzeDocument) untuk digunakan saat Amazon Comprehend menggunakan Amazon Texttract untuk ekstraksi teks.

  • FeatureTypes— Jika Anda mengatur DocumentReadActionuntuk menggunakan operasi AnalyzeDocument API, Anda dapat menambahkan salah satu atau kedua FeatureTypes (TABEL, FORMULIR). Fitur-fitur ini memberikan informasi tambahan tentang tabel dan formulir dalam dokumen. Untuk informasi selengkapnya tentang fitur ini, lihat Objek Respons Analisis Dokumen Amazon Textract.

Contoh berikut menunjukkan cara mengkonfigurasi DocumentReaderConfig untuk kasus penggunaan tertentu:

  1. Gunakan Amazon Ttract untuk semua file PDF.

    1. DocumentReadMode – Atur ke FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction – Atur ke TEXTRACT_DETECT_DOCUMENT_TEXT.

    3. FeatureTypes- Tidak diperlukan.

  2. Gunakan Amazon Texttract AnalyzeDocument API untuk semua file PDF dan gambar.

    1. DocumentReadMode – Atur ke FORCE_DOCUMENT_READ_ACTION.

    2. DocumentReadAction – Atur ke TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Setel keTABLES, FORMS atau kedua fitur.

  3. Gunakan Amazon Textract AnalyzeDocument API untuk file PDF yang dipindai dan semua file gambar.

    1. DocumentReadMode – Atur ke SERVICE_DEFAULT.

    2. DocumentReadAction – Atur ke TEXTRACT_ANALYZE_DOCUMENT.

    3. FeatureTypes— Setel keTABLES, FORMS atau kedua fitur.

Untuk informasi selengkapnya tentang opsi Amazon Textract, lihat. DocumentReaderConfig