Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengatur opsi ekstraksi teks
Secara default, Amazon Comprehend melakukan tindakan berikut untuk mengekstrak teks dari file, berdasarkan jenis file input:
File Word — Amazon Comprehend parser mengekstrak teks.
File PDF digital — Amazon Comprehend parser mengekstrak teks.
File gambar dan file PDF yang dipindai — Amazon Comprehend menggunakan
DetectDocumentText
Amazon Textract API untuk mengekstrak teks.
Untuk file gambar dan file PDF, Anda dapat menggunakan DocumentReaderConfig
parameter untuk mengganti tindakan ekstraksi default ini. Parameter ini tersedia saat Anda menggunakan konsol Amazon Comprehend atau API untuk analisis kustom real-time atau asinkron.
DocumentReaderConfig
Parameter berisi tiga bidang:
-
DocumentReadMode— Setel ke Amazon Comprehend
SERVICE_DEFAULT
untuk melakukan tindakan default.Setel
FORCE_DOCUMENT_READ_ACTION
untuk menggunakan Amazon Ttract untuk mengurai file PDF digital. -
DocumentReadAction— Menetapkan Amazon Texttract API (DetectDocumentText atau AnalyzeDocument) untuk digunakan saat Amazon Comprehend menggunakan Amazon Texttract untuk ekstraksi teks.
FeatureTypes— Jika Anda mengatur DocumentReadActionuntuk menggunakan operasi AnalyzeDocument API, Anda dapat menambahkan salah satu atau kedua
FeatureTypes
(TABEL, FORMULIR). Fitur-fitur ini memberikan informasi tambahan tentang tabel dan formulir dalam dokumen. Untuk informasi selengkapnya tentang fitur ini, lihat Objek Respons Analisis Dokumen Amazon Textract.
Contoh berikut menunjukkan cara mengkonfigurasi DocumentReaderConfig
untuk kasus penggunaan tertentu:
Gunakan Amazon Ttract untuk semua file PDF.
-
DocumentReadMode – Atur ke
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction – Atur ke
TEXTRACT_DETECT_DOCUMENT_TEXT
. -
FeatureTypes- Tidak diperlukan.
-
Gunakan Amazon Texttract
AnalyzeDocument
API untuk semua file PDF dan gambar.-
DocumentReadMode – Atur ke
FORCE_DOCUMENT_READ_ACTION
. -
DocumentReadAction – Atur ke
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Setel ke
TABLES
,FORMS
atau kedua fitur.
-
Gunakan Amazon Textract
AnalyzeDocument
API untuk file PDF yang dipindai dan semua file gambar.-
DocumentReadMode – Atur ke
SERVICE_DEFAULT
. -
DocumentReadAction – Atur ke
TEXTRACT_ANALYZE_DOCUMENT
. -
FeatureTypes— Setel ke
TABLES
,FORMS
atau kedua fitur.
-
Untuk informasi selengkapnya tentang opsi Amazon Textract, lihat. DocumentReaderConfig