Menganalisis Dokumen - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menganalisis Dokumen

Amazon Textract menganalisis dokumen dan formulir untuk hubungan antara teks yang terdeteksi. Operasi analisis Amazon Textract Texact mengembalikan 3 kategori ekstraksi dokumen — teks, formulir, dan tabel. Analisis faktur dan tanda terima ditangani melalui proses yang berbeda, untuk informasi lebih lanjut lihatMenganalisis Faktur dan Penerimaan.

Ekstraksi teks

Teks mentah diekstrak dari dokumen. Untuk informasi selengkapnya, lihatBaris dan kata-kata teks.

Ekstraksi formulir

Data formulir terkait dengan item teks yang diekstrak dari dokumen. Amazon Textract mewakili data formulir sebagai pasangan nilai kunci. Pada contoh berikut, salah satu baris teks yang terdeteksi oleh Amazon Textract adalahNama: Doe. Amazon Textract juga mengidentifikasi kunci (Nama:) dan nilai (Doe). Untuk informasi selengkapnya, lihatData formulir (Pasangan kunci/nilai).

Nama: Doe

Alamat: 123 Any Street, Anytown, Amerika Serikat

Tanggal lahir: 12-26-1980

Pasangan kunci-nilai juga digunakan untuk mewakili kotak centang atau tombol opsi (tombol radio) yang diekstraksi dari bentuk.

Laki-Laki:

Untuk informasi selengkapnya, lihatElemen seleksi.

Ekstraksi Tabel

Amazon Textract dapat mengekstrak tabel, sel tabel, dan item dalam sel tabel dan dapat diprogram untuk mengembalikan hasil dalam file JSON, .csv, atau .txt.

Nama Alamat

Carolina

123 Kota mana pun

Untuk informasi selengkapnya, lihatTabel. Elemen seleksi juga bisa diekstraksi dari tabel. Untuk informasi selengkapnya, lihatElemen seleksi.

Untuk item yang dianalisis, Amazon Textract mengembalikan yang berikut dalam beberapaBlockObjek:

  • Garis dan kata-kata teks yang terdeteksi

  • Isi item yang terdeteksi

  • Hubungan antara item yang terdeteksi

  • Halaman yang item terdeteksi pada

  • Lokasi item pada halaman dokumen

Anda dapat menggunakan operasi sinkron atau asinkron untuk menganalisis teks dalam dokumen. Untuk menganalisis teks secara serentak, gunakanAnalyzeDocumentoperasi, dan lulus dokumen sebagai masukan.AnalyzeDocumentmengembalikan seluruh rangkaian hasil. Untuk informasi selengkapnya, lihat Menganalisis Teks Dokumen dengan Amazon Textract.

Untuk mendeteksi teks secara asinkron, gunakanStartDocumentAnalysisuntuk memulai pemrosesan. Untuk mendapatkan hasilnya, hubungiGetDocumentAnalysis. Hasilnya dikembalikan dalam satu atau lebih tanggapan dariGetDocumentAnalysis. Untuk informasi lebih lanjut dan contoh, lihat Mendeteksi atau Menganalisis Teks dalam Dokumen Multipage.

Untuk menentukan jenis analisis yang akan dilakukan, Anda dapat menggunakanFeatureTypesdaftar parameter masukan. Tambahkan TABLES ke daftar untuk mengembalikan informasi tentang tabel yang terdeteksi dalam dokumen input — misalnya, sel tabel, teks sel, dan elemen seleksi dalam sel. Tambahkan FORM untuk mengembalikan hubungan kata, seperti pasangan kunci-nilai dan elemen seleksi. Untuk melakukan kedua jenis analisis, tambahkan TABLES dan FORMS keFeatureTypes.

Semua baris dan kata-kata yang terdeteksi dalam dokumen termasuk dalam respon (termasuk teks yang tidak terkait dengan nilaiFeatureTypes).