Deteksi Teks dan Dokumen Analisis Respon Objek - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Deteksi Teks dan Dokumen Analisis Respon Objek

Saat Amazon Textract memproses dokumen, dokumen akan membuat daftarBlockobjek untuk teks terdeteksi atau dianalisis. Setiap blok berisi informasi tentang item yang terdeteksi, di mana letaknya, dan keyakinan yang dimiliki Amazon Textract dalam keakuratan pemrosesan.

Sebuah dokumen terdiri dari jenis berikutBlockobjek.

Isi blok tergantung pada operasi yang Anda panggil. Jika Anda memanggil salah satu operasi deteksi teks, halaman, baris, dan kata-kata teks yang terdeteksi akan dikembalikan. Untuk informasi selengkapnya, lihat Mendeteksi teks. Jika Anda memanggil salah satu operasi analisis dokumen, informasi tentang halaman terdeteksi, pasangan kunci-nilai, tabel, elemen seleksi, dan teks dikembalikan. Untuk informasi selengkapnya, lihat Menganalisis Dokumen.

BeberapaBlockbidang objek umum untuk kedua jenis pengolahan. Misalnya, setiap blok memiliki pengenal yang unik.

Untuk contoh yang menunjukkan cara menggunakanBlockbenda, lihatTutorial.

Tata Letak Dokumen

Amazon Textract mengembalikan representasi dokumen sebagai daftar berbagai jenisBlockobjek yang terkait dalam hubungan orangtua-ke-anak atau pasangan kunci-nilai. Metadata yang menyediakan jumlah halaman dalam dokumen juga dikembalikan. Berikut ini adalah JSON untuk khasBlockobjek tipePAGE.

{ "Blocks": [ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 } }

Dokumen dibuat dari satu atau lebihPAGEblok. Setiap halaman berisi daftar blok anak untuk item utama yang terdeteksi pada halaman, seperti baris teks dan tabel. Untuk informasi selengkapnya, lihat Halaman.

Anda dapat menentukan jenisBlockobjek dengan memeriksaBlockTypeBidang.

SEBUAHBlockobjek berisi daftar terkaitBlockbenda-benda diRelationshipslapangan, yang merupakan arrayRelationshipobjek. SEBUAHRelationshipsarray adalah salah satu dari jenis ANAK atau jenis NILAI. Array jenis ANAK digunakan untuk daftar item yang anak-anak dari blok saat ini. Misalnya, jika blok saat ini adalah tipe LINE,Relationshipsberisi daftar ID untuk blok WORD yang membentuk baris teks. Array tipe VALUE digunakan untuk mengandung pasangan nilai kunci. Anda dapat menentukan jenis hubungan dengan memeriksaTypebidangRelationshipobjek.

Blok anak tidak memiliki informasi tentang objek Blokir induknya.

Untuk contoh yang menunjukkanBlockinformasi, lihatMemproses Dokumen dengan Operasi Sinkron.

Kepercayaan

Operasi Amazon Textract mengembalikan kepercayaan persentase yang dimiliki Amazon Textract dalam keakuratan item yang terdeteksi. Untuk mendapatkan kepercayaan diri, gunakanConfidencebidangBlockobjek. Nilai yang lebih tinggi menunjukkan kepercayaan yang lebih tinggi. Tergantung pada skenario, deteksi dengan kepercayaan rendah mungkin memerlukan konfirmasi visual oleh manusia.

Geometry

Operasi Amazon Textract Texact, dengan pengecualian analisis identitas, mengembalikan informasi lokasi tentang lokasi item yang terdeteksi pada halaman dokumen. Untuk mendapatkan lokasi, gunakanGeometrybidangBlockobjek. Untuk informasi selengkapnya, lihatLokasi Item pada Halaman Dokumen