Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Output standar untuk dokumen memungkinkan Anda mengatur perincian respons yang Anda minati serta menetapkan format output dan format teks dalam output. Di bawah ini adalah beberapa output yang dapat Anda aktifkan.
Granularitas Respon
Granularitas respons menentukan jenis respons yang ingin Anda terima dari ekstraksi teks dokumen. Setiap tingkat granularitas memberi Anda lebih banyak dan lebih banyak tanggapan terpisah, dengan halaman menyediakan semua teks yang diekstraksi bersama, dan kata menyediakan setiap kata sebagai respons terpisah. Tingkat granularitas yang tersedia adalah:
-
Granularitas tingkat halaman - Ini diaktifkan secara default. Granularitas tingkat halaman menyediakan setiap halaman dokumen dalam format output teks pilihan Anda.
-
Granularitas tingkat elemen (Layout) - Ini diaktifkan secara default. Menyediakan teks dokumen dalam format output pilihan Anda, dipisahkan menjadi elemen yang berbeda. Elemen-elemen ini, seperti gambar, tabel, atau paragraf. Ini dikembalikan dalam urutan pembacaan logis berdasarkan struktur dokumen.
-
Perincian tingkat kata — Memberikan informasi tentang kata-kata individual tanpa menggunakan analisis konteks yang lebih luas. Memberi Anda setiap kata dan lokasinya di halaman.
Pengaturan Output
Pengaturan output menentukan cara hasil unduhan Anda akan terstruktur. Opsi untuk pengaturan output adalah:
-
JSON — Struktur output default untuk analisis dokumen. Menyediakan file keluaran JSON dengan informasi dari pengaturan konfigurasi Anda.
-
JSON+Files — Menggunakan pengaturan ini menghasilkan output JSON dan file yang sesuai dengan output yang berbeda. Misalnya, setelan ini memberi Anda file teks untuk ekstraksi teks secara keseluruhan, file penurunan harga untuk teks dengan penurunan harga struktural, dan file CSV untuk setiap tabel yang ditemukan dalam teks.
Format Teks
Format teks menentukan berbagai jenis teks yang akan disediakan melalui berbagai operasi ekstraksi. Anda dapat memilih sejumlah opsi berikut untuk format teks Anda.
-
Plaintext - Pengaturan ini menyediakan output teks saja tanpa pemformatan atau elemen penurunan harga lainnya yang dicatat.
-
Teks dengan penurunan harga - Pengaturan output default untuk output standar. Menyediakan teks dengan elemen penurunan harga terintegrasi.
-
Teks dengan HTML - Menyediakan teks dengan elemen HTML terintegrasi dalam respon.
-
CSV — Menyediakan output terstruktur CSV untuk tabel dalam dokumen. Ini hanya akan memberikan respons untuk tabel, dan bukan elemen lain dari dokumen.
Kotak Bounding dan Bidang Generatif
Untuk Dokumen, ada dua opsi respons yang mengubah outputnya berdasarkan granularitas yang dipilih. Ini adalah Bounding Boxes, dan Generative Fields. Memilih Bounding Boxes akan memberikan garis besar visual dari elemen atau kata yang Anda klik di dropdown respons konsol. Ini memungkinkan Anda melacak elemen tertentu dari respons Anda dengan lebih mudah. Bounding Boxes dikembalikan dalam JSON Anda sebagai koordinat dari empat sudut kotak.
Saat Anda memilih Bidang Generatif, Anda akan menghasilkan ringkasan dokumen, baik versi 10 kata dan 250 kata. Kemudian, jika Anda memilih elemen sebagai perincian respons, Anda menghasilkan keterangan deskriptif dari setiap gambar yang terdeteksi dalam dokumen. Angka mencakup hal-hal seperti bagan, grafik, dan gambar.
Tanggapan dokumen Otomasi Data Batuan Dasar
Bagian ini berfokus pada objek respons berbeda yang Anda terima dari menjalankan operasi API InvokeDataAutomation pada file dokumen. Di bawah ini kita akan memecah setiap bagian dari objek respons dan kemudian melihat respons penuh dan terisi untuk dokumen contoh. Bagian pertama yang akan kami terima adalahmetadata
.
"metadata":{
"logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX",
"semantic_modality":"DOCUMENT",
"s3_bucket":"bucket",
"s3_prefix":"prefix"
},
Bagian pertama di atas memberikan ikhtisar metadata yang terkait dengan dokumen. Seiring dengan informasi S3, bagian ini juga memberi tahu Anda modalitas mana yang dipilih untuk respons Anda.
"document":{
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"description":"document text",
"summary":"summary text",
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
}
},
Bagian di atas memberikan informasi granularitas tingkat dokumen. Bagian deskripsi dan ringkasan adalah bidang yang dihasilkan berdasarkan dokumen Bagian representasi menyediakan konten dokumen yang sebenarnya dengan berbagai gaya pemformatan. Akhirnya statistik berisi informasi tentang konten dokumen yang sebenarnya, seperti berapa banyak elemen semantik yang ada, berapa banyak angka, kata, garis, dll.
Ini adalah informasi untuk entitas tabel. Selain informasi lokasi, format teks, tabel, dan urutan bacaan yang berbeda, mereka secara khusus mengembalikan informasi csv dan gambar tabel yang dipotong dalam ember S3. Informasi CSV menunjukkan header, footer, dan judul yang berbeda. Gambar akan dirutekan ke ember s3 dari awalan yang ditetapkan dalam permintaan InvokeDataAutomationAsync
{
"id":"entity_id",
"type":"TEXT",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"reading_order":2,
"page_indices":[
0
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0.0,
"top":0.0,
"width":0.05,
"height":0.5
}
}
],
"sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER"
},
Ini adalah entitas yang digunakan untuk teks dalam dokumen, ditunjukkan oleh TYPE
baris dalam respons. Sekali lagi representasi menunjukkan teks dalam format yang berbeda. reading_order
menunjukkan kapan pembaca secara logis akan melihat teks. Ini adalah urutan semantik berdasarkan kunci dan nilai terkait. Misalnya, ia mengaitkan judul paragraf dengan paragraf masing-masing dalam urutan bacaan. page_indices
memberi tahu Anda halaman mana teks itu aktif. Berikutnya adalah informasi lokasi, dengan kotak pembatas teks yang disediakan jika diaktifkan sebagai tanggapan. Akhirnya, kita memiliki subtipe entitas. Subtipe ini memberikan informasi lebih rinci tentang jenis teks apa yang terdeteksi. Untuk daftar lengkap subtipe, lihat Referensi API.
{
"id":"entity_id",
"type":"TABLE",
"representation":{
"html":"table.../table",
"markdown":"| header | ...",
"text":"header \t header",
"csv":"header, header, header\n..."
},
"csv_s3_uri":"s3://",
"headers":[
"date",
"amount",
"description",
"total"
],
"reading_order":3,
"title":"Title of the table",
"footers":[
"the footers of the table"
],
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"page_indices":[
0,
1
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
},
{
"page_index":1,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
]
},
Ini adalah informasi untuk entitas tabel. Selain informasi lokasi, format teks, tabel, dan urutan bacaan yang berbeda, mereka secara khusus mengembalikan informasi csv dan gambar tabel yang dipotong dalam ember S3. Informasi CSV menunjukkan header, footer, dan judul yang berbeda. Gambar akan dirutekan ke bucket s3 dari awalan yang ditetapkan dalam permintaan. InvokeDataAutomation
{
"id":"entity_id",
"type":"FIGURE",
"summary":"",
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"crop_images":[
"s3://bucket/prefix.png",
"s3://bucket/prefix.png"
],
"locations":[
{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
],
"sub_type":"CHART",
"title":"figure title",
"rai_flag":"APPROVED/REDACTED/REJECTED",
"reading_order":1,
"page_indices":[
0
]
}
,
Ini adalah entitas yang digunakan untuk angka-angka seperti dalam grafik dan bagan dokumen. Mirip dengan tabel, angka-angka ini akan dipotong dan gambar dikirim ke bucket s3 diatur dalam awalan Anda. Selain itu, Anda akan menerima sub_type
dan respons judul gambar untuk teks judul dan indikasi pada gambar seperti apa itu.
"pages":[
{
"id":"page_id",
"page_index":0,
"detected_page_number":1,
"representation":{
"text":"document text",
"html":"document title document content",
"markdown":"# text"
},
"statistics":{
"element_count":5,
"table_count":1,
"figure_count":1,
"word_count":1000,
"line_count":32
},
"asset_metadata":{
"rectified_image":"s3://bucket/prefix.png",
"rectified_image_width_pixels":1700,
"rectified_image_height_pixels":2200
}
}
],
Entitas terakhir yang kami ekstrak melalui output standar adalah Pages. Halaman sama dengan entitas Teks, tetapi juga berisi nomor halaman, yang nomor halaman yang terdeteksi ada di halaman.
"text_lines":[
{
"id":"line_id",
"text":"line text",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
],
"text_words":[
{
"id":"word_id",
"text":"word text",
"line_id":"line_id",
"reading_order":1,
"page_index":0,
"locations":{
"page_index":0,
"bounding_box":{
"left":0,
"top":0,
"width":1,
"height":1
}
}
}
]
Dua elemen terakhir ini adalah untuk bagian teks individual. Granularitas tingkat kata mengembalikan respons untuk setiap kata, sedangkan output default hanya melaporkan baris teks.
Pembatasan Pemrosesan Dokumen BDA
BDA mendukung dokumen dalam format file PDF, JPEG, dan PNG. Dokumen harus kurang dari 200 MB untuk diproses oleh konsol, atau 500 MB saat dilanjutkan oleh API. Dokumen tunggal tidak boleh melebihi 20 halaman, meskipun dengan pemisahan dokumen file yang diaktifkan hingga 1500 halaman dapat dikirimkan.
Kuota | Deskripsi |
---|---|
Batas Khusus PDF |
Tinggi dan lebar maksimum adalah 40 inci dan 2880 poin. PDFs tidak dapat dilindungi kata sandi. PDFs dapat berisi gambar berformat JPEG 2000. |
Rotasi Dokumen dan Ukuran Gambar |
BDA mendukung semua rotasi dokumen dalam pesawat, misalnya rotasi dalam pesawat 45 derajat. BDA mendukung gambar dengan resolusi kurang dari atau sama dengan 10.000 piksel di semua sisi. |
Perataan Teks |
Teks dapat berupa teks yang disejajarkan secara horizontal di dalam dokumen. Teks yang disusun secara horizontal dapat dibaca terlepas dari tingkat rotasi dokumen. BDA tidak mendukung keselarasan teks vertikal (teks yang ditulis secara vertikal, seperti yang umum dalam bahasa seperti Jepang dan Mandarin) dalam dokumen. |
Ukuran Karakter |
Ketinggian minimum untuk teks yang akan dideteksi adalah 15 piksel. Pada 150 DPI, ini akan sama dengan font 8 titik. |
Tipe Karakter |
BDA mendukung pengenalan karakter tulisan tangan dan cetak. |