Mode pemrosesan dokumen - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mode pemrosesan dokumen

Amazon Comprehend mendukung tiga mode pemrosesan dokumen. Pilihan mode Anda tergantung pada jumlah dokumen yang perlu Anda proses dan seberapa cepat Anda perlu melihat hasilnya:

  • Single-document synchronous - Anda memanggil Amazon Comprehend dengan satu dokumen dan menerima respons sinkron, langsung dikirimkan ke aplikasi Anda (atau konsol).

  • Multi-dokumen sinkron - Anda memanggil Amazon Comprehend API dengan koleksi hingga 25 dokumen dan menerima respons sinkron.

  • Batch asinkron — Untuk koleksi dokumen yang banyak, masukkan dokumen ke dalam bucket Amazon S3 dan mulai pekerjaan asinkron (menggunakan operasi konsol atau API) untuk menganalisis dokumen. Amazon Comprehend menyimpan hasil analisis di ember/folder S3 yang Anda tentukan dalam permintaan.

Pemrosesan dokumen tunggal

Operasi dokumen tunggal adalah operasi sinkron yang mengembalikan hasil analisis dokumen langsung ke aplikasi Anda. Gunakan operasi sinkron dokumen tunggal saat Anda membuat aplikasi interaktif yang bekerja pada satu dokumen pada satu waktu.

Untuk informasi selengkapnya tentang operasi API sinkron, lihat Analisis waktu nyata menggunakan model bawaan (untuk konsol) danAnalisis real-time menggunakan API.

Beberapa dokumen pemrosesan sinkron

Bila Anda memiliki beberapa dokumen yang ingin Anda proses, Anda dapat menggunakan operasi Batch* API untuk mengirim lebih dari satu dokumen ke Amazon Comprehend pada satu waktu. Anda dapat mengirim hingga 25 dokumen di setiap permintaan. Amazon Comprehend mengirimkan kembali daftar tanggapan, satu untuk setiap dokumen dalam permintaan. Permintaan yang dibuat dengan operasi ini sinkron. Aplikasi Anda memanggil operasi dan kemudian menunggu respons dari layanan.

Menggunakan Batch* operasi identik dengan memanggil API dokumen tunggal untuk setiap dokumen dalam permintaan. Menggunakan API ini dapat menghasilkan kinerja yang lebih baik untuk aplikasi Anda.

Masukan untuk masing-masing API adalah struktur JSON yang berisi dokumen untuk diproses. Untuk semua operasi kecualiBatchDetectDominantLanguage, Anda harus mengatur bahasa input. Anda hanya dapat mengatur satu bahasa input untuk setiap permintaan. Misalnya, berikut ini adalah input untuk BatchDetectEntities operasi. Ini berisi dua dokumen dan dalam bahasa Inggris.

{ "LanguageCode": "en", "TextList": [ "I have been living in Seattle for almost 4 years", "It is raining today in Seattle" ] }

Respons dari Batch* operasi berisi dua daftar, ResultList danErrorList. ResultListBerisi satu catatan untuk setiap dokumen yang berhasil diproses. Hasil untuk setiap dokumen dalam permintaan identik dengan hasil yang akan Anda dapatkan jika Anda menjalankan operasi dokumen tunggal pada dokumen. Hasil untuk setiap dokumen diberi indeks berdasarkan urutan dokumen dalam file input. Tanggapan dari BatchDetectEntities operasi adalah:

{ "ResultList" : [ { "Index": 0, "Entities": [ { "Text": "Seattle", "Score": 0.95, "Type": "LOCATION", "BeginOffset": 22, "EndOffset": 29 }, { "Text": "almost 4 years", "Score": 0.89, "Type": "QUANTITY", "BeginOffset": 34, "EndOffset": 48 } ] }, { "Index": 1, "Entities": [ { "Text": "today", "Score": 0.87, "Type": "DATE", "BeginOffset": 14, "EndOffset": 19 }, { "Text": "Seattle", "Score": 0.96, "Type": "LOCATION", "BeginOffset": 23, "EndOffset": 30 } ] } ], "ErrorList": [] }

Ketika terjadi kesalahan dalam permintaan, respons berisi ErrorList yang mengidentifikasi dokumen yang berisi kesalahan. Dokumen diidentifikasi oleh indeksnya dalam daftar input. Misalnya, input berikut untuk BatchDetectLanguage operasi berisi dokumen yang tidak dapat diproses:

{ "TextList": [ "hello friend", "$$$$$$", "hola amigo" ] }

Tanggapan dari Amazon Comprehend menyertakan daftar kesalahan yang mengidentifikasi dokumen yang berisi kesalahan:

{ "ResultList": [ { "Index": 0, "Languages":[ { "LanguageCode":"en", "Score": 0.99 } ] }, { "Index": 2 "Languages":[ { "LanguageCode":"es", "Score": 0.82 } ] } ], "ErrorList": [ { "Index": 1, "ErrorCode": "InternalServerException", "ErrorMessage": "Unexpected Server Error. Please try again." } ] }

Untuk informasi selengkapnya tentang operasi API batch sinkron, lihatAPI batch waktu nyata.

Pemrosesan batch asinkron

Untuk menganalisis dokumen besar dan koleksi dokumen yang besar, gunakan operasi asinkron Amazon Comprehend.

Untuk menganalisis kumpulan dokumen, Anda biasanya melakukan langkah-langkah berikut:

  1. Simpan dokumen dalam ember Amazon S3.

  2. Mulai satu atau lebih pekerjaan analisis untuk menganalisis dokumen.

  3. Pantau kemajuan pekerjaan analisis.

  4. Ambil hasil analisis dari bucket S3 saat pekerjaan selesai.

Untuk informasi selengkapnya tentang penggunaan operasi API asinkron, lihat Menjalankan pekerjaan analisis menggunakan konsol (konsol) dan. Pekerjaan analisis asinkron menggunakan API