AnalyzeDocument - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AnalyzeDocument

Menganalisis dokumen masukan untuk hubungan antara item yang terdeteksi.

Jenis informasi yang dikembalikan adalah sebagai berikut:

  • Data formulir (pasangan nilai kunci). Informasi terkait dikembalikan dalam duaBlockobjek, masing-masing jenisKEY_VALUE_SET: KUNCIBlockobjek dan NILAIBlockobjek. Misalnya,Nama: Ana Silvaberisi kunci dan nilai. Nama:adalah kuncinya. Ana Silvaadalah nilai.

  • Tabel dan data sel tabel. TABELBlockobjek berisi informasi tentang tabel terdeteksi. SELBlockobjek dikembalikan untuk setiap sel dalam tabel.

  • Garis dan kata-kata teks. GARISBlockobjek berisi satu atau lebih WORDBlockobjek. Semua baris dan kata-kata yang terdeteksi dalam dokumen dikembalikan (termasuk teks yang tidak memiliki hubungan dengan nilaiFeatureTypes).

Elemen seleksi seperti kotak centang dan tombol opsi (tombol radio) dapat dideteksi dalam data formulir dan dalam tabel. SELECTION_ELEMENTBlockobjek berisi informasi tentang elemen seleksi, termasuk status seleksi.

Anda dapat memilih jenis analisis yang akan dilakukan dengan menentukanFeatureTypesdaftar.

Output dikembalikan dalam daftarBlockobjek.

AnalyzeDocument adalah operasi tersinkron. Untuk menganalisis dokumen secara asinkron, gunakanStartDocumentAnalysis.

Untuk informasi selengkapnya, lihatAnalisis Teks Dokumen.

Sintaksis Permintaan

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } }, "FeatureTypes": [ "string" ], "HumanLoopConfig": { "DataAttributes": { "ContentClassifiers": [ "string" ] }, "FlowDefinitionArn": "string", "HumanLoopName": "string" } }

Parameter Permintaan

Permintaan menerima data berikut dalam format JSON.

Document

Dokumen input sebagai byte yang dikodekan base64 atau objek Amazon S3. Jika Anda menggunakan AWS CLI untuk memanggil operasi Amazon Textract, Anda tidak dapat meneruskan byte citra. Dokumen harus berupa gambar dalam format JPEG, PNG, PDF, atau TIFF.

Jika Anda menggunakan AWS SDK untuk memanggil Amazon Textract, Anda mungkin tidak perlu byte citra yang dikodekan base64 yang diteruskan menggunakanBytesbidang.

Tipe: Objek Document

Diperlukan: Ya

FeatureTypes

Daftar jenis analisis untuk melakukan. Tambahkan TABEL ke daftar untuk mengembalikan informasi tentang tabel yang terdeteksi dalam dokumen input. Tambahkan FORMS untuk mengembalikan data formulir yang terdeteksi. Untuk melakukan kedua jenis analisis, tambahkan TABEL dan FORM keFeatureTypes. Semua baris dan kata yang terdeteksi dalam dokumen disertakan dalam respons (termasuk teks yang tidak terkait dengan nilaiFeatureTypes).

Jenis: Array string

Nilai Valid: TABLES | FORMS

Diperlukan: Ya

HumanLoopConfig

Menetapkan konfigurasi untuk manusia dalam alur kerja loop untuk menganalisis dokumen.

Tipe: Objek HumanLoopConfig

Diperlukan: Tidak

Sintaksis Respons

{ "AnalyzeDocumentModelVersion": "string", "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DocumentMetadata": { "Pages": number }, "HumanLoopActivationOutput": { "HumanLoopActivationConditionsEvaluationResults": "string", "HumanLoopActivationReasons": [ "string" ], "HumanLoopArn": "string" } }

Elemen Respons

Jika tindakan berhasil, layanan mengirimkan kembali respons HTTP 200.

Layanan mengembalikan data berikut dalam format JSON.

AnalyzeDocumentModelVersion

Versi model yang digunakan untuk menganalisis dokumen.

Jenis: String

Blocks

Item yang terdeteksi dan dianalisis olehAnalyzeDocument.

Jenis: ArrayBlockobjek

DocumentMetadata

Metadata tentang dokumen yang dianalisis. Contohnya adalah jumlah halaman.

Tipe: Objek DocumentMetadata

HumanLoopActivationOutput

Menunjukkan hasil yang menunjukkan manusia dalam evaluasi loop.

Tipe: Objek HumanLoopActivationOutput

Kesalahan

AccessDeniedException

Anda tidak berwenang untuk melakukan tindakan. Gunakan Amazon Resource Name (ARN) dari pengguna resmi atau IAM role untuk melakukan operasi.

Kode Status HTTP: 400

BadDocumentException

Amazon Textract tidak dapat membaca dokumen. Untuk informasi selengkapnya tentang batas dokumen di Amazon Textract, lihatBatas Keras di Amazon Textract.

Kode Status HTTP: 400

DocumentTooLargeException

Dokumen tidak dapat diproses karena terlalu besar. Ukuran dokumen maksimum untuk operasi sinkron 10 MB. Ukuran dokumen maksimum untuk operasi asinkron adalah 500 MB untuk file PDF.

Kode Status HTTP: 400

HumanLoopQuotaExceededException

Menunjukkan bahwa Anda telah melebihi jumlah maksimum manusia aktif dalam alur kerja loop yang tersedia

Kode Status HTTP: 400

InternalServerError

Amazon Textract Texact mengalami masalah layanan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

InvalidParameterException

Parameter input melanggar batasan. Misalnya, dalam operasi sinkron, sebuahInvalidParameterExceptionpengecualian terjadi ketika salah satuS3ObjectatauBytesnilai-nilai yang disediakan dalamDocumentparameter permintaan. Validasi parameter Anda sebelum memanggil operasi API lagi.

Kode Status HTTP: 400

InvalidS3ObjectException

Amazon Textract Texact tidak dapat mengakses objek S3 yang ditentukan dalam permintaan. untuk informasi selengkapnya,Konfigurasi Akses ke Amazon S3Untuk informasi pemecahan masalah, lihatPemecahan Masalah Amazon S3

Kode Status HTTP: 400

ProvisionedThroughputExceededException

Jumlah permintaan melebihi batas throughput Anda. Jika Anda ingin meningkatkan batas ini, hubungi Amazon Textract.

Kode Status HTTP: 400

ThrottlingException

Amazon Textract Texact untuk sementara tidak dapat memproses permintaan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

UnsupportedDocumentException

Format dokumen input tidak didukung. Dokumen untuk operasi dapat dalam format PNG, JPEG, PDF, atau TIFF.

Kode Status HTTP: 400

Lihat Juga

Untuk informasi selengkapnya tentang penggunaan API di salah satu bahasa khususAWSSDK, lihat yang berikut ini: