DetectDocumentText - Amazon Textract

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

DetectDocumentText

Mendeteksi teks dalam dokumen input. Amazon Textract dapat mendeteksi baris teks dan kata-kata yang membentuk baris teks. Dokumen input harus berupa gambar dalam format JPEG, PNG, PDF, atau TIFF.DetectDocumentTextmengembalikan teks terdeteksi dalam arrayBlockobjek.

Setiap halaman dokumen memiliki sebagai terkaitBlockjenis HALAMAN. Setiap HALAMANBlockobjek adalah induk dari LINEBlockobjek yang mewakili baris teks terdeteksi pada halaman. GARISBlockobjek adalah orang tua untuk setiap kata yang membentuk baris. Kata-kata diwakili olehBlockobjek tipe WORD.

DetectDocumentText adalah operasi tersinkron. Untuk menganalisis dokumen secara asinkron, gunakanStartDocumentTextDetection.

Untuk informasi selengkapnya, lihatPendeteksi Teks Dokumen.

Sintaksis Permintaan

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

Parameter Permintaan

Permintaan menerima data berikut dalam format JSON.

Document

Dokumen input sebagai byte yang dikodekan base64 atau objek Amazon S3. Jika Anda menggunakan AWS CLI untuk memanggil operasi Amazon Textract, Anda tidak dapat meneruskan byte citra. Dokumen harus berupa gambar dalam format JPEG atau PNG.

Jika Anda menggunakan AWS SDK untuk memanggil Amazon Textract, Anda mungkin tidak perlu byte citra yang dikodekan base64 yang diteruskan menggunakanBytesBidang.

Tipe: Objek Document

Diperlukan: Ya

Sintaksis Respons

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

Elemen Respons

Jika tindakan berhasil, layanan mengirimkan kembali respons HTTP 200.

Layanan mengembalikan data berikut dalam format JSON.

Blocks

Susunan rangkaianBlockobjek yang berisi teks yang terdeteksi dalam dokumen.

Jenis: ArrayBlockobjek

DetectDocumentTextModelVersion

Jenis: String

DocumentMetadata

Metadata tentang dokumen. Ini berisi jumlah halaman yang terdeteksi dalam dokumen.

Tipe: Objek DocumentMetadata

Kesalahan

AccessDeniedException

Anda tidak berwenang untuk melakukan tindakan. Gunakan Amazon Resource Name (ARN) dari pengguna resmi atau IAM role untuk melakukan operasi.

Kode Status HTTP: 400

BadDocumentException

Amazon Textract tidak dapat membaca dokumen. Untuk informasi selengkapnya tentang batas dokumen di Amazon Textract, lihatBatas Keras di Amazon Textract.

Kode Status HTTP: 400

DocumentTooLargeException

Dokumen tidak dapat diproses karena terlalu besar. Ukuran dokumen maksimum untuk operasi sinkron 10 MB. Ukuran dokumen maksimum untuk operasi asinkron adalah 500 MB untuk file PDF.

Kode Status HTTP: 400

InternalServerError

Amazon Textract Texact mengalami masalah layanan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

InvalidParameterException

Parameter input melanggar batasan. Misalnya, dalam operasi sinkron,InvalidParameterExceptionpengecualian terjadi ketika salah satuS3ObjectatauBytesnilai-nilai yang disediakan dalamDocumentparameter permintaan. Validasi parameter Anda sebelum memanggil operasi API lagi.

Kode Status HTTP: 400

InvalidS3ObjectException

Amazon Textract Texact tidak dapat mengakses objek S3 yang ditentukan dalam permintaan. untuk informasi selengkapnya,Konfigurasi Akses ke Amazon S3Untuk informasi pemecahan masalah, lihatPemecahan Masalah Amazon S3

Kode Status HTTP: 400

ProvisionedThroughputExceededException

Jumlah permintaan melebihi batas throughput Anda. Jika Anda ingin meningkatkan batas ini, hubungi Amazon Textract.

Kode Status HTTP: 400

ThrottlingException

Amazon Textract Texact untuk sementara tidak dapat memproses permintaan. Coba lagi panggilan Anda.

Kode Status HTTP: 500

UnsupportedDocumentException

Format dokumen input tidak didukung. Dokumen untuk operasi dapat dalam format PNG, JPEG, PDF, atau TIFF.

Kode Status HTTP: 400

Lihat Juga

Untuk informasi selengkapnya tentang penggunaan API ini di salah satu spesifik bahasaAWSSDK, lihat yang berikut ini: