Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
DetectDocumentText
Mendeteksi teks dalam dokumen input. Amazon Textract dapat mendeteksi baris teks dan kata-kata yang membentuk baris teks. Dokumen input harus berupa gambar dalam format JPEG, PNG, PDF, atau TIFF.DetectDocumentText
mengembalikan teks terdeteksi dalam arrayBlockobjek.
Setiap halaman dokumen memiliki sebagai terkaitBlock
jenis HALAMAN. Setiap HALAMANBlock
objek adalah induk dari LINEBlock
objek yang mewakili baris teks terdeteksi pada halaman. GARISBlock
objek adalah orang tua untuk setiap kata yang membentuk baris. Kata-kata diwakili olehBlock
objek tipe WORD.
DetectDocumentText
adalah operasi tersinkron. Untuk menganalisis dokumen secara asinkron, gunakanStartDocumentTextDetection.
Untuk informasi selengkapnya, lihatPendeteksi Teks Dokumen.
Sintaksis Permintaan
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
Parameter Permintaan
Permintaan menerima data berikut dalam format JSON.
- Document
-
Dokumen input sebagai byte yang dikodekan base64 atau objek Amazon S3. Jika Anda menggunakan AWS CLI untuk memanggil operasi Amazon Textract, Anda tidak dapat meneruskan byte citra. Dokumen harus berupa gambar dalam format JPEG atau PNG.
Jika Anda menggunakan AWS SDK untuk memanggil Amazon Textract, Anda mungkin tidak perlu byte citra yang dikodekan base64 yang diteruskan menggunakan
Bytes
Bidang.Tipe: Objek Document
Diperlukan: Ya
Sintaksis Respons
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Elemen Respons
Jika tindakan berhasil, layanan mengirimkan kembali respons HTTP 200.
Layanan mengembalikan data berikut dalam format JSON.
- Blocks
-
Susunan rangkaian
Block
objek yang berisi teks yang terdeteksi dalam dokumen.Jenis: ArrayBlockobjek
- DetectDocumentTextModelVersion
-
Jenis: String
- DocumentMetadata
-
Metadata tentang dokumen. Ini berisi jumlah halaman yang terdeteksi dalam dokumen.
Tipe: Objek DocumentMetadata
Kesalahan
- AccessDeniedException
-
Anda tidak berwenang untuk melakukan tindakan. Gunakan Amazon Resource Name (ARN) dari pengguna resmi atau IAM role untuk melakukan operasi.
Kode Status HTTP: 400
- BadDocumentException
-
Amazon Textract tidak dapat membaca dokumen. Untuk informasi selengkapnya tentang batas dokumen di Amazon Textract, lihatBatas Keras di Amazon Textract.
Kode Status HTTP: 400
- DocumentTooLargeException
-
Dokumen tidak dapat diproses karena terlalu besar. Ukuran dokumen maksimum untuk operasi sinkron 10 MB. Ukuran dokumen maksimum untuk operasi asinkron adalah 500 MB untuk file PDF.
Kode Status HTTP: 400
- InternalServerError
-
Amazon Textract Texact mengalami masalah layanan. Coba lagi panggilan Anda.
Kode Status HTTP: 500
- InvalidParameterException
-
Parameter input melanggar batasan. Misalnya, dalam operasi sinkron,
InvalidParameterException
pengecualian terjadi ketika salah satuS3Object
atauBytes
nilai-nilai yang disediakan dalamDocument
parameter permintaan. Validasi parameter Anda sebelum memanggil operasi API lagi.Kode Status HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract Texact tidak dapat mengakses objek S3 yang ditentukan dalam permintaan. untuk informasi selengkapnya,Konfigurasi Akses ke Amazon S3Untuk informasi pemecahan masalah, lihatPemecahan Masalah Amazon S3
Kode Status HTTP: 400
- ProvisionedThroughputExceededException
-
Jumlah permintaan melebihi batas throughput Anda. Jika Anda ingin meningkatkan batas ini, hubungi Amazon Textract.
Kode Status HTTP: 400
- ThrottlingException
-
Amazon Textract Texact untuk sementara tidak dapat memproses permintaan. Coba lagi panggilan Anda.
Kode Status HTTP: 500
- UnsupportedDocumentException
-
Format dokumen input tidak didukung. Dokumen untuk operasi dapat dalam format PNG, JPEG, PDF, atau TIFF.
Kode Status HTTP: 400
Lihat Juga
Untuk informasi selengkapnya tentang penggunaan API ini di salah satu spesifik bahasaAWSSDK, lihat yang berikut ini: