Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
AnalyzeDocument
Menganalisis dokumen masukan untuk hubungan antara item yang terdeteksi.
Jenis informasi yang dikembalikan adalah sebagai berikut:
-
Data formulir (pasangan nilai kunci). Informasi terkait dikembalikan dalam duaBlockobjek, masing-masing jenis
KEY_VALUE_SET
: KUNCIBlock
objek dan NILAIBlock
objek. Misalnya,Nama: Ana Silvaberisi kunci dan nilai. Nama:adalah kuncinya. Ana Silvaadalah nilai. -
Tabel dan data sel tabel. TABEL
Block
objek berisi informasi tentang tabel terdeteksi. SELBlock
objek dikembalikan untuk setiap sel dalam tabel. -
Garis dan kata-kata teks. GARIS
Block
objek berisi satu atau lebih WORDBlock
objek. Semua baris dan kata-kata yang terdeteksi dalam dokumen dikembalikan (termasuk teks yang tidak memiliki hubungan dengan nilaiFeatureTypes
).
Elemen seleksi seperti kotak centang dan tombol opsi (tombol radio) dapat dideteksi dalam data formulir dan dalam tabel. SELECTION_ELEMENTBlock
objek berisi informasi tentang elemen seleksi, termasuk status seleksi.
Anda dapat memilih jenis analisis yang akan dilakukan dengan menentukanFeatureTypes
daftar.
Output dikembalikan dalam daftarBlock
objek.
AnalyzeDocument
adalah operasi tersinkron. Untuk menganalisis dokumen secara asinkron, gunakanStartDocumentAnalysis.
Untuk informasi selengkapnya, lihatAnalisis Teks Dokumen.
Sintaksis Permintaan
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
Parameter Permintaan
Permintaan menerima data berikut dalam format JSON.
- Document
-
Dokumen input sebagai byte yang dikodekan base64 atau objek Amazon S3. Jika Anda menggunakan AWS CLI untuk memanggil operasi Amazon Textract, Anda tidak dapat meneruskan byte citra. Dokumen harus berupa gambar dalam format JPEG, PNG, PDF, atau TIFF.
Jika Anda menggunakan AWS SDK untuk memanggil Amazon Textract, Anda mungkin tidak perlu byte citra yang dikodekan base64 yang diteruskan menggunakan
Bytes
bidang.Tipe: Objek Document
Diperlukan: Ya
- FeatureTypes
-
Daftar jenis analisis untuk melakukan. Tambahkan TABEL ke daftar untuk mengembalikan informasi tentang tabel yang terdeteksi dalam dokumen input. Tambahkan FORMS untuk mengembalikan data formulir yang terdeteksi. Untuk melakukan kedua jenis analisis, tambahkan TABEL dan FORM ke
FeatureTypes
. Semua baris dan kata yang terdeteksi dalam dokumen disertakan dalam respons (termasuk teks yang tidak terkait dengan nilaiFeatureTypes
).Jenis: Array string
Nilai Valid:
TABLES | FORMS
Diperlukan: Ya
- HumanLoopConfig
-
Menetapkan konfigurasi untuk manusia dalam alur kerja loop untuk menganalisis dokumen.
Tipe: Objek HumanLoopConfig
Diperlukan: Tidak
Sintaksis Respons
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
Elemen Respons
Jika tindakan berhasil, layanan mengirimkan kembali respons HTTP 200.
Layanan mengembalikan data berikut dalam format JSON.
- AnalyzeDocumentModelVersion
-
Versi model yang digunakan untuk menganalisis dokumen.
Jenis: String
- Blocks
-
Item yang terdeteksi dan dianalisis oleh
AnalyzeDocument
.Jenis: ArrayBlockobjek
- DocumentMetadata
-
Metadata tentang dokumen yang dianalisis. Contohnya adalah jumlah halaman.
Tipe: Objek DocumentMetadata
- HumanLoopActivationOutput
-
Menunjukkan hasil yang menunjukkan manusia dalam evaluasi loop.
Tipe: Objek HumanLoopActivationOutput
Kesalahan
- AccessDeniedException
-
Anda tidak berwenang untuk melakukan tindakan. Gunakan Amazon Resource Name (ARN) dari pengguna resmi atau IAM role untuk melakukan operasi.
Kode Status HTTP: 400
- BadDocumentException
-
Amazon Textract tidak dapat membaca dokumen. Untuk informasi selengkapnya tentang batas dokumen di Amazon Textract, lihatBatas Keras di Amazon Textract.
Kode Status HTTP: 400
- DocumentTooLargeException
-
Dokumen tidak dapat diproses karena terlalu besar. Ukuran dokumen maksimum untuk operasi sinkron 10 MB. Ukuran dokumen maksimum untuk operasi asinkron adalah 500 MB untuk file PDF.
Kode Status HTTP: 400
- HumanLoopQuotaExceededException
-
Menunjukkan bahwa Anda telah melebihi jumlah maksimum manusia aktif dalam alur kerja loop yang tersedia
Kode Status HTTP: 400
- InternalServerError
-
Amazon Textract Texact mengalami masalah layanan. Coba lagi panggilan Anda.
Kode Status HTTP: 500
- InvalidParameterException
-
Parameter input melanggar batasan. Misalnya, dalam operasi sinkron, sebuah
InvalidParameterException
pengecualian terjadi ketika salah satuS3Object
atauBytes
nilai-nilai yang disediakan dalamDocument
parameter permintaan. Validasi parameter Anda sebelum memanggil operasi API lagi.Kode Status HTTP: 400
- InvalidS3ObjectException
-
Amazon Textract Texact tidak dapat mengakses objek S3 yang ditentukan dalam permintaan. untuk informasi selengkapnya,Konfigurasi Akses ke Amazon S3Untuk informasi pemecahan masalah, lihatPemecahan Masalah Amazon S3
Kode Status HTTP: 400
- ProvisionedThroughputExceededException
-
Jumlah permintaan melebihi batas throughput Anda. Jika Anda ingin meningkatkan batas ini, hubungi Amazon Textract.
Kode Status HTTP: 400
- ThrottlingException
-
Amazon Textract Texact untuk sementara tidak dapat memproses permintaan. Coba lagi panggilan Anda.
Kode Status HTTP: 500
- UnsupportedDocumentException
-
Format dokumen input tidak didukung. Dokumen untuk operasi dapat dalam format PNG, JPEG, PDF, atau TIFF.
Kode Status HTTP: 400
Lihat Juga
Untuk informasi selengkapnya tentang penggunaan API di salah satu bahasa khususAWSSDK, lihat yang berikut ini: