Dokumen teks biasa Semi-structured dokumen File gambar dan file PDF yang dipindai Keluaran Amazon Texttract Ukuran dokumen maksimum untuk analisis waktu nyata Kesalahan dalam dokumen semi-terstruktur

Masukan untuk analisis kustom real-time

Real-time analisis menggunakan model kustom mengambil satu dokumen sebagai input. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan.

Topik

Dokumen teks biasa
Semi-structured dokumen
File gambar dan file PDF yang dipindai
Keluaran Amazon Texttract
Ukuran dokumen maksimum untuk analisis waktu nyata
Kesalahan dalam dokumen semi-terstruktur

Dokumen teks biasa

Berikan dokumen input sebagai UTF-8-formatted teks.

Semi-structured dokumen

Semi-structured dokumen termasuk dokumen PDF asli dan dokumen Word.

Secara default, analisis kustom real-time menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat Mengatur opsi ekstraksi teks.

File gambar dan file PDF yang dipindai

Jenis gambar yang didukung termasuk JPEG, PNG, dan TIFF.

Secara default, pengenalan entitas kustom menggunakan operasi Amazon Textract DetectDocumentText API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi AnalyzeDocument API sebagai gantinya. Lihat Mengatur opsi ekstraksi teks.

Keluaran Amazon Texttract

Anda dapat memberikan output JSON dari Amazon DetectDocumentText Textract API AnalyzeDocument atau API sebagai input ke operasi API real-time untuk klasifikasi kustom dan pengenalan entitas kustom. Amazon Comprehend mendukung jenis input ini untuk operasi API real-time, tetapi tidak untuk konsol.

Ukuran dokumen maksimum untuk analisis waktu nyata

Untuk semua jenis dokumen input, maksimum file input adalah satu halaman, dengan tidak lebih dari 10.000 karakter.

Tabel berikut menunjukkan ukuran file maksimum untuk dokumen masukan.

Tipe file	Ukuran maksimum (API)	Ukuran maksimum (konsol)
UTF-8 dokumen teks	10 KB	10 KB
Dokumen PDF	10 MB	5 MB
Dokumen Word	10 MB	1 MB
File gambar	10 MB	5 MB
File keluaran Textract	1 MB	n/a

Kesalahan dalam dokumen semi-terstruktur

Operasi ClassifyDocumentatau DetectEntitiesAPI dapat mengalami kesalahan tingkat dokumen atau tingkat halaman saat mengekstrak teks dari dokumen semi-terstruktur atau file gambar.

Page-level kesalahan

Jika operasi ClassifyDocumentatau DetectEntitiesAPI mengalami kesalahan saat memproses halaman dalam dokumen input, respons API menyertakan entri dalam daftar Kesalahan untuk setiap kesalahan.

Entri ErrorCode dalam daftar kesalahan berisi salah satu nilai berikut:

TEXTRACT_BAD_PAGE - Amazon Texttract tidak dapat membaca halaman. Untuk informasi selengkapnya tentang batas halaman di Amazon Textract, lihat Kuota Halaman di Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Jumlah permintaan melebihi batas throughput Anda. Untuk informasi selengkapnya tentang kuota throughput di Amazon Textract, lihat Kuota default di Amazon Ttract.
PAGE_CHARACTERS_EXCEEDED - Terlalu banyak karakter teks pada halaman (maksimum 10.000 karakter).
PAGE_SIZE_EXCEEDED — Ukuran halaman maksimum adalah 10 MB.
INTERNAL_SERVER_ERROR — Permintaan mengalami masalah layanan. Coba permintaan API lagi.

Document-level kesalahan

Jika operasi ClassifyDocumentatau DetectEntitiesAPI mendeteksi kesalahan tingkat dokumen dalam dokumen masukan Anda, API akan menampilkan respons kesalahan. InvalidRequestException

Dalam respons kesalahan, Reason bidang berisi nilaiINVALID_DOCUMENT.

DetailBidang berisi salah satu nilai berikut:

DOCUMENT_SIZE_EXCEEDED — Ukuran dokumen terlalu besar. Periksa ukuran file Anda dan kirimkan kembali permintaan.
UNSUPPORTED_DOC_TYPE - Jenis dokumen tidak didukung. Periksa jenis file dan kirim ulang permintaan.
PAGE_LIMIT_EXCEEDED — Terlalu banyak halaman dalam dokumen. Periksa jumlah halaman dalam file Anda dan kirimkan kembali permintaan.
TEXTRACT_ACCESS_DENIED_EXCEPTION - Akses ditolak ke Amazon Texttract. Verifikasi bahwa akun Anda memiliki izin untuk menggunakan operasi Amazon Textract DetectDocumentTextdan AnalyzeDocumentAPI dan mengirimkan kembali permintaan tersebut.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pemrosesan dokumen

Masukan untuk analisis asinkron