Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Masukan untuk analisis kustom real-time
Analisis real-time menggunakan model kustom mengambil satu dokumen sebagai input. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan.
Topik
Dokumen teks biasa
Berikan dokumen input sebagai teks berformat UTF-8.
Dokumen semi-terstruktur
Dokumen semi-terstruktur termasuk dokumen PDF asli dan dokumen Word.
Secara default, analisis kustom real-time menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat Mengatur opsi ekstraksi teks.
File gambar dan file PDF yang dipindai
Jenis gambar yang didukung termasuk JPEG, PNG, dan TIFF.
Secara default, pengenalan entitas kustom menggunakan operasi Amazon Textract DetectDocumentText
API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi AnalyzeDocument
API sebagai gantinya. Lihat Mengatur opsi ekstraksi teks.
Keluaran Amazon Texttract
Anda dapat memberikan output JSON dari Amazon DetectDocumentText
Textract API AnalyzeDocument
atau API sebagai input ke operasi API real-time untuk klasifikasi kustom dan pengenalan entitas kustom. Amazon Comprehend mendukung jenis input ini untuk operasi API real-time, tetapi tidak untuk konsol.
Ukuran dokumen maksimum untuk analisis waktu nyata
Untuk semua jenis dokumen input, maksimum file input adalah satu halaman, dengan tidak lebih dari 10.000 karakter.
Tabel berikut menunjukkan ukuran file maksimum untuk dokumen masukan.
Tipe file | Ukuran maksimum (API) | Ukuran maksimum (konsol) |
---|---|---|
Dokumen teks UTF-8 | 10 KB | 10 KB |
Dokumen PDF | 10 MB | 5 MB |
Dokumen Word | 10 MB | 1 MB |
File gambar | 10 MB | 5 MB |
File keluaran Textract | 1 MB | T/A |
Kesalahan dalam dokumen semi-terstruktur
Operasi ClassifyDocumentatau DetectEntitiesAPI dapat mengalami kesalahan tingkat dokumen atau tingkat halaman saat mengekstrak teks dari dokumen semi-terstruktur atau file gambar.
Kesalahan tingkat halaman
Jika operasi ClassifyDocumentatau DetectEntitiesAPI mengalami kesalahan saat memproses halaman dalam dokumen input, respons API menyertakan entri dalam daftar Kesalahan untuk setiap kesalahan.
Entri ErrorCode
dalam daftar kesalahan berisi salah satu nilai berikut:
-
TEXTRACT_BAD_PAGE - Amazon Texttract tidak dapat membaca halaman. Untuk informasi selengkapnya tentang batas halaman di Amazon Textract, lihat Kuota Halaman di Amazon Textract.
-
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED — Jumlah permintaan melebihi batas throughput Anda. Untuk informasi selengkapnya tentang kuota throughput di Amazon Textract, lihat Kuota default di Amazon Ttract.
-
PAGE_CHARACTERS_EXCEEDED - Terlalu banyak karakter teks pada halaman (maksimum 10.000 karakter).
-
PAGE_SIZE_EXCEEDED — Ukuran halaman maksimum adalah 10 MB.
-
INTERNAL_SERVER_ERROR — Permintaan mengalami masalah layanan. Coba permintaan API lagi.
Kesalahan tingkat dokumen
Jika operasi ClassifyDocumentatau DetectEntitiesAPI mendeteksi kesalahan tingkat dokumen dalam dokumen masukan Anda, API akan menampilkan respons kesalahan. InvalidRequestException
Dalam respons kesalahan, Reason bidang berisi nilaiINVALID_DOCUMENT
.
DetailBidang berisi salah satu nilai berikut:
-
DOCUMENT_SIZE_EXCEEDED — Ukuran dokumen terlalu besar. Periksa ukuran file Anda dan kirimkan kembali permintaan.
-
UNSUPPORTED_DOC_TYPE - Jenis dokumen tidak didukung. Periksa jenis file dan kirimkan kembali permintaan.
-
PAGE_LIMIT_EXCEEDED — Terlalu banyak halaman dalam dokumen. Periksa jumlah halaman dalam file Anda dan kirimkan kembali permintaan.
-
TEXTRACT_ACCESS_DENIED_EXCEPTION - Akses ditolak ke Amazon Texttract. Verifikasi bahwa akun Anda memiliki izin untuk menggunakan operasi Amazon Textract DetectDocumentTextdan AnalyzeDocumentAPI dan mengirimkan kembali permintaan tersebut.