

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Masukan untuk analisis kustom real-time
<a name="idp-inputs-sync"></a>

Analisis real-time menggunakan model kustom mengambil satu dokumen sebagai input. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan.

**Topics**
+ [Dokumen teks biasa](#idp-inputs-sync-text)
+ [Dokumen semi-terstruktur](#idp-inputs-sync-semi)
+ [File gambar dan file PDF yang dipindai](#idp-inputs-sync-ocr)
+ [Keluaran Amazon Texttract](#idp-inputs-sync-textract)
+ [Ukuran dokumen maksimum untuk analisis waktu nyata](#idp-inputs-sync-sizes)
+ [Kesalahan dalam dokumen semi-terstruktur](#idp-inputs-sync-err)

## Dokumen teks biasa
<a name="idp-inputs-sync-text"></a>

Berikan dokumen input sebagai teks berformat UTF-8. 

## Dokumen semi-terstruktur
<a name="idp-inputs-sync-semi"></a>

Dokumen semi-terstruktur termasuk dokumen PDF asli dan dokumen Word. 

Secara default, analisis kustom real-time menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md).

## File gambar dan file PDF yang dipindai
<a name="idp-inputs-sync-ocr"></a>

Jenis gambar yang didukung termasuk JPEG, PNG, dan TIFF.

Secara default, pengenalan entitas kustom menggunakan operasi Amazon Textract `DetectDocumentText` API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi `AnalyzeDocument` API sebagai gantinya. Lihat [Mengatur opsi ekstraksi teks](idp-set-textract-options.md).

## Keluaran Amazon Texttract
<a name="idp-inputs-sync-textract"></a>

Anda dapat memberikan output JSON dari Amazon `DetectDocumentText` Textract API `AnalyzeDocument` atau API sebagai input ke operasi API real-time untuk klasifikasi kustom dan pengenalan entitas kustom. Amazon Comprehend mendukung jenis input ini untuk operasi API real-time, tetapi tidak untuk konsol.

## Ukuran dokumen maksimum untuk analisis waktu nyata
<a name="idp-inputs-sync-sizes"></a>

Untuk semua jenis dokumen input, maksimum file input adalah satu halaman, dengan tidak lebih dari 10.000 karakter.

Tabel berikut menunjukkan ukuran file maksimum untuk dokumen masukan. 


| Tipe file | Ukuran maksimum (API) | Ukuran maksimum (konsol) | 
| --- | --- | --- | 
| Dokumen teks UTF-8 | 10 KB | 10 KB | 
| Dokumen PDF | 10 MB | 5 MB | 
| Dokumen Word | 10 MB | 1 MB | 
| File gambar | 10 MB | 5 MB | 
| File keluaran Textract | 1 MB | T/A | 

## Kesalahan dalam dokumen semi-terstruktur
<a name="idp-inputs-sync-err"></a>

 Operasi [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)atau [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API dapat mengalami kesalahan tingkat dokumen atau tingkat halaman saat mengekstrak teks dari dokumen semi-terstruktur atau file gambar.

### Kesalahan tingkat halaman
<a name="idp-inputs-sync-page-err"></a>

 Jika operasi [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)atau [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API mengalami kesalahan saat memproses halaman dalam dokumen input, respons API menyertakan entri dalam [daftar Kesalahan](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ErrorsListItem.html) untuk setiap kesalahan.

Entri `ErrorCode` dalam daftar kesalahan berisi salah satu nilai berikut:
+ TEXTRACT\$1BAD\$1PAGE - Amazon Texttract tidak dapat membaca halaman. Untuk informasi selengkapnya tentang batas halaman di Amazon Textract, lihat [Kuota Halaman di Amazon Textract](https://docs.aws.amazon.com/textract/latest/dg/limits-document.html).
+ TEXTRACT\$1PROVISIONED\$1THROUGHPUT\$1EXCEEDED — Jumlah permintaan melebihi batas throughput Anda. Untuk informasi selengkapnya tentang kuota throughput di Amazon Textract, [lihat Kuota default di](https://docs.aws.amazon.com/textract/latest/dg/limits-quotas-explained.html) Amazon Ttract.
+ PAGE\$1CHARACTERS\$1EXCEEDED - Terlalu banyak karakter teks pada halaman (maksimum 10.000 karakter).
+ PAGE\$1SIZE\$1EXCEEDED — Ukuran halaman maksimum adalah 10 MB.
+ INTERNAL\$1SERVER\$1ERROR — Permintaan mengalami masalah layanan. Coba permintaan API lagi.

### Kesalahan tingkat dokumen
<a name="idp-inputs-sync-doc-err"></a>

Jika operasi [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)atau [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)API mendeteksi kesalahan tingkat dokumen dalam dokumen masukan Anda, API akan menampilkan respons kesalahan. `InvalidRequestException` 

Dalam respons kesalahan, **Reason** bidang berisi nilai`INVALID_DOCUMENT`. 

**Detail**Bidang berisi salah satu nilai berikut:
+ DOCUMENT\$1SIZE\$1EXCEEDED — Ukuran dokumen terlalu besar. Periksa ukuran file Anda dan kirimkan kembali permintaan.
+ UNSUPPORTED\$1DOC\$1TYPE - Jenis dokumen tidak didukung. Periksa jenis file dan kirimkan kembali permintaan.
+ PAGE\$1LIMIT\$1EXCEEDED — Terlalu banyak halaman dalam dokumen. Periksa jumlah halaman dalam file Anda dan kirimkan kembali permintaan.
+ TEXTRACT\$1ACCESS\$1DENIED\$1EXCEPTION - Akses ditolak ke Amazon Texttract. Verifikasi bahwa akun Anda memiliki izin untuk menggunakan operasi Amazon Textract [DetectDocumentText](https://docs.aws.amazon.com/textract/latest/dg/API_DetectDocumentText.html)dan [AnalyzeDocument](https://docs.aws.amazon.com/textract/latest/dg/API_AnalyzeDocument.html)API dan mengirimkan kembali permintaan tersebut.