Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Masukan untuk analisis kustom asinkron
Anda dapat memasukkan beberapa dokumen ke pekerjaan analisis asinkron kustom. Topik berikut menjelaskan jenis dokumen masukan yang dapat Anda gunakan. Ukuran file maksimum bervariasi tergantung pada jenis dokumen input.
Topik
Dokumen teks biasa
Berikan semua dokumen input teks biasa sebagai teks berformat UTF-8. Tabel berikut mencantumkan ukuran file maksimum dan pedoman lainnya.
catatan
Batasan ini berlaku ketika semua file input adalah teks biasa.
Deskripsi | Kuota/Pedoman |
---|---|
Ukuran file maksimum untuk satu dokumen per format file (Klasifikasi khusus) | 1 byte—10 MB |
Ukuran dokumen (Pengenalan entitas khusus) | 1 byte—1 MB |
Jumlah maksimum file, satu dokumen per file | 1.000.000 |
Jumlah baris maksimum, satu dokumen per baris (untuk semua file dalam permintaan) | 1.000.000 |
Ukuran korpus dokumen (semua dokumen dalam plaintext digabungkan) | 1 byte—5 GB |
Dokumen semi-terstruktur
Dokumen semi-terstruktur termasuk dokumen PDF asli dan dokumen Word.
Tabel berikut mencantumkan ukuran file maksimum dan pedoman lainnya.
Deskripsi | Kuota/Pedoman |
---|---|
Ukuran dokumen (PDF) | 1 byte—50 MB |
Ukuran dokumen (Docx) | 1 byte—5 MB |
Jumlah maksimum file | 500 |
Jumlah halaman maksimum untuk file PDF atau Docx | 100 |
Ukuran korpus dokumen setelah ekstraksi teks (plaintext, semua file digabungkan) | 1 byte—5 GB |
Secara default, analisis kustom menggunakan parser Amazon Comprehend untuk mengekstrak teks dari file Word dan file PDF digital. Untuk file PDF, Anda dapat mengganti default ini dan menggunakan Amazon Ttract untuk mengekstrak teks. Lihat Mengatur opsi ekstraksi teks.
File gambar dan file PDF yang dipindai
Analisis kustom mendukung gambar JPEG, PNG, dan TIFF.
Tabel berikut mencantumkan ukuran file maksimum untuk gambar. File PDF yang dipindai tunduk pada ukuran maksimum yang sama dengan file PDF asli.
Deskripsi | Kuota/Pedoman |
---|---|
Ukuran gambar (JPG atau PNG) | 1 byte—10 MB |
Ukuran gambar (TIFF) | 1 byte—10 MB. Maksimal satu halaman. |
Untuk informasi tambahan tentang gambar, lihatPraktik terbaik untuk gambar.
Secara default, Amazon Comprehend menggunakan operasi Amazon DetectDocumentText
Textract API untuk mengekstrak teks dari file gambar dan file PDF yang dipindai. Anda dapat mengganti default ini untuk menggunakan operasi AnalyzeDocument
API sebagai gantinya. Lihat Mengatur opsi ekstraksi teks.
File JSON keluaran Amazon Textract
Untuk pengenalan entitas kustom, tetapi bukan klasifikasi kustom, Anda dapat menyediakan file keluaran dari operasi Amazon Textract AnalyzeDocument
API sebagai input ke pekerjaan analisis.