Format file untuk analisis asinkron - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Format file untuk analisis asinkron

Saat Anda menjalankan analisis asinkron dengan model Anda, Anda memiliki pilihan format untuk dokumen masukan: One document per line atau. one document per file Format yang Anda gunakan tergantung pada jenis dokumen yang ingin Anda analisis, seperti yang dijelaskan dalam tabel berikut.

Deskripsi format

Input berisi banyak file. Setiap file berisi satu dokumen masukan. Format ini paling baik untuk koleksi dokumen besar, seperti artikel surat kabar atau makalah ilmiah.

Juga, gunakan format ini untuk dokumen semi-terstruktur (gambar,PDF, atau file Docx) menggunakan pengklasifikasi dokumen asli.

Satu dokumen per file

Input adalah satu atau lebih file. Setiap baris dalam file adalah dokumen input terpisah. Format ini paling baik untuk dokumen pendek, seperti pesan teks atau posting media sosial.

Satu dokumen per baris

Satu dokumen per file

Dengan one document per file format, setiap file mewakili satu dokumen input.

Satu dokumen per baris

Dengan One document per line format, setiap dokumen ditempatkan pada baris terpisah dan tidak ada header yang digunakan. Label tidak disertakan pada setiap baris (karena Anda belum tahu label untuk dokumen). Setiap baris file (akhir dokumen individual) harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Jangan gunakan pemisah garis UTF -8 (u+2028) untuk mengakhiri garis.

Contoh berikut menunjukkan format file input.

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

Untuk salah satu format, gunakan UTF -8 encoding untuk file teks. Setelah Anda menyiapkan file, letakkan di bucket S3 yang Anda gunakan untuk memasukkan data.

Saat memulai pekerjaan klasifikasi, Anda menentukan lokasi Amazon S3 ini untuk data input Anda. URIHarus berada di Wilayah yang sama dengan API titik akhir yang Anda panggil. URIDapat menunjuk ke satu file (seperti ketika menggunakan metode “satu dokumen per baris”, atau dapat menjadi awalan untuk kumpulan file data.

Misalnya, jika Anda menggunakan URIS3://bucketName/prefix, jika awalan adalah satu file, Amazon Comprehend menggunakan file tersebut sebagai input. Jika lebih dari satu file dimulai dengan awalan, Amazon Comprehend menggunakan semuanya sebagai input.

Berikan Amazon Comprehend akses ke bucket S3 yang berisi koleksi dokumen dan file keluaran Anda. Untuk informasi selengkapnya, lihat Izin berbasis peran yang diperlukan untuk operasi asinkron.