Danau data roda gila - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Danau data roda gila

Saat Anda membuat flywheel, Amazon Comprehend membuat data lake di akun Anda untuk memuat semua data flywheel, seperti data input dan output yang diperlukan untuk versi model.

Amazon Comprehend membuat data lake di lokasi Amazon S3 yang Anda tentukan saat membuat flywheel. Anda dapat menentukan lokasi sebagai bucket Amazon S3 atau sebagai folder baru di bucket Amazon S3.

Struktur folder danau data

Saat Amazon Comprehend membuat data lake, ia mengatur struktur folder berikut di lokasi Amazon S3.

Awas

Amazon Comprehend mengelola organisasi dan konten folder data lake. Selalu gunakan operasi Amazon Comprehend API untuk memodifikasi folder data lake, atau flywheel Anda mungkin tidak beroperasi dengan benar.

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

Untuk melihat penilaian pelatihan versi model, lakukan langkah-langkah ini:

  1. Buka folder bernama Model Datasets di tingkat root danau data. Folder ini berisi subfolder untuk setiap versi model.

  2. Buka folder untuk versi model yang menarik.

  3. Buka folder bernama ModelStatsuntuk melihat statistik untuk model.

Pengelolaan data danau

Amazon Comprehend melakukan tugas-tugas berikut untuk mengelola data lake atas nama Anda:

  • Mendefinisikan struktur folder danau data dan menyerap kumpulan data ke dalam folder yang sesuai.

  • Mengelola dokumen input (seperti file teks dan file anotasi) yang diperlukan untuk melatih model.

  • Mengelola data keluaran pelatihan dan evaluasi yang terkait dengan setiap versi model.

  • Mengelola enkripsi untuk file yang disimpan di danau data.

Amazon Comprehend melakukan semua operasi pembuatan dan pembaruan data untuk data lake. Anda mempertahankan akses penuh ke data di danau data. Sebagai contoh:

  • Anda memiliki akses penuh ke isi danau data.

  • Data lake tetap tersedia setelah Anda menghapus flywheel.

  • Anda dapat mengonfigurasi log akses untuk bucket Amazon S3 yang berisi data lake.

  • Anda dapat memberikan kunci enkripsi untuk data. Anda menentukan ini saat Anda membuat flywheel.

Kami merekomendasikan praktik terbaik berikut:

  • Jangan menambahkan folder atau file Anda sendiri secara manual ke dalam data lake. Jangan memodifikasi atau menghapus file apa pun di data lake.

  • Selalu gunakan operasi pembuatan dan pembaruan Amazon Comprehend untuk menambahkan atau memodifikasi data di data lake. Misalnya, gunakan CreateDataset untuk memberikan pelatihan atau data pengujian dan StartFlywheelIteration untuk menghasilkan data evaluasi untuk versi model.

  • Struktur data lake dapat berkembang dari waktu ke waktu. Jangan membuat skrip hilir atau program yang bergantung secara eksplisit pada struktur data lake.

  • Saat Anda menyediakan lokasi data lake untuk flywheel, sebaiknya buat awalan umum untuk data yang terkait dengan semua flywheel atau menggunakan awalan berbeda untuk setiap flywheel. Kami tidak menyarankan menggunakan jalur data lake lengkap dari satu flywheel sebagai awalan untuk flywheel lainnya.