Menghitung persyaratan penyimpanan - OpenSearch Layanan Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menghitung persyaratan penyimpanan

Sebagian besar OpenSearch beban kerja termasuk dalam salah satu dari dua kategori besar:

  • Indeks berumur panjang: Anda menulis kode yang memproses data menjadi satu atau lebih OpenSearch indeks dan kemudian memperbarui indeks tersebut secara berkala saat data sumber berubah. Beberapa contoh umum adalah situs web, dokumen, dan pencarian e-commerce.

  • Indeks bergulir: Data terus mengalir ke satu set indeks sementara, dengan periode pengindeksan dan jendela retensi (seperti sekumpulan indeks harian yang dipertahankan selama dua minggu). Beberapa contoh umum adalah analitik log, pemrosesan seri waktu, dan analitik aliran klik.

Untuk beban kerja indeks berumur panjang, Anda dapat memeriksa sumber data pada disk dan dengan mudah menentukan berapa banyak ruang penyimpanan mengonsumsinya. Jika data berasal dari berbagai sumber, cukup tambahkan sumber tersebut bersama-sama.

Untuk indeks bergulir, Anda dapat mengalikan jumlah data yang dihasilkan selama periode waktu yang representatif dengan periode retensi. Misalnya, jika Anda menghasilkan 200 MiB data log per jam, itu adalah 4,7 GiB per hari, yaitu 66 GiB data pada waktu tertentu jika Anda memiliki periode retensi dua minggu.

Namun, ukuran data sumber Anda hanyalah salah satu aspek dari kebutuhan penyimpanan Anda. Anda juga harus mempertimbangkan hal berikut:

  • Jumlah replika: Setiap replika adalah salinan lengkap dari pecahan primer, ukuran penyimpanan indeks menunjukkan ukuran yang diambil oleh pecahan primer dan replika. Secara default, setiap OpenSearch indeks memiliki satu replika. Kami merekomendasikan setidaknya satu replika untuk mencegah kehilangan data. Replika juga meningkatkan performa pencarian, sehingga Anda mungkin ingin replika lebih banyak jika Anda memiliki beban kerja baca-berat. Gunakan PUT /my-index/_settings untuk memperbarui pengaturan number_of_replicas untuk indeks Anda.

  • OpenSearch overhead pengindeksan: Ukuran indeks pada disk bervariasi. Ukuran total data sumber ditambah indeks seringkali 110% dari sumber, dengan indeks hingga 10% dari data sumber. Setelah mengindeks data, Anda dapat menggunakan pri.store.size nilai _cat/indices?v API dan untuk menghitung overhead yang tepat. _cat/allocation?vjuga memberikan ringkasan yang berguna.

  • Ruang cadangan sistem operasi yang disediakan: Secara default, Linux mencadangkan 5% dari sistem file untuk root pengguna guna proses kritis, pemulihan sistem, dan untuk melindungi terhadap masalah fragmentasi disk.

  • OpenSearch Layanan overhead: OpenSearch Layanan mencadangkan 20% dari ruang penyimpanan setiap instans (hingga 20 GiB) untuk penggabungan segmen, log, dan operasi internal lainnya.

    Karena maksimum 20 GiB ini, jumlah total ruang yang dicadangkan dapat bervariasi secara dramatis tergantung pada jumlah instans di domain Anda. Sebagai contoh, sebuah domain mungkin memiliki tiga instans m6g.xlarge.search, masing-masing dengan 500 GIB ruang penyimpanan, dengan total 1,46 TiB. Dalam hal ini, total ruang yang dicadangkan hanya 60 GiB. Domain lainnya mungkin memiliki 10 instans m3.medium.search, masing-masing dengan 100 GIB ruang penyimpanan, dengan total 0,98 TiB. Di sini, total ruang yang dicadangkan adalah 200 GiB, meskipun domain pertama adalah 50% lebih besar.

    Dalam rumus berikut, kami menerapkan perkiraan “kasus terburuk” untuk overhead. Perkiraan ini mencakup ruang kosong tambahan untuk membantu meminimalkan dampak kegagalan node dan pemadaman Availability Zone.

Singkatnya, jika Anda memiliki 66 GiB data pada waktu tertentu dan ingin satu replika, persyaratan penyimpanan minimum lebih dekat dengan 66 * 2 * 1.1 / 0.95 / 0.8 = 191 GiB. Anda dapat menggeneralisasi perhitungan ini sebagai berikut:

Data sumber* (1 + jumlah replika) * (1 + overhead pengindeksan)/(1 - Ruang cadangan Linux)/(1 - Overhead OpenSearch layanan) = persyaratan penyimpanan minimum

Atau Anda dapat menggunakan versi yang disederhanakan ini:

Sumber data* (1 + jumlah replika) * 1,45 = persyaratan penyimpanan minimum

Ruang penyimpanan yang tidak mencukupi adalah salah satu penyebab paling umum dari ketidakstabilan cluster. Jadi, Anda harus memeriksa ulang angka ketika Anda memilih jenis instance, jumlah instance, dan volume penyimpanan.

Pertimbangan penyimpanan lainnya ada: