Mengkonfigurasi AWS DataSync transfer dengan cluster HDFS - AWS DataSync

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi AWS DataSync transfer dengan cluster HDFS

Dengan AWS DataSync, Anda dapat mentransfer data antara cluster Hadoop Distributed File System (HDFS) dan salah satu layanan penyimpanan berikut: AWS

Untuk mengatur transfer semacam ini, Anda membuat lokasi untuk klaster HDFS Anda. Anda dapat menggunakan lokasi ini sebagai sumber transfer atau tujuan.

Menyediakan DataSync akses ke cluster HDFS

Untuk terhubung ke klaster HDFS Anda, DataSync gunakan agen yang Anda gunakan sedekat mungkin ke klaster HDFS Anda. DataSyncAgen bertindak sebagai klien HDFS dan berkomunikasi dengan NameNodes dan DataNodes di cluster Anda.

Saat Anda memulai tugas transfer, DataSync NameNode kueri lokasi file dan folder di cluster. Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi sumber, DataSync baca file dan data folder dari klaster Anda dan salin data tersebut ke tujuan. DataNodes Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi tujuan, maka DataSync tulis file dan folder dari sumber ke DataNodes cluster Anda.

Autentikasi

Saat menghubungkan ke cluster HDFS, DataSync mendukung otentikasi sederhana atau otentikasi Kerberos. Untuk menggunakan otentikasi sederhana, berikan nama pengguna pengguna dengan hak untuk membaca dan menulis ke cluster HDFS. Untuk menggunakan otentikasi Kerberos, berikan file konfigurasi Kerberos, file tabel kunci Kerberos (keytab), dan nama utama Kerberos. Kredensyal kepala sekolah Kerberos harus ada dalam file keytab yang disediakan.

Enkripsi

Saat menggunakan otentikasi Kerberos, DataSync mendukung enkripsi data seperti yang ditransmisikan antara DataSync agen dan cluster HDFS Anda. Enkripsi data Anda dengan menggunakan pengaturan konfigurasi Quality of Protection (QOP) pada klaster HDFS Anda dan dengan menentukan pengaturan QOP saat membuat lokasi HDFS Anda. Konfigurasi QOP mencakup pengaturan untuk perlindungan transfer data dan perlindungan Remote Procedure Call (RPC).

DataSync mendukung jenis enkripsi Kerberos berikut:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Anda juga dapat mengonfigurasi cluster HDFS untuk enkripsi saat istirahat menggunakan Transparent Data Encryption (TDE). Saat menggunakan otentikasi sederhana, DataSync baca dan tulis ke cluster yang mendukung TDE. Jika Anda menggunakan DataSync untuk menyalin data ke cluster yang mendukung TDE, pertama-tama konfigurasikan zona enkripsi pada klaster HDFS. DataSync tidak membuat zona enkripsi.

Fitur HDFS yang tidak didukung

Kemampuan HDFS berikut saat ini tidak didukung oleh DataSync:

  • Enkripsi Data Transparan (TDE) saat menggunakan otentikasi Kerberos

  • Mengkonfigurasi beberapa NameNodes

  • Hadoop HDFS melalui HTTP (HTTPFS)

  • Daftar kontrol akses POSIX () ACLs

  • Atribut diperluas HDFS (xattrs)

  • Cluster HDFS menggunakan Apache HBase

Membuat lokasi transfer HDFS Anda

Anda dapat menggunakan lokasi Anda sebagai sumber atau tujuan untuk DataSync transfer Anda.

Sebelum memulai: Verifikasi konektivitas jaringan antara agen Anda dan klaster Hadoop dengan melakukan hal berikut:

  1. Buka AWS DataSync konsol di https://console.aws.amazon.com/datasync/.

  2. Di panel navigasi kiri, perluas Transfer data, lalu pilih Lokasi dan Buat lokasi.

  3. Untuk jenis Lokasi, pilih Hadoop Distributed File System (HDFS).

    Anda dapat mengonfigurasi lokasi ini sebagai sumber atau tujuan nanti.

  4. Untuk Agen, pilih agen yang dapat terhubung ke klaster HDFS Anda.

    Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat Menggunakan beberapa DataSync agen.

  5. Untuk NameNode, berikan nama domain atau alamat IP utama NameNode klaster HDFS Anda.

  6. Untuk Folder, masukkan folder di cluster HDFS Anda yang DataSync ingin Anda gunakan untuk transfer data.

    Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.

  7. Untuk mengatur ukuran blok atau faktor replikasi, pilih Pengaturan tambahan.

    Ukuran blok default adalah 128 MiB. Ukuran blok yang Anda berikan harus kelipatan 512 byte.

    Faktor replikasi default adalah tiga DataNodes saat mentransfer ke cluster HDFS.

  8. Di bagian Keamanan, pilih jenis Otentikasi yang digunakan pada klaster HDFS Anda.

    • Sederhana — Untuk Pengguna, tentukan nama pengguna dengan izin berikut pada klaster HDFS (tergantung pada kasus penggunaan Anda):

      • Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi sumber, tentukan pengguna yang hanya memiliki izin baca.

      • Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi tujuan, tentukan pengguna yang memiliki izin membaca dan menulis.

      Secara opsional, tentukan URI Server Manajemen Kunci (KMS) dari cluster HDFS Anda.

    • Kerberos — Tentukan Kerberos Principal dengan akses ke cluster HDFS Anda. Selanjutnya, berikan KeyTab file yang berisi prinsipal Kerberos yang disediakan. Kemudian, berikan file konfigurasi Kerberos. Terakhir, tentukan jenis enkripsi dalam perlindungan transit di daftar dropdown perlindungan RPC dan perlindungan transfer data.

  9. (Opsional) Pilih Tambahkan tag untuk menandai lokasi HDFS Anda.

    Tag adalah pasangan nilai kunci yang membantu Anda mengelola, memfilter, dan mencari lokasi Anda. Sebaiknya buat setidaknya tag nama untuk lokasi Anda.

  10. Pilih Buat lokasi.

  1. Salin create-location-hdfs perintah berikut.

    aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \ --authentication-type "SIMPLE|KERBEROS" \ --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \ --subdirectory "/path/to/my/data"
  2. Untuk --name-nodes parameternya, tentukan nama host atau alamat IP primer klaster HDFS Anda NameNode dan port TCP yang NameNode sedang didengarkan.

  3. Untuk --authentication-type parameter, tentukan jenis otentikasi yang akan digunakan saat menghubungkan ke cluster Hadoop. Anda dapat menentukan SIMPLE atau KERBEROS.

    Jika Anda menggunakan SIMPLE otentikasi, gunakan --simple-user parameter untuk menentukan nama pengguna pengguna. Jika Anda menggunakan KERBEROS otentikasi, gunakan--kerberos-principal,--kerberos-keytab, dan --kerberos-krb5-conf parameter. Untuk informasi selengkapnya, lihat create-location-hdfs.

  4. Untuk --agent-arns parameternya, tentukan ARN DataSync agen yang dapat terhubung ke cluster HDFS Anda.

    Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat Menggunakan beberapa DataSync agen.

  5. (Opsional) Untuk --subdirectory parameter, tentukan folder di cluster HDFS Anda yang ingin Anda gunakan DataSync untuk transfer data.

    Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.

  6. Jalankan perintah create-location-hdfs.

    Jika perintah berhasil, Anda mendapatkan respons yang menunjukkan ARN dari lokasi yang Anda buat. Sebagai contoh:

    { "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example" }