Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengkonfigurasi AWS DataSync transfer dengan cluster HDFS
Dengan AWS DataSync, Anda dapat mentransfer data antara cluster Hadoop Distributed File System (HDFS) dan salah satu layanan penyimpanan berikut: AWS
Untuk mengatur transfer semacam ini, Anda membuat lokasi untuk klaster HDFS Anda. Anda dapat menggunakan lokasi ini sebagai sumber transfer atau tujuan.
Menyediakan DataSync akses ke cluster HDFS
Untuk terhubung ke klaster HDFS Anda, DataSync gunakan agen yang Anda gunakan sedekat mungkin ke klaster HDFS Anda. DataSyncAgen bertindak sebagai klien HDFS dan berkomunikasi dengan NameNodes dan DataNodes di cluster Anda.
Saat Anda memulai tugas transfer, DataSync NameNode kueri lokasi file dan folder di cluster. Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi sumber, DataSync baca file dan data folder dari klaster Anda dan salin data tersebut ke tujuan. DataNodes Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi tujuan, maka DataSync tulis file dan folder dari sumber ke DataNodes cluster Anda.
Autentikasi
Saat menghubungkan ke cluster HDFS, DataSync mendukung otentikasi sederhana atau otentikasi Kerberos. Untuk menggunakan otentikasi sederhana, berikan nama pengguna pengguna dengan hak untuk membaca dan menulis ke cluster HDFS. Untuk menggunakan otentikasi Kerberos, berikan file konfigurasi Kerberos, file tabel kunci Kerberos (keytab), dan nama utama Kerberos. Kredensyal kepala sekolah Kerberos harus ada dalam file keytab yang disediakan.
Enkripsi
Saat menggunakan otentikasi Kerberos, DataSync mendukung enkripsi data seperti yang ditransmisikan antara DataSync agen dan cluster HDFS Anda. Enkripsi data Anda dengan menggunakan pengaturan konfigurasi Quality of Protection (QOP) pada klaster HDFS Anda dan dengan menentukan pengaturan QOP saat membuat lokasi HDFS Anda. Konfigurasi QOP mencakup pengaturan untuk perlindungan transfer data dan perlindungan Remote Procedure Call (RPC).
DataSync mendukung jenis enkripsi Kerberos berikut:
-
des-cbc-crc
-
des-cbc-md4
-
des-cbc-md5
-
des3-cbc-sha1
-
arcfour-hmac
-
arcfour-hmac-exp
-
aes128-cts-hmac-sha1-96
-
aes256-cts-hmac-sha1-96
-
aes128-cts-hmac-sha256-128
-
aes256-cts-hmac-sha384-192
-
camellia128-cts-cmac
-
camellia256-cts-cmac
Anda juga dapat mengonfigurasi cluster HDFS untuk enkripsi saat istirahat menggunakan Transparent Data Encryption (TDE). Saat menggunakan otentikasi sederhana, DataSync baca dan tulis ke cluster yang mendukung TDE. Jika Anda menggunakan DataSync untuk menyalin data ke cluster yang mendukung TDE, pertama-tama konfigurasikan zona enkripsi pada klaster HDFS. DataSync tidak membuat zona enkripsi.
Fitur HDFS yang tidak didukung
Kemampuan HDFS berikut saat ini tidak didukung oleh DataSync:
-
Enkripsi Data Transparan (TDE) saat menggunakan otentikasi Kerberos
-
Mengkonfigurasi beberapa NameNodes
-
Hadoop HDFS melalui HTTP (HTTPFS)
-
Daftar kontrol akses POSIX () ACLs
-
Atribut diperluas HDFS (xattrs)
-
Cluster HDFS menggunakan Apache HBase
Membuat lokasi transfer HDFS Anda
Anda dapat menggunakan lokasi Anda sebagai sumber atau tujuan untuk DataSync transfer Anda.
Sebelum memulai: Verifikasi konektivitas jaringan antara agen Anda dan klaster Hadoop dengan melakukan hal berikut:
-
Uji akses ke port TCP yang tercantum di Persyaratan jaringan untuk penyimpanan lokal, dikelola sendiri, cloud lainnya, dan edge.
-
Uji akses antara agen lokal Anda dan cluster Hadoop Anda. Untuk petunjuk, silakan lihat Memverifikasi koneksi agen Anda ke sistem penyimpanan Anda.
Buka AWS DataSync konsol di https://console.aws.amazon.com/datasync/
. -
Di panel navigasi kiri, perluas Transfer data, lalu pilih Lokasi dan Buat lokasi.
-
Untuk jenis Lokasi, pilih Hadoop Distributed File System (HDFS).
Anda dapat mengonfigurasi lokasi ini sebagai sumber atau tujuan nanti.
-
Untuk Agen, pilih agen yang dapat terhubung ke klaster HDFS Anda.
Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat Menggunakan beberapa DataSync agen.
-
Untuk NameNode, berikan nama domain atau alamat IP utama NameNode klaster HDFS Anda.
-
Untuk Folder, masukkan folder di cluster HDFS Anda yang DataSync ingin Anda gunakan untuk transfer data.
Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.
-
Untuk mengatur ukuran blok atau faktor replikasi, pilih Pengaturan tambahan.
Ukuran blok default adalah 128 MiB. Ukuran blok yang Anda berikan harus kelipatan 512 byte.
Faktor replikasi default adalah tiga DataNodes saat mentransfer ke cluster HDFS.
-
Di bagian Keamanan, pilih jenis Otentikasi yang digunakan pada klaster HDFS Anda.
-
Sederhana — Untuk Pengguna, tentukan nama pengguna dengan izin berikut pada klaster HDFS (tergantung pada kasus penggunaan Anda):
-
Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi sumber, tentukan pengguna yang hanya memiliki izin baca.
-
Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi tujuan, tentukan pengguna yang memiliki izin membaca dan menulis.
Secara opsional, tentukan URI Server Manajemen Kunci (KMS) dari cluster HDFS Anda.
-
-
Kerberos — Tentukan Kerberos Principal dengan akses ke cluster HDFS Anda. Selanjutnya, berikan KeyTab file yang berisi prinsipal Kerberos yang disediakan. Kemudian, berikan file konfigurasi Kerberos. Terakhir, tentukan jenis enkripsi dalam perlindungan transit di daftar dropdown perlindungan RPC dan perlindungan transfer data.
-
-
(Opsional) Pilih Tambahkan tag untuk menandai lokasi HDFS Anda.
Tag adalah pasangan nilai kunci yang membantu Anda mengelola, memfilter, dan mencari lokasi Anda. Sebaiknya buat setidaknya tag nama untuk lokasi Anda.
-
Pilih Buat lokasi.
-
Salin
create-location-hdfs
perintah berikut.aws datasync create-location-hdfs --name-nodes [{"Hostname":"
host1
", "Port":8020
}] \ --authentication-type "SIMPLE|KERBEROS
" \ --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example
] \ --subdirectory "/path/to/my/data
" -
Untuk
--name-nodes
parameternya, tentukan nama host atau alamat IP primer klaster HDFS Anda NameNode dan port TCP yang NameNode sedang didengarkan. -
Untuk
--authentication-type
parameter, tentukan jenis otentikasi yang akan digunakan saat menghubungkan ke cluster Hadoop. Anda dapat menentukanSIMPLE
atauKERBEROS
.Jika Anda menggunakan
SIMPLE
otentikasi, gunakan--simple-user
parameter untuk menentukan nama pengguna pengguna. Jika Anda menggunakanKERBEROS
otentikasi, gunakan--kerberos-principal
,--kerberos-keytab
, dan--kerberos-krb5-conf
parameter. Untuk informasi selengkapnya, lihat create-location-hdfs. -
Untuk
--agent-arns
parameternya, tentukan ARN DataSync agen yang dapat terhubung ke cluster HDFS Anda.Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat Menggunakan beberapa DataSync agen.
-
(Opsional) Untuk
--subdirectory
parameter, tentukan folder di cluster HDFS Anda yang ingin Anda gunakan DataSync untuk transfer data.Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.
-
Jalankan perintah
create-location-hdfs
.Jika perintah berhasil, Anda mendapatkan respons yang menunjukkan ARN dari lokasi yang Anda buat. Sebagai contoh:
{ "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example" }