

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Mengkonfigurasi AWS DataSync transfer dengan cluster HDFS
<a name="create-hdfs-location"></a>

Dengan AWS DataSync, Anda dapat mentransfer data antara cluster Hadoop Distributed File System (HDFS) dan salah satu layanan AWS penyimpanan berikut menggunakan tugas mode Dasar:
+ [Amazon S3](create-s3-location.md)
+ [Amazon EFS](create-efs-location.md)
+ [Amazon FSx untuk Server File Windows](create-fsx-location.md)
+ [Amazon FSx untuk Lustre](create-lustre-location.md)
+ [Amazon FSx untuk OpenZFS](create-openzfs-location.md)
+ [Amazon FSx untuk NetApp ONTAP](create-ontap-location.md)

Untuk mengatur transfer semacam ini, Anda membuat [lokasi](how-datasync-transfer-works.md#sync-locations) untuk klaster HDFS Anda. Anda dapat menggunakan lokasi ini sebagai sumber transfer atau tujuan.

## Menyediakan DataSync akses ke cluster HDFS
<a name="accessing-hdfs"></a>

Untuk terhubung ke klaster HDFS Anda, DataSync gunakan agen [agen mode Dasar yang Anda gunakan](deploy-agents.md) sedekat mungkin ke cluster HDFS Anda. DataSyncAgen bertindak sebagai klien HDFS dan berkomunikasi dengan NameNodes dan DataNodes di cluster Anda.

Saat Anda memulai tugas transfer, DataSync NameNode kueri lokasi file dan folder di cluster. Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi sumber, DataSync baca file dan data folder dari klaster Anda dan salin data tersebut ke tujuan. DataNodes Jika Anda mengonfigurasi lokasi HDFS Anda sebagai lokasi tujuan, maka DataSync tulis file dan folder dari sumber ke DataNodes cluster Anda.

### Autentikasi
<a name="accessing-hdfs-authentication"></a>

Saat menghubungkan ke cluster HDFS, DataSync mendukung otentikasi sederhana atau otentikasi Kerberos. Untuk menggunakan otentikasi sederhana, berikan nama pengguna pengguna dengan hak untuk membaca dan menulis ke cluster HDFS. Untuk menggunakan otentikasi Kerberos, berikan file konfigurasi Kerberos, file tabel kunci Kerberos (keytab), dan nama utama Kerberos. Kredensyal kepala sekolah Kerberos harus ada dalam file keytab yang disediakan.

### Enkripsi
<a name="accessing-hdfs-encryption"></a>

Saat menggunakan otentikasi Kerberos, DataSync mendukung enkripsi data seperti yang ditransmisikan antara DataSync agen dan cluster HDFS Anda. Enkripsi data Anda dengan menggunakan pengaturan konfigurasi Quality of Protection (QOP) pada klaster HDFS Anda dan dengan menentukan pengaturan QOP saat membuat lokasi HDFS Anda. Konfigurasi QOP mencakup pengaturan untuk perlindungan transfer data dan perlindungan Remote Procedure Call (RPC). 

**DataSync mendukung jenis enkripsi Kerberos berikut:**
+ `des-cbc-crc`
+ `des-cbc-md4`
+ `des-cbc-md5`
+ `des3-cbc-sha1`
+ `arcfour-hmac`
+ `arcfour-hmac-exp`
+ `aes128-cts-hmac-sha1-96`
+ `aes256-cts-hmac-sha1-96`
+ `aes128-cts-hmac-sha256-128`
+ `aes256-cts-hmac-sha384-192`
+ `camellia128-cts-cmac`
+ `camellia256-cts-cmac`

Anda juga dapat mengonfigurasi cluster HDFS untuk enkripsi saat istirahat menggunakan Transparent Data Encryption (TDE). Saat menggunakan otentikasi sederhana, DataSync baca dan tulis ke cluster yang mendukung TDE. Jika Anda menggunakan DataSync untuk menyalin data ke cluster yang mendukung TDE, pertama-tama konfigurasikan zona enkripsi pada klaster HDFS. DataSync tidak membuat zona enkripsi. 

## Fitur HDFS yang tidak didukung
<a name="hdfs-unsupported-features"></a>

Kemampuan HDFS berikut saat ini tidak didukung oleh DataSync:
+ Enkripsi Data Transparan (TDE) saat menggunakan otentikasi Kerberos
+ Mengkonfigurasi beberapa NameNodes
+ Hadoop HDFS melalui HTTP (HTTPFS)
+ Daftar kontrol akses POSIX () ACLs
+ Atribut diperluas HDFS (xattrs)
+ Cluster HDFS menggunakan Apache HBase

## Membuat lokasi transfer HDFS Anda
<a name="create-hdfs-location-how-to"></a>

Anda dapat menggunakan lokasi Anda sebagai sumber atau tujuan untuk DataSync transfer Anda.

**Sebelum memulai**: Verifikasi konektivitas jaringan antara agen Anda dan klaster Hadoop dengan melakukan hal berikut:
+ Uji akses ke port TCP yang tercantum di[Persyaratan jaringan untuk penyimpanan cloud lokal, dikelola sendiri, dan lainnya](datasync-network.md#on-premises-network-requirements).
+ Uji akses antara agen lokal Anda dan cluster Hadoop Anda. Untuk petunjuk, lihat [Memverifikasi koneksi agen Anda ke sistem penyimpanan Anda](test-agent-connections.md#self-managed-storage-connectivity).

### Menggunakan DataSync konsol
<a name="create-hdfs-location-how-to-console"></a>

1. Buka AWS DataSync konsol di [https://console.aws.amazon.com/datasync/](https://console.aws.amazon.com/datasync/).

1. Di panel navigasi kiri, perluas **Transfer data**, lalu pilih **Lokasi** dan **Buat lokasi**.

1. Untuk **jenis Lokasi**, pilih **Hadoop Distributed File System (HDFS)**.

   Anda dapat mengonfigurasi lokasi ini sebagai sumber atau tujuan nanti. 

1. Untuk **Agen**, pilih agen yang dapat terhubung ke klaster HDFS Anda.

   Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat [Menggunakan beberapa DataSync agen](do-i-need-datasync-agent.md#multiple-agents).

1. Untuk **NameNode**, berikan nama domain atau alamat IP utama NameNode klaster HDFS Anda.

1. Untuk **Folder**, masukkan folder di cluster HDFS Anda yang DataSync ingin Anda gunakan untuk transfer data.

   Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.

1. Untuk mengatur **ukuran blok** atau **faktor replikasi**, pilih **Pengaturan tambahan**.

   Ukuran blok default adalah 128 MiB. Ukuran blok yang Anda berikan harus kelipatan 512 byte.

   Faktor replikasi default adalah tiga DataNodes saat mentransfer ke cluster HDFS. 

1. Di bagian **Keamanan**, pilih **jenis Otentikasi** yang digunakan pada klaster HDFS Anda. 
   + **Sederhana** — Untuk **Pengguna**, tentukan nama pengguna dengan izin berikut pada klaster HDFS (tergantung pada kasus penggunaan Anda):
     + Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi sumber, tentukan pengguna yang hanya memiliki izin baca.
     + Jika Anda berencana untuk menggunakan lokasi ini sebagai lokasi tujuan, tentukan pengguna yang memiliki izin membaca dan menulis.

     Secara opsional, tentukan URI Server Manajemen Kunci (KMS) dari cluster HDFS Anda. 
   + **Kerberos** — Tentukan Kerberos **Principal** dengan akses ke cluster HDFS Anda. Selanjutnya, berikan **KeyTabfile** yang berisi prinsipal Kerberos yang disediakan. Kemudian, berikan file **konfigurasi Kerberos**. Terakhir, tentukan jenis enkripsi dalam perlindungan transit di daftar dropdown **perlindungan RPC** dan **perlindungan transfer data**.

1. (Opsional) Pilih **Tambahkan tag** untuk menandai lokasi HDFS Anda.

   *Tag* adalah pasangan nilai kunci yang membantu Anda mengelola, memfilter, dan mencari lokasi Anda. Sebaiknya buat setidaknya tag nama untuk lokasi Anda. 

1. Pilih **Buat lokasi**.

### Menggunakan AWS CLI
<a name="create-location-hdfs-cli"></a>

1. Salin `create-location-hdfs` perintah berikut.

   ```
   aws datasync create-location-hdfs --name-nodes [{"Hostname":"host1", "Port": 8020}] \
       --authentication-type "SIMPLE|KERBEROS" \
       --agent-arns [arn:aws:datasync:us-east-1:123456789012:agent/agent-01234567890example] \
       --subdirectory "/path/to/my/data"
   ```

1. Untuk `--name-nodes` parameternya, tentukan nama host atau alamat IP primer klaster HDFS Anda NameNode dan port TCP yang NameNode sedang didengarkan.

1. Untuk `--authentication-type` parameter, tentukan jenis otentikasi yang akan digunakan saat menghubungkan ke cluster Hadoop. Anda dapat menentukan `SIMPLE` atau `KERBEROS`.

   Jika Anda menggunakan `SIMPLE` otentikasi, gunakan `--simple-user` parameter untuk menentukan nama pengguna pengguna. Jika Anda menggunakan `KERBEROS` otentikasi, gunakan`--kerberos-principal`,`--kerberos-keytab`, dan `--kerberos-krb5-conf` parameter. Untuk informasi selengkapnya, lihat [create-location-hdfs](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/datasync/create-location-hdfs.html).

1. Untuk `--agent-arns` parameter, tentukan ARN DataSync agen yang dapat terhubung ke cluster HDFS Anda.

   Anda dapat memilih lebih dari satu agen. Untuk informasi selengkapnya, lihat [Menggunakan beberapa DataSync agen](do-i-need-datasync-agent.md#multiple-agents).

1. (Opsional) Untuk `--subdirectory` parameter, tentukan folder di cluster HDFS Anda yang ingin Anda gunakan DataSync untuk transfer data.

   Jika lokasi HDFS Anda adalah sumber, DataSync salin file di folder ini ke tujuan. Jika lokasi Anda adalah tujuan, DataSync tulis file ke folder ini.

1. Jalankan perintah `create-location-hdfs`.

   Jika perintah berhasil, Anda mendapatkan respons yang menunjukkan ARN dari lokasi yang Anda buat. Contoh:

   ```
   {
       "arn:aws:datasync:us-east-1:123456789012:location/loc-01234567890example"
   }
   ```