Ekspor, impor, kueri, dan gabungkan tabel di DynamoDB menggunakan Amazon EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ekspor, impor, kueri, dan gabungkan tabel di DynamoDB menggunakan Amazon EMR

catatan

Konektor Amazon EMR -DynamoDB aktif bersumber terbuka. GitHub Untuk informasi lebih lanjut, lihat https://github.com/awslabs/emr-dynamodb-connector.

DynamoDB adalah layanan basis data SQL No yang dikelola sepenuhnya yang memberikan kinerja yang cepat dan dapat diprediksi dengan skalabilitas yang mulus. Pengembang dapat membuat tabel basis data dan menumbuhkan lalu lintas permintaan atau penyimpanan tanpa batas. DynamoDB secara otomatis menyebar data dan lalu lintas untuk tabel ke seluruh server dengan jumlah yang cukup untuk menangani kapasitas permintaan yang ditentukan oleh pelanggan dan jumlah data yang disimpan, sambil mempertahankan performa yang konsisten dan cepat. Menggunakan Amazon EMR dan Hive Anda dapat dengan cepat dan efisien memproses sejumlah besar data, seperti data yang disimpan di DynamoDB. Untuk informasi selengkapnya tentang DynamoDB, lihat Panduan Developer Amazon DynamoDB.

Apache Hive adalah lapisan perangkat lunak yang dapat Anda gunakan untuk menanyakan peta pengurangan cluster menggunakan bahasa kueri yang disederhanakan SQL seperti yang disebut HiveQL. Perangkat ini berjalan di atas arsitektur Hadoop. Untuk informasi selengkapnya tentang Hive dan HiveQL, kunjungi Manual bahasa HiveQL. Untuk informasi lebih lanjut tentang Hive dan AmazonEMR, lihatApache Hive.

Anda dapat menggunakan Amazon EMR dengan versi khusus Hive yang menyertakan konektivitas ke DynamoDB untuk melakukan operasi pada data yang disimpan di DynamoDB:

  • Memuat data DynamoDB ke dalam Hadoop Distributed File System HDFS () dan menggunakannya sebagai input ke dalam cluster Amazon. EMR

  • Menanyakan data DynamoDB langsung menggunakan pernyataan SQL -like (HiveQL).

  • Menggabungkan data yang disimpan dalam DynamoDB dan mengekspor atau membuat kueri terhadap data yang digabungkan.

  • Mengekspor data yang tersimpan dalam DynamoDB ke Amazon S3.

  • Mengimpor data yang tersimpan di Amazon S3 ke DynamoDB.

Untuk melakukan setiap tugas berikut, Anda akan meluncurkan EMR klaster Amazon, menentukan lokasi data di DynamoDB, dan mengeluarkan perintah Hive untuk memanipulasi data di DynamoDB.

Ada beberapa cara untuk meluncurkan EMR cluster Amazon: Anda dapat menggunakan EMR konsol Amazon, antarmuka baris perintah (CLI), atau Anda dapat memprogram cluster Anda menggunakan AWS SDK atau Amazon EMRAPI. Anda juga dapat memilih apakah akan menjalankan klaster Hive secara interaktif atau dari skrip. Di bagian ini, kami akan menunjukkan kepada Anda cara meluncurkan cluster Hive interaktif dari EMR konsol Amazon dan. CLI

Menggunakan Hive interaktif adalah cara yang bagus untuk menguji performa kueri dan menyetel aplikasi Anda. Setelah Anda membuat serangkaian perintah Hive yang akan berjalan secara teratur, pertimbangkan untuk membuat skrip Hive yang EMR dapat dijalankan Amazon untuk Anda.

Awas

Operasi EMR baca atau tulis Amazon pada tabel DynamoDB dihitung terhadap throughput yang telah disediakan, yang berpotensi meningkatkan frekuensi pengecualian throughput yang disediakan. Untuk permintaan besar, Amazon EMR mengimplementasikan percobaan ulang dengan backoff eksponensial untuk mengelola pemuatan permintaan pada tabel DynamoDB. Menjalankan EMR pekerjaan Amazon secara bersamaan dengan lalu lintas lain dapat menyebabkan Anda melebihi tingkat throughput yang disediakan yang dialokasikan. Anda dapat memantau ini dengan memeriksa ThrottleRequestsmetrik di Amazon CloudWatch. Jika pemuatan permintaan terlalu tinggi, Anda dapat meluncurkan kembali klaster dan menyetel Pengaturan persen baca atau Pengaturan persentase tulis ke nilai yang lebih rendah untuk membatasi operasi Amazon. EMR Untuk informasi tentang pengaturan throughput DynamoDB, lihat Throughput yang ditetapkan.

Jika sebuah tabel dikonfigurasi untuk Mode Sesuai Permintaan, Anda harus mengubah tabel kembali ke mode yang ditetapkan sebelum menjalankan operasi ekspor atau impor. Pipa membutuhkan rasio throughput untuk menghitung sumber daya yang akan digunakan dari D. ynamoDBtable Mode sesuai permintaan menghapus throughput yang ditetapkan. Untuk menyediakan kapasitas throughput, Anda dapat menggunakan metrik CloudWatch Acara Amazon untuk mengevaluasi throughput agregat yang telah digunakan tabel.