Langkah 1: Cakupan POC Anda Langkah 2: Luncurkan Amazon Redshift Langkah 3: Muat data Anda Langkah 4: Analisis data Anda Langkah 5: Optimalkan

Lakukan bukti konsep (POC) untuk Amazon Redshift

Amazon Redshift adalah gudang data cloud yang populer, yang menawarkan layanan berbasis cloud yang dikelola sepenuhnya yang terintegrasi dengan data lake Amazon Simple Storage Service organisasi, aliran waktu nyata, alur kerja pembelajaran mesin (ML), alur kerja transaksional, dan banyak lagi. Bagian berikut memandu Anda melalui proses melakukan bukti konsep (POC) di Amazon Redshift. Informasi di sini membantu Anda menetapkan sasaran untuk POC Anda, dan memanfaatkan alat yang dapat mengotomatiskan penyediaan dan konfigurasi layanan untuk POC Anda.

catatan

Untuk salinan informasi ini sebagai PDF, pilih tautan Jalankan POC Redshift Anda sendiri di halaman sumber daya Amazon Redshift.

Saat melakukan POC Amazon Redshift, Anda menguji, membuktikan, dan mengadopsi fitur mulai best-in-class dari kemampuan keamanan, penskalaan elastis, integrasi dan konsumsi yang mudah, dan opsi arsitektur data terdesentralisasi yang fleksibel.

Menunjukkan penggambaran langkah-langkah dalam pembuktian aliran konsep.

Ikuti langkah-langkah ini untuk melakukan POC yang sukses.

Langkah 1: Cakupan POC Anda

Menunjukkan bahwa langkah lingkup adalah langkah saat ini dalam pembuktian aliran konsep.

Saat melakukan POC, Anda dapat memilih untuk menggunakan data Anda sendiri, atau Anda dapat memilih untuk menggunakan kumpulan data benchmarking. Ketika Anda memilih data Anda sendiri, Anda menjalankan kueri Anda sendiri terhadap data. Dengan data pembandingan, kueri sampel disediakan dengan tolok ukur. Lihat Menggunakan kumpulan data sampel untuk detail selengkapnya jika Anda belum siap melakukan POC dengan data Anda sendiri.

Secara umum, kami merekomendasikan penggunaan data dua minggu untuk POC Amazon Redshift.

Mulailah dengan melakukan hal berikut:

Identifikasi kebutuhan bisnis dan fungsional Anda, lalu kerjakan mundur. Contoh umum adalah: kinerja yang lebih cepat, biaya lebih rendah, menguji beban kerja atau fitur baru, atau perbandingan antara Amazon Redshift dan gudang data lainnya.
Tetapkan target spesifik yang menjadi kriteria keberhasilan POC. Misalnya, dari kinerja yang lebih cepat, buat daftar lima proses teratas yang ingin Anda percepat, dan sertakan waktu berjalan saat ini bersama dengan waktu berjalan yang Anda butuhkan. Ini bisa berupa laporan, kueri, proses ETL, konsumsi data, atau apa pun titik nyeri Anda saat ini.
Identifikasi ruang lingkup dan artefak spesifik yang diperlukan untuk menjalankan tes. Kumpulan data apa yang Anda perlukan untuk memigrasikan atau terus-menerus masuk ke Amazon Redshift, dan kueri serta proses apa yang diperlukan untuk menjalankan pengujian untuk mengukur terhadap kriteria keberhasilan? Ada dua cara untuk melakukan hal ini:
Bawa data Anda sendiri
- Untuk menguji data Anda sendiri, buat daftar artefak data minimum yang layak yang diperlukan untuk menguji kriteria keberhasilan Anda. Misalnya, jika gudang data Anda saat ini memiliki 200 tabel, tetapi laporan yang ingin Anda uji hanya membutuhkan 20, POC Anda dapat dijalankan lebih cepat dengan hanya menggunakan subset tabel yang lebih kecil.
Gunakan kumpulan data sampel
- Jika Anda belum menyiapkan kumpulan data sendiri, Anda masih dapat mulai melakukan POC di Amazon Redshift dengan menggunakan kumpulan data benchmark standar industri seperti TPC-DS atau TPC-H dan menjalankan contoh kueri benchmarking untuk memanfaatkan kekuatan Amazon Redshift. Kumpulan data ini dapat diakses dari dalam gudang data Amazon Redshift Anda setelah dibuat. Untuk petunjuk terperinci tentang cara mengakses kumpulan data dan kueri sampel ini, lihat. Langkah 2: Luncurkan Amazon Redshift

Langkah 2: Luncurkan Amazon Redshift

Menunjukkan bahwa langkah peluncuran Amazon Redshift adalah langkah saat ini dalam pembuktian aliran konsep.

Amazon Redshift mempercepat waktu Anda ke wawasan dengan pergudangan data cloud yang cepat, mudah, dan aman dalam skala besar. Anda dapat memulai dengan cepat dengan meluncurkan gudang Anda di konsol Redshift Tanpa Server dan beralih dari data ke wawasan dalam hitungan detik. Dengan Redshift Serverless, Anda dapat fokus untuk memberikan hasil bisnis Anda tanpa khawatir mengelola gudang data Anda.

Siapkan Amazon Redshift Tanpa Server

Pertama kali Anda menggunakan Redshift Serverless, konsol mengarahkan Anda melalui langkah-langkah yang diperlukan untuk meluncurkan gudang Anda. Anda mungkin juga memenuhi syarat untuk kredit terhadap penggunaan Redshift Tanpa Server di akun Anda. Untuk informasi selengkapnya tentang memilih uji coba gratis, lihat uji coba gratis Amazon Redshift. Ikuti langkah-langkah dalam Membuat gudang data dengan Redshift Serverless di Panduan Memulai Amazon Redshift untuk membuat gudang data dengan Redshift Serverless. Jika Anda tidak memiliki kumpulan data yang ingin Anda muat, panduan ini juga berisi langkah-langkah tentang cara memuat kumpulan data sampel.

Jika sebelumnya Anda telah meluncurkan Redshift Serverless di akun Anda, ikuti langkah-langkah dalam Membuat grup kerja dengan namespace di Panduan Manajemen Amazon Redshift. Setelah gudang Anda tersedia, Anda dapat memilih untuk memuat data sampel yang tersedia di Amazon Redshift. Untuk informasi tentang menggunakan editor kueri Amazon Redshift v2 untuk memuat data, lihat Memuat data sampel di Panduan Manajemen Amazon Redshift.

Jika Anda membawa data Anda sendiri alih-alih memuat kumpulan data sampel, lihatLangkah 3: Muat data Anda.

Langkah 3: Muat data Anda

Menunjukkan bahwa langkah beban adalah langkah saat ini dalam pembuktian aliran konsep.

Setelah meluncurkan Redshift Serverless, langkah selanjutnya adalah memuat data Anda untuk POC. Baik Anda mengunggah file CSV sederhana, menelan data semi-terstruktur dari S3, atau streaming data secara langsung, Amazon Redshift memberikan fleksibilitas untuk memindahkan data dengan cepat dan mudah ke tabel Amazon Redshift dari sumbernya.

Pilih salah satu metode berikut untuk memuat data Anda.

Unggah file lokal

Untuk penyerapan dan analisis cepat, Anda dapat menggunakan editor kueri Amazon Redshift v2 untuk memuat file data dengan mudah dari desktop lokal Anda. Ini memiliki kemampuan untuk memproses file dalam berbagai format seperti CSV, JSON, AVRO, PARQUET, ORC, dan banyak lagi. Untuk memungkinkan pengguna Anda, sebagai administrator, memuat data dari desktop lokal menggunakan editor kueri v2, Anda harus menentukan bucket Amazon S3 umum, dan akun pengguna harus dikonfigurasi dengan izin yang tepat. Anda dapat mengikuti Pemuatan data menjadi mudah dan aman di Amazon Redshift menggunakan Query Editor V2 untuk step-by-step panduan.

Memuat file Amazon S3

Untuk memuat data dari bucket Amazon S3 ke Amazon Redshift, mulailah dengan menggunakan perintah COPY, tentukan lokasi sumber Amazon S3 dan targetkan tabel Amazon Redshift. Pastikan peran dan izin IAM dikonfigurasi dengan benar untuk memungkinkan Amazon Redshift mengakses bucket Amazon S3 yang ditentukan. Ikuti Tutorial: Memuat data dari Amazon S3 untuk step-by-step panduan. Anda juga dapat memilih opsi Muat data di editor kueri v2 untuk langsung memuat data dari bucket S3 Anda.

Konsumsi data terus menerus

Autocopy (dalam pratinjau) adalah perpanjangan dari perintah COPY dan mengotomatiskan pemuatan data berkelanjutan dari bucket Amazon S3. Saat Anda membuat tugas penyalinan, Amazon Redshift mendeteksi kapan file Amazon S3 baru dibuat di jalur yang ditentukan, lalu memuatnya secara otomatis tanpa campur tangan Anda. Amazon Redshift melacak file yang dimuat untuk memverifikasi bahwa file tersebut dimuat hanya satu kali. Untuk petunjuk tentang cara membuat pekerjaan penyalinan, lihat COPYJOB(pratinjau)

catatan

Salinan otomatis saat ini dalam pratinjau dan hanya didukung di kluster yang disediakan secara spesifik. Wilayah AWS Untuk membuat klaster pratinjau untuk autocopy, lihatMemuat tabel dengan konsumsi file terus menerus dari Amazon S3 (pratinjau).

Muat data streaming Anda

Streaming ingestion menyediakan latensi rendah, konsumsi data streaming berkecepatan tinggi dari Amazon Kinesis Data Streams dan Amazon Managed Streaming untuk Apache Kafka Kafka ke Amazon Redshift. Konsumsi streaming Amazon Redshift menggunakan tampilan terwujud, yang diperbarui langsung dari aliran menggunakan penyegaran otomatis. Tampilan terwujud memetakan ke sumber data aliran. Anda dapat melakukan pemfilteran dan agregasi pada data aliran sebagai bagian dari definisi tampilan yang terwujud. Untuk step-by-step panduan memuat data dari streaming, lihat Memulai Amazon Kinesis Data Streams atau Memulai Amazon Managed Streaming for Apache Kafka.

Langkah 4: Analisis data Anda

Menunjukkan bahwa langkah analisis adalah langkah saat ini dalam pembuktian aliran konsep.

Setelah membuat workgroup Redshift Serverless dan namespace, dan memuat data Anda, Anda dapat langsung menjalankan kueri dengan membuka Query editor v2 dari panel navigasi konsol Redshift Serverless. Anda dapat menggunakan editor kueri v2 untuk menguji fungsionalitas kueri atau kinerja kueri terhadap kumpulan data Anda sendiri.

Kueri menggunakan editor kueri Amazon Redshift v2

Anda dapat mengakses editor kueri v2 dari konsol Amazon Redshift. Lihat Menyederhanakan analisis data Anda dengan editor kueri Amazon Redshift v2 untuk panduan lengkap tentang cara mengonfigurasi, menghubungkan, dan menjalankan kueri dengan editor kueri v2.

Atau, jika Anda ingin menjalankan tes beban sebagai bagian dari POC Anda, Anda dapat melakukan ini dengan langkah-langkah berikut untuk menginstal dan menjalankan Apache JMeter.

Jalankan uji beban menggunakan Apache JMeter

Untuk melakukan uji beban untuk mensimulasikan pengguna “N” yang mengirimkan kueri secara bersamaan ke Amazon Redshift, Anda dapat menggunakan Apache JMeter, alat berbasis Java open-source.

Untuk menginstal dan mengonfigurasi Apache JMeter agar berjalan terhadap workgroup Redshift Serverless Anda, ikuti petunjuk di Automate Amazon Redshift load testing dengan Analytics Automation Toolkit. AWS Ini menggunakan toolkit AWS Analytics Automation (AAA), utilitas open source untuk menerapkan solusi Redshift secara dinamis, untuk meluncurkan sumber daya ini secara otomatis. Jika Anda telah memuat data Anda sendiri ke Amazon Redshift, pastikan untuk melakukan opsi Langkah #5 — Kustomisasi SQL, untuk memastikan Anda menyediakan pernyataan SQL yang sesuai yang ingin Anda uji terhadap tabel Anda. Uji setiap pernyataan SQL ini satu kali menggunakan editor kueri v2 untuk memastikan mereka berjalan tanpa kesalahan.

Setelah Anda menyelesaikan penyesuaian pernyataan SQL Anda dan menyelesaikan rencana pengujian Anda, simpan dan jalankan rencana pengujian Anda terhadap grup kerja Redshift Serverless Anda. Untuk memantau kemajuan pengujian Anda, buka konsol Redshift Serverless, navigasikan ke Query dan pemantauan database, pilih tab Query history dan lihat informasi tentang kueri Anda.

Untuk metrik kinerja, pilih tab Kinerja Database di konsol Redshift Tanpa Server, untuk memantau metrik seperti Koneksi Database dan pemanfaatan CPU. Di sini Anda dapat melihat grafik untuk memantau kapasitas RPU yang digunakan dan mengamati bagaimana Redshift Serverless secara otomatis menskalakan untuk memenuhi tuntutan beban kerja bersamaan saat uji beban berjalan di workgroup Anda.

Contoh grafik yang menunjukkan kapasitas RPU rata-rata yang digunakan.

Koneksi database adalah metrik lain yang berguna untuk dipantau saat menjalankan uji beban untuk melihat bagaimana kelompok kerja Anda menangani banyak koneksi bersamaan pada waktu tertentu untuk memenuhi tuntutan beban kerja yang meningkat.

Contoh grafik yang menunjukkan koneksi database.

Langkah 5: Optimalkan

Menunjukkan bahwa langkah optimasi adalah langkah saat ini dalam pembuktian aliran konsep.

Amazon Redshift memberdayakan puluhan ribu pengguna untuk memproses exabyte data setiap hari dan memperkuat beban kerja analitik mereka dengan menawarkan berbagai konfigurasi dan fitur untuk mendukung kasus penggunaan individual. Saat memilih di antara opsi ini, pelanggan mencari alat yang membantu mereka menentukan konfigurasi gudang data yang paling optimal untuk mendukung beban kerja Amazon Redshift mereka.

Test drive

Anda dapat menggunakan Test Drive untuk memutar ulang beban kerja yang ada secara otomatis pada konfigurasi potensial dan menganalisis output yang sesuai untuk mengevaluasi target optimal untuk memigrasikan beban kerja Anda. Lihat Menemukan konfigurasi Amazon Redshift terbaik untuk beban kerja Anda menggunakan Redshift Test Drive untuk informasi tentang penggunaan Test Drive guna mengevaluasi konfigurasi Amazon Redshift yang berbeda.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Praktik terbaik

Praktik terbaik untuk mendesain tabel

Lakukan bukti konsep (POC) untuk Amazon Redshift

catatan

Langkah 1: Cakupan POC Anda

Bawa data Anda sendiri

Gunakan kumpulan data sampel

Langkah 2: Luncurkan Amazon Redshift

Siapkan Amazon Redshift Tanpa Server

Langkah 3: Muat data Anda

Unggah file lokal

Memuat file Amazon S3

Konsumsi data terus menerus

catatan

Muat data streaming Anda

Langkah 4: Analisis data Anda

Kueri menggunakan editor kueri Amazon Redshift v2

Jalankan uji beban menggunakan Apache JMeter

Langkah 5: Optimalkan

Test drive