Mengkonfigurasi akses VPC - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengkonfigurasi akses VPC

Anda dapat mengonfigurasi aplikasi EMR Tanpa Server untuk terhubung ke penyimpanan data di dalam AndaVPC, seperti klaster Amazon Redshift, RDS database Amazon, atau bucket Amazon S3 dengan titik akhir. VPC Aplikasi EMR Tanpa Server Anda memiliki konektivitas keluar ke penyimpanan data di dalam Anda. VPC Secara default, EMR Tanpa Server memblokir akses masuk ke aplikasi Anda untuk meningkatkan keamanan.

catatan

Anda harus mengkonfigurasi VPC akses jika Anda ingin menggunakan database metastore Hive eksternal untuk aplikasi Anda. Untuk informasi tentang cara mengonfigurasi metastore Hive eksternal, lihat konfigurasi Metastore.

Buat aplikasi

Pada halaman Buat aplikasi, Anda dapat memilih pengaturan khusus dan menentukanVPC, subnet dan grup keamanan yang dapat digunakan aplikasi EMR Tanpa Server.

VPCs

Pilih nama virtual private cloud (VPC) yang berisi penyimpanan data Anda. Halaman Buat aplikasi mencantumkan semua VPCs untuk pilihan Anda Wilayah AWS.

Subnet

Pilih subnet di dalam VPC yang berisi penyimpanan data Anda. Halaman Buat aplikasi mencantumkan semua subnet untuk penyimpanan data di AndaVPC.

Subnet yang dipilih harus subnet pribadi. Ini berarti bahwa tabel rute terkait untuk subnet tidak boleh memiliki gateway internet.

Untuk konektivitas outbound ke internet, subnet harus memiliki rute keluar menggunakan Gateway. NAT Untuk mengonfigurasi NAT Gateway, lihat Bekerja dengan NAT gateway.

Untuk konektivitas Amazon S3, subnet harus memiliki NAT Gateway atau titik akhir yang dikonfigurasi. VPC Untuk mengonfigurasi VPC titik akhir S3, lihat Membuat titik akhir gateway.

Untuk konektivitas ke yang lain Layanan AWS di luarVPC, seperti Amazon DynamoDB, Anda harus mengonfigurasi titik akhir VPC atau gateway. NAT Untuk mengonfigurasi VPC titik akhir Layanan AWS, lihat Bekerja dengan titik VPC akhir.

Pekerja dapat terhubung ke penyimpanan data di dalam Anda VPC melalui lalu lintas keluar. Secara default, EMR Tanpa Server memblokir akses masuk ke pekerja untuk meningkatkan keamanan.

Saat Anda menggunakan AWS Config, EMR Serverless membuat catatan item elastic network interface untuk setiap pekerja. Untuk menghindari biaya yang terkait dengan sumber daya ini, pertimbangkan untuk mematikan AWS::EC2::NetworkInterface AWS Config.

catatan

Kami menyarankan Anda memilih beberapa subnet di beberapa Availability Zone. Ini karena subnet yang Anda pilih menentukan Availability Zones yang tersedia untuk aplikasi EMR Tanpa Server untuk diluncurkan. Setiap pekerja akan menggunakan alamat IP pada subnet tempat ia diluncurkan. Harap pastikan bahwa subnet yang ditentukan memiliki alamat IP yang cukup untuk jumlah pekerja yang Anda rencanakan untuk diluncurkan. Untuk informasi lebih lanjut tentang perencanaan subnet, lihatPraktik terbaik untuk perencanaan subnet.

Grup keamanan

Pilih satu atau beberapa grup keamanan yang dapat berkomunikasi dengan penyimpanan data Anda. Halaman Buat aplikasi mencantumkan semua grup keamanan di AndaVPC. EMRTanpa server mengaitkan grup keamanan ini dengan antarmuka jaringan elastis yang melekat pada subnet Anda. VPC

catatan

Kami menyarankan Anda membuat grup keamanan terpisah untuk aplikasi EMR Tanpa Server. Hal ini membuat mengisolasi dan mengelola aturan jaringan lebih efisien. Misalnya, untuk berkomunikasi dengan klaster Amazon Redshift, Anda dapat menentukan aturan lalu lintas antara grup keamanan Redshift dan EMR Tanpa Server, seperti yang ditunjukkan pada contoh di bawah ini.

contoh Contoh - Komunikasi dengan cluster Amazon Redshift
  1. Tambahkan aturan untuk lalu lintas masuk ke grup keamanan Amazon Redshift dari salah EMR satu grup keamanan Tanpa Server.

    Tipe Protokol Rentang port Sumber

    Semua TCP

    TCP

    5439

    emr-serverless-security-group

  2. Tambahkan aturan untuk lalu lintas keluar dari salah satu grup keamanan EMR Tanpa Server. Anda dapat melakukan ini dengan salah satu dari dua cara. Pertama, Anda dapat membuka lalu lintas keluar ke semua port.

    Tipe Protokol Rentang Port Tujuan

    Semua Lalu lintas

    TCP

    ALL

    0.0.0.0/0

    Atau, Anda dapat membatasi lalu lintas keluar ke cluster Amazon Redshift. Ini berguna hanya ketika aplikasi harus berkomunikasi dengan cluster Amazon Redshift dan tidak ada yang lain.

    Tipe Protokol Rentang port Sumber

    Semua TCP

    TCP

    5439

    redshift-security-group

Konfigurasikan aplikasi

Anda dapat mengubah konfigurasi jaringan untuk aplikasi EMR Tanpa Server yang ada dari halaman Konfigurasi aplikasi.

Lihat detail pekerjaan

Pada halaman detail Job run, Anda dapat melihat subnet yang digunakan oleh pekerjaan Anda untuk menjalankan tertentu. Perhatikan bahwa pekerjaan hanya berjalan di satu subnet yang dipilih dari subnet yang ditentukan.

Praktik terbaik untuk perencanaan subnet

AWS sumber daya dibuat dalam subnet yang merupakan bagian dari alamat IP yang tersedia di Amazon. VPC Misalnya, netmask VPC dengan /16 memiliki hingga 65.536 alamat IP yang tersedia yang dapat dipecah menjadi beberapa jaringan yang lebih kecil menggunakan subnet mask. Sebagai contoh, Anda dapat membagi rentang ini menjadi dua subnet dengan masing-masing menggunakan /17 mask dan 32.768 alamat IP yang tersedia. Subnet berada dalam Availability Zone dan tidak dapat menjangkau seluruh zona.

Subnet harus dirancang dengan mengingat batas penskalaan aplikasi EMR Tanpa Server Anda. Misalnya, jika Anda memiliki aplikasi yang meminta 4 vCpu pekerja dan dapat meningkatkan hingga 4.000vCpu, maka aplikasi Anda akan membutuhkan paling banyak 1.000 pekerja untuk total 1.000 antarmuka jaringan. Kami menyarankan Anda membuat subnet di beberapa Availability Zone. Hal ini memungkinkan EMR Tanpa Server untuk mencoba kembali pekerjaan Anda atau menyediakan kapasitas pra-inisialisasi di Availability Zone yang berbeda dalam kejadian yang tidak mungkin terjadi ketika Availability Zone gagal. Oleh karena itu, setiap subnet di setidaknya dua Availability Zone harus memiliki lebih dari 1.000 alamat IP yang tersedia.

Anda memerlukan subnet dengan ukuran topeng lebih rendah dari atau sama dengan 22 untuk menyediakan 1.000 antarmuka jaringan. Masker apa pun yang lebih besar dari 22 tidak akan memenuhi persyaratan. Misalnya, subnet mask dari /23 menyediakan 512 alamat IP, sedangkan mask /22 menyediakan 1024 dan mask /21 menyediakan 2048 alamat IP. Di bawah ini adalah contoh dari 4 subnet dengan/22 mask dalam netmask /16 yang VPC dapat dialokasikan ke Availability Zones yang berbeda. Ada perbedaan lima antara alamat IP yang tersedia dan yang dapat digunakan karena empat alamat IP pertama dan alamat IP terakhir di setiap subnet dicadangkan oleh AWS.

ID Subnet Alamat Subnet Topeng Subnet Rentang Alamat IP Alamat IP yang tersedia Alamat IP yang Dapat Digunakan

1

10.0.0.0

255.255.252.0/22

10.0.0.0 - 10.0.3.255

1,024

1,019

2

10.0.4.0

255.255.252.0/22

10.0.4.0 - 10.0.7.255

1,024

1,019

3

10.0.8.0

255.255.252.0/22

10.0.4.0 - 10.0.7.255

1,024

1,019

4

10.0.12.0

255.255.252.0/22

10.0.12.0 - 10.0.15.255

1,024

1,019

Anda harus mengevaluasi apakah beban kerja Anda paling cocok untuk ukuran pekerja yang lebih besar. Menggunakan ukuran pekerja yang lebih besar membutuhkan antarmuka jaringan yang lebih sedikit. Misalnya, menggunakan 16 vCpu pekerja dengan batas penskalaan aplikasi 4.000 vCpu akan membutuhkan paling banyak 250 pekerja untuk total 250 alamat IP yang tersedia untuk menyediakan antarmuka jaringan. Anda memerlukan subnet di beberapa Availability Zone dengan ukuran mask lebih rendah dari atau sama dengan 24 untuk menyediakan 250 antarmuka jaringan. Setiap ukuran topeng yang lebih besar dari 24 menawarkan kurang dari 250 alamat IP.

Jika Anda berbagi subnet di beberapa aplikasi, setiap subnet harus dirancang dengan mengingat batas penskalaan kolektif dari semua aplikasi Anda. Misalnya, jika Anda memiliki 3 aplikasi yang meminta 4 vCpu pekerja dan masing-masing dapat meningkatkan hingga 4000 vCpu dengan kuota berbasis layanan vCpu tingkat akun 12.000, setiap subnet akan membutuhkan 3000 alamat IP yang tersedia. Jika VPC yang ingin Anda gunakan tidak memiliki jumlah alamat IP yang cukup, cobalah untuk menambah jumlah alamat IP yang tersedia. Anda dapat melakukan ini dengan mengaitkan blok Classless Inter-Domain Routing () CIDR tambahan dengan blok Anda. VPC Untuk informasi selengkapnya, lihat Mengaitkan IPv4 CIDR blok tambahan dengan Anda VPC di Panduan VPC Pengguna Amazon.

Anda dapat menggunakan salah satu dari banyak alat yang tersedia secara online untuk menghasilkan definisi subnet dengan cepat dan meninjau berbagai alamat IP yang tersedia.