Mengunggah data ke Amazon S3 Express One Zone dengan Amazon EMR di EKS - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengunggah data ke Amazon S3 Express One Zone dengan Amazon EMR di EKS

Dengan Amazon EMR merilis 7.2.0 dan yang lebih tinggi, Anda dapat menggunakan Amazon EMR di EKS dengan kelas penyimpanan Amazon S3 Express One Zone untuk meningkatkan kinerja saat menjalankan pekerjaan dan beban kerja. S3 Express One Zone adalah kelas penyimpanan Amazon S3 zona tunggal berkinerja tinggi yang memberikan akses data milidetik satu digit yang konsisten untuk sebagian besar aplikasi yang sensitif terhadap latensi. Pada saat rilis, S3 Express One Zone memberikan latensi terendah dan penyimpanan objek cloud kinerja tertinggi di Amazon S3.

Prasyarat

Sebelum Anda dapat menggunakan S3 Express One Zone dengan Amazon EMR di EKS, Anda harus memiliki prasyarat berikut:

Memulai dengan S3 Express One Zone

Ikuti langkah-langkah ini untuk memulai dengan S3 Express One Zone

  1. Tambahkan CreateSession izin ke peran eksekusi pekerjaan Anda. Ketika S3 Express One Zone awalnya melakukan tindakan sepertiGET,LIST, atau PUT pada objek S3, kelas penyimpanan memanggil CreateSession atas nama Anda. Berikut ini adalah contoh cara memberikan CreateSession izin.

    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "arn:aws:s3express:<AWS_REGION>:<ACCOUNT_ID>:bucket/DOC-EXAMPLE-BUCKET", "Action": [ "s3express:CreateSession" ] } ] }
  2. Anda harus menggunakan konektor Apache Hadoop S3A untuk mengakses bucket S3 Express, jadi ubah Amazon S3 Anda untuk menggunakan skema untuk menggunakan konektor. URIs s3a Jika mereka tidak menggunakan skema, Anda dapat mengubah implementasi sistem file yang Anda gunakan untuk s3 dan skema. s3n

    Untuk mengubah s3 skema, tentukan konfigurasi cluster berikut:

    [ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]

    Untuk mengubah skema s3n, tentukan konfigurasi cluster berikut:

    [ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
  3. Dalam konfigurasi spark-submit Anda, gunakan penyedia kredensi identitas web.

    "spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"