COPYdari Amazon EMR - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

COPYdari Amazon EMR

Anda dapat menggunakan COPY perintah untuk memuat data secara paralel dari EMR klaster Amazon yang dikonfigurasi untuk menulis file teks ke Hadoop Distributed File System (HDFS) cluster dalam bentuk file dengan lebar tetap, file yang dibatasi karakter, file, file yang diformat, atau file AvroCSV. JSON

Sintaksis

FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]

Contoh

Contoh berikut memuat data dari EMR cluster Amazon.

copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Parameter

FROM

Sumber data yang akan dimuat.

'emr://emr_cluster_id/ hdfs_file_path '

Pengidentifikasi unik untuk EMR kluster Amazon dan jalur HDFS file yang mereferensikan file data untuk COPY perintah. Nama file HDFS data tidak boleh berisi karakter wildcard asterisk (*) dan tanda tanya (?).

catatan

EMRCluster Amazon harus terus berjalan hingga COPY operasi selesai. Jika salah satu file HDFS data diubah atau dihapus sebelum COPY operasi selesai, Anda mungkin memiliki hasil yang tidak terduga, atau COPY operasi mungkin gagal.

Anda dapat menggunakan karakter wildcard asterisk (*) dan tanda tanya (?) sebagai bagian dari argumen hdfs_file_path untuk menentukan beberapa file yang akan dimuat. Misalnya, 'emr://j-SAMPLE2B500FC/myoutput/part*' mengidentifikasi filepart-0000,part-0001, dan sebagainya. Jika path file tidak berisi karakter wildcard, itu diperlakukan sebagai string literal. Jika Anda hanya menentukan nama folder, COPY mencoba memuat semua file di folder.

penting

Jika Anda menggunakan karakter wildcard atau hanya menggunakan nama folder, verifikasi bahwa tidak ada file yang tidak diinginkan yang akan dimuat. Misalnya, beberapa proses mungkin menulis file log ke folder output.

Untuk informasi selengkapnya, lihat Memuat data dari Amazon EMR.

otorisasi

COPYPerintah tersebut memerlukan otorisasi untuk mengakses data di AWS sumber daya lain, termasuk di Amazon S3, Amazon, EMR Amazon DynamoDB, dan Amazon. EC2 Anda dapat memberikan otorisasi tersebut dengan mereferensikan peran AWS Identity and Access Management (IAM) yang dilampirkan ke klaster Anda (kontrol akses berbasis peran) atau dengan memberikan kredenal akses untuk pengguna (kontrol akses berbasis kunci). Untuk meningkatkan keamanan dan fleksibilitas, sebaiknya gunakan kontrol akses IAM berbasis peran. Untuk informasi selengkapnya, lihat Parameter otorisasi.

Parameter yang didukung

Anda dapat secara opsional menentukan parameter berikut COPY dari AmazonEMR:

Parameter yang tidak didukung

Anda tidak dapat menggunakan parameter berikut dengan COPY dari AmazonEMR:

  • ENCRYPTED

  • MANIFEST

  • REGION

  • READRATIO

  • SSH