Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
COPYdari Amazon EMR
Anda dapat menggunakan COPY perintah untuk memuat data secara paralel dari EMR klaster Amazon yang dikonfigurasi untuk menulis file teks ke Hadoop Distributed File System (HDFS) cluster dalam bentuk file dengan lebar tetap, file yang dibatasi karakter, file, file yang diformat, atau file AvroCSV. JSON
Sintaksis
FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]
Contoh
Contoh berikut memuat data dari EMR cluster Amazon.
copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
Parameter
- FROM
-
Sumber data yang akan dimuat.
- 'emr://emr_cluster_id/ hdfs_file_path '
-
Pengidentifikasi unik untuk EMR kluster Amazon dan jalur HDFS file yang mereferensikan file data untuk COPY perintah. Nama file HDFS data tidak boleh berisi karakter wildcard asterisk (*) dan tanda tanya (?).
catatan
EMRCluster Amazon harus terus berjalan hingga COPY operasi selesai. Jika salah satu file HDFS data diubah atau dihapus sebelum COPY operasi selesai, Anda mungkin memiliki hasil yang tidak terduga, atau COPY operasi mungkin gagal.
Anda dapat menggunakan karakter wildcard asterisk (*) dan tanda tanya (?) sebagai bagian dari argumen hdfs_file_path untuk menentukan beberapa file yang akan dimuat. Misalnya,
'emr://j-SAMPLE2B500FC/myoutput/part*'
mengidentifikasi filepart-0000
,part-0001
, dan sebagainya. Jika path file tidak berisi karakter wildcard, itu diperlakukan sebagai string literal. Jika Anda hanya menentukan nama folder, COPY mencoba memuat semua file di folder.penting
Jika Anda menggunakan karakter wildcard atau hanya menggunakan nama folder, verifikasi bahwa tidak ada file yang tidak diinginkan yang akan dimuat. Misalnya, beberapa proses mungkin menulis file log ke folder output.
Untuk informasi selengkapnya, lihat Memuat data dari Amazon EMR.
- otorisasi
-
COPYPerintah tersebut memerlukan otorisasi untuk mengakses data di AWS sumber daya lain, termasuk di Amazon S3, Amazon, EMR Amazon DynamoDB, dan Amazon. EC2 Anda dapat memberikan otorisasi tersebut dengan mereferensikan peran AWS Identity and Access Management (IAM) yang dilampirkan ke klaster Anda (kontrol akses berbasis peran) atau dengan memberikan kredenal akses untuk pengguna (kontrol akses berbasis kunci). Untuk meningkatkan keamanan dan fleksibilitas, sebaiknya gunakan kontrol akses IAM berbasis peran. Untuk informasi selengkapnya, lihat Parameter otorisasi.
Parameter yang didukung
Anda dapat secara opsional menentukan parameter berikut COPY dari AmazonEMR:
Parameter yang tidak didukung
Anda tidak dapat menggunakan parameter berikut dengan COPY dari AmazonEMR:
-
ENCRYPTED
-
MANIFEST
-
REGION
-
READRATIO
-
SSH