Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menjalankan SQL skrip Spark melalui StartJobRun API
Amazon EMR pada EKS rilis 6.7.0 dan yang lebih tinggi menyertakan driver SQL pekerjaan Spark sehingga Anda dapat menjalankan skrip Spark melalui fileSQL. StartJobRun
API Anda dapat menyediakan file SQL titik masuk untuk langsung menjalankan SQL kueri Spark di EMR Amazon dengan StartJobRun
API, tanpa modifikasi apa pun EKS pada skrip Spark yang ada. SQL Tabel berikut mencantumkan parameter Spark yang didukung untuk SQL pekerjaan Spark melalui. StartJobRun API
Anda dapat memilih dari parameter Spark berikut untuk dikirim ke pekerjaan SparkSQL. Gunakan parameter ini untuk mengganti properti Spark default.
Opsi | Deskripsi |
---|---|
--nama NAME |
Nama Aplikasi |
--guci JARS | Daftar stoples dipisahkan koma untuk disertakan dengan driver dan jalankan classpath. |
--paket | Daftar koordinat maven stoples yang dipisahkan koma untuk disertakan pada classpath driver dan eksekutor. |
--kecuali-paket | Daftar: yang dipisahkan koma darigroupId:artifactId, untuk dikecualikan saat menyelesaikan dependensi yang disediakan di —packages untuk menghindari konflik ketergantungan. |
--repositori | Daftar repositori jarak jauh tambahan yang dipisahkan koma untuk mencari koordinat maven yang diberikan dengan —packages. |
--berkas FILES | Daftar file yang dipisahkan koma untuk ditempatkan di direktori kerja masing-masing pelaksana. |
--conf = PROP VALUE | Properti konfigurasi percikan. |
--properties-file FILE | Jalur ke file untuk memuat properti tambahan. |
--driver-memori MEM | Memori untuk pengemudi. Standar 1024MB. |
--driver-java-options | Opsi Java ekstra untuk diteruskan ke driver. |
--driver-library-path | Entri jalur perpustakaan tambahan untuk diteruskan ke pengemudi. |
--driver-class-path | Entri classpath ekstra untuk diteruskan ke pengemudi. |
--executor-memori MEM | Memori per eksekutor. Standar 1GB. |
--driver-core NUM | Jumlah core yang digunakan oleh driver. |
--total-executor-cores NUM | Total core untuk semua pelaksana. |
--executor-core NUM | Jumlah core yang digunakan oleh masing-masing eksekutor. |
--num-pelaksana NUM | Jumlah pelaksana yang akan diluncurkan. |
-hivevar <kunci=nilai> | Substitusi variabel untuk diterapkan pada perintah Hive, misalnya, -hivevar
A=B |
-hiveconf <property=nilai> | Nilai yang akan digunakan untuk properti yang diberikan. |
Untuk SQL pekerjaan Spark, buat start-job-run-request file.json dan tentukan parameter yang diperlukan untuk menjalankan pekerjaan Anda, seperti pada contoh berikut:
{ "name": "
myjob
", "virtualClusterId": "123456
", "executionRoleArn": "iam_role_name_for_job_execution
", "releaseLabel": "emr-6.7.0-latest
", "jobDriver": { "sparkSqlJobDriver": { "entryPoint": "entryPoint_location
", "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.driver.memory":"2G" } } ], "monitoringConfiguration": { "persistentAppUI": "ENABLED", "cloudWatchMonitoringConfiguration": { "logGroupName": "my_log_group
", "logStreamNamePrefix": "log_stream_prefix
" }, "s3MonitoringConfiguration": { "logUri": "s3://my_s3_log_location
" } } } }