Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengonfigurasi properti pekerjaan untuk pekerjaan shell Python di AWS Glue
Anda dapat menggunakan pekerjaan shell Python untuk menjalankan skrip Python sebagai shell di AWS Glue. Dengan pekerjaan shell Python, Anda dapat menjalankan skrip yang kompatibel dengan Python 3.6 atau Python 3.9.
Topik
Batasan
Perhatikan batasan pekerjaan Python Shell berikut ini:
-
Anda tidak dapat menggunakan bookmark tugas dengan tugas shell Python tersebut.
-
Anda tidak dapat mengemas pustaka Python apa pun sebagai file
.egg
di Python 3.9+. Sebaliknya, gunakan.whl
. --extra-files
Opsi ini tidak dapat digunakan, karena pembatasan salinan sementara data S3.
Mendefinisikan properti pekerjaan untuk pekerjaan shell Python
Bagian ini menjelaskan mendefinisikan properti pekerjaan di AWS Glue Studio, atau menggunakan AWS CLI.
AWS Glue Studio
Saat Anda menentukan pekerjaan shell Python Anda di AWS Glue Studio, Anda memberikan beberapa properti berikut:
- Peran IAM
-
Tentukan peran AWS Identity and Access Management (IAM) yang digunakan untuk otorisasi sumber daya yang digunakan untuk menjalankan pekerjaan dan mengakses penyimpanan data. Untuk informasi selengkapnya tentang izin untuk menjalankan pekerjaan di AWS Glue, lihat Manajemen identitas dan akses untuk AWS Glue.
- Tipe
-
Pilih Python shell untuk menjalankan skrip Python dengan perintah tugas bernama
pythonshell
. - Versi Python
-
Pilih versi Python. Defaultnya adalah Python 3.9. Versi yang valid adalah Python 3.6 dan Python 3.9.
- Muat pustaka analitik umum (Disarankan)
-
Pilih opsi ini untuk menyertakan pustaka umum untuk Python 3.9 di shell Python.
Jika pustaka Anda kustom atau bertentangan dengan yang sudah diinstal sebelumnya, Anda dapat memilih untuk tidak menginstal pustaka umum. Namun, Anda dapat menginstal pustaka tambahan selain pustaka umum.
Ketika Anda memilih opsi ini,
library-set
opsi diatur keanalytics
. Saat Anda membatalkan pilihan ini,library-set
opsi diatur kenone
. - Nama file skrip dan jalur Skrip
-
Kode dalam Skrip mendefinisikan logika prosedural tugas Anda. Anda menyediakan nama skrip dan lokasi di Amazon Simple Storage Service (Amazon S3). Konfirmasi bahwa tidak ada file dengan nama yang sama sebagai direktori skrip pada path. Untuk mem-pelajari selengkapnya tentang menggunakan skrip, lihat AWS Glue panduan pemrograman.
- Skrip
-
Kode dalam Skrip mendefinisikan logika prosedural tugas Anda. Anda dapat membuat kode skrip dengan Python 3.6 atau Python 3.9. Anda dapat mengedit skrip di AWS Glue Studio.
- Unit pengolahan data
-
Jumlah maksimum AWS Glue unit pemrosesan data (DPUs) yang dapat dialokasikan saat pekerjaan ini berjalan. DPU adalah ukuran relatif daya pemrosesan yang terdiri dari 4 v CPUs kapasitas komputasi dan memori 16 GB. Untuk informasi selengkapnya, silakan lihat AWS Glue harga
. Anda dapat mengatur nilai-nya ke 0,0625 atau 1. Default-nya adalah 0,0625. Dalam kedua kasus, disk lokal untuk contoh akan menjadi 20GB.
CLI
Anda juga dapat membuat pekerjaan shell Python menggunakan AWS CLI, seperti pada contoh berikut.
aws glue create-job --name python-job-cli --role Glue_DefaultRole --command '{"Name" : "pythonshell", "PythonVersion": "3.9", "ScriptLocation" : "s3://DOC-EXAMPLE-BUCKET/scriptname.py"}' --max-capacity 0.0625
catatan
Anda tidak perlu menentukan versi AWS Glue karena parameter --glue-version
tidak berlaku untuk AWS Glue pekerjaan shell. Setiap versi yang ditentukan akan diabaikan.
Pekerjaan yang Anda buat dengan AWS CLI default ke Python 3. Versi Python yang valid adalah 3 (sesuai dengan 3.6), dan 3.9. Untuk menentukan Python 3.6, tambahkan tuple ini ke parameter: --command
"PythonVersion":"3"
Untuk menentukan Python 3.9, tambahkan tuple ini ke parameter: --command
"PythonVersion":"3.9"
Untuk mengatur kapasitas maksimal yang digunakan oleh tugas shell Python, berikan parameter --max-capacity
. Untuk tugas shell Python, parameter --allocated-capacity
tidak dapat digunakan.
Pustaka yang didukung untuk pekerjaan shell Python
Dalam Python shell menggunakan Python 3.9, Anda dapat memilih set perpustakaan untuk menggunakan set perpustakaan pra-paket untuk kebutuhan Anda. Anda dapat menggunakan library-set
opsi untuk memilih kumpulan perpustakaan. Nilai yang valid adalahanalytics
, dannone
.
Lingkungan untuk menjalankan tugas shell Python mendukung perpustakaan berikut:
Versi Python | Python 3.6 | Python 3.9 | |
---|---|---|---|
Set perpustakaan | N/A | analitik | tidak ada |
avro | 1.11.0 | ||
awscli | 116.242 | 1.23.5 | 1.23.5 |
awswrangler | 2.15.1 | ||
botocore | 1.12.232 | 1.24.21 | 1.23.5 |
boto3 | 1.9.203 | 1.21.21 | |
elasticsearch | 8.2.0 | ||
numpy | 1.16.2 | 1.22.3 | |
panda | 0.24.2 | 1.4.2 | |
psycopg2 | 2.9.3 | ||
pyathena | 2.5.3 | ||
PyGreSQL | 5.0.6 | ||
PyMySQL | 1.0.2 | ||
pyodbc | 4.0.32 | ||
pyorc | 0.6.0 | ||
konektor pergeseran merah | 2.0.907 | ||
permintaan | 2.22.0 | 2.27.1 | |
scikit-belajar | 0.20.3 | 1.0.2 | |
scipy | 1.2.1 | 1.8.0 | |
SQLAlchemy | 1.4.36 | ||
s3fs | 2022.3.0 |
Anda dapat menggunakan perpustakaan NumPy
dalam sebuah tugas shell Python untuk komputasi ilmiah. Untuk informasi selengkapnya, lihat NumPy
import numpy as np print("Hello world") a = np.array([20,30,40,50]) print(a) b = np.arange( 4 ) print(b) c = a-b print(c) d = b**2 print(d)
Menyediakan pustaka Python Anda sendiri
Menggunakan PIP
Python shell menggunakan Python 3.9 memungkinkan Anda menyediakan modul Python tambahan atau versi yang berbeda di tingkat pekerjaan. Anda dapat menggunakan --additional-python-modules
dengan daftar modul Python yang dipisahkan koma untuk menambahkan modul baru atau mengubah versi dari modul yang ada. Anda tidak dapat menyediakan modul Python khusus yang dihosting di Amazon S3 dengan parameter ini saat menggunakan pekerjaan shell Python.
Misalnya untuk memperbarui atau menambahkan scikit-learn
modul baru gunakan kunci dan nilai berikut:"--additional-python-modules",
"scikit-learn==0.21.3"
.
AWS Glue menggunakan Python Package Installer (pip3) untuk menginstal modul tambahan. Anda dapat meneruskan opsi pip3 tambahan di dalam nilai. --additional-python-modules
Misalnya, "scikit-learn==0.21.3 -i https://pypi.python.org/simple/"
. Ketidakcocokan atau batasan apa pun dari pip3 berlaku.
catatan
Untuk menghindari ketidakcocokan di masa mendatang, sebaiknya gunakan library yang dibuat untuk Python 3.9.
Menggunakan file Egg atau Whl
Anda mungkin sudah memiliki satu atau beberapa perpustakaan Python yang dikemas sebagai sebuah file .egg
atau .whl
. Jika demikian, Anda dapat menentukannya ke tugas Anda dengan menggunakan AWS Command Line Interface
(AWS CLI) pada bendera "--extra-py-files
", seperti dalam contoh berikut.
aws glue create-job --name python-redshift-test-cli --role
role
--command '{"Name" : "pythonshell", "ScriptLocation" : "s3://MyBucket/python/library/redshift_test.py"}' --connections Connections=connection-name
--default-arguments '{"--extra-py-files" : ["s3://DOC-EXAMPLE-BUCKET/EGG-FILE", "s3://DOC-EXAMPLE-BUCKET/WHEEL-FILE"]}'
Jika Anda tidak benar-benar mengetahui cara membuat sebuah file .egg
atau .whl
dari perpustakaan Python, maka gunakan langkah-langkah berikut. Contoh ini berlaku di macOS, Linux, dan Windows Subsystem for Linux (WSL).
Untuk membuat sebuah file .egg atau file .whl Python
-
Buat klaster Amazon Redshift di sebuah virtual private cloud (VPC), dan tambahkan beberapa data ke tabel.
-
Buat sebuah AWS Glue koneksi untuk VPC-SecurityGroup-Subnet kombinasi yang Anda gunakan untuk membuat cluster. Menguji apakah koneksi berhasil.
-
Buatlah sebuah direktori bernama
redshift_example
, dan buatlah file bernamasetup.py
. Tempel kode berikut kesetup.py
.from setuptools import setup setup( name="redshift_module", version="0.1", packages=['redshift_module'] )
-
Pada direktori
redshift_example
, buatredshift_module
. Pada direktoriredshift_module
, buat file__init__.py
dan filepygresql_redshift_common.py
. -
Biarkan file
__init__.py
kosong. Dipygresql_redshift_common.py
, tempel kode berikut. Gantiport
db_name
,user
,, danpassword_for_user
dengan detail khusus untuk cluster Amazon Redshift Anda. Gantitable_name
dengan nama tabel di Amazon Redshift.import pg def get_connection(host): rs_conn_string = "host=%s port=%s dbname=%s user=%s password=%s" % ( host,
port
,db_name
,user
,password_for_user
) rs_conn = pg.connect(dbname=rs_conn_string) rs_conn.query("set statement_timeout = 1200000") return rs_conn def query(con): statement = "Select * fromtable_name
;" res = con.query(statement) return res -
Jika Anda belum sampai di langkah itu, ubah ke direktori
redshift_example
. -
Lakukan salah satu hal berikut ini:
Untuk membuat sebuah file
.egg
, jalankan perintah berikut.python setup.py bdist_egg
Untuk membuat sebuah file
.whl
, jalankan perintah berikut.python setup.py bdist_wheel
-
Menginstal dependensi yang diperlukan untuk perintah sebelumnya.
-
Perintah tersebut membuat file di direktori
dist
:-
Jika Anda membuat sebuah file egg, namanya adalah
redshift_module-0.1-py2.7.egg
. -
Jika Anda membuat sebuah file roda, namanya adalah
redshift_module-0.1-py2.7-none-any.whl
.
Unggah file ini ke Amazon S3.
Dalam contoh ini, path file yang diunggah adalah
s3://DOC-EXAMPLE-BUCKET/EGG-FILE
ataus3://DOC-EXAMPLE-BUCKET/WHEEL-FILE
. -
-
Buat file Python untuk digunakan sebagai skrip untuk AWS Glue job, dan tambahkan kode berikut ke file.
from redshift_module import pygresql_redshift_common as rs_common con1 = rs_common.get_connection(
redshift_endpoint
) res = rs_common.query(con1) print "Rows in the table cities are: " print res -
Unggah file sebelumnya ke Amazon S3. Dalam contoh ini, path file yang diunggah adalah
s3://DOC-EXAMPLE-BUCKET/scriptname.py
. -
Buat sebuah tugas shell Python menggunakan skrip ini. Pada AWS Glue konsol, pada halaman properti Job, tentukan jalur ke
.egg/.whl
file di kotak jalur pustaka Python. Jika Anda memiliki beberapa file.egg/.whl
dan file Python, berikan daftar dipisahkan koma dalam kotak ini.Saat memodifikasi atau mengganti nama
.egg
, nama file harus menggunakan nama default yang dihasilkan oleh perintah "python setup.py bdist_egg" atau harus mematuhi konvensi penamaan modul Python. Untuk informasi selengkapnya, lihat bagian Panduan Gaya untuk Kode Python. Menggunakan AWS CLI, membuat pekerjaan dengan perintah, seperti pada contoh berikut.
aws glue create-job --name python-redshift-test-cli --role Role --command '{"Name" : "pythonshell", "ScriptLocation" : "s3://DOC-EXAMPLE-BUCKET/scriptname.py"}' --connections Connections="connection-name" --default-arguments '{"--extra-py-files" : ["s3://DOC-EXAMPLE-BUCKET/EGG-FILE", "s3://DOC-EXAMPLE-BUCKET/WHEEL-FILE"]}'
Saat pekerjaan berjalan, skrip mencetak baris yang dibuat dalam
table_name
tabel di cluster Amazon Redshift.
Gunakan AWS CloudFormation dengan pekerjaan shell Python di AWS Glue
Anda dapat menggunakan AWS CloudFormation dengan pekerjaan shell Python di AWS Glue. Berikut ini adalah contoh:
AWSTemplateFormatVersion: 2010-09-09 Resources: Python39Job: Type: 'AWS::Glue::Job' Properties: Command: Name: pythonshell PythonVersion: '3.9' ScriptLocation: 's3://bucket/location' MaxRetries: 0 Name: python-39-job Role: RoleName
Grup Amazon CloudWatch Logs untuk output pekerjaan shell Python adalah. /aws-glue/python-jobs/output
Untuk kesalahan, lihat grup log /aws-glue/python-jobs/error
.