スクリプトには、ソースからデータを抽出して、変換し、ターゲットにロードするコードが含まれています。AWS Glue はジョブを開始するときにスクリプトを実行します。
Python または Scala で AWS Glue ETL スクリプトを記述できます。Python スクリプトは、抽出、変換、ロード (ETL) ジョブのための PySpark Python ダイアレクトの拡張機能である言語を使用します。スクリプトには ETL 変換を処理する拡張構造が含まれます。自動でジョブのソースコードロジックを生成するときに、スクリプトが作成されます。このスクリプトを編集するか、または、独自のスクリプトを指定して ETL 作業を処理することができます。
AWS Glue のスクリプトの定義と編集の詳細については、「AWS Glue プログラミングガイド」を参照してください。
その他のライブラリまたはファイル
スクリプトに追加のライブラリやファイルが必要な場合は、次のように指定できます。
- Python ライブラリパス
-
スクリプトで必要とされる Python ライブラリへのカンマ区切りの Amazon Simple Storage Service (Amazon S3) パス。
注記
純粋な Python ライブラリのみを使用できます。pandas Python データ解析ライブラリなど、C 拡張機能に依存するライブラリはまだサポートされていません。
- 依存 JARS パス
-
スクリプトで必要とされる JAR ファイルへのカンマ区切りの Amazon S3 パスです。
注記
現在、純粋な Java または Scala (2.11) ライブラリのみを使用できます。
- 参照されるファイルパス
-
スクリプトに必要な追加のファイル (例えば、設定ファイル) への、カンマ区切りの Amazon S3 パス。