AWS Glue Studio でビジュアル ETL ジョブを開始する
AWS Glue Studio ではシンプルなビジュアルインターフェイスを使用して、ETL ジョブを作成できます。新しいジョブは、[Jobs] (ジョブ) ページを使用して作成します。また、スクリプトエディタを使用して、AWS Glue Studio ETL ジョブスクリプト内のコードを直接操作することも可能です。
AWS Glue Studio または AWS Glue で作成したすべてのジョブは、[Jobs] (ジョブ) ページで確認することができます。このページでは、ジョブを表示、管理、および実行できます。
AWS Glue Studio で ETL ジョブを作成する方法の別の例については、ブログチュートリアル
AWS Glue Studio でのジョブの開始
AWS Glue では、ビジュアルインターフェイスやインタラクティブなコードの Notebook を通じて、またはスクリプトエディタを使用してジョブを作成できます。オプションのいずれかをクリックしてジョブを開始することも、サンプルジョブに基づいて新しいジョブを作成することもできます。
サンプルジョブでは、選択したツールでジョブが作成されます。例えば、サンプルジョブを使用すると、CSV ファイルをカタログテーブルに結合するビジュアル ETL ジョブを作成したり、Pandas を操作するときに AWS Glue for Ray または AWS Glue for Spark を使用してインタラクティブなコードの Notebook でジョブを作成したり、SparkSQL を使用してインタラクティブなコードの Notebook でジョブを作成したりできます。
AWS Glue Studio でゼロからのジョブの作成
AWS Management Console にサインインして、AWS Glue Studio コンソール (https://console.aws.amazon.com/gluestudio/
) を開きます。 -
ナビゲーションペインで、[ETL ジョブ] を選択します。
-
[ジョブを作成する] セクションで、ジョブの設定オプションを選択します。
ジョブを最初から作成するためのオプション:
-
ビジュアル ETL – データフローに重点を置いたビジュアルインターフェイスでの作成
-
インタラクティブなコードの Notebook を使用して作成 – Jupyter Notebook に基づいて、Notebook インターフェイスでジョブをインタラクティブに作成
このオプションを選択した場合、Notebook 作成セッションを作成する前に、追加情報を指定する必要があります。この情報の指定方法の詳細については、AWS Glue Studio 中でのノートブックの使用開始 を参照してください。
-
スクリプトエディタを使用してコードを作成 – プログラミングと ETL スクリプトの記述をよく知っている場合には、このオプションを選択して、新しい Spark ETL ジョブを作成します。エンジン (Python シェル、Ray、Spark (Python)、または Spark (Scala)) を選択します。次に、[新規に開始] または [スクリプトをアップロード] を選択し、ローカルファイルから既存のスクリプトをアップロードします。スクリプトエディタの使用を選択した場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。
Spark ジョブは、AWS Glue によって管理される Apache Spark 環境で実行されます。デフォルトでは、新しいスクリプトは Python でコーディングします。新しい Scala スクリプトを作成する場合は、「AWS Glue Studio 中の Scala スクリプトの作成および編集」を参照してください。
-
AWS Glue Studio で、サンプルジョブからジョブの作成
サンプルジョブからジョブを作成できます。[サンプルジョブ] セクションでオプションを選択し、[サンプルジョブの作成] を選択します。いずれかのオプションから作成したサンプルジョブを手軽なテンプレートとして作業を開始できます。
AWS Management Console にサインインして、AWS Glue Studio コンソール (https://console.aws.amazon.com/gluestudio/
) を開きます。 -
ナビゲーションペインで、[ETL ジョブ] を選択します。
-
サンプルジョブからジョブを作成するためのオプションを次の中から選択します。
-
複数のソースを結合するビジュアル ETL ジョブ – 3 つの CSV ファイルを読み取り、データを結合し、データ型を変更し、データを Amazon S3 に書き込み、後でクエリできるようにカタログ化します。
-
Pandas を使用した Spark Notebook – 一般的な Pandas フレームワークと Spark を組み合わせてデータを探索および可視化します。
-
SQL を使用した Spark Notebook – SQL を使用して Apache Spark をすぐに開始できます。AWS Glue データカタログからデータにアクセスし、使い慣れたコマンドを使用してデータを変換します。
-
-
[サンプルジョブの作成] を選択します。