でのビジュアルETLジョブの開始 AWS Glue Studio - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

でのビジュアルETLジョブの開始 AWS Glue Studio

のシンプルなビジュアルインターフェイスを使用してETLジョブAWS Glue Studioを作成できます。新しいジョブは、[Jobs] (ジョブ) ページを使用して作成します。スクリプトエディタまたはノートブックを使用して、AWS Glue StudioETLジョブスクリプト内のコードを直接操作することもできます。

AWS Glue Studio または AWS Glue で作成したすべてのジョブは、[Jobs] (ジョブ) ページで確認することができます。このページでは、ジョブを表示、管理、および実行できます。

ブログチュートリアルも参照してください。
 でETLジョブを作成する方法の別の例を示しますAWS Glue Studio。

AWS Glue Studio でのジョブの開始

AWS Glue では、ビジュアルインターフェイスやインタラクティブなコードの Notebook を通じて、またはスクリプトエディタを使用してジョブを作成できます。オプションのいずれかをクリックしてジョブを開始することも、サンプルジョブに基づいて新しいジョブを作成することもできます。

サンプルジョブでは、選択したツールでジョブが作成されます。例えば、サンプルジョブを使用すると、CSVファイルをカタログテーブルに結合するビジュアルETLジョブを作成したり、pandas を操作するときに AWS Glue for Ray または AWS Glue for Spark を使用してインタラクティブコードノートブックでジョブを作成したり、Spark を使用してインタラクティブコードノートブックでジョブを作成したりできますSQL。

AWS Glue Studio でゼロからのジョブの作成

  1. にサインイン AWS Management Console し、 でAWS Glue Studioコンソールを開きますhttps://console.aws.amazon.com/gluestudio/

  2. ナビゲーションペインからETLジョブを選択します。

  3. [ジョブを作成する] セクションで、ジョブの設定オプションを選択します。

    スクリーンショットに、AWS Glue Studio のジョブページを示します。[ジョブを作成する] セクションには、ジョブの作成オプションが表示されます。[サンプルジョブ] セクションでオプションを選択し、[サンプルジョブの作成] を選択してサンプルジョブを開始します。

    ジョブを最初から作成するためのオプション:

    • ビジュアル ETL – データフローに焦点を当てたビジュアルインターフェイスの作成者

    • インタラクティブなコードの Notebook を使用して作成 – Jupyter Notebook に基づいて、Notebook インターフェイスでジョブをインタラクティブに作成

      このオプションを選択した場合、Notebook 作成セッションを作成する前に、追加情報を指定する必要があります。この情報の指定方法の詳細については、AWS Glue Studio 中でのノートブックの使用開始 を参照してください。

    • スクリプトエディタでコードを記述する – ETLスクリプトのプログラミングと記述に精通している場合は、このオプションを選択して新しい Spark ETLジョブを作成します。エンジン (Python シェル、Ray、Spark (Python)、または Spark (Scala)) を選択します。次に、[新規に開始] または [スクリプトをアップロード] を選択し、ローカルファイルから既存のスクリプトをアップロードします。スクリプトエディタの使用を選択した場合は、ビジュアルジョブエディタを使用してジョブを設計または編集することはできません。

      Spark ジョブは、AWS Glue によって管理される Apache Spark 環境で実行されます。デフォルトでは、新しいスクリプトは Python でコーディングします。新しい Scala スクリプトを作成する場合は、「AWS Glue Studio 中の Scala スクリプトの作成および編集」を参照してください。

AWS Glue Studio で、サンプルジョブからジョブの作成

サンプルジョブからジョブを作成できます。[サンプルジョブ] セクションでオプションを選択し、[サンプルジョブの作成] を選択します。いずれかのオプションから作成したサンプルジョブを手軽なテンプレートとして作業を開始できます。

  1. にサインイン AWS Management Console し、 でAWS Glue Studioコンソールを開きますhttps://console.aws.amazon.com/gluestudio/

  2. ナビゲーションペインからETLジョブを選択します。

  3. サンプルジョブからジョブを作成するためのオプションを次の中から選択します。

    • 複数のソースを結合するビジュアルETLジョブ – 3 つのCSVファイルを読み取り、データを組み合わせてデータ型を変更し、データを Amazon S3 に書き込み、後でクエリできるようにカタログ化します。

    • Pandas を使用した Spark Notebook – 一般的な Pandas フレームワークと Spark を組み合わせてデータを探索および可視化します。

    • を使用した Spark ノートブック SQL — を使用して、Apache Spark の使用をすばやく開始SQLできます。AWS Glue データカタログからデータにアクセスし、使い慣れたコマンドを使用してデータを変換します。

  4. [サンプルジョブの作成] を選択します。