このシナリオでは、DataBrew で最初に作成しなくても、データ準備レシピを作成できます。レシピの作成を開始する前に、以下を行う必要があります。
-
アクティブなデータプレビューセッションが実行されている。データプレビューセッションが準備完了になると、[レシピの作成] がアクティブになり、レシピの作成または編集を開始できます。
-
[Glue ライブラリを自動的にインポート] のトグルが有効になっていることを確認します。
これを行うには、[データプレビュー] ペインで歯車アイコンを選択します。
AWS Glue Studio でデータ準備レシピを作成するには:
-
[データ準備レシピ] 変換をジョブキャンバスに追加します。変換はデータソースノードの親に接続する必要があります。[データ準備レシピ] ノードを追加すると、ノードが適切なライブラリで再起動し、データフレームが準備中であることがわかります。
-
データプレビューセッションが準備完了になると、以前に適用されたステップを含むデータが画面の下部に表示されます。
-
[レシピの作成] を選択します。これにより、AWS Glue Studio で新しいレシピを開始できます。
-
ジョブキャンバスの右側にある [変換] パネルに、データ準備レシピの名前を入力します。
-
左側では、キャンバスはデータのグリッドビューに置き換えられます。右側には、[変換] パネルが変化し、レシピのステップが表示されます。[ステップの追加] を選択して、レシピの最初のステップを追加します。
-
[変換] パネルで、ソート、列に対するアクションの実行、値のフィルタリングを選択します。例えば、[列の名前変更] を選択します。
-
右側の [変換] パネルで、列の名前を変更するオプションを使用して、名前を変更するソース列を選択し、新しい列名を入力できます。完了したら、[適用] を選択します。
各ステップをプレビューしたり、ステップを元に戻したり、ステップを並べ替えたり、フィルター、ソート、分割、マージなどのアクションアイコンを使用できます。データグリッドでアクションを実行すると、[変換] パネルのレシピにステップが追加されます。
変更を加える必要がある場合は、各ステップの結果をプレビューし、ステップを元に戻し、ステップの順序を変更することで、[プレビュー] ペインでこれを行うことができます。例:
-
ステップを元に戻す/やり直す – [元に戻す] アイコンを選択してステップを元に戻します。[やり直す] アイコンを選択すると、ステップを繰り返すことができます。
-
ステップの順序を変更する – ステップの順序を変更すると、AWS Glue Studio は各ステップを検証し、そのステップが無効かどうかを知らせます。
-
-
ステップを適用すると、[変換] パネルにレシピのすべてのステップが表示されます。すべてのステップをクリアして最初からやり直したり、追加アイコンを選択してさらにステップを追加したり、[レシピの作成を完了] を選択したりできます。
-
画面の右上にある [保存] を選択します。レシピステップは、ジョブを保存するまで保存されません。