データソースにデータカタログテーブルを使用する
Amazon S3 とコネクタを除くすべてのデータソースでは、選択するソースタイプの AWS Glue Data Catalog にテーブルが存在する必要があります。AWS Glue はデータカタログテーブルを生成しません。
データカタログテーブルに基づいてデータソースノードを設定するには
-
新規または保存済みのジョブのビジュアルエディタに移動します。
-
ジョブ図でデータソースノードを選択します。
-
[Data source properties] (データソースのプロパティ) タブを選択して、次の情報を入力します。
-
S3 source type (S3 ソースタイプ): (Amazon S3 データソースのみ) [Select a Catalog table] (Catalog テーブルを選択) オプションを選択して、既存の AWS Glue Data Catalog テーブルを使用します。
-
Database (データベース): このジョブに使用するソーステーブルを含むデータカタログのデータベースを選択します。検索フィールドを使用して、名前でデータベースを検索できます。
-
Table (テーブル): ソースデータに関連付けられたテーブルをリストから選択します。このテーブルは、既に AWS Glue Data Catalog に存在している必要があります。検索フィールドを使用して、名前でテーブルを検索できます。
-
Partition predicate (パーティション述語):(Amazon S3 データソースのみ) パーティション列のみを含む Spark SQL に基づいてブール式を入力します。例:
"(year=='2020' and month=='04')"
-
Temporary directory (一時ディレクトリ): (Amazon Redshift データソースのみ) ETL ジョブが一時的な中間結果を書き込める Amazon S3 の作業ディレクトリの場所のパスを入力します。
-
Role associated with the cluster (クラスターに関連付けられたロール): (Amazon Redshift データソースのみ) Amazon Redshift クラスターのアクセス許可を含む、使用する ETL ジョブのロールを入力します。詳細については、「データソースとデータターゲットのアクセス許可」を参照してください。
-