データソースにデータカタログテーブルを使用する

Amazon S3 とコネクタを除くすべてのデータソースでは、選択するソースタイプの AWS Glue Data Catalog にテーブルが存在する必要があります。AWS Glue はデータカタログテーブルを生成しません。

データカタログテーブルに基づいてデータソースノードを設定するには

新規または保存済みのジョブのビジュアルエディタに移動します。
ジョブ図でデータソースノードを選択します。
[Data source properties] (データソースのプロパティ) タブを選択して、次の情報を入力します。
- S3 source type (S3 ソースタイプ): (Amazon S3 データソースのみ) [Select a Catalog table] (Catalog テーブルを選択) オプションを選択して、既存の AWS Glue Data Catalog テーブルを使用します。
- Database (データベース): このジョブに使用するソーステーブルを含むデータカタログのデータベースを選択します。検索フィールドを使用して、名前でデータベースを検索できます。
- Table (テーブル): ソースデータに関連付けられたテーブルをリストから選択します。このテーブルは、既に AWS Glue Data Catalog に存在している必要があります。検索フィールドを使用して、名前でテーブルを検索できます。
- Partition predicate (パーティション述語):(Amazon S3 データソースのみ) パーティション列のみを含む Spark SQL に基づいてブール式を入力します。例: "(year=='2020' and month=='04')"
- Temporary directory (一時ディレクトリ): (Amazon Redshift データソースのみ) ETL ジョブが一時的な中間結果を書き込める Amazon S3 の作業ディレクトリの場所のパスを入力します。
- Role associated with the cluster (クラスターに関連付けられたロール): (Amazon Redshift データソースのみ) Amazon Redshift クラスターのアクセス許可を含む、使用する ETL ジョブのロールを入力します。詳細については、「データソースとデータターゲットのアクセス許可」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データソースノードのプロパティを変更する

データソースにコネクタを使用する