Amazon Athena PostgreSQL コネクタ

フォーカスモード

このページの内容

このページは役に立ちましたか?

Amazon Athena PostgreSQL コネクタ - Amazon Athena

前提条件制限用語パラメータサポートされるデータ型パーティションと分割パフォーマンスパススルークエリ追加リソース

Amazon Athena PostgreSQL コネクタは、Athena での PostgreSQL データベースへのアクセスを可能にします。

このコネクタは、Glue データカタログにフェデレーティッドカタログとして登録できます。Lake Formation で定義されたデータアクセスコントロールを、カタログ、データベース、テーブル、列、行、タグレベルでサポートします。このコネクタは、Glue 接続を使用して Glue の設定プロパティを一元管理しています。

前提条件

Athena コンソールまたは AWS Serverless Application Repository を使用して AWS アカウントにコネクタをデプロイします。詳細については、「データソース接続を作成する」または「AWS Serverless Application Repository を使用してデータソースコネクタをデプロイする」を参照してください。

制限

DDL の書き込みオペレーションはサポートされていません。
マルチプレクサの設定では、スピルバケットとプレフィックスが、すべてのデータベースインスタンスで共有されます。
関連性のある Lambda 上限値。詳細については、AWS Lambda デベロッパーガイドの Lambda のクォータを参照してください。
PostgreSQL と同様に、Athena は PostgreSQL CHAR タイプの末尾のスペースを、長さや比較の目的で意味的に重要ではないものとして扱います。これは CHAR にのみ適用され、VARCHAR タイプには適用されないことに留意してください。Athena は、CHAR タイプの末尾のスペースを無視しますが、VARCHAR タイプでは重要なものとして扱います。
大文字と小文字を区別しない citext 文字列データ型を使用すると、PostgreSQL は大文字と小文字を区別しないデータ比較を使用します。これは Athena とは異なります。この違いにより、SQL JOIN オペレーション中にデータの不一致が発生します。この問題を回避するには、PostgreSQL コネクタのパススルークエリ機能を使用します。詳細については、このドキュメントの後半にあるパススルークエリのセクションを参照してください。

用語

PostgreSQL コネクタに関連する用語を次に示します。

データベースインスタンス – オンプレミス、Amazon EC2、または Amazon RDS にデプロイされたデータベースの任意のインスタンス。
ハンドラー – データベースインスタンスにアクセスする Lambda ハンドラー。ハンドラーには、メタデータ用とデータレコード用があります。
メタデータハンドラー – データベースインスタンスからメタデータを取得する Lambda ハンドラー。
レコードハンドラー – データベースインスタンスからデータレコードを取得する Lambda ハンドラー。
複合ハンドラー — データベースインスタンスからメタデータとデータレコードの両方を取得する Lambda ハンドラー。
プロパティまたはパラメータ – ハンドラーがデータベース情報を抽出するために使用するデータベースプロパティ。これらのプロパティは Lambda の環境変数で設定します。
接続文字列 – データベースインスタンスへの接続を確立するために使用されるテキスト文字列。
カタログ – Athena に登録された AWS Glue ではないカタログ。これは、connection_string プロパティに必須のプレフィックスです。
マルチプレックスハンドラー – 複数のデータベース接続を受け入れて使用することが可能な Lambda ハンドラー。

パラメータ

このセクションのパラメータを使用して PostgreSQL コネクタを設定します。

注記

2024 年 12 月 3 日以降に作成された Athena データソースコネクタは、AWS Glue 接続を使用します。

以下に示すパラメータ名と定義は、2024 年 12 月 3 日より前に作成された Athena データソースコネクタ用です。これらは、対応する AWS Glue 接続プロパティとは異なる場合があります。2024 年 12 月 3 日以降、以前のバージョンの Athena データソースコネクタを手動でデプロイする場合にのみ、以下のパラメータを使用します。

接続文字列

次の形式の JDBC 接続文字列を使用して、データベースインスタンスに接続します。


postgres://${jdbc_connection_string}

マルチプレックスハンドラーの使用

マルチプレクサーを使用すると、単一の Lambda 関数から複数のデータベースインスタンスに接続できます。各リクエストはカタログ名によりルーティングされます。Lambda では以下のクラスを使用します。

Handler	Class
複合ハンドラー	`PostGreSqlMuxCompositeHandler`
メタデータハンドラー	`PostGreSqlMuxMetadataHandler`
レコードハンドラー	`PostGreSqlMuxRecordHandler`

マルチプレックスハンドラーのパラメータ

パラメータ	説明
`$catalog_connection_string`	必須。データベースインスタンスの接続文字列。環境変数には、Athena で使用されているカタログの名前をプレフィックスします。例えば、Athena に登録されたカタログが `mypostgrescatalog` の場合、環境変数の名前は `mypostgrescatalog_connection_string` になります。
`default`	必須。デフォルトの接続文字列。この文字列は、カタログが `lambda:${AWS_LAMBDA_FUNCTION_NAME}` の場合に使用されます。

postgres1 (デフォルト) と postgres2 の 2 つのデータベースインスタンスをサポートする PostgreSql MUX Lambda 関数用のプロパティを次に示します。

プロパティ	値
`default`	`postgres://jdbc:postgresql://postgres1.host:5432/default?${Test/RDS/PostGres1}`
`postgres_catalog1_connection_string`	`postgres://jdbc:postgresql://postgres1.host:5432/default?${Test/RDS/PostGres1}`
`postgres_catalog2_connection_string`	`postgres://jdbc:postgresql://postgres2.host:5432/default?user=sample&password=sample`

認証情報の提供

JDBC 接続文字列の中でデータベースのユーザー名とパスワードを指定するには、接続文字列のプロパティ、もしくは AWS Secrets Manager を使用します。

接続文字列 – ユーザー名とパスワードを、JDBC 接続文字列のプロパティとして指定できます。

重要
セキュリティ上のベストプラクティスとして、環境変数や接続文字列にハードコードされた認証情報を使用しないでください。ハードコードされたシークレットを AWS Secrets Manager に移動する方法については、「AWS Secrets Manager ユーザーガイド」の「ハードコードされたシークレットを AWS Secrets Manager に移動する」を参照してください。
AWS Secrets Manager – Athena フェデレーティッドクエリ機能を AWS Secrets Manager で使用するには、Secrets Manager に接続するためのインターネットアクセスまたは VPC エンドポイントが、Lambda 関数に接続されている VPC に必要です。

JDBC 接続文字列には、AWS Secrets Manager のシークレットの名前を含めることができます。コネクタは、このシークレット名を Secrets Manager の username および password の値に置き換えます。

Amazon RDS データベースインスタンスには、このサポートが緊密に統合されています。Amazon RDS を使用している場合は、AWS Secrets Manager と認証情報ローテーションの使用を強くお勧めします。データベースで Amazon RDS を使用していない場合は、認証情報を次の形式で JSON として保存します。
```
{"username": "${username}", "password": "${password}"}
```

シークレット名を含む接続文字列の例

次の文字列には、シークレット名 ${Test/RDS/PostGres1} が含まれています。


postgres://jdbc:postgresql://postgres1.host:5432/default?...&${Test/RDS/PostGres1}&...

次の例のように、コネクタはシークレット名を使用し、シークレットを取得してユーザー名とパスワードを提供します。


postgres://jdbc:postgresql://postgres1.host:5432/default?...&user=sample2&password=sample2&...

現在、PostgreSQL コネクタは user と password の JDBC プロパティを認識します。

SSL を有効にしています

PostgreSQL 接続で SSL をサポートするには、接続文字列に以下を追加します。


&sslmode=verify-ca&sslfactory=org.postgresql.ssl.DefaultJavaSSLFactory

例

次の接続文字列の例は SSL を使用していません。


postgres://jdbc:postgresql://example-asdf-aurora-postgres-endpoint:5432/asdf?user=someuser&password=somepassword

SSL を有効にするには、文字列を次のように変更します。


postgres://jdbc:postgresql://example-asdf-aurora-postgres-endpoint:5432/asdf?user=someuser&password=somepassword&sslmode=verify-ca&sslfactory=org.postgresql.ssl.DefaultJavaSSLFactory

単一接続ハンドラーの使用

次の単一接続のメタデータハンドラーとレコードハンドラーを使用して、単一の PostgreSQL インスタンスに接続できます。

ハンドラーのタイプ	Class
複合ハンドラー	`PostGreSqlCompositeHandler`
メタデータハンドラー	`PostGreSqlMetadataHandler`
レコードハンドラー	`PostGreSqlRecordHandler`

単一接続ハンドラーのパラメータ

パラメータ	説明
`default`	必須。デフォルトの接続文字列。

単一接続ハンドラーでは、1 つのデータベースインスタンスがサポートされます。また、default 接続文字列パラメータを指定する必要があります。他のすべての接続文字列は無視されます。

Lambda 関数でサポートされる単一の PostgreSQL インスタンス用のプロパティ例を次に示します。

プロパティ	値
`default`	`postgres://jdbc:postgresql://postgres1.host:5432/default?secret=${Test/RDS/PostgreSQL1}`

スピルパラメータ

Lambda SDK は Amazon S3 にデータをスピルする可能性があります。同一の Lambda 関数によってアクセスされるすべてのデータベースインスタンスは、同じ場所にスピルします。

パラメータ	説明
`spill_bucket`	必須。スピルバケット名。
`spill_prefix`	必須。スピルバケットのキープレフィックス
`spill_put_request_headers`	(オプション) スピルに使用される Amazon S3 の `putObject` リクエスト (例:`{"x-amz-server-side-encryption" : "AES256"}`) における、リクエストヘッダーと値に関する JSON でエンコードされたマッピング。利用可能な他のヘッダーについては、「Amazon Simple Storage Service API リファレンス」の「PutObject」を参照してください。

サポートされるデータ型

次の表に、JDBC、PostgreSQL、Arrow に対応するデータ型を示します。

JDBC	PostgreSQL	Arrow
ブール値	ブール値	Bit
整数	該当なし	Tiny
ショート	smallint	Smallint
整数	integer	Int
Long	bigint	Bigint
フロート	float4	Float4
ダブル	float8	Float8
日付	date	DateDay
Timestamp	timestamp	DateMilli
文字列	text	Varchar
バイト	bytes	Varbinary
BigDecimal	numeric(p,s)	10 進数
配列	該当なし (注記を参照)	リスト

注記

ARRAY 型は PostgreSQL コネクタでサポートされていますが、多次元配列 (<data_type>[][] またはネストされた配列) はサポートされていないという制約があります。サポートされていない ARRAY データ型の列は文字列要素の配列 (array<varchar>) に変換されます。

パーティションと分割

パーティションは、コネクタを分割する方法を決定するために使用されます。Athena は varchar 型の合成列を作成し、コネクタが分割を生成できるようにするために、テーブルに対するパーティションのスキームを示します。コネクタは実際のテーブル定義を変更しません。

パフォーマンス

PostgreSQL はネイティブパーティションをサポートしています。Athena PostgreSQL コネクタは、これらのパーティションからデータを並列に取得できます。均一なパーティション分散の非常に大きなデータセットをクエリする場合は、ネイティブパーティションを強くお勧めします。

Athena PostgreSQL コネクタは述語のプッシュダウンを実行して、クエリによってスキャンされるデータを減少させます。スキャンされるデータ量を削減し、クエリ実行のランタイムを短縮するために、LIMIT 句、単純な述語、および複雑な式はコネクタにプッシュダウンされます。ただし、列のサブセットを選択すると、クエリのランタイムが長くなる場合があります。

LIMIT 句

LIMIT N ステートメントにより、クエリによってスキャンされるデータが削減されます。LIMIT N プッシュダウンを使用すると、コネクタは N 行のみを Athena に返します。

述語

述語は、ブール値に照らして評価し、複数の条件に基づいて行をフィルタリングする SQL クエリの WHERE 句内の式です。Athena PostgreSQL コネクタは、これらの式を組み合わせて PostgreSQL に直接プッシュすることで、機能を強化し、スキャンされるデータ量を削減できます。

次の Athena PostgreSQL コネクタ演算子は、述語のプッシュダウンをサポートしています。

ブーリアン: AND、OR、NOT
等値: EQUAL、NOT_EQUAL、LESS_THAN、LESS_THAN_OR_EQUAL、GREATER_THAN、GREATER_THAN_OR_EQUAL、IS_DISTINCT_FROM、NULL_IF、IS_NULL
Arithmetic: ADD、SUBTRACT、MULTIPLY、DIVIDE、MODULUS、NEGATE
その他: LIKE_PATTERN、IN

組み合わせたプッシュダウンの例

クエリ機能を強化するには、次の例のようにプッシュダウンタイプを組み合わせます。


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d))
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
LIMIT 10;

パススルークエリ

PostgreSQL コネクタは、パススルークエリをサポートします。パススルークエリは、テーブル関数を使用して、実行のためにクエリ全体をデータソースにプッシュダウンします。

PostgreSQL でパススルークエリを使用するには、以下の構文を使用できます。


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

以下のクエリ例は、PostgreSQL 内のデータソースにクエリをプッシュダウンします。クエリは customer テーブル内のすべての列を選択し、結果を 10 個に制限します。


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

追加リソース

最新の JDBC ドライバーのバージョン情報については、GitHub.com の PostgreSQL コネクタ用の pom.xml ファイルを参照してください。

このコネクタに関するその他の情報については、GitHub.com で対応するサイトを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Oracle

Redis OSS

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません