Athena による Amazon DynamoDB テーブルへのアクセス、クエリ、結合

作成者: Moinul Al-Mamun (AWS）

環境:本稼働

テクノロジー: 分析、データベース、サーバーレス

AWS サービス: Amazon AthenaAmazon DynamoDBAWSLambda、Amazon S3

[概要]

このパターンは、Amazon Athena DynamoDB コネクタを使用して Amazon Athena と Amazon DynamoDB 間の接続をセットアップする方法を示しています。コネクタは AWS Lambda 関数を使用して DynamoDB 内のデータをクエリします。接続を設定するコードはありません。接続が確立されたら、Athena 横串検索を使用して Athena からSQLコマンドを実行することで、DynamoDB テーブルにすばやくアクセスして分析できます。また、1 つ以上の DynamoDB テーブルを相互に結合したり、Amazon Redshift や Amazon Aurora などの他のデータソースに結合したりすることもできます。

前提条件と制限

前提条件

DynamoDB テーブル、Athena データソース、Lambda、および AWS Identity and Access Management (IAM) ロールを管理するアクセス許可を持つアクティブなAWSアカウント
Athena がクエリ結果を保存できる Amazon Simple Storage Service (Amazon S3) バケット
Athena DynamoDB コネクタがデータを短期的に保存できる S3 バケット
Athena エンジンバージョン 2 をサポートする AWSリージョン
IAM Athena および必要な S3 バケットにアクセスするためのアクセス許可
「Amazon Athena DynamoDB コネクタ」、インストール済み

制約事項

DynamoDB テーブルのクエリにはコストがかかります。数ギガバイト (GBs) を超えるテーブルサイズでは、高いコストが発生する可能性があります。テーブル全体のSCANオペレーションを実行する前に、コストを考慮することをお勧めします。詳細については、「Amazon DynamoDB 料金」を参照してください。コストを削減し、高いパフォーマンスを実現するには、クエリLIMITで常にを使用することをお勧めします (例: SELECT * FROM table1 LIMIT 10）。また、本番環境で JOINまたは GROUP BY クエリを実行する前に、テーブルのサイズを考慮してください。テーブルが大きすぎる場合は、「テーブルを Amazon S3 に移行する」などの代替オプションを検討してください。

アーキテクチャ

次の図は、ユーザーが Athena から DynamoDB テーブルに対してSQLクエリを実行する方法を示しています。

Athena と DynamoDB を接続してSQLクエリを実行するワークフロー。

この図表は、次のワークフローを示しています：

DynamoDB テーブルをクエリするには、ユーザーは Athena からSQLクエリを実行します。
Athena は Lambda 関数を開始します。
Lambda 関数は、DynamoDB テーブル内のリクエストされたデータをクエリを行います。
DynamoDB はリクエストされたデータを Lambda 関数に返します。次に、この関数は Athena を介してクエリ結果をユーザーに転送します。
Lambda 関数は S3 バケットにデータを保存します。

テクノロジースタック

Amazon Athena
Amazon DynamoDB
Amazon S3
AWS Lambda

ツール

Amazon Athena は、標準のを使用して Amazon S3 でデータを直接分析するのに役立つインタラクティブなクエリサービスですSQL。
Amazon Athena DynamoDB Connector は、Athena が DynamoDB に接続し、SQLクエリを使用してテーブルにアクセスできるようにするAWSツールです。
Amazon DynamoDB は、高速で予測可能でスケーラブルなパフォーマンスを提供するフルマネージドの NoSQL データベースサービスです。
AWS Lambda は、サーバーのプロビジョニングや管理を必要とせずにコードを実行するのに役立つコンピューティングサービスです。必要に応じてコードを実行し、自動的にスケーリングするため、課金は実際に使用したコンピューティング時間に対してのみ発生します。

エピック

タスク	説明	必要なスキル
1 つ目のサンプルテーブルを作成します。	AWS マネジメントコンソールにサインインし、DynamoDB コンソールを開きます。 [Create table (テーブルの作成)] を選択します。 [テーブル名] に「dydbtable1」と入力します。パーティションキーには、と入力しますPK1。 [ソートキー] に SK1 と入力します。 [Table settings (テーブルの設定)] セクションで、[Customize settings (設定のカスタマイズ)] を選択します。「テーブルクラス」セクションで、[DynamoDB 標準] を選択します。「読み取り/書き込みキャパシティ設定」セクションの [キャパシティモード] で [オンデマンド] を選択します。「保存時の暗号化」セクションで、[Amazon DynamoDB が所有] を選択します。 [Create table (テーブルの作成)] を選択します。	開発者
最初のテーブルにサンプルデータを挿入します。	DynamoDB コンソールを開きます。ナビゲーションペインで [テーブル] を選択し、[名前] 列でテーブルを選択します。 [アクション]、[アイテムの作成] の順に選択します。 JSON ビューを選択します。属性エディタのタイトルバーで、DynamoDB の表示 JSONをオフにします。 [属性] エディタで、次のサンプルデータを 1 つずつ入力します。 `{ "PK1": "1234", "SK1": "info", "Salary": "5000" }` `{ "PK1": "1235", "SK1": "info", "Salary": "5200" }`	開発者
2 番目のサンプルテーブルを作成します。	DynamoDB コンソールを開きます。 [Create table] を選択します。 [テーブル名] に「dydbtable2」と入力します。 [パーティションキー] に PK2 と入力します。 [ソートキー] に SK2 と入力します。 [Table settings (テーブルの設定)] セクションで、[Customize settings (設定のカスタマイズ)] を選択します。「テーブルクラス」セクションで、[DynamoDB 標準] を選択します。「読み取り/書き込みキャパシティ設定」セクションの [キャパシティモード] で [オンデマンド] を選択します。「保存時の暗号化」セクションで、[Amazon DynamoDB が所有] を選択します。 [Create table (テーブルの作成)] を選択します。	開発者
2 番目のテーブルにサンプルデータを挿入します。	DynamoDB コンソールを開きます。ナビゲーションペインで [テーブル] を選択し、[名前] 列でテーブルを選択します。 [アクション]、[アイテムの作成] の順に選択します。属性エディタのタイトルバーで、DynamoDB の表示 JSONをオフにします。 [属性] エディタで、次のサンプルデータを 1 つずつ入力します。 `{ "PK2": "1234", "SK2": "bonus", "Bonus": "500" }` `{ "PK2": "1235", "SK2": "bonus", "Bonus": "1000" }`	開発者

タスク	説明	必要なスキル
データソースコネクタを設定します。	DynamoDB のデータソースを作成し、そのデータソースに接続する Lambda 関数を作成します。 AWS マネジメントコンソールにサインインし、Athena コンソールを開きます。ナビゲーションペインで [データソース] を選択してから、[データソースの作成] を選択します。 [Amazon DynamoDB] データソースを選択し、[次へ] を選択します。「データソースの詳細」セクションの「データソース名」にtestDynamo「DB」と入力します。接続の詳細セクションで、すでにデプロイされている Lambda 関数を選択するか、このパターンに使用する Lambda 関数がない場合は [Lambda 関数を作成] を選択します。注: Lambda 関数の作成の詳細については、Lambda 開発者ガイドの「Lambda の使用開始」を参照してください。（オプション) Lambda 関数の作成を選択した場合は、スタックをデプロイする前に Java アプリケーションに含まれるAWS CloudFormation テンプレートを設定する必要があります。テンプレートには ApplicationName、、 SpillBucket AthenaCatalogName、およびその他のアプリケーション設定が含まれます。注:この Java ベースのアプリケーションをデプロイすると、スタックは Athena が DynamoDB と通信できるようにする Lambda 関数を作成します。これにより、 SQL コマンドを介してテーブルにアクセスできるようになります。 Lambda 関数をデプロイします。 [Next (次へ)] を選択します。	開発者
Lambda 関数が S3 スピルバケットにアクセスできることを確認します。	Lambdaのコンソールを開きます。ナビゲーションペインで [関数] を選択し、先ほど作成した関数を選択する。 [設定] タブを選択します。左側のペインで [環境変数] を選択し、キーの値が `spill_bucket` であることを確認します。左側のペインでアクセス許可を選択し、実行ロールセクションでアタッチされたIAMロールを選択します。注: IAMコンソールで Lambda 関数にアタッチされているIAMロールに移動します。 `spill_bucket` バケットへの書き込み権限があることを確認します。エラーが発生した場合は、このパターンの「追加情報」セクションでガイダンスを参照してください。	開発者

タスク説明必要なスキル

タスク	説明	必要なスキル
DynamoDB テーブルに対してクエリを実行します。	AWS マネジメントコンソールにサインインし、Athena コンソールを開きます。ナビゲーションペインで [データソース] を選択してから、[データソースの作成] を選択します。ナビゲーションペイン内で [Query editor (クエリエディタ)] を選択します。 [エディター] タブの「データ」セクションの [データソース] で、お客様のデータソースを選択します。 [Database] (データベース) で、データベースを選択します。クエリ 1 には、次のクエリを入力します。`SELECT * FROM dydbtable1 t1;` [実行] を選択し、テーブル内の出力を確認します。クエリ 2 には、次のクエリを入力します。`SELECT * FROM dydbtable2 t2;` [実行] を選択し、テーブル内の出力を確認します。	開発者
2 つの DynamoDB テーブルを結合します。	DynamoDB SQLは No データストアであり、SQL結合オペレーションをサポートしていません。そのため、次の 2 つの DynamoDB テーブルで結合操作を実行する必要があります。新しいクエリを作成するには、プラスアイコンを選択します。クエリ 3 には、次のクエリを入力します。 `SELECT pk1, salary, bonus FROM dydbtable1 t1 JOIN dydbtable2 t2 ON t1.pk1 = t2.pk2;`	開発者

DynamoDB テーブルに対してクエリを実行します。

AWS マネジメントコンソールにサインインし、Athena コンソールを開きます。
ナビゲーションペインで [データソース] を選択してから、[データソースの作成] を選択します。
ナビゲーションペイン内で [Query editor (クエリエディタ)] を選択します。
[エディター] タブの「データ」セクションの [データソース] で、お客様のデータソースを選択します。
[Database] (データベース) で、データベースを選択します。
クエリ 1 には、次のクエリを入力します。SELECT * FROM dydbtable1 t1;
[実行] を選択し、テーブル内の出力を確認します。
クエリ 2 には、次のクエリを入力します。SELECT * FROM dydbtable2 t2;
[実行] を選択し、テーブル内の出力を確認します。

開発者

2 つの DynamoDB テーブルを結合します。

DynamoDB SQLは No データストアであり、SQL結合オペレーションをサポートしていません。そのため、次の 2 つの DynamoDB テーブルで結合操作を実行する必要があります。

新しいクエリを作成するには、プラスアイコンを選択します。
クエリ 3 には、次のクエリを入力します。


SELECT pk1, salary, bonus FROM dydbtable1 t1
 JOIN dydbtable2 t2 ON t1.pk1 = t2.pk2;

開発者

追加情報

Athena のクエリで spill_bucket を {bucket_name}/folder_name/ という形式で実行すると、次のエラーメッセージが表示されることがあります。


"GENERIC_USER_ERROR: Encountered an exception[java.lang.RuntimeException] from your LambdaFunction[arn:aws:lambda:us-east-1:xxxxxx:function:testdynamodb] executed in context[retrieving meta-data] with message[You do NOT own the spill bucket with the name: s3://amzn-s3-demo-bucket/athena_dynamodb_spill_data/]
This query ran against the "default" database, unless qualified by the query. Please post the error message on our forum  or contact customer support with Query Id: [query-id]"

このエラーを解決するには、Lambda 関数の環境変数を spill_bucketに更新し{bucket_name_only}、バケット書き込みアクセスの次の Lambda IAMポリシーを更新します。


{
             "Action": [
                 "s3:GetObject",
                 "s3:ListBucket",
                 "s3:GetBucketLocation",
                 "s3:GetObjectVersion",
                 "s3:PutObject",
                 "s3:PutObjectAcl",
                 "s3:GetLifecycleConfiguration",
                 "s3:PutLifecycleConfiguration",
                 "s3:DeleteObject"
            ],
             "Resource": [
                 "arn:aws:s3:::spill_bucket",
                 "arn:aws:s3:::spill_bucket/*"
            ],
             "Effect": "Allow"
        }

または、前に作成した Athena データソースコネクタを削除し、spill_bucket のために {bucket_name} のみを使用して再作成することもできます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Redshift ML機械学習を使用して高度な分析を実行する

実行可能な最小限のデータスペースを設定する