Amazon EMR Serverless を使用した DynamoDB への接続
このチュートリアルでは、米国地名委員会
ステップ 1: データを Amazon S3 バケットにアップロードする
Amazon S3 バケットを作成するには、「Amazon Simple Storage Service コンソールユーザーガイド」の「バケットの作成」の手順に従います。
への参照を、新しく作成されたバケットの名前に置き換えます。これで、EMR Serverless アプリケーションはジョブを実行する準備が整いました。amzn-s3-demo-bucket
-
次のコマンドを使用して、サンプルデータアーカイブ
features.zip
をダウンロードします。wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
-
アーカイブから
features.txt
ファイルを抽出し、ファイル内の最初の数行を表示します。unzip features.zip head features.txt
結果は次のようになります。
1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98
ここにある各行のフィールドは、一意の識別子、名前、自然の特徴量のタイプ、状態、緯度 (度)、経度 (度)、高さ (フィート) で示しています。
-
データを Amazon S3 にアップロードする
aws s3 cp features.txt s3://
amzn-s3-demo-bucket
/features/
ステップ 2: Hive テーブルを作成する
Apache Spark または Hive を使用して、Amazon S3 にアップロードされたデータを含む新しい Hive テーブルを作成します。
ステップ 3: データを DynamoDB にコピーする
Spark または Hive を使用してデータを新しい DynamoDB テーブルにコピーします。
ステップ 4: DynamoDB からデータをクエリする
Spark または Hive を使用して DynamoDB テーブルをクエリします。