使用 Amazon EMR Serverless 连接到 DynamoDB
在本教程中,您要将美国地名委员会
步骤 1:将数据上传到 Amazon S3 存储桶
要创建 Amazon 存储桶,请按照《Amazon Simple Storage Service 控制台用户指南》中创建存储桶的说明操作。将对
的引用替换为新建存储桶的名称。现在,您的 EMR Serverless 应用程序已准备好运行作业。amzn-s3-demo-bucket
-
使用以下命令下载示例数据存档
features.zip
。wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
-
从存档中提取
features.txt
文件,查看文件的前几行:unzip features.zip head features.txt
结果应类似以下内容。
1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98
这里每行中的字段表示唯一标识符、名称、自然特征类型、州、纬度(度)、经度(度)和高度(英尺)。
-
将数据上传到 Amazon S3
aws s3 cp features.txt s3://
amzn-s3-demo-bucket
/features/
步骤 2:创建 Hive 表
使用 Apache Spark 或 Hive 创建一个新的 Hive 表,其中包含 Amazon S3 中上传的数据。
步骤 3:将数据复制到 DynamoDB
使用 Spark 或 Hive 将数据复制到新的 DynamoDB 表。
步骤 4:从 DynamoDB 查询数据
使用 Spark 或 Hive 查询 DynamoDB 表。