将数据导入 Amazon 的不同方式 EMR - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将数据导入 Amazon 的不同方式 EMR

Amazon EMR 提供了几种将数据传输到集群的方法。最常见的方法是将数据上传到 Amazon S3,然后使用 Amazon 的内置功能将数据加载EMR到您的集群上。你也可以使用 DistributedCache Hadoop 的功能,用于将文件从分布式文件系统传输到本地文件系统。亚马逊提供的 HiveEMR(Hive 版本 0.7.1.1 及更高版本)的实现包括可用于在 DynamoDB 和亚马逊集群之间导入和导出数据的功能。EMR如果您有大量本地数据需要处理,则可能会发现 AWS Direct Connect 服务很有用。