为 Amazon EMR 集群输出配置位置 - Amazon EMR

为 Amazon EMR 集群输出配置位置

Amazon EMR 集群最常见的输出格式是压缩或未压缩的文本文件。通常,把这些文件写入 Amazon S3 存储桶。启动该集群前,必须先创建此存储桶。启动集群时,指定 S3 存储桶作为输出位置。

有关更多信息,请参阅以下主题:

创建和配置 Amazon S3 存储桶

Amazon EMR(Amazon EMR)使用 Amazon S3 存储输入数据、日志文件和输出数据。Amazon S3 将这些存储位置称为存储桶。存储桶具有某些限制以符合 Amazon S3 和 DNS 要求。有关更多信息,请转至《Amazon Simple Storage Service 开发人员指南》中的存储桶限制

要创建 Amazon S3 存储桶,请按照《Amazon Simple Storage Service 开发人员指南》中的创建存储桶页面中的说明进行操作。

注意

如果在 Create a Bucket (创建存储桶) 向导中启用了日志记录,则只启用存储桶访问日志,不会启用集群日志。

注意

有关指定特定于区域的存储桶的更多信息,请参阅《Amazon Simple Storage Service 开发人员指南》中的存储桶和区域以及 AWS SDK 的可用区域终端节点

创建存储桶后,您可以为其设置适当的权限。一般情况下,您可以给自己(所有者)授予读取和写入权限。在配置存储桶时,强烈建议您关注Amazon S3 的安全最佳实践

在创建集群之前,所需的 Amazon S3 存储桶必须存在。您必须将集群中引用的所有必要的脚本或数据上载至 Amazon S3。下表介绍了示例数据、脚本和日志文件位置。

信息 Amazon S3 中的示例位置
脚本或程序 s3://amzn-s3-demo-bucket1/script/MapperScript.py
日志文件 s3://amzn-s3-demo-bucket1/logs
输入数据 s3://amzn-s3-demo-bucket1/input
输出数据 s3://amzn-s3-demo-bucket1/output