为 Amazon EMR 集群输出配置位置
Amazon EMR 集群最常见的输出格式是压缩或未压缩的文本文件。通常,把这些文件写入 Amazon S3 存储桶。启动该集群前,必须先创建此存储桶。启动集群时,指定 S3 存储桶作为输出位置。
有关更多信息,请参阅以下主题:
主题
创建和配置 Amazon S3 存储桶
Amazon EMR(Amazon EMR)使用 Amazon S3 存储输入数据、日志文件和输出数据。Amazon S3 将这些存储位置称为存储桶。存储桶具有某些限制以符合 Amazon S3 和 DNS 要求。有关更多信息,请转至《Amazon Simple Storage Service 开发人员指南》中的存储桶限制。
要创建 Amazon S3 存储桶,请按照《Amazon Simple Storage Service 开发人员指南》中的创建存储桶页面中的说明进行操作。
注意
如果在 Create a Bucket (创建存储桶) 向导中启用了日志记录,则只启用存储桶访问日志,不会启用集群日志。
注意
有关指定特定于区域的存储桶的更多信息,请参阅《Amazon Simple Storage Service 开发人员指南》中的存储桶和区域以及 AWS SDK 的可用区域终端节点
创建存储桶后,您可以为其设置适当的权限。一般情况下,您可以给自己(所有者)授予读取和写入权限。在配置存储桶时,强烈建议您关注Amazon S3 的安全最佳实践。
在创建集群之前,所需的 Amazon S3 存储桶必须存在。您必须将集群中引用的所有必要的脚本或数据上载至 Amazon S3。下表介绍了示例数据、脚本和日志文件位置。
信息 | Amazon S3 中的示例位置 |
---|---|
脚本或程序 |
s3://amzn-s3-demo-bucket1/script/MapperScript.py
|
日志文件 |
s3://amzn-s3-demo-bucket1/logs
|
输入数据 |
s3://amzn-s3-demo-bucket1/input
|
输出数据 |
s3://amzn-s3-demo-bucket1/output
|