在您的 Amazon EMR 集群上安装其他软件 - AWS Data Pipeline

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在您的 Amazon EMR 集群上安装其他软件

EmrCluster提供了在亚马逊EMR集群上安装第三方软件的supportedProducts字段,例如,它允许您安装 Hadoop 的自定义发行版,例如 MapR。它接受适用于第三方软件读取和处理的参数的逗号分隔列表。以下示例说明如何使用 EmrClustersupportedProducts 字段来创建已安装 Karmasphere Analytics 的自定义 MapR M3 版本集群,并在该集群上运行 EmrActivity 对象。

{ "id": "MyEmrActivity", "type": "EmrActivity", "schedule": {"ref": "ResourcePeriod"}, "runsOn": {"ref": "MyEmrCluster"}, "postStepCommand": "echo Ending job >> /mnt/var/log/stepCommand.txt", "preStepCommand": "echo Starting job > /mnt/var/log/stepCommand.txt", "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output, \ hdfs:///output32113/,-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate" }, { "id": "MyEmrCluster", "type": "EmrCluster", "schedule": {"ref": "ResourcePeriod"}, "supportedProducts": ["mapr,--edition,m3,--version,1.2,--key1,value1","karmasphere-enterprise-utility"], "masterInstanceType": "m3.xlarge", "taskInstanceType": "m3.xlarge" }