使用 將步驟新增至 Amazon EMR叢集 AWS CLI - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 將步驟新增至 Amazon EMR叢集 AWS CLI

以下程序示範如何使用 AWS CLI將步驟新增至新建立的叢集與執行中叢集。這兩個範例都使用 --steps 子命令將步驟新增至叢集。

在叢集建立期間新增步驟
  • 輸入下列命令來建立叢集並新增 Apache Pig 步驟。請務必取代 myKey Amazon EC2金鑰對的名稱。

    aws emr create-cluster --name "Test cluster" \ --applications Name=Spark \ --use-default-roles \ --ec2-attributes KeyName=myKey \ --instance-groups InstanceGroupType=PRIMARY,InstanceCount=1,InstanceType=m5.xlarge InstanceGroupType=CORE,InstanceCount=2,InstanceType=m5.xlarge \ --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","org.apache.spark.examples.SparkPi","/usr/lib/spark/examples/jars/spark-examples.jar","5"],"Type":"CUSTOM_JAR","ActionOnFailure":"CONTINUE","Jar":"command-runner.jar","Properties":"","Name":"Spark application"}]'
    注意

    引數變更清單會根據步驟類型而有所不同。

    步驟並行層級預設為 1。建立叢集時,可以使用 StepConcurrencyLevel 參數來設定步驟並行層級。

    輸出與下列輸出類似。

    { "ClusterId": "j-2AXXXXXXGAPLF" }
將步驟新增至執行中叢集
  • 輸入下列命令來將步驟新增至執行中的叢集。使用自己的叢集 ID 取代 j-2AXXXXXXGAPLF

    aws emr add-steps --cluster-id j-2AXXXXXXGAPLF \ --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","org.apache.spark.examples.SparkPi","/usr/lib/spark/examples/jars/spark-examples.jar","5"],"Type":"CUSTOM_JAR","ActionOnFailure":"CONTINUE","Jar":"command-runner.jar","Properties":"","Name":"Spark application"}]'

    輸出是與下列項目類似的步驟識別碼。

    { "StepIds": [ "s-Y9XXXXXXAPMD" ] }
若要修改執行中叢集 StepConcurrencyLevel 中的
  1. 在執行中的叢集StepConcurrencyLevel中,您可以使用 修改 ModifyCluster API。例如,輸入下列命令,將 StepConcurrencyLevel 提高到 10。使用您的叢集 ID 取代 j-2AXXXXXXGAPLF

    aws emr modify-cluster --cluster-id j-2AXXXXXXGAPLF --step-concurrency-level 10
  2. 輸出類似如下。

    { "StepConcurrencyLevel": 10 }

如需在 中使用 Amazon EMR命令的詳細資訊 AWS CLI,請參閱 AWS CLI 命令參考