Uso della classificazione del mittente di processi

Panoramica

La richiesta StartJobRun di Amazon EMR su EKS crea un pod del mittente di processi (noto anche come pod job-runner) per generare il driver Spark. Puoi configurare i selettori di nodi per il pod del mittente di processi con la classificazione emr-job-submitter.

La seguente impostazione è disponibile nella classificazione emr-job-submitter:

jobsubmitter.node.selector.[labelKey]: Si aggiunge al selettore di nodi del pod del mittente di processi, con chiave labelKey e il valore come valore di configurazione per la configurazione. Ad esempio, è possibile impostare jobsubmitter.node.selector.identifier su myIdentifier e il pod del mittente di processi avrà un selettore di nodi con un valore identificativo chiave di myIdentifier. Per aggiungere più chiavi di selettore di nodi, imposta più configurazioni con questo prefisso.

Come best practice, consigliamo che i pod del mittente di processi prevedano il posizionamento dei nodi su istanze on demand anziché su istanze spot. Questo perché un processo avrà esito negativo se il pod del mittente di processi è soggetto a interruzioni delle istanze spot. Puoi anche posizionare il pod del mittente di processi in un'unica zona di disponibilità o utilizzare qualsiasi etichetta Kubernetes applicata ai nodi.

Esempi di classificazione del mittente di processi

In questa sezione

Richiesta StartJobRun con posizionamento dei nodi on demand per il pod del mittente di processi
Richiesta StartJobRun con posizionamento dei nodi su AZ singola per il pod del mittente di processi
Richiesta StartJobRun con posizionamento su AZ singola e tipo di istanza Amazon EC2 per il pod del mittente di processi

Richiesta `StartJobRun` con posizionamento dei nodi on demand per il pod del mittente di processi


cat >spark-python-in-s3-nodeselector-job-submitter.json << EOF
{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false"
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.eks.amazonaws.com/capacityType": "ON_DEMAND"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}
EOF
aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter.json

Richiesta `StartJobRun` con posizionamento dei nodi su AZ singola per il pod del mittente di processi


cat >spark-python-in-s3-nodeselector-job-submitter-az.json << EOF
{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false"
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}
EOF
aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter-az.json

Richiesta `StartJobRun` con posizionamento su AZ singola e tipo di istanza Amazon EC2 per il pod del mittente di processi


{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.kubernetes.pyspark.pythonVersion=3 --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6 --conf spark.sql.shuffle.partitions=1000"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false",
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone",
            "jobsubmitter.node.selector.node.kubernetes.io/instance-type":"m5.4xlarge"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Errori comuni di esecuzione dei processi

Utilizzo dei modelli di processo