Comprendere i EKS concetti e la terminologia di Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprendere i EKS concetti e la terminologia di Amazon EMR

Amazon EMR on EKS offre un'opzione di distribuzione per Amazon EMR che consente di eseguire framework di big data open source su Amazon Elastic Kubernetes Service (Amazon). EKS Questo argomento fornisce un contesto su alcuni dei termini più comuni utilizzati, tra cui namespace, cluster virtuali e job run, che sono unità di lavoro inviate per l'elaborazione.

Spazio dei nomi Kubernetes

Amazon EKS utilizza i namespace Kubernetes per dividere le risorse del cluster tra più utenti e applicazioni. Questi spazi dei nomi costituiscono la base degli ambienti multi-tenant. Uno spazio dei nomi Kubernetes può avere Amazon EC2 o AWS Fargate come provider di elaborazione. Questa flessibilità offre diverse opzioni di prestazioni e costi per l'esecuzione dei processi.

Cluster virtuale

Un cluster virtuale è uno spazio dei nomi Kubernetes con cui Amazon EMR è registrato. Amazon EMR utilizza cluster virtuali per eseguire processi e ospitare endpoint. Più cluster virtuali possono essere supportati dallo stesso cluster fisico. Tuttavia, ogni cluster virtuale è mappato su un unico namespace su un cluster. EKS I cluster virtuali non creano risorse attive che incrementano i costi in fattura o che richiedono la gestione del ciclo di vita all'esterno del servizio.

Esecuzione del processo

Un job run è un'unità di lavoro, ad esempio un jar Spark, PySpark uno script o una SQL query Spark, che invii ad AmazonEMR. EKS Un processo può avere più esecuzioni. Quando si invia l'esecuzione di un processo, occorre includere le seguenti informazioni:

  • Un cluster virtuale in cui deve essere eseguito il processo.

  • Un nome per identificare il processo.

  • Il ruolo di esecuzione: un IAM ruolo mirato che esegue il lavoro e consente di specificare a quali risorse può accedere il processo.

  • L'etichetta di EMR rilascio di Amazon che specifica la versione delle applicazioni open source da utilizzare.

  • Gli artefatti da utilizzare durante l'invio del processo, ad esempio i parametri spark-submit.

Per impostazione predefinita, i log vengono caricati su Spark History Server e sono accessibili da AWS Management Console. Puoi anche inviare log di eventi, log di esecuzione e metriche ad Amazon S3 e Amazon. CloudWatch

EMRContenitori Amazon

Amazon EMR containers è il APInome di Amazon EMR on EKS. Il prefisso emr-containers viene utilizzato nei seguenti scenari:

  • È il prefisso dei CLI comandi per Amazon EMR onEKS. Ad esempio aws emr-containers start-job-run.

  • È il prefisso che precede le azioni IAM politiche per Amazon EMR onEKS. Ad esempio "Action": [ "emr-containers:StartJobRun"]. Per ulteriori informazioni, consulta Azioni politiche per Amazon EMR on EKS.

  • È il prefisso utilizzato in Amazon EMR sugli endpoint EKS di servizio. Ad esempio emr-containers.us-east-1.amazonaws.com. Per ulteriori informazioni, consulta Amazon EMR on EKS Service Endpoints.