

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Conceptos comunes para las llamadas a la API de Amazon EMR
<a name="emr-common-programming-concepts"></a>

 Al escribir una aplicación que llame a la API de Amazon EMR, existen varios conceptos que se aplican a la hora de llamar a una de las funciones contenedoras de un SDK. 

**Topics**
+ [Puntos de conexión para Amazon EMR](#endpoints)
+ [Especificar parámetros de clúster en Amazon EMR](#API_SpecifyingParameters)
+ [Zonas de disponibilidad en Amazon EMR](#AvailabilityZones)
+ [Cómo utilizar archivos y bibliotecas adicionales en clústeres de Amazon EMR](#HowtoUseAdditionalFilesandLibrariesWiththeMapperorReducer)

## Puntos de conexión para Amazon EMR
<a name="endpoints"></a>

Un punto de enlace es una URL que es el punto de entrada de un servicio web. Cada solicitud de servicio web debe contener un punto de enlace. El punto final especifica la AWS región en la que se crean, describen o terminan los clústeres. Tiene el formulario `elasticmapreduce.{{regionname}}.amazonaws.com`. Si especifica el punto de conexión general (`elasticmapreduce.amazonaws.com`), Amazon EMR dirige la solicitud a un punto de conexión de la región predeterminada. Para las cuentas creadas el 8 de marzo de 2013 o después de esa fecha, la región predeterminada es us-west-2; en el caso de cuentas más antiguas, la región predeterminada es us-east-1.

Para obtener más información acerca de los puntos de conexión de Amazon EMR, consulte [Regiones y puntos de conexión](https://docs.aws.amazon.com/general/latest/gr/rande.html#emr_region) en la *Referencia general de Amazon Web Services*.

## Especificar parámetros de clúster en Amazon EMR
<a name="API_SpecifyingParameters"></a>

 Los parámetros `Instances` le permiten configurar el tipo y el número de instancias EC2 para crear nodos para procesar los datos. Hadoop reparte el procesamiento de los datos entre varios nodos del clúster. El nodo principal es responsable de realizar un seguimiento del estado de los nodos secundarios y de tareas y de sondear los nodos para conocer el estado del resultado de los trabajos. Los nodos secundarios y de tareas hacen el procesamiento real de los datos. Si tiene un clúster de un solo nodo, el nodo sirve tanto como nodo principal y nodo secundario. 

 El parámetro `KeepJobAlive` en una solicitud `RunJobFlow` determina si se debe terminar el clúster cuando se queda sin pasos de clúster que ejecutar. Defina este valor en `False` cuando sepa que el clúster se ejecuta según lo previsto. Al resolver problemas del flujo de trabajo y añadir pasos mientras la ejecución del clúster se suspende, defina el valor en `True`. Esto reduce la cantidad de tiempo y los gastos necesarios para cargar los resultados en Amazon Simple Storage Service (Amazon S3), solo para repetir el proceso después de modificar un paso para reiniciar el clúster. 

Si `KeepJobAlive` es `true` así, después de conseguir que el clúster complete su trabajo correctamente, debe enviar una `TerminateJobFlows` solicitud o el clúster seguirá funcionando y generará AWS cargos. 

 Para obtener más información sobre los parámetros exclusivos de`RunJobFlow`, consulte [RunJobFlow](https://docs.aws.amazon.com/ElasticMapReduce/latest/API/API_RunJobFlow.html). Para obtener más información acerca de los parámetros genéricos en la solicitud, consulte [Parámetros de solicitud comunes](https://docs.aws.amazon.com/ElasticMapReduce/latest/API/CommonParameters.html). 

## Zonas de disponibilidad en Amazon EMR
<a name="AvailabilityZones"></a>

 Amazon EMR utiliza instancias de EC2 como nodos para procesar clústeres. Estas instancias de EC2 tienen ubicaciones compuestas de zonas de disponibilidad y regiones. Las regiones son ubicaciones dispersas emplazadas en zonas geográficas distintas. Las zonas de disponibilidad son ubicaciones diferentes dentro de una región aisladas en caso de error en otras zonas de disponibilidad. Cada zona de disponibilidad proporciona conectividad de red económica y de baja latencia con otras zonas de disponibilidad dentro de la misma región. Para ver una lista de las regiones y los puntos de conexión de Amazon EMR, consulte [Regiones y puntos de conexión](https://docs.aws.amazon.com/general/latest/gr/rande.html#emr_region) en la *Referencia general de Amazon Web Services*. 

 El parámetro `AvailabilityZone` especifica la ubicación del clúster. Este parámetro es opcional y, en general, no se aconseja su uso. Cuando no se especifica `AvailabilityZone`, Amazon EMR elige automáticamente el mejor valor de `AvailabilityZone` para el clúster. Puede encontrar este parámetro útil si desea coubicar sus instancias con otras instancias en ejecución existentes y su clúster necesita leer o escribir datos de dichas instancias. Para obtener más información, consulte la [Guía del usuario de Amazon EC2](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/). 

## Cómo utilizar archivos y bibliotecas adicionales en clústeres de Amazon EMR
<a name="HowtoUseAdditionalFilesandLibrariesWiththeMapperorReducer"></a>

Hay ocasiones en las que le podría interesar utilizar archivos adicionales o bibliotecas personalizadas con las aplicaciones de mapeador o reductor. Por ejemplo, podría utilizar una biblioteca que convierta un archivo PDF en texto sin formato. 

**Para almacenar en caché un archivo que utilice el mapeador o s reductor al utilizar Hadoop Streaming**
+ En el campo `args` del JAR:, añada el siguiente argumento:

  ```
  1. -cacheFile s3://bucket/path_to_executable#local_path
  ```

  El archivo, `local_path`, está en el directorio de trabajo del mapeador, que podría hacer referencia al archivo.