¿Qué es Amazon EMR sin servidor?

Amazon EMR sin servidor es una opción de implementación para Amazon EMR que proporciona un entorno de tiempo de ejecución sin servidor. Esto simplifica el funcionamiento de las aplicaciones de análisis que utilizan los marcos de código abierto más recientes, como Apache Spark y Apache Hive. Con EMR sin servidor, no tiene que configurar, optimizar, proteger ni operar clústeres para ejecutar aplicaciones con estos marcos de trabajo.

EMR sin servidor le ayuda a evitar el aprovisionamiento excesivo o insuficiente de recursos para sus trabajos de procesamiento de datos. EMR sin servidor determina automáticamente los recursos que necesita la aplicación, obtiene estos recursos para procesar sus trabajos y los libera cuando los trabajos finalizan. Para los casos de uso en los que las aplicaciones necesitan una respuesta en cuestión de segundos, como el análisis de datos interactivo, puede preinicializar los recursos que la aplicación necesita cuando crea dicha aplicación.

Con EMR sin servidor, seguirá disfrutando de las ventajas de Amazon EMR, como la compatibilidad con código abierto, la simultaneidad y el rendimiento de tiempo de ejecución optimizado para marcos populares.

EMR sin servidor es adecuado para clientes que desean facilitar el funcionamiento de las aplicaciones mediante marcos de código abierto. Ofrece un inicio rápido de los trabajos, una gestión automática de la capacidad y controles de costes sencillos.

Conceptos

En esta sección, abordamos los términos y conceptos de EMR sin servidor que aparecen en nuestra Guía del usuario de EMR sin servidor.

Versión de lanzamiento

Una versión de Amazon EMR es un conjunto de aplicaciones de código abierto del ecosistema de macrodatos. Cada versión incluye diferentes aplicaciones, componentes y características de macrodatos que puede seleccionar para que EMR sin servidor los implemente y configure de modo que puedan ejecutar sus aplicaciones. Al crear una aplicación, especifique la versión de lanzamiento. Elija la versión de lanzamiento de Amazon EMR y la versión del marco de código abierto que desee utilizar en su aplicación. Para obtener más información sobre las versiones preliminares, consulte Versiones lanzamiento de Amazon EMR sin servidor.

Aplicación

Con EMR sin servidor, puede crear una o más aplicaciones de EMR sin servidor que utilicen marcos de análisis de código abierto. Para crear una aplicación, especifique los siguientes atributos:

Elija la versión de lanzamiento de Amazon EMR para la versión del marco de código abierto que desee utilizar. Para determinar la versión de lanzamiento, consulte Versiones lanzamiento de Amazon EMR sin servidor.
El tiempo de ejecución específico que desea que utilice su aplicación, como Apache Spark o Apache Hive.

Después de crear una aplicación, envíe trabajos de procesamiento de datos o las solicitudes interactivas a la aplicación.

Cada aplicación de EMR sin servidor se ejecuta en una Amazon Virtual Private Cloud (VPC) segura, de una forma estrictamente separada de otras aplicaciones. Además, utilice políticas AWS Identity and Access Management (IAM) para definir qué usuarios y roles pueden acceder a la aplicación. También puede especificar límites para controlar y realizar un seguimiento de los costes de uso incurridos por la aplicación.

Considere la posibilidad de crear varias aplicaciones cuando necesite realizar lo siguiente:

Usar diferentes marcos de código abierto
Usar diferentes versiones de marcos de código abierto para diferentes casos de uso
Realice A/B pruebas al actualizar de una versión a otra
Mantener entornos lógicos separados para los escenarios de prueba y producción
Proporcionar entornos lógicos separados para los diferentes equipos con controles de costes y seguimiento del uso independientes
Separe line-of-business las diferentes aplicaciones

EMR sin servidor es un servicio regional que simplifica la forma en que las cargas de trabajo se ejecutan en varias zonas de disponibilidad de una región. Para obtener más información acerca de cómo usar las aplicaciones con EMR sin servidor, consulte Interactuar con una aplicación EMR sin servidor y configurarla.

Ejecución de trabajo

La ejecución de un trabajo es una solicitud enviada a una aplicación EMR sin servidor que la aplicación ejecuta de forma asíncrona y en la que realiza un seguimiento hasta su finalización. Algunos ejemplos de trabajos incluyen una consulta de HiveQL que se envía a una aplicación de Apache Hive o un script de procesamiento de datos que se envía a PySpark una aplicación de Apache Spark. Al enviar un trabajo, debe especificar un rol de tiempo de ejecución, creado en IAM, que el trabajo utilice para acceder a AWS los recursos, como los objetos de Amazon S3. Puede enviar varias solicitudes de ejecución de tareas a una aplicación y cada ejecución de tareas puede utilizar una función de ejecución diferente para acceder AWS a los recursos. Una aplicación EMR sin servidor comienza a ejecutar trabajos tan pronto como los recibe y ejecuta varias solicitudes de trabajo simultáneamente. Para obtener más información acerca de cómo EMR sin servidor ejecuta los trabajos, consulte Trabajos en ejecución.

Procesos de trabajo

Una aplicación EMR sin servidor utiliza trabajadores internamente para ejecutar sus cargas de trabajo. Los tamaños predeterminados de estos trabajadores se basan en el tipo de aplicación y en la versión de lanzamiento de Amazon EMR. Cuando programa la ejecución de un trabajo, anule estos tamaños.

Cuando envía un trabajo, EMR sin servidor calcula los recursos que la aplicación necesita para el trabajo y programa a los trabajadores. EMR sin servidor divide sus cargas de trabajo en tareas, descarga imágenes, aprovisiona y configura a los trabajadores, y los retira del servicio cuando finaliza el trabajo. EMR sin servidor escala o reduce vertical y automáticamente el número de empleados en función de la carga de trabajo y el paralelismo requeridos en cada etapa del trabajo. Este escalado automático elimina la necesidad de calcular el número de empleados que la aplicación necesita para ejecutar sus cargas de trabajo.

Capacidad preinicializada

EMR sin servidor proporciona una característica de capacidad preinicializada que mantiene a los trabajadores inicializados y listos para responder en cuestión de segundos. Esta capacidad crea de manera efectiva un grupo de calentamiento de trabajadores para una aplicación. Para configurar esta característica para cada aplicación, establezca el parámetro initial-capacity de una aplicación. Al configurar la capacidad preinicializada, los trabajos pueden iniciarse inmediatamente para que pueda implementar aplicaciones iterativas y trabajos urgentes. Para obtener más información sobre los trabajadores preinicializados, consulte Configuración de una aplicación cuando se trabaja con EMR sin servidor.

EMR Studio

EMR Studio es la consola de usuario para administrar sus aplicaciones EMR sin servidor. Si no existe un EMR Studio en su cuenta cuando creó su primera aplicación EMR sin servidor, crearemos uno automáticamente para usted. Acceda a EMR Studio desde la consola de Amazon EMR o active el acceso federado desde su proveedor de identidades (IdP) a través de IAM o IAM Identity Center. Al hacerlo, los usuarios pueden acceder a Studio y gestionar las aplicaciones EMR sin servidor sin acceso directo a la consola de Amazon EMR. Para obtener más información sobre cómo funcionan las aplicaciones EMR sin servidor con EMR Studio, consulte Creación de una aplicación EMR sin servidor desde la consola de EMR Studio y Ejecución de trabajos desde la consola de EMR Studio.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Requisitos previos para comenzar a usarlo.