¿Qué es Amazon EMR Serverless? - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es Amazon EMR Serverless?

Amazon EMR Serverless es una opción de implementación para Amazon EMR que proporciona un entorno de ejecución sin servidor. Esto simplifica el funcionamiento de las aplicaciones de análisis que utilizan los marcos de código abierto más recientes, como Apache Spark y Apache Hive. Con EMR Serverless, no es necesario configurar, optimizar, proteger ni operar clústeres para ejecutar aplicaciones con estos marcos.

EMRServerless le ayuda a evitar el aprovisionamiento excesivo o insuficiente de recursos para sus trabajos de procesamiento de datos. EMRServerless determina automáticamente los recursos que necesita la aplicación, los obtiene para procesar sus trabajos y los libera cuando estos finalizan. Para los casos de uso en los que las aplicaciones necesitan una respuesta en cuestión de segundos, como el análisis de datos interactivo, puede inicializar previamente los recursos que la aplicación necesita al crearla.

Con EMR Serverless, seguirás disfrutando de las ventajas de AmazonEMR, como la compatibilidad con código abierto, la simultaneidad y el rendimiento optimizado del tiempo de ejecución para marcos populares.

EMRServerless es adecuado para los clientes que desean utilizar aplicaciones con facilidad mediante marcos de código abierto. Ofrece un inicio rápido de los trabajos, una gestión automática de la capacidad y controles de costes sencillos.

Conceptos

En esta sección, abordamos los términos y conceptos de EMR Serverless que aparecen en nuestra Guía del usuario de EMR Serverless.

Versión de lanzamiento

Una EMR versión de Amazon es un conjunto de aplicaciones de código abierto del ecosistema de big data. Cada versión incluye diferentes aplicaciones, componentes y funciones de macrodatos que puede seleccionar para que EMR Serverless las implemente y configure de forma que puedan ejecutar sus aplicaciones. Al crear una aplicación, debe especificar su versión de lanzamiento. Elija la versión de EMR lanzamiento de Amazon y la versión del marco de código abierto que desee utilizar en su aplicación. Para obtener más información sobre las versiones preliminares, consulteVersiones de lanzamiento de Amazon EMR Serverless.

Aplicación

Con EMR Serverless, puede crear una o más aplicaciones EMR sin servidor que utilicen marcos de análisis de código abierto. Para crear una aplicación, debe especificar los siguientes atributos:

  • La versión EMR de lanzamiento de Amazon para la versión del marco de código abierto que quieres usar. Para determinar la versión de lanzamiento, consulteVersiones de lanzamiento de Amazon EMR Serverless.

  • El tiempo de ejecución específico que desea que utilice su aplicación, como Apache Spark o Apache Hive.

Después de crear una aplicación, puede enviar trabajos de procesamiento de datos o solicitudes interactivas a la aplicación.

Cada aplicación EMR sin servidor se ejecuta en una Amazon Virtual Private Cloud (VPC) segura, estrictamente separada del resto de aplicaciones. Además, puede utilizar AWS Identity and Access Management (IAM) políticas para definir qué usuarios y roles pueden acceder a la aplicación. También puede especificar límites para controlar y realizar un seguimiento de los costos de uso incurridos por la aplicación.

Considere la posibilidad de crear varias aplicaciones cuando necesite hacer lo siguiente:

  • Utilice diferentes marcos de código abierto

  • Utilice diferentes versiones de marcos de código abierto para diferentes casos de uso

  • Realice pruebas A/B al actualizar de una versión a otra

  • Mantenga entornos lógicos separados para los escenarios de prueba y producción

  • Proporcione entornos lógicos separados para los diferentes equipos con controles de costos y seguimiento del uso independientes

  • Separe line-of-business las diferentes aplicaciones

EMRServerless es un servicio regional que simplifica la forma en que las cargas de trabajo se ejecutan en varias zonas de disponibilidad de una región. Para obtener más información sobre cómo usar las aplicaciones con EMR Serverless, consulte. Interactuar con una aplicación

Ejecución de trabajo

La ejecución de un trabajo es una solicitud que se envía a una aplicación EMR sin servidor y que la aplicación ejecuta de forma asíncrona y realiza un seguimiento hasta su finalización. Algunos ejemplos de trabajos incluyen una consulta de HiveQL que se envía a una aplicación de Apache Hive o un script de procesamiento de datos que se envía a PySpark una aplicación de Apache Spark. Al enviar un trabajo, debe especificar un rol de tiempo de ejecución, creado en él, al que el trabajo IAM utilice para acceder AWS recursos, como objetos de Amazon S3. Puede enviar varias solicitudes de ejecución de tareas a una aplicación y cada ejecución de tareas puede utilizar una función de ejecución diferente para acceder AWS recursos. Una aplicación EMR sin servidor comienza a ejecutar trabajos en cuanto los recibe y ejecuta varias solicitudes de trabajo simultáneamente. Para obtener más información sobre cómo EMR Serverless ejecuta los trabajos, consulte. Trabajos en ejecución

Procesos de trabajo

Una aplicación EMR sin servidor utiliza trabajadores internamente para ejecutar sus cargas de trabajo. Los tamaños predeterminados de estos trabajadores se basan en el tipo de aplicación y en la versión de EMR lanzamiento de Amazon. Al programar la ejecución de un trabajo, puede anular estos tamaños.

Al enviar un trabajo, EMR Serverless calcula los recursos que la aplicación necesita para el trabajo y programa a los trabajadores. EMRServerless divide sus cargas de trabajo en tareas, descarga imágenes, aprovisiona y configura a los trabajadores, y los retira del servicio cuando finaliza el trabajo. EMRServerless amplía o reduce el número de trabajadores automáticamente en función de la carga de trabajo y el paralelismo necesarios en cada etapa del trabajo. Este escalado automático elimina la necesidad de estimar la cantidad de trabajadores que la aplicación necesita para ejecutar sus cargas de trabajo.

Capacidad preinicializada

EMRServerless proporciona una función de capacidad preinicializada que permite a los trabajadores inicializados y preparados para responder en cuestión de segundos. Esta capacidad crea de manera efectiva un grupo cálido de trabajadores para una aplicación. Para configurar esta función para cada aplicación, defina el initial-capacity parámetro de una aplicación. Al configurar la capacidad preinicializada, los trabajos pueden iniciarse inmediatamente para que pueda implementar aplicaciones iterativas y trabajos urgentes. Para obtener más información sobre los trabajadores preinicializados, consulte. Configuración de una aplicación

EMREstudio

EMRStudio es la consola de usuario que puede usar para administrar sus aplicaciones EMR sin servidor. Si no hay ningún EMR Studio en tu cuenta cuando creaste tu primera aplicación EMR sin servidor, crearemos uno automáticamente para ti. Puedes acceder a EMR Studio desde la EMR consola de Amazon o puedes activar el acceso federado desde tu proveedor de identidad (IdP) IAM a través IAM de Identity Center. Al hacerlo, los usuarios pueden acceder a Studio y gestionar las aplicaciones EMR sin servidor sin acceso directo a la EMR consola de Amazon. Para obtener más información sobre cómo funcionan las aplicaciones EMR sin servidor con EMR Studio, consulte Interactuar con la aplicación desde la consola de EMR Studio y. Ejecución de trabajos desde la consola de EMR Studio