Estado del flujo de trabajo Map

Utilice el estado Map para ejecutar un conjunto de pasos de flujo de trabajo para cada elemento de un conjunto de datos. Las iteraciones del estado Map se ejecutan en paralelo, lo que permite procesar un conjunto de datos rápidamente. Los estados Map pueden usar varios tipos de entrada, como una matriz JSON, una lista de objetos de Amazon S3 o un archivo CSV.

Step Functions proporciona dos tipos de modos de procesamiento para usar el estado Map en sus flujos de trabajo: modo En línea y modo Distribuido.

sugerencia

Para implementar un ejemplo de un flujo de trabajo que usa un Map estado, consulte Procesar matrices de datos con Choice y Map en The AWS Step Functions Workshop.

Modos de procesamiento del estado Map

Step Functions proporciona los siguientes modos de procesamiento para el estado Map, según cómo desee procesar los elementos de un conjunto de datos.

En línea: modo de simultaneidad limitada. En este modo, cada iteración del estado Map se ejecuta en el contexto del flujo de trabajo que contiene el estado Map. Step Functions añade el historial de ejecución de estas iteraciones al historial de ejecución del flujo de trabajo principal. De forma predeterminada, los estados Map se ejecutan en modo En línea.

En este modo, el estado Map solo acepta una matriz JSON como entrada. Además, este modo admite hasta 40 iteraciones simultáneas.

Para obtener más información, consulte Uso del estado Map en modo En línea en flujos de trabajo de Step Functions.
Distribuido: modo de alta simultaneidad. En este modo, el estado Map ejecuta cada iteración como una ejecución de flujo de trabajo secundario, lo que permite una alta simultaneidad de hasta 10 000 ejecuciones de flujos de trabajo secundarios en paralelo. Cada ejecución de flujo de trabajo secundario tiene su propio historial de ejecución independiente del flujo de trabajo principal.

En este modo, el estado Map puede aceptar como entrada una matriz JSON o un origen de datos de Amazon S3, como un archivo CSV.

Para obtener más información, consulte Modo distribuido.

El modo que debe utilizar depende de cómo desee procesar los elementos de un conjunto de datos. Utilice el estado Map en modo En línea si el historial de ejecución del flujo de trabajo no va a superar las 25 000 entradas o si no necesita más de 40 iteraciones simultáneas.

Utilice el estado Map en modo Distribuido cuando necesite orquestar cargas de trabajo paralelas a gran escala que cumplan cualquier combinación de las siguientes condiciones:

El tamaño del conjunto de datos supera los 256 KiB.
El historial de eventos de ejecución del flujo de trabajo superaría las 25 000 entradas.
Necesita una simultaneidad de más de 40 iteraciones simultáneas.

Diferencias entre el modo En línea y el modo Distribuido

En la siguiente tabla, se muestran las diferencias entre los modos En línea y Distribuido.

Modo En línea	Modo Distribuido
Supported data sources
Acepta como entrada una matriz JSON transferida desde un paso anterior del flujo de trabajo.	Acepta los siguientes orígenes de datos como entrada: Matriz JSON transferida desde un paso anterior del flujo de trabajo Archivo JSON en un bucket de Amazon S3 que contiene una matriz Archivo CSV en un bucket de Amazon S3 Lista de objetos de Amazon S3 Inventario de Amazon S3
Map iterations
En este modo, cada iteración del estado `Map` se ejecuta en el contexto del flujo de trabajo que contiene el estado `Map`. Step Functions añade el historial de ejecución de estas iteraciones al historial de ejecución del flujo de trabajo principal.	En este modo, el estado `Map` ejecuta cada iteración como una ejecución de flujo de trabajo secundario, lo que permite una alta simultaneidad de hasta 10 000 ejecuciones de flujos de trabajo secundarios en paralelo. Cada ejecución de flujo de trabajo secundario tiene su propio historial de ejecución independiente del flujo de trabajo principal.
Maximum concurrency for parallel iterations
Permite ejecutar hasta 40 iteraciones con la máxima simultaneidad posible.	Permite realizar hasta 10 000 ejecuciones de flujos de trabajo secundarios en paralelo para procesar millones de elementos de datos a la vez.
Input payload and event history sizes
Aplica un límite de 256 KiB al tamaño de la carga de entrada y de 25 000 entradas al historial de eventos de ejecución.	Permite superar la limitación del tamaño de la carga, ya que el estado `Map` puede leer la entrada directamente de orígenes de datos de Amazon S3. En este modo, también puede superar las limitaciones del historial de ejecución, ya que las ejecuciones des flujo de trabajo secundarios iniciadas por el estado `Map` mantienen sus propios historiales de ejecución independientes del historial de ejecución del flujo de trabajo principal.
Monitoring and observability
Puede revisar el historial de ejecución del flujo de trabajo desde la consola o invocando la acción `GetExecutionHistory` de la API. También puede ver el historial de ejecuciones a través CloudWatch de X-Ray.	Cuando se ejecuta un estado `Map` en modo distribuido, Step Functions crea un recurso Map Run. Un Map Run hace referencia a un conjunto de ejecuciones de flujos de trabajo secundarios que inicia un estado Map Distributed. Puede ver un Map Run en la consola de Step Functions. También puede invocar la acción de la API `DescribeMapRun`. A Map Run también emite métricas a CloudWatch. Para obtener más información, consulte Visualización de ejecución de Distributed Map en Step Functions.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Parallel

Modo En línea