Paso 1: Crear la máquina de estado Paso 2: ejecución de la máquina de estado de demostración

Procesar datos de un bucket de Amazon S3 con Distributed Map

En este proyecto de muestra se explica cómo puede utilizar el estado Distributed Map para procesar datos a gran escala, por ejemplo, analizar datos meteorológicos históricos e identificar la estación meteorológica que tiene la temperatura media más elevada del planeta cada mes. Los datos meteorológicos se registran en más de 12 000 archivos CSV, que a su vez se almacenan en un bucket de Amazon S3.

Este proyecto de muestra incluye dos estados Distributed Map denominados Distributed S3 copy NOA Data y ProcessNOAAdata. Distributed S3 copy NOA Data itera sobre los archivos CSV de un bucket público de Amazon S3 denominado noaa-gsod-pds y los copia en un bucket de Amazon S3 en su Cuenta de AWS. ProcessNOAAData itera sobre los archivos copiados e incluye una función de Lambda que realiza el análisis de la temperatura.

El proyecto de muestra comprueba primero el contenido del bucket de Amazon S3 con una llamada a la acción de la API ListObjectsV2. Según el número de claves devueltas en respuesta a esta llamada, el proyecto de muestra toma una de las siguientes decisiones:

Si el recuento de claves es mayor o igual a 1, el proyecto pasa al estado ProcessNOAAData. Este estado Distributed Map incluye una función de Lambda denominada TemperatureFunction que busca la estación meteorológica que tuvo la temperatura media más alta cada mes. Esta función devuelve un diccionario con year-month como clave y un diccionario que contiene información sobre la estación meteorológica como valor.
Si el recuento de claves devuelto no supera 1, el estado Distributed S3 copy NOA Data muestra todos los objetos del bucket público noaa-gsod-pds y copia de forma iterativa los objetos individuales en otro bucket de su cuenta en lotes de 100. Una Inline Map realiza la copia iterativa de los objetos.

Una vez copiados todos los objetos, el proyecto pasa al estado ProcessNOAAData para procesar los datos meteorológicos.

El proyecto de ejemplo finalmente pasa a una función de Lambda reductora que realiza una agregación final de los resultados devueltos por la función TemperatureFunction y escribe los resultados en una tabla de Amazon DynamoDB.

Con Distributed Map, puede ejecutar hasta 10 000 ejecuciones paralelas de flujos de trabajo secundarios a la vez. En este proyecto de muestra, la simultaneidad máxima de ProcessNOAAData de Distributed Map se establece en 3000, lo que la limita a 3000 ejecuciones de flujos de trabajo secundarios paralelos.

Este proyecto de muestra crea la máquina de estado, los recursos de AWS de apoyo, y configura los permisos de IAM relacionados. Explore este proyecto de muestra para aprender acerca del uso de Distributed Map para orquestar cargas de trabajo paralelas a gran escala o úselo como punto de partida para sus propios proyectos.

importante

Este proyecto de muestra solo está disponible en la región Este de EE. UU. (Norte de Virginia)

Paso 1: Crear la máquina de estado

Abra la consola de Step Functions y seleccione Crear máquina de estado.
Seleccione Crear a partir de una plantilla y busque la plantilla de inicio relacionada. Elija Siguiente para continuar.
Elija cómo usar la plantilla:
1. Realizar una demostración: crea una máquina de estado de solo lectura. Tras la revisión, puede crear el flujo de trabajo y todos los recursos relacionados.
2. Crear a partir de ella: proporciona una definición de flujo de trabajo editable que puede revisar, personalizar e implementar con sus propios recursos. (Los recursos relacionados, como las funciones o las colas, no se crearán automáticamente).
Elija Utilizar plantilla para continuar con la selección.

nota
Se aplican cargos estándar por los servicios implementados en su cuenta.

Paso 2: ejecución de la máquina de estado de demostración

Si elige la opción Ejecutar una demostración, todos los recursos relacionados se implementarán y estarán listos para ejecutarse. Si eligió la opción Crear a partir de ella, es posible que necesite establecer valores de marcador de posición y crear recursos adicionales antes de poder ejecutar su flujo de trabajo personalizado.

Elija Implementar y ejecutar.
Espera a que se implemente la pila de CloudFormation. Este proceso puede tardar hasta 10 minutos en completarse.
Cuando aparezca la opción Iniciar ejecución, revise la entrada y elija Iniciar ejecución.

¡Enhorabuena!

Ahora debería tener una demostración en funcionamiento de su máquina de estado. Puede elegir estados en la vista gráfica para revisar la entrada, la salida, las variables, la definición y los eventos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de un mapa distribuido para procesar un archivo CSV en S3

Formación de un modelo de machine learning

Procesar datos de un bucket de Amazon S3 con Distributed Map

importante

Paso 1: Crear la máquina de estado

nota

Paso 2: ejecución de la máquina de estado de demostración

¡Enhorabuena!