Usando o estado do mapa no modo distribuído para cargas de trabalho paralelas em grande escala no Step Functions - AWS Step Functions

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando o estado do mapa no modo distribuído para cargas de trabalho paralelas em grande escala no Step Functions

Com o Step Functions, você pode orquestrar workloads paralelas em grande escala para realizar tarefas, como processamento sob demanda de dados semiestruturados. Essas workloads paralelas permitem que você processe simultaneamente fontes de dados em grande escala armazenadas no Amazon S3. Por exemplo, você pode processar um único CSV arquivo JSON ou arquivo que contém grandes quantidades de dados. Ou você pode processar um grande conjunto de objetos do Amazon S3.

Para configurar uma workload paralela em grande escala nos fluxos de trabalho, inclua um estado Map no modo distribuído. O estado Mapa processa itens em um conjunto de dados simultaneamente. Um estado Map definido como Distribuído é conhecido como estado Mapa distribuído. No modo distribuído, o estado Map permite o processamento simultâneo em grande escala. No modo distribuído, o estado Map processa os itens no conjunto de dados em iterações chamadas execuções de fluxo de trabalho secundário. É possível especificar o número de execuções de fluxo de trabalho secundário que podem ser executadas em paralelo. Cada execução de fluxo de trabalho secundário tem seu próprio histórico de execução separado do fluxo de trabalho principal. Se você não especificar, o Step Functions executará 10 mil execuções paralelas de fluxo de trabalho secundário.

A ilustração a seguir explica como você pode configurar workloads paralelas em grande escala em seus fluxos de trabalho.

Diagrama para ilustrar o conceito de orquestração de workloads paralelas em grande escala.

Principais termos

Modo distribuído

Um modo de processamento do estado Mapa. Nesse modo, cada iteração do estado Map é executada como uma execução de fluxo de trabalho secundário que permite processamento simultâneo em grande escala. Cada execução de fluxo de trabalho secundário tem seu próprio histórico de execução, que é separado do histórico de execução do fluxo de trabalho principal. Esse modo é compatível com a leitura de entradas de fontes de dados do Amazon S3 em grande escala.

Estado Mapa distribuído

Um estado Mapa definido para o modo de processamento Distribuído.

Fluxo de trabalho do mapa

Um conjunto de etapas que um estado Map executa.

Fluxo de trabalho principal

Um fluxo de trabalho que contém um ou mais estados Mapa distribuído.

Execuções de fluxo de trabalho secundário

Uma iteração do estado Mapa Distribuído. Uma execução de fluxo de trabalho secundário tem seu próprio histórico de execução, que é separado do histórico de execução do fluxo de trabalho principal.

Execução de mapa

Ao executar um estado Map no modo distribuído, o Step Functions cria um recurso de Execução de mapa. Uma Execução de mapa se refere a um conjunto de execuções de fluxo de trabalho secundário que um estado Mapa distribuído inicia e às configurações de runtime que controlam essas execuções. Step Functions atribui um Amazon Resource Name (ARN) ao seu Map Run. Você pode examinar uma Execução de mapa no console do Step Functions. Você também pode invocar a DescribeMapRun API ação. A Map Run também emite métricas para CloudWatch.

Para obter mais informações, consulte Examine as execuções do mapa.

Exemplo de definição do estado Mapa Distribuído

Use o estado Map no modo distribuído quando precisar orquestrar workloads paralelas em grande escala que atendam a qualquer combinação das seguintes condições:

  • O tamanho do conjunto de dados excede 256 KB.

  • O histórico de eventos de execução do fluxo de trabalho excede 25 mil entradas.

  • Você precisa processar simultaneamente mais de 40 iterações paralelas.

O exemplo de definição de estado do Distributed Map a seguir especifica o conjunto de dados como um CSV arquivo armazenado em um bucket do Amazon S3. Ela também especifica uma função Lambda que processa os dados em cada linha do CSV arquivo. Como esse exemplo usa um CSV arquivo, ele também especifica a localização dos cabeçalhos das CSV colunas. Para ver a definição completa da máquina de estado desse exemplo, consulte o tutorial Copiando CSV dados em grande escala usando o Mapa Distribuído.

{ "Map": { "Type": "Map", "ItemReader": { "ReaderConfig": { "InputType": "CSV", "CSVHeaderLocation": "FIRST_ROW" }, "Resource": "arn:aws:states:::s3:getObject", "Parameters": { "Bucket": "Database", "Key": "csv-dataset/ratings.csv" } }, "ItemProcessor": { "ProcessorConfig": { "Mode": "DISTRIBUTED", "ExecutionType": "EXPRESS" }, "StartAt": "LambdaTask", "States": { "LambdaTask": { "Type": "Task", "Resource": "arn:aws:states:::lambda:invoke", "OutputPath": "$.Payload", "Parameters": { "Payload.$": "$", "FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData" }, "End": true } } }, "Label": "Map", "End": true, "ResultWriter": { "Resource": "arn:aws:states:::s3:putObject", "Parameters": { "Bucket": "myOutputBucket", "Prefix": "csvProcessJobs" } } } }

Permissões para executar o Mapa distribuído

Quando você inclui um estado de Mapa Distribuído em seus fluxos de trabalho, o Step Functions precisa de permissões apropriadas para permitir que a função de máquina de estado invoque a StartExecution API ação para o estado de Mapa Distribuído.

O exemplo IAM de política a seguir concede os privilégios mínimos necessários à sua função de máquina de estado para executar o estado do Mapa Distribuído.

nota

Substitua stateMachineName pelo nome da máquina de estado na qual você está usando o estado Mapa Distribuído. Por exemplo, arn:aws:states:us-east-2:123456789012:stateMachine:mystateMachine.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:region:accountID:stateMachine:stateMachineName" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region:accountID:execution:stateMachineName:*" } ] }

Além disso, você precisa garantir que tenha os privilégios mínimos necessários para acessar os AWS recursos usados no estado do Mapa Distribuído, como os buckets do Amazon S3. Para ter mais informações, consulte IAMpolíticas para usar estados de mapas distribuídos.

Campos do estado Mapa Distribuído

Para usar o estado Mapa distribuído em fluxos de trabalho, especifique um ou mais dos campos a seguir. Você especifica esses campos além dos campos de estado comuns.

Type (obrigatório)

Define o tipo de estado, como Map.

ItemProcessor (obrigatório)

Contém os seguintes JSON objetos que especificam a definição e o modo de processamento do Map estado.

  • ProcessorConfig— Um JSON objeto que especifica a configuração do Map estado. O objeto contém os subcampos a seguir.

    • Mode— Definido como DISTRIBUTED para usar o estado Map no modo distribuído.

      nota

      Atualmente, se você usa o estado Map nos fluxos de trabalho expressos, não é possível definir o Mode como DISTRIBUTED. No entanto, se você usa o estado Map nos fluxos de trabalho padrão, é possível definir o Mode como DISTRIBUTED.

    • ExecutionType— Especifica o tipo de execução para o fluxo de trabalho do Mapa como STANDARDou EXPRESS. Você deve fornecer esse campo se tiver especificado DISTRIBUTED para o subcampo Mode. Para ver mais informações sobre tipos de fluxos de trabalho, consulte Escolhendo o tipo de fluxo de trabalho em Step Functions.

  • StartAt— Especifica uma string que indica o primeiro estado em um fluxo de trabalho. Essa string diferencia maiúsculas de minúsculas e deve corresponder ao nome de um dos objetos de estado. Esse estado é executado primeiro para cada item no conjunto de dados. Qualquer entrada de execução fornecida ao estado Map é transmitida primeiro para o estado StartAt.

  • States— Um JSON objeto contendo um conjunto de estados delimitado por vírgula. Nesse objeto, você define o Map workflow.

ItemReader

Especifica um conjunto de dados e sua localização. O estado Map recebe seus dados de entrada do conjunto de dados especificado.

No modo distribuído, você pode usar uma JSON carga transmitida de um estado anterior ou uma fonte de dados Amazon S3 em grande escala como conjunto de dados. Para obter mais informações, consulte ItemReader (Mapa).

ItemsPath (opcional)

Especifica um caminho de referência usando a JsonPathsintaxe para selecionar o JSON nó que contém uma matriz de itens dentro da entrada de estado.

No modo distribuído, você especifica esse campo somente quando usa uma JSON matriz de uma etapa anterior como entrada de estado. Para obter mais informações, consulte ItemsPath (Mapa).

ItemSelector (opcional)

Substitui os valores de itens individuais do conjunto de dados antes de serem transmitidos para cada iteração do estado Map.

Nesse campo, você especifica uma JSON entrada válida que contém uma coleção de pares de valores-chave. Esses pares podem ser valores estáticos configurados na definição da máquina de estado, valores selecionados da entrada de estado usando um caminho ou valores acessados a partir do objeto de contexto. Para obter mais informações, consulte ItemSelector (Mapa).

ItemBatcher (opcional)

Especifica o processamento dos itens do conjunto de dados em lotes. Em seguida, cada execução de fluxo de trabalho secundário recebe um lote desses itens como entrada. Para obter mais informações, consulte ItemBatcher (Mapa).

MaxConcurrency (opcional)

Especifica o número de execuções de fluxo de trabalho secundário que podem ser executadas em paralelo. O intérprete só permite até o número especificado de execuções paralelas de fluxo de trabalho secundário. Se você não especificar um valor de processamento simultâneo ou defini-lo como zero, o Step Functions não limitará o processamento simultâneo e executará 10 mil execuções paralelas de fluxo de trabalho secundário.

nota

Embora você possa especificar um limite maior de simultaneidade para execuções paralelas de fluxos de trabalho secundários, recomendamos que você não exceda a capacidade de um AWS serviço downstream, como. AWS Lambda

MaxConcurrencyPath (opcional)

Para fornecer dinamicamente um valor máximo de processamento simultâneo a partir da entrada de estado usando um caminho de referência, use MaxConcurrencyPath. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número inteiro não negativo.

nota

Um estado Map não pode incluir MaxConcurrency e MaxConcurrencyPath.

ToleratedFailurePercentage (opcional)

Define a porcentagem de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará automaticamente se exceder essa porcentagem. O Step Functions calcula a porcentagem de itens com falha como resultado do número total de itens com falha ou com tempo limite esgotado dividido pelo número total de itens. Você deve especificar um valor entre zero e cem. Para obter mais informações, consulte Definindo limites de falha para estados do Distributed Map em Step Functions.

ToleratedFailurePercentagePath (opcional)

Para fornecer dinamicamente um valor de porcentagem de falha tolerada com base na entrada de estado utilizando um caminho de referência, use ToleratedFailurePercentagePath. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número entre zero e cem.

ToleratedFailureCount (opcional)

Define o número de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará automaticamente se exceder esse número. Para obter mais informações, consulte Definindo limites de falha para estados do Distributed Map em Step Functions.

ToleratedFailureCountPath (opcional)

Para fornecer dinamicamente um valor de contagem de falhas toleradas com base na entrada de estado utilizando um caminho de referência, use ToleratedFailureCountPath. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número inteiro não negativo.

Label (opcional)

Uma string que identifica exclusivamente um estado Map. Para cada Map Run, o Step Functions adiciona o rótulo ao Map RunARN. A seguir está um exemplo de uma execução de mapa ARN com um rótulo personalizado chamadodemoLabel:

arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b

Se você não especificar um rótulo, o Step Functions gerará automaticamente um rótulo exclusivo.

nota

Os rótulos não podem ter mais de 40 caracteres, devem ser exclusivos em uma definição de máquina de estado e não podem conter nenhum dos caracteres a seguir.

  • Espaço em branco

  • Caracteres curinga (? *)

  • Caracteres de colchete (< > { } [ ])

  • Caracteres especiais (: ; , \ | ^ ~ $ # % & ` ")

  • caracteres de controle (\\u0000 - \\u001f ou \\u007f - \\u009f).

Step Functions aceita nomes para máquinas de estado, execuções, atividades e rótulos que não contenham ASCII caracteres. Como nomes sem ASCII caracteres não funcionarão com a Amazon CloudWatch, recomendamos usar somente ASCII caracteres para que você possa acompanhar as métricas. CloudWatch

ResultWriter (opcional)

Especifica o local do Amazon S3 em que o Step Functions grava todos os resultados da execução do fluxo de trabalho secundário.

O Step Functions consolida todos os dados de execução do fluxo de trabalho secundário, como entrada e saída da execução e status da execução. ARN Em seguida, ele exporta as execuções com o mesmo status para seus respectivos arquivos na localização especificada do Amazon S3. Para obter mais informações, consulte ResultWriter (Mapa).

Se você não exportar os resultados do estado Map, ele retornará uma matriz de todos os resultados da execução do fluxo de trabalho secundário. Por exemplo:

[1, 2, 3, 4, 5]
ResultPath (opcional)

Especifica onde colocar a saída das iterações na entrada. A entrada é então filtrada conforme especificado pelo campo OutputPath (se presente), antes de ser transmitida como a saída do estado. Para obter mais informações, consulte Processamento de entrada e saída.

ResultSelector (opcional)

Transmitir um conjunto de pares de valores-chave, em que os valores são estáticos ou selecionados a partir do resultado. Para obter mais informações, consulte ResultSelector.

dica

Se o estado Paralelo ou Mapa usado nas máquinas de estado retornar uma matriz de matrizes, você poderá transformá-las em uma matriz nivelada com o campo ResultSelector. Para obter mais informações, consulte Nivelamento de uma matriz de matrizes.

Retry (opcional)

Uma matriz de objetos, chamados Retriers, que definem uma política de novas tentativas. Uma execução usará a política de novas tentativas caso o estado encontre erros de runtime. Para obter mais informações, consulte Exemplos de máquinas de estado usando Retry e usando Catch.

nota

Se você definir Retriers para o estado Mapa Distribuído, a política de novas tentativas se aplicará a todas as execuções do fluxo de trabalho secundário iniciadas pelo estado Map. Por exemplo, imagine que o estado Map iniciou três execuções de fluxo de trabalho secundário, das quais uma falha. Quando a falha ocorre, a execução usa o campo Retry, se definido, para o estado Map. A política de repetição se aplica a todas as execuções do fluxo de trabalho secundário e não apenas à execução com falha. Se uma ou mais execuções de fluxo de trabalho secundário falharem, o mesmo ocorrerá com a Execução de mapa.

Ao repetir um estado Map, uma nova Execução de mapa é criada.

Catch (opcional)

Uma matriz de objetos, chamados Catchers, que definem um estado de fallback. O Step Functions usará os Catchers definidos em Catch se o estado encontrar erros de runtime. Quando ocorre um erro, a execução usa primeiro todos os retriers definidos em Retry. Se a política de novas tentativas não estiver definida ou estiver esgotada, a execução usará seus Catchers, se definidos. Para obter mais informações, consulte Estados de fallback.

Definindo limites de falha para estados do Distributed Map em Step Functions

Ao orquestrar cargas de trabalho paralelas em grande escala, você também pode definir um limite de falha tolerado. Esse valor permite especificar o número máximo ou a porcentagem de itens com falha como um limite de falha para uma Execução de mapa. Dependendo do valor que você especificar, a Execução de mapa falhará automaticamente se exceder o limite. Se você especificar os dois valores, o fluxo de trabalho falhará quando exceder qualquer um dos valores.

Especificar um limite ajuda você a falhar em um número específico de itens antes que toda a execução do mapa falhe. O Step Functions retorna um erro de States.ExceedToleratedFailureThreshold quando a Execução de mapa falha porque o limite especificado foi excedido.

nota

O Step Functions pode continuar executando fluxos de trabalho secundários em uma Execução de mapa mesmo depois que o limite de falha tolerado for excedido, mas antes que a Execução de mapa falhe.

Para especificar o valor do limite no Workflow Studio, selecione Definir um limite de falha tolerado em Configuração adicional, no campo Configurações de tempo de execução.

Porcentagem de falha tolerada

Define a porcentagem de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará se esse valor for excedido. O Step Functions calcula a porcentagem de itens com falha como resultado do número total de itens com falha ou com tempo limite esgotado dividido pelo número total de itens. Você deve especificar um valor entre zero e cem. O valor percentual padrão é zero, o que significa que o fluxo de trabalho falhará se qualquer uma das execuções de fluxo de trabalho secundárias falhar ou atingir o tempo limite. Se você especificar a porcentagem como cem, o fluxo de trabalho não falhará, mesmo que todas as execuções de fluxo de trabalho secundárias falhem.

Como alternativa, você pode especificar a porcentagem como um caminho de referência para um par de chave-valor existente na entrada do estado Mapa Distribuído. Esse caminho deve ser um número inteiro positivo entre 0 e cem no runtime. O caminho de referência é especificado no subcampo ToleratedFailurePercentagePath.

Por exemplo, dada a seguinte entrada:

{ "percentage": 15 }

Você pode especificar a porcentagem usando um caminho de referência para essa entrada da seguinte forma:

{ ... "Map": { "Type": "Map", ... "ToleratedFailurePercentagePath": "$.percentage" ... } }
Importante

Você pode especificar ToleratedFailurePercentage ou ToleratedFailurePercentagePath, mas não ambos, na definição do estado Mapa Distribuído.

Contagem de falhas toleradas

Define o número de itens com falha a serem tolerados. A Execução de mapa falhará se esse valor for excedido.

Como alternativa, você pode especificar a contagem como um caminho de referência para um par de chave-valor existente na entrada do estado Mapa Distribuído. Esse caminho deve ser um inteiro positivo no runtime. O caminho de referência é especificado no subcampo ToleratedFailureCountPath.

Por exemplo, dada a seguinte entrada:

{ "count": 10 }

Você pode especificar o número usando um caminho de referência para essa entrada da seguinte forma:

{ ... "Map": { "Type": "Map", ... "ToleratedFailureCountPath": "$.count" ... } }
Importante

Você pode especificar ToleratedFailureCount ou ToleratedFailureCountPath, mas não ambos, na definição do estado Mapa Distribuído.

Saiba mais sobre mapas distribuídos

Para continuar aprendendo mais sobre o estado Mapa Distribuído, consulte os seguintes recursos: