As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando o estado do mapa no modo distribuído para cargas de trabalho paralelas em grande escala no Step Functions
Com o Step Functions, você pode orquestrar workloads paralelas em grande escala para realizar tarefas, como processamento sob demanda de dados semiestruturados. Essas workloads paralelas permitem que você processe simultaneamente fontes de dados em grande escala armazenadas no Amazon S3. Por exemplo, você pode processar um único CSV arquivo JSON ou arquivo que contém grandes quantidades de dados. Ou você pode processar um grande conjunto de objetos do Amazon S3.
Para configurar uma workload paralela em grande escala nos fluxos de trabalho, inclua um estado Map
no modo distribuído. O estado Mapa processa itens em um conjunto de dados simultaneamente. Um estado Map
definido como Distribuído é conhecido como estado Mapa distribuído. No modo distribuído, o estado Map
permite o processamento simultâneo em grande escala. No modo distribuído, o estado Map
processa os itens no conjunto de dados em iterações chamadas execuções de fluxo de trabalho secundário. É possível especificar o número de execuções de fluxo de trabalho secundário que podem ser executadas em paralelo. Cada execução de fluxo de trabalho secundário tem seu próprio histórico de execução separado do fluxo de trabalho principal. Se você não especificar, o Step Functions executará 10 mil execuções paralelas de fluxo de trabalho secundário.
A ilustração a seguir explica como você pode configurar workloads paralelas em grande escala em seus fluxos de trabalho.
Aprenda em um workshop
Saiba como tecnologias sem servidor, como Step Functions e Lambda, podem simplificar o gerenciamento e o escalonamento, descarregar tarefas indiferenciadas e enfrentar os desafios do processamento distribuído de dados em grande escala. Ao longo do caminho, você trabalhará com um mapa distribuído para processamento de alta simultaneidade. O workshop também apresenta as melhores práticas para otimizar seus fluxos de trabalho e casos de uso práticos para processamento de reclamações, verificação de vulnerabilidades e simulação de Monte Carlo.
Workshop: Processamento de dados em grande escala com Step Functions
Neste tópico
Principais termos
- Modo distribuído
-
Um modo de processamento do estado Mapa. Nesse modo, cada iteração do estado
Map
é executada como uma execução de fluxo de trabalho secundário que permite processamento simultâneo em grande escala. Cada execução de fluxo de trabalho secundário tem seu próprio histórico de execução, que é separado do histórico de execução do fluxo de trabalho principal. Esse modo é compatível com a leitura de entradas de fontes de dados do Amazon S3 em grande escala. - Estado Mapa distribuído
-
Um estado Mapa definido para o modo de processamento Distribuído.
- Fluxo de trabalho do mapa
Um conjunto de etapas que um estado
Map
executa.- Fluxo de trabalho principal
-
Um fluxo de trabalho que contém um ou mais estados Mapa distribuído.
- Execuções de fluxo de trabalho secundário
-
Uma iteração do estado Mapa Distribuído. Uma execução de fluxo de trabalho secundário tem seu próprio histórico de execução, que é separado do histórico de execução do fluxo de trabalho principal.
- Execução de mapa
-
Ao executar um estado
Map
no modo distribuído, o Step Functions cria um recurso de Execução de mapa. Uma Execução de mapa se refere a um conjunto de execuções de fluxo de trabalho secundário que um estado Mapa distribuído inicia e às configurações de runtime que controlam essas execuções. Step Functions atribui um Amazon Resource Name (ARN) ao seu Map Run. Você pode examinar uma Execução de mapa no console do Step Functions. Você também pode invocar aDescribeMapRun
API ação. A Map Run também emite métricas para CloudWatch.Para obter mais informações, consulte Visualizando corridas de mapas.
Exemplo de definição do estado Mapa Distribuído
Use o estado Map
no modo distribuído quando precisar orquestrar workloads paralelas em grande escala que atendam a qualquer combinação das seguintes condições:
O tamanho do conjunto de dados excede 256 KB.
O histórico de eventos de execução do fluxo de trabalho excede 25 mil entradas.
Você precisa processar simultaneamente mais de 40 iterações paralelas.
O exemplo de definição de estado do Distributed Map a seguir especifica o conjunto de dados como um CSV arquivo armazenado em um bucket do Amazon S3. Ela também especifica uma função Lambda que processa os dados em cada linha do CSV arquivo. Como esse exemplo usa um CSV arquivo, ele também especifica a localização dos cabeçalhos das CSV colunas. Para ver a definição completa da máquina de estado desse exemplo, consulte o tutorial Copiando CSV dados em grande escala usando o Mapa Distribuído.
{
"Map": {
"Type": "Map",
"ItemReader": {
"ReaderConfig": {
"InputType": "CSV",
"CSVHeaderLocation": "FIRST_ROW"
},
"Resource": "arn:aws:states:::s3:getObject",
"Parameters": {
"Bucket": "amzn-s3-demo-bucket
",
"Key": "csv-dataset/ratings.csv
"
}
},
"ItemProcessor": {
"ProcessorConfig": {
"Mode": "DISTRIBUTED",
"ExecutionType": "EXPRESS
"
},
"StartAt": "LambdaTask",
"States": {
"LambdaTask": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"OutputPath": "$.Payload",
"Parameters": {
"Payload.$": "$",
"FunctionName": "arn:aws:lambda:us-east-2:123456789012:function:processCSVData
"
},
"End": true
}
}
},
"Label": "Map",
"End": true,
"ResultWriter": {
"Resource": "arn:aws:states:::s3:putObject",
"Parameters": {
"Bucket": "amzn-s3-demo-destination-bucket
",
"Prefix": "csvProcessJobs
"
}
}
}
}
Permissões para executar o Mapa distribuído
Quando você inclui um estado de Mapa Distribuído em seus fluxos de trabalho, o Step Functions precisa de permissões apropriadas para permitir que a função de máquina de estado invoque a StartExecution
API ação para o estado de Mapa Distribuído.
O exemplo IAM de política a seguir concede os privilégios mínimos necessários à sua função de máquina de estado para executar o estado do Mapa Distribuído.
nota
Substitua
pelo nome da máquina de estado na qual você está usando o estado Mapa Distribuído. Por exemplo, stateMachineName
arn:aws:states:
.us-east-2
:123456789012
:stateMachine:mystateMachine
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "states:StartExecution" ], "Resource": [ "arn:aws:states:
region
:accountID
:stateMachine:stateMachineName
" ] }, { "Effect": "Allow", "Action": [ "states:DescribeExecution", "states:StopExecution" ], "Resource": "arn:aws:states:region
:accountID
:execution:stateMachineName
:*" } ] }
Além disso, você precisa ter certeza de que tem o mínimo de privilégios necessários para acessar o AWS recursos usados no estado do Mapa Distribuído, como buckets do Amazon S3. Para ter mais informações, consulte IAMpolíticas para usar estados de mapas distribuídos.
Campos do estado Mapa Distribuído
Para usar o estado Mapa distribuído em fluxos de trabalho, especifique um ou mais dos campos a seguir. Você especifica esses campos além dos campos de estado comuns.
Type
(obrigatório)-
Define o tipo de estado, como
Map
. ItemProcessor
(obrigatório)-
Contém os seguintes JSON objetos que especificam a definição e o modo de processamento do
Map
estado.-
ProcessorConfig
— JSON objeto que especifica o modo de processamento de itens, com os seguintes subcampos:-
Mode
— Definido comoDISTRIBUTED
para usar o estadoMap
no modo distribuído.Atenção
O modo distribuído é suportado nos fluxos de trabalho padrão, mas não nos fluxos de trabalho expressos.
-
ExecutionType
— Especifica o tipo de execução para o fluxo de trabalho do Mapa como STANDARDou EXPRESS. Você deve fornecer esse campo se tiver especificadoDISTRIBUTED
para o subcampoMode
. Para ver mais informações sobre tipos de fluxos de trabalho, consulte Escolhendo o tipo de fluxo de trabalho em Step Functions.
-
StartAt
— Especifica uma string que indica o primeiro estado em um fluxo de trabalho. Essa string diferencia maiúsculas de minúsculas e deve corresponder ao nome de um dos objetos de estado. Esse estado é executado primeiro para cada item no conjunto de dados. Qualquer entrada de execução fornecida ao estadoMap
é transmitida primeiro para o estadoStartAt
.States
— Um JSON objeto contendo um conjunto de estados delimitado por vírgula. Nesse objeto, você define o Map workflow.
-
ItemReader
-
Especifica um conjunto de dados e sua localização. O estado
Map
recebe seus dados de entrada do conjunto de dados especificado.No modo distribuído, você pode usar uma JSON carga transmitida de um estado anterior ou uma fonte de dados Amazon S3 em grande escala como conjunto de dados. Para obter mais informações, consulte ItemReader (Mapa).
ItemsPath
(opcional)-
Especifica um caminho de referência usando a JsonPath
sintaxe para selecionar o JSON nó que contém uma matriz de itens dentro da entrada de estado. No modo distribuído, você especifica esse campo somente quando usa uma JSON matriz de uma etapa anterior como entrada de estado. Para obter mais informações, consulte ItemsPath (Mapa).
ItemSelector
(opcional)-
Substitui os valores de itens individuais do conjunto de dados antes de serem transmitidos para cada iteração do estado
Map
.Nesse campo, você especifica uma JSON entrada válida que contém uma coleção de pares de valores-chave. Esses pares podem ser valores estáticos configurados na definição da máquina de estado, valores selecionados da entrada de estado usando um caminho ou valores acessados a partir do objeto de contexto. Para obter mais informações, consulte ItemSelector (Mapa).
ItemBatcher
(opcional)-
Especifica o processamento dos itens do conjunto de dados em lotes. Em seguida, cada execução de fluxo de trabalho secundário recebe um lote desses itens como entrada. Para obter mais informações, consulte ItemBatcher (Mapa).
MaxConcurrency
(opcional)-
Especifica o número de execuções de fluxo de trabalho secundário que podem ser executadas em paralelo. O intérprete só permite até o número especificado de execuções paralelas de fluxo de trabalho secundário. Se você não especificar um valor de simultaneidade ou defini-lo como zero, o Step Functions não limita a simultaneidade e executa 10.000 execuções paralelas de fluxo de trabalho secundário.
nota
Embora você possa especificar um limite maior de simultaneidade para execuções paralelas de fluxos de trabalho secundários, recomendamos que você não exceda a capacidade de um downstream AWS serviço, como AWS Lambda.
MaxConcurrencyPath
(opcional)-
Para fornecer dinamicamente um valor máximo de processamento simultâneo a partir da entrada de estado usando um caminho de referência, use
MaxConcurrencyPath
. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número inteiro não negativo.nota
Um estado
Map
não pode incluirMaxConcurrency
eMaxConcurrencyPath
. ToleratedFailurePercentage
(opcional)-
Define a porcentagem de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará automaticamente se exceder essa porcentagem. O Step Functions calcula a porcentagem de itens com falha como resultado do número total de itens com falha ou com tempo limite esgotado dividido pelo número total de itens. Você deve especificar um valor entre zero e cem. Para obter mais informações, consulte Definindo limites de falha para estados do Distributed Map em Step Functions.
ToleratedFailurePercentagePath
(opcional)-
Para fornecer dinamicamente um valor de porcentagem de falha tolerada com base na entrada de estado utilizando um caminho de referência, use
ToleratedFailurePercentagePath
. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número entre zero e cem. ToleratedFailureCount
(opcional)-
Define o número de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará automaticamente se exceder esse número. Para obter mais informações, consulte Definindo limites de falha para estados do Distributed Map em Step Functions.
ToleratedFailureCountPath
(opcional)-
Para fornecer dinamicamente um valor de contagem de falhas toleradas com base na entrada de estado utilizando um caminho de referência, use
ToleratedFailureCountPath
. Quando resolvido, o caminho de referência deve selecionar um campo cujo valor seja um número inteiro não negativo. Label
(opcional)-
Uma string que identifica exclusivamente um estado
Map
. Para cada Map Run, Step Functions adiciona o rótulo ao Map RunARN. A seguir está um exemplo de uma execução de mapa ARN com um rótulo personalizado chamadodemoLabel
:arn:aws:states:us-east-1:123456789012:mapRun:demoWorkflow/demoLabel:3c39a231-69bb-3d89-8607-9e124eddbb0b
Se você não especificar um rótulo, o Step Functions gerará automaticamente um rótulo exclusivo.
nota
Os rótulos não podem ter mais de 40 caracteres, devem ser exclusivos em uma definição de máquina de estado e não podem conter nenhum dos caracteres a seguir.
-
Espaço em branco
-
Caracteres curinga (
? *
) -
Caracteres de colchete (
< > { } [ ]
) -
Caracteres especiais (
: ; , \ | ^ ~ $ # % & ` "
) -
caracteres de controle (
\\u0000
-\\u001f
ou\\u007f
-\\u009f
).
Step Functions aceita nomes para máquinas de estado, execuções, atividades e rótulos que não contenham ASCII caracteres. Como esses caracteres não funcionarão com a Amazon CloudWatch, recomendamos usar somente ASCII caracteres para que você possa acompanhar as métricas CloudWatch.
-
ResultWriter
(opcional)-
Especifica o local do Amazon S3 em que o Step Functions grava todos os resultados da execução do fluxo de trabalho secundário.
O Step Functions consolida todos os dados de execução do fluxo de trabalho secundário, como entrada e saída da execução e status da execução. ARN Em seguida, ele exporta as execuções com o mesmo status para seus respectivos arquivos na localização especificada do Amazon S3. Para obter mais informações, consulte ResultWriter (Mapa).
Se você não exportar os resultados do estado
Map
, ele retornará uma matriz de todos os resultados da execução do fluxo de trabalho secundário. Por exemplo:[1, 2, 3, 4, 5]
ResultPath
(opcional)-
Especifica onde colocar a saída das iterações na entrada. A entrada é então filtrada conforme especificado pelo campo OutputPath (se presente), antes de ser transmitida como a saída do estado. Para obter mais informações, consulte Processamento de entrada e saída.
ResultSelector
(opcional)-
Transmitir um conjunto de pares de valores-chave, em que os valores são estáticos ou selecionados a partir do resultado. Para obter mais informações, consulte ResultSelector.
dica
Se o estado Paralelo ou Mapa usado nas máquinas de estado retornar uma matriz de matrizes, você poderá transformá-las em uma matriz nivelada com o campo ResultSelector. Para obter mais informações, consulte Nivelamento de uma matriz de matrizes.
Retry
(opcional)-
Uma matriz de objetos, chamados Retriers, que definem uma política de novas tentativas. Uma execução usará a política de novas tentativas caso o estado encontre erros de runtime. Para obter mais informações, consulte Exemplos de máquinas de estado usando Retry e usando Catch.
nota
Se você definir Retriers para o estado Mapa Distribuído, a política de novas tentativas se aplicará a todas as execuções do fluxo de trabalho secundário iniciadas pelo estado
Map
. Por exemplo, imagine que o estadoMap
iniciou três execuções de fluxo de trabalho secundário, das quais uma falha. Quando a falha ocorre, a execução usa o campoRetry
, se definido, para o estadoMap
. A política de repetição se aplica a todas as execuções do fluxo de trabalho secundário e não apenas à execução com falha. Se uma ou mais execuções de fluxo de trabalho secundário falharem, o mesmo ocorrerá com a Execução de mapa.Ao repetir um estado
Map
, uma nova Execução de mapa é criada. Catch
(opcional)-
Uma matriz de objetos, chamados Catchers, que definem um estado de fallback. O Step Functions usará os Catchers definidos em
Catch
se o estado encontrar erros de runtime. Quando ocorre um erro, a execução usa primeiro todos os retriers definidos emRetry
. Se a política de novas tentativas não estiver definida ou estiver esgotada, a execução usará seus Catchers, se definidos. Para obter mais informações, consulte Estados de fallback.
Definindo limites de falha para estados do Distributed Map em Step Functions
Ao orquestrar cargas de trabalho paralelas em grande escala, você também pode definir um limite de falha tolerado. Esse valor permite especificar o número máximo ou a porcentagem de itens com falha como um limite de falha para uma Execução de mapa. Dependendo do valor que você especificar, a Execução de mapa falhará automaticamente se exceder o limite. Se você especificar os dois valores, o fluxo de trabalho falhará quando exceder qualquer um dos valores.
Especificar um limite ajuda você a falhar em um número específico de itens antes que toda a execução do mapa falhe. O Step Functions retorna um erro de States.ExceedToleratedFailureThreshold
quando a Execução de mapa falha porque o limite especificado foi excedido.
nota
O Step Functions pode continuar executando fluxos de trabalho secundários em uma Execução de mapa mesmo depois que o limite de falha tolerado for excedido, mas antes que a Execução de mapa falhe.
Para especificar o valor do limite no Workflow Studio, selecione Definir um limite de falha tolerado em Configuração adicional, no campo Configurações de tempo de execução.
- Porcentagem de falha tolerada
-
Define a porcentagem de itens com falha a serem tolerados em uma Execução de mapa. A Execução de mapa falhará se esse valor for excedido. O Step Functions calcula a porcentagem de itens com falha como resultado do número total de itens com falha ou com tempo limite esgotado dividido pelo número total de itens. Você deve especificar um valor entre zero e cem. O valor percentual padrão é zero, o que significa que o fluxo de trabalho falhará se qualquer uma das execuções de fluxo de trabalho secundárias falhar ou atingir o tempo limite. Se você especificar a porcentagem como cem, o fluxo de trabalho não falhará, mesmo que todas as execuções de fluxo de trabalho secundárias falhem.
Como alternativa, você pode especificar a porcentagem como um caminho de referência para um par de chave-valor existente na entrada do estado Mapa Distribuído. Esse caminho deve ser um número inteiro positivo entre 0 e cem no runtime. O caminho de referência é especificado no subcampo
ToleratedFailurePercentagePath
.Por exemplo, dada a seguinte entrada:
{
"percentage":
15
}Você pode especificar a porcentagem usando um caminho de referência para essa entrada da seguinte forma:
{ ... "Map": { "Type": "Map", ...
"ToleratedFailurePercentagePath":
"$.percentage"
... } }Importante
Você pode especificar
ToleratedFailurePercentage
ouToleratedFailurePercentagePath
, mas não ambos, na definição do estado Mapa Distribuído. - Contagem de falhas toleradas
-
Define o número de itens com falha a serem tolerados. A Execução de mapa falhará se esse valor for excedido.
Como alternativa, você pode especificar a contagem como um caminho de referência para um par de chave-valor existente na entrada do estado Mapa Distribuído. Esse caminho deve ser um inteiro positivo no runtime. O caminho de referência é especificado no subcampo
ToleratedFailureCountPath
.Por exemplo, dada a seguinte entrada:
{
"count"
:10
}Você pode especificar o número usando um caminho de referência para essa entrada da seguinte forma:
{ ... "Map": { "Type": "Map", ...
"ToleratedFailureCountPath"
:"$.count"
... } }Importante
Você pode especificar
ToleratedFailureCount
ouToleratedFailureCountPath
, mas não ambos, na definição do estado Mapa Distribuído.
Saiba mais sobre mapas distribuídos
Para continuar aprendendo mais sobre o estado Mapa Distribuído, consulte os seguintes recursos:
-
Processamento de entrada e saída
Para configurar a entrada que um estado Mapa Distribuído recebe e a saída que ele gera, o Step Functions fornece os seguintes campos:
Além desses campos, o Step Functions também fornece a capacidade de definir um limite de falha tolerado para Mapa distribuído. Esse valor permite especificar o número máximo ou a porcentagem de itens com falha como um limite de falha para uma Execução de mapa. Para ver mais informações sobre como configurar o limite de falhas toleradas, consulte Definindo limites de falha para estados do Distributed Map em Step Functions
-
Usar o estado Mapa Distribuído
Consulte os seguintes tutoriais e exemplos de projetos para começar a usar o estado Mapa Distribuído.
-
Examine a execução do estado Mapa Distribuído
O console do Step Functions tem uma página Detalhes da Execução de mapa que exibe todas as informações relacionadas à execução de um estado Mapa distribuído. Para ver informações sobre como examinar as informações exibidas nesta página, consulte Visualizando corridas de mapas.