사전 조건 1단계: 워크플로 프로토타입 만들기 2단계: Map 상태에 필요한 필드 구성 3단계: 추가 옵션 구성 4단계: Lambda 함수 구성 5단계: 워크플로 프로토타입 업데이트 6단계: 자동 생성된 Amazon States Language 정의 검토 및 워크플로 저장 7단계: 상태 시스템 실행

Step Functions에서 Distributed Map을 사용하여 대규모 CSV 데이터 복사

이 자습서는 분산 모드에서 Map 상태 사용을 시작하는 데 도움이 됩니다. Distributed로 설정된 Map 상태를 Distributed Map 상태라고 합니다. 워크플로의 Distributed Map 상태를 사용하여 대규모 Amazon S3 데이터 소스를 반복할 수 있습니다. Map 상태는 각 반복을 하위 워크플로 실행으로 실행하므로 높은 동시성이 가능합니다. 분산 모드에 대한 자세한 내용은 분산 모드의 Map 상태를 참조하세요.

이 자습서에서는 Distributed Map 상태를 사용하여 Amazon S3 버킷의 CSV 파일을 반복합니다. 그런 다음 하위 워크플로 실행의 ARN과 함께 해당 콘텐츠를 다른 Amazon S3 버킷에 반환합니다. 먼저 Workflow Studio에서 워크플로 프로토타입을 만듭니다. 다음으로 Map 상태 처리 모드를 Distributed로 설정하고 CSV 파일을 데이터 세트로 지정한 다음 해당 위치를 Map 상태에 제공합니다. 또한 Distributed Map 상태가 Express로 시작하는 하위 워크플로 실행의 워크플로 유형을 지정합니다.

이 자습서에서 사용하는 예제 워크플로의 경우 이러한 설정 외에도 하위 워크플로의 최대 동시 실행 수, Map 결과를 내보내는 위치와 같은 다른 구성도 지정합니다.

사전 조건

Amazon S3 버킷에 CSV 파일 업로드 CSV 파일 내 헤더 행을 정의해야 합니다. CSV 파일에 적용되는 크기 제한 및 헤더 행을 지정하는 방법에 대한 자세한 내용은 Amazon S3 버킷에 있는 CSV 파일 섹션을 참조하세요.
Amazon S3 버킷과 Map 상태 결과를 내보낼 버킷 내에 폴더를 만듭니다.

계정 및 리전에 대한 요구 사항

Amazon S3 버킷은 AWS 리전 상태 시스템과 동일한 AWS 계정 및에 있어야 합니다.

상태 시스템이 동일한에 AWS 계정 있는 다른의 버킷에 있는 파일에 액세스할 수 있더라도 AWS 리전 Step Functions는 AWS 리전 상태 시스템과 동일한 AWS 계정 및 동일한 에 있는 Amazon S3 버킷의 객체 나열만 지원합니다.

1단계: 워크플로 프로토타입 만들기

이 단계에서는 Workflow Studio를 사용하여 워크플로의 프로토타입을 만듭니다. Workflow Studio는 Step Functions 콘솔에서 사용할 수 있는 시각적 워크플로 디자이너입니다. 흐름 및 작업 탭에서 각각 필요한 상태와 API 작업을 선택합니다. Workflow Studio의 끌어서 놓기 기능을 사용하여 워크플로 프로토타입을 만듭니다.

Step Functions 콘솔을 열고 메뉴에서 상태 머신을 선택한 다음 상태 머신 생성을 선택합니다.
비어 있는 상태에서 생성을 선택합니다.
상태 시스템의 이름을 지정한 다음 계속을 선택하여 Workflow Studio에서 상태 시스템을 편집합니다.
흐름 탭에서 Map 상태를 끌어 첫 번째 상태를 여기에 놓기 레이블이 지정된 빈 상태에 놓습니다.
구성 탭의 상태 이름에 Process data를 입력합니다.
작업 탭에서 AWS Lambda Invoke API 작업을 끌어 Process data 상태에 놓습니다.
AWS Lambda Invoke 상태 이름을 Process CSV data로 바꿉니다.

2단계: Map 상태에 필요한 필드 구성

이 단계에서는 Distributed Map 상태에 필요한 다음 필드를 구성합니다.

ItemReader - Map 상태에서 입력을 읽을 수 있는 데이터 세트와 위치를 지정합니다.
ItemProcessor - 다음 값을 지정합니다.
- ProcessorConfig - Mode 및 ExecutionType을 각각 DISTRIBUTED 및 EXPRESS로 설정합니다. 이렇게 하면 Distributed Map 상태가 시작하는 하위 워크플로 실행의 Map 상태 처리 모드와 워크플로 유형이 설정됩니다.
- StartAt - Map 워크플로의 첫 번째 상태입니다.
- States - 각 하위 워크플로 실행에서 반복되는 일련의 단계인 Map 워크플로를 정의합니다.
ResultWriter - Step Functions에서 Distributed Map 상태 결과를 작성하는 Amazon S3 위치를 지정합니다.

중요
맵 실행의 결과를 내보내는 데 사용하는 Amazon S3 버킷이 AWS 리전 상태 시스템과 동일한 AWS 계정 및 아래에 있는지 확인합니다. 그렇지 않으면 상태 시스템 실행이 실패하고 States.ResultWriterFailed 오류가 표시됩니다.

필수 필드 구성하기:

Process data 상태를 선택하고 구성 탭에서 다음을 수행합니다.
1. 처리 모드에 분산을 선택합니다.
2. 항목 소스에 Amazon S3를 선택한 다음 S3 항목 소스 드롭다운 목록에서 S3의 CSV 파일을 선택합니다.
3. CSV 파일의 Amazon S3 위치를 지정하려면 다음을 수행합니다.
  1. S3 객체의 드롭다운 목록에서 버킷 및 키 입력을 선택합니다.
  2. 버킷에 CSV 파일이 있는 Amazon S3 버킷의 이름을 입력합니다. 예를 들어 amzn-s3-demo-source-bucket입니다.
  3. 키에 CSV 파일을 저장한 Amazon S3 객체의 이름을 입력합니다. 이 필드에 CSV 파일 이름도 지정해야 합니다. 예를 들어 csvDataset/ratings.csv입니다.
4. CSV 파일의 경우 열 헤더 위치도 지정해야 합니다. 이렇게 하려면 추가 구성을 선택한 다음 CSV 파일의 첫 번째 행이 헤더이면 CSV 헤더 위치에 기본 선택 항목인 첫 번째 행을 그대로 둡니다. 그렇지 않으면 지정을 선택하여 상태 시스템 정의 내에 헤더를 지정합니다. 자세한 내용은 ReaderConfig 단원을 참조하십시오.
5. 하위 실행 유형에 Express를 선택합니다.
내보내기 위치에서 맵 실행 결과를 특정 Amazon S3 위치로 내보내도록 Map 상태의 출력을 Amazon S3로 내보내기를 선택합니다.
다음을 수행합니다.
1. S3 버킷의 드롭다운 목록에서 버킷 이름 및 접두사 입력을 선택합니다.
2. 버킷에 결과를 내보낼 Amazon S3 버킷의 이름을 입력합니다. 예를 들어 mapOutputs입니다.
3. 접두사에 결과를 저장할 폴더 이름을 입력합니다. 예를 들어 resultData입니다.

3단계: 추가 옵션 구성

Distributed Map 상태에 필요한 설정 외에도 다른 옵션도 지정할 수 있습니다. 여기에는 하위 워크플로의 최대 동시 실행 수와 Map 상태 결과를 내보낼 위치가 포함될 수 있습니다.

Process data 상태를 선택합니다. 그런 다음 항목 소스에서 추가 구성을 선택합니다.
다음을 수행합니다.
1. ItemSelector를 사용하여 항목 수정을 선택하여 각 하위 워크플로 실행의 사용자 지정 JSON 입력을 지정합니다.
2. 다음 JSON 입력을 입력합니다.
```
{
  "index.$": "$$.Map.Item.Index",
  "value.$": "$$.Map.Item.Value"
}
```
  사용자 지정 입력을 만드는 방법은 ItemSelector(맵) 섹션을 참조하세요.
런타임 설정의 동시성 한도 설정에서 Distributed Map 상태가 시작할 수 있는 하위 워크플로의 동시 실행 수를 지정합니다. 예를 들면 100를(을) 입력합니다.
브라우저에서 새 창이나 탭을 열고 4단계: Lambda 함수 구성의 설명대로 이 워크플로에서 사용할 Lambda 함수의 구성을 완료합니다.

4단계: Lambda 함수 구성

중요

Lambda 함수가 AWS 리전 상태 시스템과 동일한 상태인지 확인합니다.

Lambda 콘솔을 열고 함수 생성을 선택합니다.
함수 생성 페이지에서 처음부터 새로 작성을 선택합니다.
기본 정보 섹션에서 Lambda 함수를 구성합니다.
1. [함수 이름]에 distributedMapLambda을 입력합니다.
2. 런타임에서 Node.js를 선택합니다.
3. 모든 기본 선택 항목을 그대로 두고 함수 생성을 선택합니다.
4. Lambda 함수를 만든 후 페이지 오른쪽 상단에 표시된 함수의 Amazon 리소스 이름(ARN)을 복사합니다. 워크플로 프로토타입에 이를 제공해야 합니다. ARN 예제는 다음과 같습니다.
```
arn:aws:lambda:us-east-2:123456789012:function:distributedMapLambda
```

Lambda 함수의 다음 코드를 복사하여 distributedMapLambda 페이지의 코드 소스 섹션에 붙여넣습니다.


exports.handler = async function(event, context) {
    console.log("Received Input:\n", event);

    return {
        'statusCode' : 200,
        'inputReceived' : event //returns the input that it received
    }
};

배포(Deploy)를 선택합니다. 함수가 배포되면 테스트를 선택하여 Lambda 함수 출력을 확인합니다.

5단계: 워크플로 프로토타입 업데이트

Step Functions 콘솔에서 워크플로를 업데이트하여 Lambda 함수의 ARN을 추가합니다.

워크플로 프로토타입을 만든 탭이나 창으로 돌아갑니다.
CSV 데이터 처리 단계를 선택하고 구성 탭에서 다음을 수행합니다.
1. 통합 유형에 최적화를 선택합니다.
2. 함수 이름에 Lambda 함수 이름을 입력합니다. 표시되는 드롭다운 목록에서 함수를 선택하거나 함수 이름 입력을 선택하고 Lambda 함수 ARN을 제공합니다.

6단계: 자동 생성된 Amazon States Language 정의 검토 및 워크플로 저장

작업 및 흐름 탭에서 상태를 끌어 캔버스에 놓으면 Workflow Studio에서 워크플로의 Amazon States Language 정의를 실시간으로 자동 작성합니다. 필요에 따라 이 정의를 편집할 수 있습니다.

(선택 사항) Inspector 패널 패널에서 정의를 선택하고 상태 시스템 정의를 봅니다.

작은 정보

Workflow Studio의 코드 편집기에서 ASL 정의를 볼 수도 있습니다. 코드 편집기에서 워크플로의 ASL 정의를 편집할 수도 있습니다.

다음 예제 코드에서는 워크플로에 자동으로 생성된 Amazon States Language 정의를 보여줍니다.


{
  "Comment": "Using Map state in Distributed mode",
  "StartAt": "Process data",
  "States": {
    "Process data": {
      "Type": "Map",
      "MaxConcurrency": 100,
      "ItemReader": {
        "ReaderConfig": {
          "InputType": "CSV",
          "CSVHeaderLocation": "FIRST_ROW"
        },
        "Resource": "arn:aws:states:::s3:getObject",
        "Parameters": {
          "Bucket": "amzn-s3-demo-source-bucket",
          "Key": "csvDataset/ratings.csv"
        }
      },
      "ItemProcessor": {
        "ProcessorConfig": {
          "Mode": "DISTRIBUTED",
          "ExecutionType": "EXPRESS"
        },
        "StartAt": "Process CSV data",
        "States": {
          "Process CSV data": {
            "Type": "Task",
            "Resource": "arn:aws:states:::lambda:invoke",
            "OutputPath": "$.Payload",
            "Parameters": {
              "Payload.$": "$",
              "FunctionName": "arn:aws:lambda:us-east-2:account-id:function:distributedMapLambda"
            },
            "End": true
          }
        }
      },
      "Label": "Processdata",
      "End": true,
      "ResultWriter": {
        "Resource": "arn:aws:states:::s3:putObject",
        "Parameters": {
          "Bucket": "mapOutputs",
          "Prefix": "resultData"
        }
      },
      "ItemSelector": {
        "index.$": "$$.Map.Item.Index",
        "value.$": "$$.Map.Item.Value"
      }
    }
  }
}

상태 시스템 이름을 지정합니다. 이렇게 하려면 기본 상태 시스템 이름인 MyStateMachine 옆에 있는 편집 아이콘을 선택합니다. 그런 다음 상태 머신 구성에서 상태 머신 이름 상자에 이름을 지정합니다.

이 튜토리얼에서는 이름 DistributedMapDemo를 입력합니다.
(선택 사항) 상태 머신 구성에서 상태 시스템 유형 및 실행 역할과 같은 기타 워크플로 설정을 지정합니다.

이 자습서의 경우 상태 머신 구성의 모든 기본 선택 항목을 그대로 둡니다.
역할 생성 확인 대화 상자에서 확인을 선택하여 계속합니다.

역할 설정 보기를 선택하여 상태 머신 구성으로 돌아갈 수도 있습니다.

참고
Step Functions에서 만드는 IAM 역할을 삭제하면 나중에 Step Functions에서 이 역할을 다시 만들 수 없습니다. 마찬가지로, 역할을 수정하면(예: IAM 정책의 주요에서 Step Functions 제거) 나중에 Step Functions에서 해당 원본 설정을 복원할 수 없습니다.

7단계: 상태 시스템 실행

실행은 워크플로를 실행하여 작업을 수행하는 상태 시스템의 인스턴스입니다.

DistributedMapDemo 페이지에서 실행 시작을 선택합니다.
실행 시작 대화 상자에서 다음을 수행합니다.
1. (선택 사항) 생성된 기본값을 재정의하려면 사용자 지정 실행 이름을 입력합니다.
  
  비 ASCII 이름 및 로깅
  Step Functions는 비 ASCII 문자가 포함된 상태 시스템, 실행, 활동 및 레이블 이름을 허용합니다. 이러한 문자는 Amazon CloudWatch가 데이터를 로깅하지 못하게 하므로 Step Functions 지표를 추적할 수 있도록 ASCII 문자만 사용하는 것이 좋습니다.
2. (선택 사항) 입력 상자에 입력 값을 JSON 형식으로 입력하여 워크플로를 실행합니다.
3. 실행 시작을 선택합니다.
4. Step Functions 콘솔은 실행 세부 정보 페이지라고 하는 실행 ID로 제목이 지정된 페이지로 이동합니다. 워크플로가 진행되고 완료되면 실행 결과를 검토할 수 있습니다.
  
  실행 결과를 검토하려면 그래프 보기에서 개별 상태를 선택한 다음 단계 세부 정보 창에서 개별 탭을 선택하여 입력, 출력 및 정의가 포함된 각 상태의 세부 정보를 각각 봅니다. 실행 세부 정보 페이지에서 볼 수 있는 실행 정보에 대한 자세한 내용은 실행 세부 정보 개요 섹션을 참조하세요.
예를 들어 Map 상태를 선택한 다음 맵 실행을 선택하여 맵 실행 세부 정보 페이지를 엽니다. 이 페이지에서 Distributed Map 상태의 모든 실행 세부 정보와 이 상태가 시작된 하위 워크플로 실행을 볼 수 있습니다. 이 페이지에 대한 자세한 내용은 맵 실행 보기 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Inline Map으로 작업 반복

Lambda를 사용하여 루프 반복