인프라를 코드로 사용하여 AWS 클라우드에 서버리스 데이터 레이크 배포 및 관리 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

인프라를 코드로 사용하여 AWS 클라우드에 서버리스 데이터 레이크 배포 및 관리

작성자: Kirankumar Chandrashekar(AWS) 및 Abdel Jaidi(AWS)

환경: 프로덕션

기술: DataLakes, 분석, 서버리스, DevOps

워크로드: 기타 모든 워크로드

AWS 서비스: Amazon S3, Amazon SQS, AWS CloudFormation, AWS Glue, Amazon CloudWatch, AWS Lambda, AWS Step Functions, Amazon DynamoDB

요약

이 패턴은 서버리스 컴퓨팅인프라를 코드(IaC )로 사용하여 Amazon Web Services(AWS) 클라우드에서 데이터 레이크를 구현하고 관리하는 방법을 설명합니다.IaC 이 패턴은 에서 개발한 서버리스 데이터 레이크 프레임워크(SDLF) 워크숍을 기반으로 합니다AWS.

SDLF 는 AWS 클라우드에서 엔터프라이즈 데이터 레이크의 전송을 가속화하고 프로덕션으로 더 빠르게 배포하는 데 도움이 되는 재사용 가능한 리소스 모음입니다. 모범 사례에 따라 데이터 레이크의 기본 구조를 구현하는 데 사용됩니다.

SDLF 는 AWS CodePipeline, 및 와 같은 AWS 서비스를 사용하여 코드 및 인프라 배포 전반에 걸쳐 지속적인 통합/지속적 배포(CI/CD) 프로세스를 구현AWS CodeBuild합니다AWS CodeCommit.

이 패턴은 여러 AWS 서버리스 서비스를 사용하여 데이터 레이크 관리를 간소화합니다. 여기에는 Amazon Simple Storage Service(Amazon S3) 및 Amazon DynamoDB for storage, AWS Lambda and AWS Glue for computing, Amazon CloudWatch Events, Amazon Simple Queue Service(Amazon SQS) 및 AWS Step Functions for orchestration이 포함됩니다.

AWS CloudFormation 및 AWS 코드 서비스는 IaC 계층 역할을 하여 간편한 운영 및 관리와 함께 재현 가능하고 빠른 배포를 제공합니다.

사전 조건 및 제한 사항

사전 조건 

아키텍처

아키텍처 다이어그램은 다음 단계를 포함하는 이벤트 중심 프로세스를 보여줍니다. 

AWS 클라우드에서 데이터 레이크 구현 및 관리.
  1. 원시 데이터 S3 버킷에 파일이 추가되면 Amazon S3 이벤트 알림이 SQS 대기열에 배치됩니다. 각 알림은 S3 버킷 이름, 객체 키 또는 타임스탬프와 같은 메타데이터가 포함된 JSON 파일로 전달됩니다.

  2. 이 알림은 메타데이터를 기반으로 이벤트를 올바른 추출, 변환 및 로드(ETL) 프로세스로 라우팅하는 Lambda 함수에서 사용합니다. Lambda 함수는 Amazon DynamoDB 테이블에 저장된 상황별 구성을 사용할 수도 있습니다. 이 단계를 통해 데이터 레이크의 여러 애플리케이션을 분리하고 확장할 수 있습니다.

  3. 이벤트는 ETL 프로세스의 첫 번째 Lambda 함수로 라우팅되며, 이 함수는 원시 데이터 영역에서 데이터 레이크의 스테이징 영역으로 데이터를 변환하고 이동합니다. 첫 번째 단계는 종합 카탈로그를 업데이트하는 것입니다. 이는 데이터 레이크의 모든 파일 메타데이터를 포함하는 DynamoDB 테이블입니다. 이 테이블의 각 행에는 Amazon S3에 저장된 단일 객체에 대한 운영 메타데이터가 들어 있습니다. Lambda 함수가 동기식으로 호출되어 S3 객체에서 계산에 따른 리소스 비용이 높은 작업인 광변환(예: 파일을 한 형식에서 다른 형식으로 변환하는 작업)을 수행합니다. 스테이징 S3 버킷에 새 객체가 추가되었으므로 포괄적인 카탈로그가 업데이트되고 메시지가 의 다음 단계를 기다리는 SQS 대기열로 전송됩니다ETL.

  4. CloudWatch 이벤트 규칙은 5분마다 Lambda 함수를 트리거합니다. 이 함수는 메시지가 이전 ETL 단계에서 SQS 대기열로 전달되었는지 확인합니다. 메시지가 전달되면 Lambda 함수는 ETL 프로세스의 AWS Step Functions에서 두 번째 함수를 시작합니다.

  5. 그런 다음 배치 파일에 대규모 변환이 적용됩니다. 이 대규모 변환은 Glue 작업, AWS Fargate 작업, Amazon EMR 단계 또는 Amazon SageMaker 노트북에 대한 동기 호출과 같이 계산 비용이 많이 AWS 드는 작업입니다. 테이블 메타데이터는 AWS Glue 카탈로그를 업데이트하는 AWS Glue 크롤러를 사용하여 출력 파일에서 추출됩니다. 파일 메타데이터는 DynamoDB의 종합 카탈로그 테이블에도 추가됩니다. 마지막으로 Deequ를 활용하는 데이터 품질 단계도 실행됩니다.

기술 스택

  • Amazon CloudWatch 이벤트

  • AWS CloudFormation

  • AWS CodePipeline

  • AWS CodeBuild

  • AWS CodeCommit

  • Amazon DynamoDB

  • AWS Glue

  • AWS Lambda

  • Amazon S3

  • Amazon SQS

  • AWS Step Functions

도구

  • Amazon CloudWatch Events - CloudWatch 이벤트는 AWS 리소스의 변경 사항을 설명하는 시스템 이벤트의 거의 실시간 스트림을 제공합니다.

  • AWS CloudFormation –인AWS프라 배포를 예측 가능하고 반복적으로 생성하고 프로비저닝하는 데 CloudFormation 도움이 됩니다.

  • AWS CodeBuild – 소스 코드를 컴파일하고, 단위 테스트를 실행하고, 배포할 준비가 된 아티팩트를 생성하는 완전 관리형 빌드 서비스 CodeBuild 입니다.

  • AWS CodeCommit – CodeCommit 자산(예: 소스 코드 및 바이너리 파일)을 비공개로 저장하고 관리하는 데 사용할 수 AWS 있는 에서 호스팅하는 버전 제어 서비스입니다.

  • AWS CodePipeline – 소프트웨어 변경 사항을 지속적으로 릴리스하는 데 필요한 단계를 모델링, 시각화 및 자동화하는 데 사용할 수 있는 지속적인 제공 서비스 CodePipeline 입니다.

  • Amazon DynamoDB – DynamoDB는 확장성과 함께 빠르고 예측 가능한 성능을 제공하는 완전 관리형 데이터베이스 없음SQL 서비스입니다. 

  • AWS Glue – AWS Glue는 분석을 위해 데이터를 더 쉽게 준비하고 로드할 수 있는 완전 관리형 ETL 서비스입니다.

  • AWS Lambda - Lambda는 서버를 프로비저닝하거나 관리하지 않고도 실행 중인 코드를 지원합니다. Lambda는 필요 시에만 코드를 실행하며, 일일 몇 개의 요청에서 초당 수천 개의 요청까지 자동으로 규모를 조정합니다. 

  • Amazon S3 - Amazon Simple Storage Service(S3)는 확장성이 뛰어난 객체 스토리지 서비스입니다. Amazon S3는 웹 사이트, 모바일 애플리케이션, 백업, 데이터 레이크 등 다양한 스토리지 솔루션에 사용할 수 있습니다.

  • AWS Step Functions - AWS Step Functions는 AWS Lambda 함수와 여러 AWS 서비스를 비즈니스 크리티컬 애플리케이션으로 쉽게 시퀀스할 수 있는 서버리스 함수 오케스트레이터입니다.

  • Amazon SQS – Amazon Simple Queue Service(Amazon SQS)는 마이크로서비스, 분산 시스템 및 서버리스 애플리케이션을 분리 및 확장하는 데 도움이 되는 완전 관리형 메시지 대기열 서비스입니다.

  • Deequ — Deequ는 대규모 데이터 세트에 대한 데이터 품질 지표를 계산하고, 데이터 품질 제약 조건을 정의 및 확인하며, 데이터 배포의 변경 사항을 지속적으로 파악할 수 있도록 지원하는 도구입니다.

코드 리포지토리

의 소스 코드 및 리소스SDLF는 AWS Labs GitHub 리포지토리 에서 사용할 수 있습니다.

에픽

작업설명필요한 기술

CI/CD 파이프라인을 설정하여 데이터 레이크의 IaC를 관리합니다.

AWS 관리 콘솔에 로그인하고 SDLF 워크숍의 초기 설정 섹션의 단계를 따릅니다. 이렇게 하면 데이터 레이크에 대한 IaC를 프로비저닝하고 관리하는 CodeCommit 리포지토리, CodeBuild 환경 및 CodePipeline 파이프라인과 같은 초기 CI/CD 리소스가 생성됩니다.

DevOps 엔지니어
작업설명필요한 기술

로컬 시스템에서 CodeCommit 리포지토리를 복제합니다.

SDLF 워크숍의 파운데이션 배포 섹션의 단계를 따릅니다. 이렇게 하면 IaC를 호스팅하는 Git 리포지토리를 로컬 환경에 복제할 수 있습니다. 

자세한 내용은 CodeCommit 설명서의 CodeCommit 리포지토리에 연결을 참조하세요.

DevOps 엔지니어

CloudFormation 템플릿을 수정합니다.

로컬 워크스테이션과 코드 편집기를 사용하여 사용 사례 또는 요구 사항에 따라 CloudFormation 템플릿을 수정합니다. 로컬로 복제된 Git 리포지토리에 커밋합니다. 

자세한 내용은 AWS CloudFormation 설명서의 AWS CloudFormation 템플릿 작업을 참조하세요.

DevOps 엔지니어

변경 사항을 CodeCommit 리포지토리로 푸시합니다.

이제 인프라 코드가 버전 제어 하에 있으며 코드 베이스의 수정이 추적됩니다. CodeCommit 리포지토리에 변경 사항을 푸시하면 가 인프라에 CodePipeline 자동으로 적용하고 에 전달합니다 CodeBuild. 

중요 : AWSSAMCLI에서 를 사용하는 경우 sam packagesam deploy 명령을 CodeBuild실행합니다. 를 사용하는 경우 aws cloudformation packageaws cloudformation deploy 명령을 AWS CLI실행합니다.

DevOps 엔지니어

관련 리소스

CI/CD 파이프라인을 설정하여 IaC를 프로비저닝

IaC 버전 제어 

기타 리소스