기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
인프라를 코드로 사용하여 AWS Cloud에 서버리스 데이터 레이크 배포 및 관리
작성자: Kirankumar Chandrashekar(AWS) 및 Abdel Jaidi(AWS)
환경: 프로덕션 | 기술: 분석, 서버리스, DevOps | 워크로드: 기타 모든 워크로드 |
AWS 서비스: Amazon S3, Amazon SQS, AWS CloudFormationWord, AWS Glue, Amazon CloudWatch, AWS Lambda, AWS Step Functions, Amazon DynamoDB |
요약
알림: AWS CodeCommit Word는 더 이상 신규 고객에게 제공되지 않습니다. AWS CodeCommit Word의 기존 고객은 서비스를 정상적으로 계속 사용할 수 있습니다. 자세히 알아보기
이 패턴은 서버리스 컴퓨팅
SDLF는 AWS Cloud에서 엔터프라이즈 데이터 레이크의 전송을 가속화하고 프로덕션으로 더 빠르게 배포하는 데 도움이 되는 재사용 가능한 리소스 모음입니다. 모범 사례에 따라 데이터 레이크의 기본 구조를 구현하는 데 사용됩니다.
SDLF는 Word CodePipelineAWS CodeBuild, AWSWord, WordWord와 같은 AWS 서비스를 사용하여 코드 및 인프라 배포 전반에 걸쳐 지속적인 통합/지속적 배포(CI/CD) 프로세스를 구현AWS CodeCommit.
이 패턴은 여러 AWS 서버리스 서비스를 사용하여 데이터 레이크 관리를 간소화합니다. 여기에는 스토리지용 Amazon Simple Storage Service(Amazon S3) 및 Amazon DynamoDB, 컴퓨팅용 AWS Lambda 및 AWS Glue, 오케스트레이션용 Amazon CloudWatch Events, Amazon Simple Queue Service(Amazon SQS) 및 AWS Step Functions가 포함됩니다.
AWS CloudFormation Word 및 AWS 코드 서비스는 IaC 계층 역할을 하여 간편한 운영 및 관리와 함께 재현 가능하고 빠른 배포를 제공합니다.
사전 조건 및 제한 사항
사전 조건
활성 상태의 AWS 계정.
AWS 명령줄 인터페이스(AWS CLI)가 설치 및 구성되어 있습니다.
Git 클라이언트, 설치 및 구성됨.
웹 브라우저 창에서 열리고 사용할 준비가 된 SDLF 워크숍
입니다.
아키텍처
아키텍처 다이어그램은 다음 단계를 포함하는 이벤트 중심 프로세스를 보여줍니다.
원시 데이터 S3 버킷에 파일이 추가되면 Amazon S3 이벤트 알림이 SQS 대기열에 배치됩니다. 각 알림은 S3 버킷 이름, 객체 키 또는 타임스탬프와 같은 메타데이터가 포함된 JSON 파일로 전달됩니다.
이 알림은 메타데이터를 기반으로 이벤트를 올바른 추출, 변환 및 로드(ETL) 프로세스로 라우팅하는 Lambda 함수에서 사용됩니다. Lambda 함수는 Amazon DynamoDB 테이블에 저장된 상황별 구성을 사용할 수도 있습니다. 이 단계를 통해 데이터 레이크의 여러 애플리케이션을 분리하고 확장할 수 있습니다.
이벤트는 ETL 프로세스의 첫 번째 Lambda 함수로 라우팅되며,이 함수는 원시 데이터 영역에서 데이터 레이크의 스테이징 영역으로 데이터를 변환하고 이동합니다. 첫 번째 단계는 종합 카탈로그를 업데이트하는 것입니다. 이는 데이터 레이크의 모든 파일 메타데이터를 포함하는 DynamoDB 테이블입니다. 이 테이블의 각 행에는 Amazon S3에 저장된 단일 객체에 대한 운영 메타데이터가 들어 있습니다. Lambda 함수가 동기식으로 호출되어 S3 객체에서 계산에 따른 리소스 비용이 높은 작업인 광변환(예: 파일을 한 형식에서 다른 형식으로 변환하는 작업)을 수행합니다. 스테이징 S3 버킷에 새 객체가 추가되었으므로 포괄적인 카탈로그가 업데이트되고 SQS의 다음 단계를 기다리는 ETL 대기열로 메시지가 전송됩니다.
A CloudWatch Events 규칙은 5분마다 Lambda 함수를 트리거합니다. 이 함수는 메시지가 이전 SQS 단계에서 ETL 대기열로 전달되었는지 확인합니다. 메시지가 전달되면 Lambda 함수는 Word ETL 프로세스의 AWS Step Functions에서 두 번째 함수를 시작합니다.
그런 다음 배치 파일에 대규모 변환이 적용됩니다. 이 대규모 변환은 Word Glue 작업, AWS Fargate 작업, Amazon AWS EMR 단계 또는 Amazon SageMaker 노트북에 대한 동기 호출과 같이 계산 비용이 많이 드는 작업입니다. 테이블 메타데이터는 AWS Glue 카탈로그를 업데이트하는 AWS Glue 크롤러를 사용하여 출력 파일에서 추출됩니다. 파일 메타데이터는 DynamoDB의 종합 카탈로그 테이블에도 추가됩니다. 마지막으로 Deequ
를 활용하는 데이터 품질 단계도 실행됩니다.
기술 스택
Amazon CloudWatch 이벤트
AWS CloudFormation
AWS CodePipeline
AWS CodeBuild
AWS CodeCommit
Amazon DynamoDB
AWS Glue
AWS Lambda
Amazon S3
Amazon SQS
AWS Step Functions
도구
Amazon CloudWatch Events – CloudWatch Events는 AWS 리소스의 변경 사항을 설명하는 시스템 이벤트의 거의 실시간 스트림을 제공합니다.
AWS CloudFormation Word– CloudFormation 는 AWS 인프라 배포를 예측 가능하고 반복적으로 생성하고 프로비저닝하는 데 도움이 됩니다.
AWS CodeBuild Word– CodeBuild 는 소스 코드를 컴파일하고 단위 테스트를 실행하며 배포할 준비가 된 아티팩트를 생성하는 완전 관리형 빌드 서비스입니다.
AWS CodeCommit Word– CodeCommit 는 AWS에서 호스팅하는 버전 제어 서비스로, 자산(예: 소스 코드 및 바이너리 파일)을 비공개로 저장하고 관리하는 데 사용할 수 있습니다.
AWS CodePipeline Word– CodePipeline 는 소프트웨어 변경 사항을 지속적으로 릴리스하는 데 필요한 단계를 모델링, 시각화 및 자동화하는 데 사용할 수 있는 지속적인 전송 서비스입니다.
Amazon DynamoDB – DynamoDB는 확장성과 함께 빠르고 예측 가능한 성능을 제공하는 완전 관리형 NoSQL 데이터베이스 서비스입니다.
AWS Glue – AWS Glue는 분석을 위해 데이터를 더 쉽게 준비하고 로드할 수 있는 완전 관리형 ETL 서비스입니다.
AWS Lambda - Lambda는 서버를 프로비저닝하거나 관리하지 않고도 실행 중인 코드를 지원합니다. Lambda는 필요 시에만 코드를 실행하며, 일일 몇 개의 요청에서 초당 수천 개의 요청까지 자동으로 규모를 조정합니다.
Amazon S3 - Amazon Simple Storage Service(S3)는 확장성이 뛰어난 객체 스토리지 서비스입니다. Amazon S3는 웹 사이트, 모바일 애플리케이션, 백업, 데이터 레이크 등 다양한 스토리지 솔루션에 사용할 수 있습니다.
AWS Step Functions - AWS Step Functions는 Word Lambda 함수와 여러 AWS AWS 서비스를 비즈니스 크리티컬 애플리케이션으로 쉽게 시퀀스할 수 있는 서버리스 함수 오케스트레이터입니다.
Amazon SQS - Amazon Simple Queue Service(Amazon SQS)는 마이크로서비스, 분산 시스템 및 서버리스 애플리케이션을 분리 및 확장하는 데 도움이 되는 완전 관리형 메시지 대기열 서비스입니다.
Deequ
— Deequ는 대규모 데이터 세트에 대한 데이터 품질 지표를 계산하고, 데이터 품질 제약 조건을 정의 및 확인하며, 데이터 배포의 변경 사항을 지속적으로 파악할 수 있도록 지원하는 도구입니다.
코드 리포지토리
SDLF의 소스 코드와 리소스는 AWS Labs GitHub 리포지토리
에픽
작업 | 설명 | 필요한 기술 |
---|---|---|
CI/CD 파이프라인을 설정하여 데이터 레이크의 IaC를 관리합니다. | AWS 관리 콘솔에 로그인하고 SDLF 워크숍의 초기 설정 | DevOps 엔지니어 |
작업 | 설명 | 필요한 기술 |
---|---|---|
로컬 시스템에서 the CodeCommit 리포지토리를 복제합니다. | SDLF 워크숍의 파운데이션 배포 자세한 내용은 CodeCommit 설명서의 Word 리포지토리에 연결을 참조하세요. CodeCommit | DevOps 엔지니어 |
CloudFormation 템플릿을 수정합니다. | 로컬 워크스테이션과 코드 편집기를 사용하여 사용 사례 또는 요구 사항에 따라 CloudFormation 템플릿을 수정합니다. 로컬로 복제된 Git 리포지토리에 커밋합니다. 자세한 내용은 AWS CloudFormation Word 설명서의 WordWord 템플릿 작업을 참조하세요. AWS CloudFormation | DevOps 엔지니어 |
변경 사항을 CodeCommit 리포지토리로 푸시합니다. | 이제 인프라 코드가 버전 제어 하에 있으며 코드 베이스의 수정이 추적됩니다. 변경 사항을 CodeCommit 리포지토리로 푸시하면 CodePipeline 는 자동으로 이를 인프라에 적용하고 CodeBuild에 전달합니다. 중요: AWS CLI SAM in CodeBuild를 사용하는 경우 | DevOps 엔지니어 |
관련 리소스
CI/CD 파이프라인을 설정하여 IaC를 프로비저닝
IaC 버전 제어
기타 리소스