Amazon Redshift 개념 알아보기 - Amazon Redshift

Amazon Redshift 개념 알아보기

Amazon Redshift Serverless를 사용하면 프로비저닝된 데이터 웨어하우스를 구성하지 않아도 데이터를 액세스하고 분석할 수 있습니다. 리소스가 자동으로 프로비저닝하고 데이터 웨어하우스 용량이 지능적으로 크기 조정되어 가장 까다롭고 예측할 수 없는 워크로드에도 빠른 성능을 제공합니다. 데이터 웨어하우스가 유휴 상태일 때는 요금이 발생하지 않으므로 사용량에 대한 요금만 지불합니다. Amazon Redshift 쿼리 에디터 v2 또는 자주 사용하는 비즈니스 인텔리전스(BI) 도구에서 바로 데이터를 로드하고 쿼리를 시작할 수 있습니다. 사용하기 쉽고 관리가 필요 없는 환경에서 최고의 가격 대비 성능과 친숙한 SQL 기능을 활용하세요.

Amazon Redshift를 처음 사용할 경우 먼저 다음 섹션을 읽을 것을 권장합니다.

Amazon Redshift 리소스를 수동으로 관리하려는 경우 데이터 쿼리 요구 사항에 맞게 프로비저닝된 클러스터를 생성할 수 있습니다. 자세한 내용은 Amazon Redshift 클러스터 섹션을 참조하세요.

조직에 자격이 있으며 Amazon Redshift Serverless를 사용할 수 없는 AWS 리전에 클러스터가 생성되고 있는 경우, Amazon Redshift 무료 평가판 프로그램에서 클러스터를 생성하는 것이 가능할 수 있습니다. 이 클러스터를 어떤 용도로 사용할 계획입니까?라는 질문에 대해 프로덕션 또는 무료 평가판을 선택하여 답합니다. 무료 평가판을 선택하면 dc2.large 노드 유형으로 구성을 생성합니다. 무료 평가판 선택에 대한 자세한 내용은 Amazon Redshift 무료 평가판을 참조하세요. Amazon Redshift Serverless를 사용할 수 있는 AWS 리전 목록은 Amazon Web Services 일반 참조에서 Redshift Serverless API에 대해 나열된 Amazon Redshift 엔드포인트를 참조하세요.

다음은 몇 가지 주요 Amazon Redshift Serverless 개념입니다.

  • 네임스페이스 – 데이터베이스 객체와 사용자의 모음입니다. 네임스페이스는 스키마, 테이블, 사용자, 데이터 공유 및 스냅샷과 같이 Amazon Redshift Serverless에서 사용하는 모든 리소스를 함께 그룹화합니다.

  • 작업 그룹 – 컴퓨팅 리소스의 모음입니다. 작업 그룹에는 Amazon Redshift Serverless가 컴퓨팅 작업을 실행하는 데 사용하는 컴퓨팅 리소스가 있습니다. 이러한 리소스의 예로는 Redshift 처리 단위(RPU), 보안 그룹, 사용 제한이 있습니다. 작업 그룹에는 Amazon Redshift Serverless 콘솔, AWS Command Line Interface 또는 Amazon Redshift Serverless API를 사용하여 구성할 수 있는 네트워크 및 보안 설정이 있습니다.

네임스페이스 및 작업 그룹 리소스 구성에 대한 자세한 내용은 네임스페이스 작업작업 그룹 사용을 참조하세요.

다음은 Amazon Redshift 프로비저닝 클러스터에 대한 몇 가지 주요 개념입니다.

  • 클러스터 – Amazon Redshift 데이터 웨어하우스의 핵심 인프라 구성 요소는 클러스터입니다.

    클러스터는 하나 이상의 컴퓨팅 노드로 구성됩니다. 컴퓨팅 노드는 컴파일된 코드를 실행합니다.

    클러스터에 두 개 이상의 컴퓨팅 노드가 제공된 경우 추가 리더 노드가 컴퓨팅 노드를 조정합니다. 리더 노드는 비즈니스 인텔리전스 도구 및 쿼리 편집기와 같은 애플리케이션과의 외부 통신을 처리합니다. 클라이언트 애플리케이션은 리더 노드와만 직접 상호작용합니다. 컴퓨팅 노드는 외부 애플리케이션에서 인식됩니다.

  • 데이터베이스 – 클러스터에는 하나 이상의 데이터베이스가 포함되어 있습니다.

    사용자 데이터는 컴퓨팅 노드에 있는 하나 이상의 데이터베이스에 저장됩니다. SQL 클라이언트는 리더 노드와 통신하고, 리더 노드는 이어서 컴퓨팅 노드와 쿼리 실행을 조정합니다. 컴퓨팅 노드 및 리더 노드에 대한 자세한 내용은 데이터 웨어하우스 시스템 아키텍처를 참조하세요. 데이터베이스 내에서 사용자 데이터는 하나 이상의 스키마로 구성됩니다.

    Amazon Redshift는 관계형 데이터베이스 관리 시스템(RDBMS)이므로 다른 RDBMS 애플리케이션과 호환됩니다. 데이터 삽입 및 삭제와 같은 온라인 트랜잭션 처리(OLTP) 기능을 포함하여 일반적인 RDBMS와 동일한 기능을 제공합니다. 또한 Amazon Redshift는 고성능 배치 분석 및 데이터 집합 보고에 최적화되어 있습니다.

다음은 Amazon Redshift의 일반적인 데이터 처리 흐름에 대한 설명과 흐름의 여러 부분에 대한 설명을 찾을 수 있습니다. Amazon Redshift 시스템 아키텍처에 대한 자세한 내용은 데이터 웨어하우스 시스템 아키텍처를 참조하세요.

다음 다이어그램은 Amazon Redshift의 일반적인 데이터 처리 흐름을 보여줍니다.

Amazon Redshift의 데이터 흐름을 보여 주는 다이어그램입니다. 데이터는 외부 소스에서 수집되어 처리되고 Redshift에 로드된 다음 사용됩니다.

Amazon Redshift 데이터웨어 하우스는 엔터프라이즈 급 관계형 데이터베이스 쿼리 및 관리 시스템입니다. Amazon Redshift는 비즈니스 인텔리전스(BI), 보고, 데이터 및 분석 도구를 비롯한 다양한 유형의 애플리케이션과의 클라이언트 연결을 지원합니다. 분석 쿼리를 실행할 때는 다단계 작업을 통해 대용량의 데이터를 가져와서 비교하고 평가하면서 최종 결과를 산출합니다.

데이터 수집 계층에서 다양한 유형의 데이터 원본이 정형, 반정형 또는 비정형 데이터를 데이터 스토리지 계층에 지속적으로 업로드합니다. 이 데이터 스토리지 영역은 다양한 소비 준비 상태로 데이터를 저장하는 준비 영역 역할을 합니다. 스토리지의 예로는 Amazon Simple Storage Service(Amazon S3) 버킷이 있습니다.

선택적 데이터 처리 계층에서 소스 데이터는 추출, 변환, 로드 파이프라인을 사용하여 사전 처리, 검증 및 변환을 거칩니다. 그런 다음 이러한 원시 데이터 집합은 추출, 변환, 로드 작업을 사용하여 구체화됩니다. 추출, 변환, 로드 엔진의 예는 AWS Glue입니다.

데이터 소비 계층에서 데이터는 분석 워크로드를 실행할 수 있는 Amazon Redshift 클러스터로 로드됩니다.

분석 워크로드의 몇 가지 예는 데이터 소스 외부 쿼리를 참조하세요.