Amazon DataZone 용어 및 개념 - Amazon DataZone

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon DataZone 용어 및 개념

Amazon DataZone 은 , 온프레미스 및 타사 소스 AWS에 저장된 데이터를 더 빠르고 쉽게 카탈로그화, 검색, 공유 및 관리할 수 있는 데이터 관리 서비스입니다. Amazon 를 사용하면 조직의 데이터 자산을 감독하는 DataZone관리자 및 데이터 관리자가 세분화된 제어를 사용하여 데이터에 대한 액세스를 관리하고 제어할 수 있습니다. 이러한 제어는 적절한 수준의 권한 및 컨텍스트를 사용하여 액세스를 보장하도록 설계되었습니다. Amazon DataZone 을 사용하면 엔지니어, 데이터 과학자, 제품 관리자, 분석가 및 비즈니스 사용자가 조직 전체에서 데이터에 더 쉽게 액세스하여 데이터 기반 인사이트를 검색, 사용 및 협업할 수 있습니다.

Amazon 를 시작할 때 주요 개념 DataZone, 용어 및 구성 요소를 이해하는 것이 중요합니다.

Amazon DataZone 구성 요소

Amazon에는 다음과 같은 네 가지 주요 구성 요소가 DataZone 포함되어 있습니다.

  • 비즈니스 데이터 카탈로그 - 이 구성 요소를 사용하여 비즈니스 컨텍스트로 조직 전반의 데이터를 카탈로그화할 수 있으므로 조직의 모든 사람이 데이터를 빠르게 찾고 이해할 수 있습니다.

  • 워크플로 게시 및 구독 - 이러한 자동화된 워크플로를 사용하여 생산자와 소비자 간의 데이터를 셀프 서비스 방식으로 보호하고 조직의 모든 사람이 올바른 목적에 맞는 데이터에 액세스할 수 있도록 할 수 있습니다.

  • 프로젝트 및 환경

    • Amazon DataZone 프로젝트에는 AWS 분석 액세스를 단순화하는 데 사용되는 사람, 자산(데이터) 및 도구의 비즈니스 사용 사례 기반 그룹화가 있습니다. 프로젝트는 프로젝트 멤버가 협업하고, 데이터를 교환하고, 자산을 공유할 수 있는 영역을 제공합니다. 기본적으로 프로젝트는 프로젝트에 명시적으로 추가된 사용자만 해당 프로젝트 내의 데이터 및 분석 도구에 액세스할 수 있도록 구성됩니다. 프로젝트는 데이터 소비자가 액세스할 수 있는 프로젝트 정책에 따라 생성된 자산의 소유권을 관리합니다.

    • Amazon DataZone 프로젝트 내에서 환경은 지정된 보안 IAM 주체 집합(예: 기여자 권한이 있는 사용자)이 작동할 수 있는 0개 이상의 구성된 리소스(예: Amazon S3 버킷, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹)의 모음입니다.

  • 데이터 포털( AWS 관리 콘솔 외부) - 다양한 사용자가 셀프 서비스 방식으로 데이터를 카탈로그화, 검색, 관리, 공유 및 분석할 수 있는 브라우저 기반 웹 애플리케이션입니다. 데이터 포털은 를 통해 자격 IAM 증명 또는 자격 증명 공급자의 기존 자격 증명을 사용하여 사용자를 인증합니다 AWS IAM Identity Center.

Amazon DataZone 도메인이란 무엇입니까?

Amazon DataZone 도메인을 사용하여 자산, 사용자 및 해당 프로젝트를 구성할 수 있습니다. 추가 AWS 계정을 Amazon DataZone 도메인과 연결하면 데이터 소스를 통합할 수 있습니다. 그런 다음 메타데이터 양식과 용어집을 사용하여 이러한 데이터 소스의 자산을 도메인의 카탈로그에 게시하여 메타데이터 완전성과 품질을 개선할 수 있습니다. 또한 이러한 자산을 검색하고 검색하여 도메인에 게시된 데이터를 확인할 수 있습니다. 또한 프로젝트에 참여하여 다른 사용자와 협업하고, 자산을 구독하고, 프로젝트 환경을 사용하여 Amazon Athena 및 Amazon Redshift를 포함한 분석 도구에 액세스할 수 있습니다. Amazon DataZone 도메인을 사용하면 기업에 대한 단일 Amazon 도메인을 생성하든 다른 사업부에 대한 여러 Amazon DataZone 도메인을 생성하든 관계없이 조직 구조의 데이터 및 분석 요구 사항을 유연하게 반영 DataZone 할 수 있습니다.

Amazon DataZone 프로젝트 및 환경이란 무엇입니까?

Amazon을 DataZone 사용하면 팀과 분석 사용자가 팀, 도구 및 데이터의 사용 사례 기반 그룹화를 생성하여 프로젝트에서 협업할 수 있습니다.

  • Amazon 에서 DataZone프로젝트는 사용자 그룹이 Amazon DataZone 카탈로그의 데이터 게시, 검색, 구독 및 소비와 관련된 다양한 비즈니스 사용 사례에 대해 협업할 수 있도록 합니다. 프로젝트 멤버는 Amazon DataZone 카탈로그의 자산을 사용하고 하나 이상의 분석 워크플로를 사용하여 새 자산을 생성합니다. 프로젝트는 데이터 포털 내에서 다음 활동을 지원합니다.

    • 프로젝트 소유자는 소유자, 기여자, 소비자, 관리인 및 최종 사용자 권한이 있는 멤버를 추가할 수 있습니다.

    • 프로젝트 멤버는 SSO 사용자, SSO 그룹 및 IAM 사용자일 수 있습니다.

    • 프로젝트 멤버는 데이터 카탈로그의 자산에 대한 구독을 요청할 수 있습니다.

      프로젝트에 구독 승인이 제공됩니다.

    프로젝트 생성/삭제

    프로젝트 프로필 생성/삭제 환경 프로필 생성/삭제 환경 생성/삭제 프로젝트에 멤버 추가/삭제 검색 및 검색 Create/delete metadata forms/glossaries 데이터 소스 실행 생성 및 데이터 수집 데이터 게시 구독 요청 구독 요청 승인/거부 Amazon Athena 및 Amazon Redshift에서 구독 데이터 읽기
    소유자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리
    기고자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 아니요
    소비자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

    아니요

    아니요

    아니요

    아니요

    아니요

    뷰어 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

    아니요

    아니요

    아니요

    아니요

    아니요

    아니요

    스튜어드 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

    아니요

    아니요

  • Amazon DataZone 프로젝트에서 환경은 0개 이상의 구성된 리소스(예: Amazon S3, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹)의 컬렉션으로, 해당 리소스에서 작동할 수 있는 지정된 IAM 보안 주체 집합이 있습니다. 환경은 환경을 생성하기 위해 재사용 가능한 템플릿을 제공하는 미리 구성된 리소스 및 청사진 세트인 환경 프로파일을 사용하여 생성됩니다. 환경 프로파일은 환경이 배포되는 AWS 계정 또는 리전과 같은 설정을 정의합니다.

Amazon DataZone 청사진이란 무엇입니까?

환경이 생성되는 청사진은 환경이 속한 프로젝트의 AWS 도구 및 서비스(예: AWS Glue Amazon Redshift) 멤버가 Amazon DataZone 카탈로그의 자산으로 작업할 때 사용할 수 있는 도구를 정의합니다.

Amazon 의 현재 릴리스에서는 다음과 같은 기본 청사진 DataZone이 지원됩니다.

청사진 이름 설명 생성할 리소스
Data Lake 청사진

Amazon DataZone 프로젝트 멤버가 환경 내에서 Data Lake 생산자 및 소비자 서비스를 시작할 수 있습니다.

소비자 인 Amazon DataZone 프로젝트 멤버는 이를 통해 Amazon Athena 및 기타 Lake Formation 지원 쿼리 엔진에서 Lake Formation 관리형 자산의 '읽기 전용' 사본에 직접 액세스할 수 있습니다.

생산자 인 Amazon DataZone 프로젝트 멤버는 Amazon Athena를 사용하여 새 LakeFormation관리형 테이블을 생성하고 Amazon DataZone 카탈로그에 게시할 수 있습니다.

사용자에게 Amazon Athena 를 사용하여 Lake Formation 테이블을 생성하고 쿼리할 수 있는 기능을 제공합니다. Amazon Athena 작업 그룹, '읽기 전용' Lake Formation 권한, '읽기 전용' IAM 권한 및 프로젝트에서 관리하는 Amazon S3에 대한 액세스 권한이 있는 AWS Glue 데이터베이스. '생성' 및 '승인' Lake Formation 권한, '읽기' 및 '쓰기' IAM 권한( AWS Glue ETL추출, 변환 및 로드)과 태그 지정이 있는 AWS Glue 데이터베이스.
데이터 웨어하우스 청사진

소비자로서 이 청사진을 통해 Amazon DataZone 프로젝트 멤버는 자체 Amazon Redshift 클러스터에 연결하여 원격 데이터 스토어를 쿼리하고 새 데이터 세트를 생성하고 저장할 수 있습니다.

생산자 인 이 청사진을 통해 Amazon DataZone 프로젝트 멤버는 자체 Amazon Redshift 클러스터에 연결하여 원격 데이터 스토어를 쿼리하고, 새 데이터 세트를 생성하고, Amazon DataZone 카탈로그에 게시할 수 있습니다.

Amazon Redshift 쿼리 편집기에 대한 액세스, Amazon DataZone 카탈로그에서 구독한 데이터 소스에 대한 '읽기' 액세스, 구성된 Amazon Redshift 클러스터에서 로컬 자산을 생성하는 기능. Amazon Redshift 쿼리 편집기에 대한 액세스, Amazon DataZone 카탈로그에서 구독한 데이터 소스에 대한 '읽기' 액세스, 구성된 Amazon Redshift 클러스터에서 자산을 생성하고 게시하는 기능.
Amazon Sagemaker 청사진

이 청사진은 데이터 생산자와 소비자가 Amazon으로 원활하게 전환 SageMaker 하여 기계 학습(ML) 프로젝트에서 협업하는 동시에 데이터 및 ML 자산에 대한 액세스 거버넌스를 적용하는 데 도움이 됩니다. Amazon DataZone 과 Amazon 간의 새로운 내장 통합을 통해 SageMaker데이터 소비자와 생산자는 인프라 설정 전반에 걸쳐 ML 거버넌스를 간소화하고, 비즈니스 이니셔티브에서 협업하고, 데이터 및 ML 자산을 쉽게 관리할 수 있습니다.

Amazon 에서 데이터 및 ML 자산을 검색, 구독 및 게시할 수 있는 Amazon SageMaker 도메인을 생성할 수 있습니다 DataZone. 또한 구성된 대로 AWS Glue 데이터베이스 및 레이크 형성을 구독하고 게시할 수 있습니다.

Amazon DataZone 인벤토리 및 게시 워크플로란 무엇입니까?

프로젝트 인벤토리 자산 생성

Amazon DataZone 을 사용하여 데이터를 카탈로그화하려면 먼저 Amazon 에서 데이터(자산)를 프로젝트의 인벤토리로 가져와야 합니다 DataZone. 프로젝트의 인벤토리를 생성하면 해당 프로젝트의 구성원만 자산을 검색할 수 있습니다. 프로젝트 인벤토리 자산은 명시적으로 게시되지 않는 한 검색/찾아보기에서 모든 도메인 사용자가 사용할 수 있는 것은 아닙니다. Amazon 의 현재 릴리스에서는 다음과 같은 방법으로 프로젝트 인벤토리에 자산을 추가할 DataZone수 있습니다.

  • 데이터 포털을 통해 또는 Amazon 를 사용하여 데이터 소스를 생성하고 실행합니다 DataZone APIs. Amazon 의 현재 릴리스에서는 AWS Glue 및 Amazon Redshift에 대한 데이터 소스를 생성하고 실행할 DataZone수 있습니다. AWS Glue 또는 Amazon Redshift 데이터 소스를 생성하고 실행하면 선택한 프로젝트 인벤토리에 자산을 생성하고 소스 데이터베이스 테이블 또는 데이터 웨어하우스에서 해당 기술 메타데이터를 인벤토리로 Amazon 로 가져옵니다 DataZone.

  • 를 사용하면 사용 가능한 시스템 자산 유형(AWS Glue, Amazon Redshift, Amazon S3 객체) 또는 사용자 지정 자산 유형에서 자산을 생성할 APIs수 있습니다.

    • Amazon 를 사용하여 프로젝트 인벤토리에 사용자 지정 자산 유형을 생성합니다 DataZone APIs. 사용자 지정 자산 유형에는 ML 모델, 대시보드, 온프레미스 테이블 등이 포함될 수 있습니다.

    • Amazon 를 사용하여 이러한 사용자 지정 자산 유형에서 자산을 생성합니다 DataZone APIs.

  • Amazon DataZone 데이터 포털을 사용하여 S3 객체에 대한 자산을 수동으로 생성합니다.

프로젝트 인벤토리 자산 큐레이팅 - 프로젝트 인벤토리를 생성한 후 데이터 소유자는 비즈니스 이름(자산 및 스키마), 설명(자산 및 스키마), 읽기 권한, 용어집 용어(자산 및 스키마) 및 메타데이터 양식을 추가하거나 업데이트하여 필요한 비즈니스 메타데이터로 인벤토리 자산을 큐레이팅할 수 있습니다. 데이터 포털 또는 Amazon 를 사용하여 이 작업을 수행할 수 있습니다 DataZone APIs. 자산을 편집할 때마다 새 인벤토리 버전이 생성됩니다.

Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산 게시

Amazon DataZone 을 사용하여 데이터를 카탈로그화하는 다음 단계는 도메인 사용자가 프로젝트의 인벤토리 자산을 검색할 수 있도록 하는 것입니다. 인벤토리 자산을 Amazon DataZone 카탈로그에 게시하여 이 작업을 수행할 수 있습니다. 최신 버전의 인벤토리 자산만 카탈로그에 게시할 수 있으며 최신 게시 버전만 검색 카탈로그에서 활성화됩니다. 인벤토리 자산이 Amazon DataZone 카탈로그에 게시된 후 업데이트되는 경우 최신 버전이 검색 카탈로그에 포함되도록 다시 명시적으로 게시해야 합니다. Amazon 의 현재 릴리스에서는 다음과 같은 방법으로 Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산을 게시할 DataZone수 있습니다.

  • 데이터 포털을 통해 또는 Amazon 를 사용하여 Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산을 수동으로 게시합니다 DataZone APIs.

  • 데이터 소스 생성 또는 편집의 일환으로 선택 사항인 AWS Glue 자산을 카탈로그에 게시하거나 Amazon Redshift 자산을 카탈로그 설정에 게시하여 예약되거나 자동화된 데이터 소스 실행 중에 사용할 수 있도록 합니다. 이 설정이 활성화되면 데이터 소스 실행이 프로젝트의 인벤토리에 자산을 추가한 다음 인벤토리 자산을 Amazon DataZone 카탈로그에 게시합니다. 직접 게시하는 경우 자산에 비즈니스 메타데이터가 없을 수 있으며 모든 도메인 사용자가 직접 검색할 수 있습니다. 데이터 포털을 통해 또는 Amazon 를 사용하여 데이터 소스에서 이 설정을 사용할 수 있습니다 DataZone APIs.

Amazon DataZone 구독 및 이행 워크플로란 무엇입니까?

자산이 Amazon DataZone 카탈로그에 게시되면 도메인 사용자는 이러한 자산을 검색하고, 이러한 자산에 대한 액세스를 요청 및 획득하고, Amazon DataZone 을 계속 사용하여 이러한 자산을 관리, 공유 및 분석할 수 있습니다.

사용자는 프로젝트를 대신하여 해당 자산을 구독하여 자산에 대한 액세스를 요청합니다. 구독 요청이 생성되면 자산 소유자는 알림을 받고 구독 요청을 검토하고 승인할지 거부할지 결정할 수 있습니다. 데이터 소유자가 구독 요청을 승인하면 구독 프로젝트에 해당 자산에 대한 액세스 권한이 부여됩니다.

구독 요청이 승인되면 Amazon은 AWS Lake Formation 또는 Amazon Redshift에서 필요한 권한을 생성하여 프로젝트 내의 모든 해당 환경에 자산을 자동으로 추가하는 구독 이행 워크플로를 DataZone 시작합니다. 이를 통해 구독 프로젝트 멤버는 환경에서 쿼리 도구(Amazon Athena 또는 Amazon Redshift 쿼리 편집기) 중 하나를 사용하여 자산을 쿼리할 수 있습니다.

Amazon은 관리형 자산에 대해서만 이 자동 이행 로직을 트리거할 DataZone 수 있습니다( AWS Glue 테이블 및 Amazon Redshift 테이블 및 뷰 포함). 다른 모든 자산 유형(관리되지 않는 자산)의 경우 Amazon은 이행을 자동으로 트리거할 DataZone 수 없지만 대신 Amazon Eventbridge에 이벤트 페이로드에 필요한 모든 세부 정보를 포함하는 이벤트를 게시하여 Amazon 외부에서 필요한 권한을 생성할 수 있습니다 DataZone. DataZone 또한 Amazon은 Amazon 외부updateSubscriptionStatusAPI에서 구독이 이행되면 구독 상태를 업데이트할 DataZone 수 DataZone 있는 를 제공하므로 Amazon은 프로젝트 멤버에게 자산 소비를 시작할 수 있음을 알릴 수 있습니다.

Amazon의 사용자 페르소나 DataZone

다음은 기본 Amazon DataZone 사용자 페르소나입니다.

  • Amazon을 조직의 분석 플랫폼 DataZone 으로 설정하는 도메인 관리자입니다.

    Amazon 의 맥락에서 DataZone도메인 관리자는 AWS 계정에 Amazon DataZone 을 설치하고, Amazon DataZone 도메인을 생성하고, Amazon 도메인과의 AWS 계정 연결 및 자격 증명 공급자 연결을 구성합니다 DataZone . 도메인 관리자는 AWS Organization and Service Catalog와 같은 다른 AWS 서비스 콘솔을 사용하여 Amazon 를 구성합니다 DataZone.

  • 분석 및 기계 학습 작업을 위한 Amazon의 주요 사용자 DataZone (자산 게시자 및 구독자)인 데이터 사용자입니다.

    데이터 사용자에는 데이터 분석 작업자, 데이터 과학자 및 데이터 자산을 생산하고 소비하는 시스템 사용자가 포함됩니다. Amazon 의 맥락에서 DataZone데이터 사용자는 프로젝트 및 환경을 생성 및 조인하고, 사전 구성된 분석 또는 기계 학습 도구를 사용하여 데이터 자산을 구독 및 소비하고, 출력 데이터 자산을 Amazon DataZone 도메인 카탈로그에 다시 게시하여 다른 사용자와 공유합니다.

  • 사용자 지정 인프라 템플릿을 구축하고 Amazon DataZone 을 내부 카탈로그 또는 프로덕션 시스템과 통합하는 시스템 개발자입니다.

    Amazon 의 맥락에서 DataZone시스템 개발자는 환경 청사진(인프라 템플릿) 또는 Infrastructure-As-Code 환경 공급자인 CI/CD 파이프라인, 환경 전반의 데이터 자산을 홍보하는 데이터 파이프라인, 내부 카탈로그와 통합하기 위한 카탈로그 동기화 및 구독 권한 부여 이행 어댑터 또는 필요한 경우 Amazon DataZoneAPIs과 내부 사용자 인터페이스 또는 프로덕션 시스템 간의 통합을 구축합니다.

  • 조직 보안, 개인정보 보호 및 기타 규정 준수 정책의 정의와 위험을 소유하고 DataZone 조직에서 Amazon을 사용하는 것이 이러한 정의를 준수하는지 확인하는 데이터 거버넌스 책임자.

Amazon DataZone 용어

도메인

Amazon DataZone 도메인은 자산, 사용자 및 해당 프로젝트를 함께 연결하기 위한 조직 엔터티입니다. Amazon DataZone 도메인을 사용하면 기업을 위한 단일 Amazon DataZone 도메인을 생성하든 여러 비즈니스 단위 또는 팀을 위한 여러 데이터 영역, 도메인을 생성하든 관계없이 조직 구조의 데이터 및 분석 요구 사항을 유연하게 반영할 수 있습니다.

도메인 단위

도메인 단위를 사용하면 특정 사업부 및 팀에서 자산 및 기타 도메인 엔터티를 쉽게 구성할 수 있습니다. 조직의 사업부 내에서 그리고 사업부 간에 안전하고 효율적인 데이터 공유를 설정하려면 Amazon 내에서 도메인 단위를 생성하고 각 사업부 내에서 선택한 사용자가 카탈로그에 로그인하여 자산을 공유할 수 DataZone 있도록 할 수 있습니다. 또한 도메인 단위를 사용하여 AWS 계정 소유자와 같은 리소스 소유자가 리소스에 대한 Amazon DataZone 권한 부여 권한을 설정할 수 있습니다. 도메인 유닛은 계정 소유자로부터 도메인 유닛 소유자에게 위임된 권한을 제공하며 계정 소유자를 대신하여 환경 프로파일(청사진 구성을 사용하여 생성됨)에 대한 권한 부여 권한을 설정할 수 있습니다. 자세한 내용은 Amazon의 도메인 단위 및 권한 부여 정책 DataZone 단원을 참조하십시오.

권한 부여 정책

Amazon DataZone 권한 부여 정책은 프로젝트, 청사진, 환경, 용어집 및 메타데이터 양식과 같은 엔터티에 DataZone 적용되는 Amazon 내의 제어 집합입니다. 이러한 정책은 Amazon DataZone 포털에서 이러한 엔터티를 생성하고 수명 주기를 관리할 수 있는 사용자를 정의합니다.

Amazon DataZone 도메인 유닛 내에서 사용자 및 그룹에 다음 권한 부여 정책을 할당하여 특정 권한을 부여할 수 있습니다.

  • 도메인 단위 생성 정책

  • 프로젝트 생성 정책

  • 프로젝트 멤버십 정책

  • 도메인 유닛 소유권 가정 정책

  • 프로젝트 소유권 가정 정책

자세한 내용은 Amazon DataZone 도메인 유닛 내의 사용자 및 그룹에 권한 부여 정책 할당 단원을 참조하십시오.

Amazon DataZone 도메인 유닛 내에서 프로젝트에 다음 권한 부여 정책을 할당하여 특정 권한을 부여할 수 있습니다.

  • 용어 생성 정책

  • 메타데이터 양식 생성 정책

  • 사용자 지정 자산 유형 생성 정책

자세한 내용은 Amazon DataZone 도메인 유닛 내의 프로젝트에 권한 부여 정책 할당 단원을 참조하십시오.

특정 청사진 구성 내에서 프로젝트 및 도메인 유닛 소유자에게 다음과 같은 권한 부여 정책을 할당할 수 있습니다.

  • 이 청사진을 사용하여 환경 프로파일 생성 - 이 정책은 Amazon DataZone 프로젝트에 할당할 수 있으며 이 청사진을 사용하여 환경 프로파일을 생성할 수 있는 권한을 부여합니다.

  • 이 청사진을 사용하여 환경 프로파일을 생성할 수 있는 권한을 부여합니다. 이 정책은 도메인 유닛 소유자에게 할당할 수 있으며 이 청사진을 사용하여 환경 프로파일을 생성할 수 있는 권한을 프로젝트에 부여합니다.

자세한 내용은 Amazon DataZone 블루프린트 구성 내에서 권한 부여 정책 할당 단원을 참조하십시오.

연결된 계정

AWS 계정을 Amazon DataZone 도메인과 연결하면 이러한 AWS 계정의 데이터를 Amazon DataZone 카탈로그에 게시하고 여러 AWS 계정에서 데이터를 사용할 Amazon DataZone 프로젝트를 생성할 수 있습니다. 계정 연결 요청은 Amazon DataZone 도메인을 소유한 AWS 계정에서만 시작할 수 있습니다. 계정 연결 요청은 초대된 AWS 계정의 관리 사용자만 수락할 수 있습니다. AWS 계정이 Amazon DataZone 도메인과 연결되면 이 계정의 AWS Glue 카탈로그 및 Amazon Redshift와 같은 데이터 소스를 이 도메인에 등록할 수 있습니다. 또한 계정을 연결하면 AWS 계정이 Amazon DataZone 프로젝트 및 환경을 생성할 수 있습니다.

는 하나 이상의 Amazon DataZone 도메인과 연결할 AWS 계정 수 있습니다.

데이터 소스

Amazon 에서는 데이터 소스를 사용하여 소스 데이터베이스 또는 데이터 웨어하우스에서 Amazon 로 자산(데이터)의 기술적 메타데이터를 가져올 DataZone수 있습니다 DataZone. Amazon 의 현재 릴리스에서는 AWS Glue 및 Amazon Redshift에 대한 데이터 소스를 생성하고 실행할 DataZone수 있습니다. 데이터 소스를 생성하면 Amazon DataZone 과 소스(AWS Glue Data Catalog 또는 Amazon Redshift Warehouse) 간에 연결을 설정하여 테이블 이름, 열 이름 및 데이터 유형을 비롯한 기술적 메타데이터를 읽을 수 있습니다. 데이터 소스를 생성하면 Amazon 에서 새 를 생성하거나 기존 자산을 업데이트하는 초기 데이터 소스 실행도 시작됩니다 DataZone. 데이터 소스를 생성하는 동안 또는 데이터 소스가 성공적으로 생성된 후 데이터 소스 실행 일정을 지정하는 옵션도 있습니다.

데이터 소스 실행

Amazon 에서 DataZone데이터 소스 실행은 Amazon이 프로젝트 인벤토리에 자산을 생성하고 선택적으로 Amazon DataZone 카탈로그에 프로젝트 인벤토리 자산을 게시하기 위해 DataZone 수행하는 작업입니다. 데이터 소스 실행은 자동화(데이터 소스가 처음 생성될 때 시작됨)하거나 예약하거나 수동으로 수행할 수 있습니다. 데이터 선택 기준을 사용하면 프로젝트 인벤토리 또는 Amazon DataZone 카탈로그에 수집할 기존 및 향후 데이터 세트와 해당 인벤토리 또는 카탈로그 자산에 대한 메타데이터 업데이트 빈도를 미세 조정할 수 있습니다.

구독 대상

Amazon 에서 DataZone구독 대상을 사용하면 프로젝트에서 구독한 데이터에 액세스할 수 있습니다. 구독 대상은 Amazon DataZone 프로젝트 멤버가 구독한 데이터에 대한 쿼리를 시작할 DataZone 수 있도록 Amazon이 소스 데이터와의 연결을 설정하고 필요한 권한을 생성하는 데 사용할 수 있는 위치(예: 데이터베이스 또는 스키마)와 필요한 권한(예: IAM 역할)을 지정합니다.

구독 요청

Amazon 에서 DataZone구독 요청은 특정 자산에 대한 액세스 권한을 부여받기 위해 Amazon DataZone 프로젝트가 따라야 하는 프로세스입니다. 구독 요청은 승인, 거부, 취소 또는 부여할 수 있습니다.

자산

Amazon 에서 DataZone자산은 단일 물리적 데이터 객체(예: 테이블, 대시보드, 파일) 또는 가상 데이터 객체(예: 뷰)를 제공하는 엔터티입니다.

애셋 유형

자산 유형은 Amazon DataZone 카탈로그에서 자산을 나타내는 방법을 정의합니다. 자산 유형은 특정 유형의 자산에 대한 스키마를 정의합니다. 자산이 생성되면 자산 유형(기본적으로 최신 버전)에 의해 정의된 스키마에 대해 검증됩니다. 자산 업데이트가 발생하면 Amazon은 새 자산 버전을 DataZone 생성하고 Amazon DataZone 사용자가 모든 자산 버전에서 작업할 수 있도록 합니다.

비즈니스 용어집

Amazon 에서 DataZone비즈니스 용어집은 자산과 연결될 수 있는 비즈니스 용어 모음입니다. 비즈니스 용어집은 조직 전체에서 다양한 데이터 분석 작업 전반에 걸쳐 동일한 용어와 정의를 사용하도록 하는 데 도움이 됩니다.

비즈니스 용어집의 용어는 자산 및 열에 추가하여 검색 중에 이러한 속성의 식별을 분류하거나 개선할 수 있습니다. 용어집은 자산과 연결된 메타데이터 형식의 필드에 대한 값 유형으로 선택할 수 있습니다. 자산의 메타데이터 양식 필드 값으로 특정 용어를 선택하면 사용자는 비즈니스 용어집 용어를 검색하고 관련 자산을 찾을 수 있습니다.

메타데이터 양식 유형

메타데이터 양식 유형은 자산이 인벤토리로 생성되거나 Amazon DataZone 도메인에 게시될 때 수집 및 저장되는 메타데이터를 정의하는 템플릿입니다. 메타데이터 양식 유형은 데이터 자산과 연결할 수 있습니다. 메타데이터 양식 유형은 도메인 관리자가 규정 준수 정보, 규제 정보 또는 분류와 같은 도메인에 필요한 메타데이터 양식을 정의하는 데 도움이 됩니다. 이를 통해 도메인 관리자는 자산에 대한 추가 메타데이터를 사용자 지정할 수 있습니다. Amazon DataZone 에는 asset-common-details-form-type, column-business-metadata-form-type,, glue-table-form-type,, glue-view-form-type redshift-table-form-type redshift-view-form-type, s3-object-collection-form-type subscription-terms-form-type, 및 와 같은 시스템 메타데이터 양식 유형이 있습니다 suggestion-form-type.

메타데이터 양식

Amazon 에서 DataZone메타데이터 양식은 자산이 인벤토리로 생성되거나 Amazon DataZone 도메인에 게시될 때 수집 및 저장되는 메타데이터를 정의합니다. 메타데이터 양식 정의는 도메인 관리자가 카탈로그 도메인에 생성합니다. 메타데이터 양식 정의는 부울, 날짜, 십진수, 정수, 문자열 및 비즈니스 용어집 필드 값 데이터 유형을 지원하는 하나 이상의 필드 정의로 구성됩니다.

도메인 관리자는 메타데이터 양식을 도메인에 추가하여 메타데이터 양식을 도메인의 자산에 적용합니다. 그런 다음 자산 게시자는 메타데이터 양식에 선택적 필수 필드 값을 제공합니다.

프로젝트

Amazon 에서 DataZone프로젝트는 사용자 그룹이 프로젝트 인벤토리에서 자산을 생성하여 모든 프로젝트 멤버가 검색할 수 있도록 한 다음 Amazon DataZone 카탈로그에 자산을 게시, 검색, 구독 및 소비하는 다양한 비즈니스 사용 사례에 대해 협업할 수 있도록 합니다. 프로젝트 멤버는 Amazon DataZone 카탈로그의 자산을 사용하고 하나 이상의 분석 워크플로를 사용하여 새 자산을 생성합니다. 프로젝트 멤버는 소유자, 기여자, 소비자, 관리인 및 최종 사용자일 수 있습니다.

프로젝트 생성/삭제

프로젝트 프로필 생성/삭제 환경 프로필 생성/삭제 환경 생성/삭제 프로젝트에 멤버 추가/삭제 검색 및 검색 Create/delete metadata forms/glossaries 데이터 소스 실행 생성 및 데이터 수집 데이터 게시 구독 요청 구독 요청 승인/거부 Amazon Athena 및 Amazon Redshift에서 구독 데이터 읽기
소유자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리
기고자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 아니요
소비자 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

아니요

아니요

아니요

아니요

아니요

뷰어 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

아니요

아니요

아니요

아니요

아니요

아니요

스튜어드 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리 도메인 유닛 멤버에서 관리

아니요

아니요

프로젝트 소유자는 다른 사용자를 소유자 또는 기여자로 추가하거나 제거할 수 있으며 프로젝트를 수정하거나 삭제할 수 있습니다. 기여자에 대한 기타 제한은 정책을 통해 정의할 수 있습니다. 사용자가 프로젝트를 생성하면 해당 프로젝트의 첫 번째 소유자가 됩니다.

환경

환경은 구성된 리소스(예: Amazon S3 버킷, AWS Glue 데이터베이스 또는 Amazon Athena 작업 그룹)의 모음으로, 해당 리소스에서 작동할 수 있는 지정된 IAM 보안 주체 집합(할당된 기여자 권한 있음)이 있습니다. 각 환경에는 리소스에 액세스하고 구독 및 이행을 통해 데이터에 액세스할 수 있는 권한이 있는 사용자 보안 주체가 있을 수도 있습니다. 환경은 AWS 서비스 및 외부 IDEs 및 콘솔에 실행 가능한 링크를 저장하도록 설계되었습니다. 프로젝트 구성원은 환경 내에 구성된 딥 링크를 통해 Amazon Athena 콘솔 등과 같은 서비스에 액세스할 수 있습니다. SSO 프로젝트의 사용자 및 IAM 사용자는 특정 환경을 사용/액세스하도록 범위를 더 줄일 수 있습니다.

환경 프로파일

Amazon 에서 DataZone환경 프로파일은 환경을 생성하는 데 사용할 수 있는 템플릿입니다. 환경 프로파일은 청사진을 사용하여 생성됩니다.

환경 프로파일을 사용하면 도메인 관리자가 블루프린트를 사전 구성된 파라미터로 래핑한 다음 데이터 워커는 기존 환경 프로파일을 선택하고 새 환경의 이름을 지정하여 원하는 수의 새 환경을 빠르게 생성할 수 있습니다. 이를 통해 데이터 워커는 프로젝트와 환경을 효율적으로 관리하는 동시에 도메인 관리자가 시행하는 데이터 거버넌스 정책을 충족할 수 있습니다.

청사진

환경이 생성되는 청사진은 환경이 속한 프로젝트의 AWS 도구 및 서비스(예: AWS Glue Amazon Redshift) 멤버가 Amazon DataZone 카탈로그의 자산으로 작업할 때 사용할 수 있는 도구를 정의합니다.

Amazon의 현재 릴리스에서는 다음과 DataZone 같은 기본 청사진이 지원됩니다.

  • 데이터 레이크 청사진

  • 데이터 웨어하우스 청사진

  • Amazon Sagemaker 청사진

사용자 프로필

사용자 프로필은 Amazon DataZone 사용자를 나타냅니다. Amazon DataZone 은 다양한 목적으로 Amazon DataZone Management Console 및 데이터 포털과 상호 작용할 수 있는 IAM 역할과 SSO 자격 증명을 모두 지원합니다. 도메인 관리자는 IAM 역할을 사용하여 새 Amazon 도메인 생성, 메타데이터 양식 유형 구성, 정책 구현을 포함하여 Amazon DataZone Management Console에서 초기 관리 DataZone 도메인 관련 작업을 수행합니다. 데이터 워커는 Identity Center를 통해 SSO 기업 자격 증명을 사용하여 Amazon DataZone Data Portal에 로그인하고 멤버십이 있는 프로젝트에 액세스합니다.

그룹 프로필

그룹 프로필은 Amazon DataZone 사용자 그룹을 나타냅니다. 그룹을 수동으로 생성하거나 엔터프라이즈 고객 Active Directory 그룹에 매핑할 수 있습니다. Amazon 에서 DataZone그룹은 두 가지 목적을 수행합니다. 먼저 그룹은 조직도의 사용자 팀에 매핑할 수 있으므로 팀에 합류하거나 퇴근하는 신입 직원이 있을 때 Amazon DataZone 프로젝트 소유자의 관리 작업을 줄일 수 있습니다. 둘째, 기업 관리자는 Active Directory 그룹을 사용하여 사용자 상태를 관리하고 업데이트하므로 Amazon DataZone 도메인 관리자는 이러한 그룹 멤버십을 사용하여 Amazon DataZone 도메인 정책을 구현할 수 있습니다.

도메인 관리자

Amazon 에서 Amazon DataZone 도메인을 생성하는 DataZone IAM 보안 주체는 해당 도메인의 기본 도메인 관리자입니다. Amazon의 도메인 관리자는 도메인 생성, 다른 도메인 관리자 할당, 데이터 소스 및 구독 대상 추가, 프로젝트 및 환경 생성, 프로젝트 소유자 할당 등 도메인에 대한 주요 기능을 DataZone 수행합니다.

게시자

Amazon 에서 DataZone게시자는 Amazon DataZone 카탈로그에 자산을 게시하고 게시하는 자산의 메타데이터를 편집할 수 있습니다. 이 권한이 부여되면 게시자는 Amazon DataZone 카탈로그에 게시한 자산에 대한 구독 요청을 승인하거나 거부할 수 있습니다.

구독자

Amazon 에서 구독 DataZone자는 Amazon DataZone 카탈로그에서 자산을 검색, 액세스 및 소비하려는 Amazon DataZone 프로젝트입니다.

AWS 계정 owner

Amazon 에서 DataZone AWS 계정 소유자는 에 Amazon DataZone 도메인과 연결할 AWS 계정 수 AWS 계정 있는 역할, 정책 및 권한을 생성합니다.