기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Glue Data Catalog
AWS Glue Data Catalog은 다양한 데이터 소스의 모든 데이터 자산을 위한 중앙 집중식 메타데이터 리포지토리입니다. 데이터 형식, 스키마 및 소스에 대한 정보를 저장하고 쿼리할 수 있는 통합 인터페이스를 제공합니다. AWS Glue ETL 작업이 실행되면 이 카탈로그를 사용하여 데이터에 대한 정보를 이해하고 데이터가 올바르게 변환되었는지 확인합니다.
AWS Glue Data Catalog는 다음과 같은 구성 요소로 구성되어 있습니다.
-
데이터베이스 및 테이블
-
크롤러 및 분류자
-
연결
-
Schema Registry
AWS Glue 데이터베이스 및 테이블
AWS Glue Data Catalog는 데이터베이스와 테이블로 조직되어 메타데이터를 저장하고 관리하기 위한 논리적 구조를 제공합니다. 이 구조는 AWS Identity and Access Management (IAM) 정책을 사용하여 테이블 또는 데이터베이스 수준에서 정확한 데이터 액세스 제어를 지원합니다.
AWS Glue 데이터베이스에는 여러 테이블이 포함될 수 있으며 각 테이블은 단일 데이터베이스와 연결되어야 합니다. 이러한 테이블에는 실제 데이터에 대한 참조가 포함되며, 이러한 AWS Glue 참조는 지원되는 다양한 데이터 원본에 저장할 수 있습니다. AWS Glue 또한 테이블에는 열 이름, 데이터 유형, 파티션 키와 같은 필수 메타데이터가 저장됩니다.
테이블은 다음과 같은 여러 가지 방법으로 만들 수 있습니다 AWS Glue.
-
AWS Glue 크롤러
-
AWS Glue ETL 작업
-
AWS Glue 콘솔
-
AWS Glue API에서의
CreateTable
작업 -
AWS CloudFormation 템플릿
-
AWS Cloud Development Kit (AWS CDK)
-
마이그레이션된 Apache Hive 메타스토어
AWS Glue 크롤러 및 분류기
AWS Glue 크롤러는 데이터 저장소에서 메타데이터를 자동으로 발견하고 추출한 다음 그에 따라 업데이트합니다. AWS Glue Data Catalog 크롤러는 데이터 저장소에 연결하여 데이터의 스키마를 유추합니다. 그런 다음 검색한 스키마 정보를 사용하여 데이터 카탈로그 내에 테이블을 만들거나 업데이트합니다. 크롤러는 파일 기반 및 테이블 기반 데이터 스토어 모두를 크롤할 수 있습니다. 지원되는 데이터 스토어에 대한 자세한 내용은 크롤할 수 있는 데이터 스토어는 무엇인가요?를 참조하십시오.
크롤러는 분류기를 사용하여 데이터 형식을 정확하게 인식하고 처리 방법을 결정합니다. 기본적으로 크롤러는 에서 제공하는 일반적인 내장 분류기 세트를 사용하지만 사용자 지정 분류기를 작성하여 AWS Glue 특정 사용 사례를 처리할 수도 있습니다.
AWS Glue 연결
AWS Glue 연결을 사용하여 다양한 데이터 소스에 AWS Glue 연결할 수 있는 연결 매개 변수를 정의할 수 있습니다. 연결을 추가하면 이러한 소스에 연결하는 데 필요한 구성을 중앙 집중화하고 간소화할 수 있습니다.
연결을 정의할 때 연결 유형, 연결 엔드포인트 및 모든 필수 보안 인증을 지정합니다. 연결이 정의되면 여러 AWS Glue 작업 및 크롤러에서 다시 사용할 수 있습니다. 와 연결을 사용하면 로그인 자격 증명이나 가상 사설 클라우드 (VPC) ID와 같은 동일한 연결 정보를 반복해서 입력할 필요가 AWS Glue 줄어듭니다.
AWS Glue 스키마 레지스트리
AWS Glue Schema Registry는 데이터 스트림 스키마를 관리하고 적용할 수 있는 중앙 집중화된 위치를 제공합니다. 직렬화 및 역직렬화를 위해 데이터 생산자 및 소비자와 같은 서로 다른 시스템이 스키마를 공유할 수 있습니다. 스키마를 공유하면 이러한 시스템이 효과적으로 통신하고 변환 중에 오류를 방지할 수 있습니다.
Schema Registry를 사용하면 다운스트림 데이터 소비자가 예상 스키마를 인식하고 있기 때문에 업스트림에서 변경한 내용을 처리할 수 있습니다. 스키마 진화를 지원하므로 이전 버전의 스키마와의 호환성을 유지하면서 시간이 지남에 따라 스키마가 변경될 수 있습니다.
스키마 레지스트리는 Amazon Kinesis Data Streams, Firehose 및 Apache Kafka용 Amazon Managed Streaming을 비롯한 많은 AWS 서비스와 통합됩니다. 사용 사례 및 통합의 예는 스키마 레지스트리와의 통합을 참조하십시오. AWS Glue