기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Lake Formation란 무엇인가요?
AWS Lake Formation 개발자 안내서에 오신 것을 환영합니다.
AWS Lake Formation 는 분석 및 기계 학습을 위한 데이터를 중앙에서 제어, 보호 및 전 세계적으로 공유할 수 있도록 지원합니다. Lake Formation을 사용하면 Amazon Simple Storage Service(S3) 의 데이터 레이크 데이터와 AWS Glue Data Catalog의 해당 메타데이터에 대한 세분화된 액세스 제어를 관리할 수 있습니다.
Lake Formation은 권한 모델을 보강하는 자체 IAM 권한 모델을 제공합니다. Lake Formation 권한 모델은 관계형 데이터베이스 관리 시스템()과 마찬가지로 간단한 권한 부여 또는 취소 메커니즘을 통해 데이터 레이크에 저장된 데이터에 대한 세분화된 액세스를 지원합니다RDBMS. Lake Formation 권한은 Amazon Athena , Amazon Redshift Spectrum, Amazon QuickSight Amazon 및 를 포함한 AWS 분석 및 기계 학습 서비스 전반에 걸쳐 열, 행 EMR및 셀 수준에서 세분화된 제어를 사용하여 적용됩니다 AWS Glue.
의 Lake Formation 하이브리드 액세스 모드를 AWS Glue Data Catalog 사용하면 Amazon S3 및 AWS Glue 작업에 대한 Lake Formation 권한 및 IAM 권한 정책을 모두 사용하여 카탈로그화된 데이터를 보호하고 액세스할 수 있습니다. 데이터 관리자는 하이브리드 액세스 모드를 통해 한 번에 하나의 데이터 레이크 사용 사례에 집중하여 Lake Formation 권한을 선택적, 점진적으로 온보딩할 수 있습니다.
또한 Lake Formation을 사용하면 여러 AWS 계정, AWS 조직에서 내부 및 외부적으로 데이터를 공유하거나 다른 계정의 IAM 보안 주체와 직접 공유하여 AWS Glue Data Catalog 메타데이터 및 기본 데이터에 대한 세분화된 액세스를 제공할 수 있습니다.
주제
Lake Formation 기능
Lake Formation을 사용하면 데이터 사일로를 제거하고 다양한 유형의 정형 및 비정형 데이터를 중앙 집중식 리포지토리에 결합할 수 있습니다. 먼저 Amazon S3 또는 관계형 데이터베이스 및 데이터베이스 없음SQL에서 기존 데이터 스토어를 식별하고 데이터를 데이터 레이크로 이동합니다. 그런 다음 분석을 위해 데이터를 크롤링하고 분류하고 준비합니다. 다음으로, 사용자가 선택한 분석 서비스를 통해 데이터에 대한 안전한 셀프 서비스 액세스를 제공합니다.
데이터 수집 및 관리
이미 에 있는 데이터베이스에서 데이터 가져오기 AWS
기존 데이터베이스의 위치를 지정하고 액세스 보안 인증을 제공하면 Lake Formation이 데이터와 해당 메타데이터(스키마)를 읽고 데이터 소스의 내용을 이해합니다. 그런 다음 데이터를 새 데이터 레이크로 가져와 중앙 카탈로그에 메타데이터를 기록합니다. Lake Formation을 사용하면 Amazon에서 실행RDS되거나 Amazon 에서 호스팅되는 My SQL, Postgre SQL, SQL Server, MariaDB 및 Oracle 데이터베이스에서 데이터를 가져올 수 있습니다EC2. 대량 및 증분 데이터 로드가 모두 지원됩니다.
기타 외부 소스에서 데이터 가져오기
Lake Formation을 사용하여 Java Database Connectivity()에 연결하여 온프레미스 데이터베이스에서 데이터를 이동할 수 있습니다JDBC. 대상 소스를 식별하고 콘솔에서 액세스 보안 인증을 제공하면 Lake Formation이 데이터를 읽고 데이터 레이크에 로드합니다. 위에 나열된 데이터베이스 이외의 데이터베이스에서 데이터를 가져오려면 를 사용하여 사용자 지정 ETL 작업을 생성할 수 있습니다 AWS Glue.
데이터 분류 및 레이블 지정
AWS Glue 크롤러를 사용하여 Amazon S3에서 데이터를 읽고 데이터베이스 및 테이블 스키마를 추출하고 해당 데이터를 검색 가능한 에 저장할 수 있습니다 AWS Glue Data Catalog. 그런 다음 Lake FormationLake Formation 태그 기반 액세스 제어(TBAC)을 사용하여 데이터베이스, 테이블 및 열에 대한 권한을 관리합니다. 데이터 카탈로그에 테이블을 추가하는 방법에 대한 자세한 내용은 데이터 카탈로그 테이블 및 데이터베이스 생성 섹션을 참조하세요.
보안 관리
액세스 제어 정의 및 관리
Lake Formation은 데이터 레이크의 데이터에 대한 액세스 제어를 관리할 수 있는 단일 장소를 제공합니다. 데이터베이스, 테이블, 열, 행 및 셀 수준에서 데이터에 대한 액세스를 제한하는 보안 정책을 정의할 수 있습니다. 이러한 정책은 외부 자격 증명 공급자를 통해 페더레이션할 때 IAM 사용자 및 역할과 사용자 및 그룹에 적용됩니다. 세분화된 제어를 사용하여 Amazon Redshift Spectrum, Athena AWS Glue ETL및 Amazon EMR for Apache Spark 내에서 Lake Formation에서 보호되는 데이터에 액세스할 수 있습니다. IAM 자격 증명을 생성할 때마다 IAM 모범 사례를 따라야 합니다. 자세한 내용은 IAM 사용 설명서의 보안 모범 사례를 참조하세요.
하이브리드 액세스 모드
Lake Formation 하이브리드 액세스 모드는 AWS Glue Data Catalog의 데이터베이스 및 테이블에 대한 Lake Formation 권한을 선택적으로 활성화할 수 있는 유연성을 제공합니다. 하이브리드 액세스 모드를 사용하면 이제 다른 기존 사용자 또는 워크로드의 권한 정책을 중단하지 않고 특정 사용자 집합에 대해 Lake Formation 권한을 설정할 수 있는 증분 경로가 제공됩니다. 자세한 내용은 하이브리드 액세스 모드 단원을 참조하십시오.
감사 로깅 구현
Lake Formation은 액세스를 모니터링하고 중앙에서 정의한 정책 준수를 보여주는 를 포함한 포괄적인 감사 로그 CloudTrail 를 제공합니다. Lake Formation을 통해 데이터 레이크의 데이터를 읽는 분석 및 기계 학습 서비스 전반에서 데이터 액세스 기록을 감사할 수 있습니다. 이를 통해 어떤 사용자 또는 역할이 언제 어떤 서비스를 통해 어떤 데이터에 액세스하려고 시도했는지 확인할 수 있습니다. APIs 및 콘솔을 사용하여 다른 로그에 액세스하는 것과 동일한 방식으로 감사 CloudTrail 로그에 CloudTrail 액세스할 수 있습니다. CloudTrail 로그에 대한 자세한 내용은 섹션을 참조하세요AWS Lake Formation API 호출을 사용하여 로깅하기 AWS CloudTrail.
행 및 셀 수준 보안
Lake Formation은 열과 행의 조합에 대한 액세스를 제한할 수 있는 데이터 필터를 제공합니다. 행 및 셀 수준 보안을 사용하여 개인 식별 정보()와 같은 민감한 데이터를 보호합니다PII. 행 수준 보안에 대한 자세한 내용은 Lake Formation의 데이터 필터링 및 셀 수준 보안 섹션을 참조하세요.
태그 기반 액세스 제어
Lake Formation 태그 기반 액세스 제어를 사용하여 LF 태그라는 사용자 지정 레이블을 생성하여 수백 또는 수천 개의 데이터 권한을 관리합니다. 이제 LF 태그를 정의하고 데이터베이스, 테이블 또는 열에 연결할 수 있습니다. 그런 다음 분석, 기계 학습(ML) 및 추출, 변환 및 로드(ETL) 서비스 전반에서 제어된 액세스를 공유하여 소비합니다. LF 태그는 수천 개의 리소스에 대한 정책 정의를 몇 가지 논리적 태그로 대체하여 데이터 거버넌스를 쉽게 확장할 수 있도록 합니다. Lake Formation은 이 메타데이터에 대한 텍스트 기반 검색을 제공하므로 사용자가 분석에 필요한 데이터를 빠르게 찾을 수 있습니다.
교차 계정 액세스
Lake Formation 권한 관리 기능은 중앙 집중식 접근 방식을 통해 여러 AWS 계정에 분산된 데이터 레이크를 보호하고 관리하는 것을 간소화하여 데이터 카탈로그 및 Amazon S3 위치에 대한 세분화된 액세스 제어를 제공합니다. 자세한 내용은 Lake Formation에서의 교차 계정 데이터 공유 단원을 참조하십시오.
데이터 공유
데이터 공유 기능을 사용하면 데이터나 메타데이터를 Amazon S3 또는 AWS Glue Data Catalog로 마이그레이션하지 않고도 Amazon Redshift와 같은 다양한 데이터 소스에 저장된 데이터 세트에 대한 권한을 설정할 수 있습니다. 다음과 같은 방법을 사용하여 Lake Formation에서 데이터를 공유할 수 있습니다.
자세한 내용은 Lake Formation에서 데이터 공유를 참조하세요.
-
Lake Formation을 Amazon Redshift 데이터 공유와 통합 - Lake Formation을 사용하면 Amazon Redshift 데이터 공유의 데이터베이스, 테이블, 열 및 행 수준 액세스 권한을 중앙에서 관리하고 데이터 공유 내의 객체에 대한 사용자 액세스를 제한할 수 있습니다.
-
외부 메타스토어 AWS Glue Data Catalog 에 연결 - 외부 메타스토어에 AWS Glue Data Catalog 연결하여 Lake Formation을 사용하여 Amazon S3의 데이터 세트에 대한 액세스 권한을 관리합니다. 메타데이터를 로 마이그레이션할 AWS Glue Data Catalog 필요가 없습니다.
자세한 내용은 외부 메타스토어를 사용하는 데이터 세트에 대한 권한 관리 단원을 참조하세요.
-
Lake Formation을 AWS Data Exchange와 통합 - Lake Formation은 를 통해 데이터에 대한 라이선스 액세스를 지원합니다 AWS Data Exchange. Lake Formation 데이터 라이선싱에 관심이 있는 경우AWS Data Exchange 사용 설명서의 AWS Data Exchange란 무엇인가요?를 참조하세요.
Lake Formation 시작하기
다음 단원부터 시작하는 것이 좋습니다.
-
AWS Lake Formation: 작동 방식 - 필수 용어와 다양한 구성 요소가 상호 작용하는 방식에 대해 알아봅니다.
-
Lake Formation 시작하기 - 필수 조건에 대한 정보를 얻고 중요한 설정 작업을 완료합니다.
-
AWS Lake Formation 자습서 - step-by-step 자습서에 따라 Lake Formation을 사용하는 방법을 알아봅니다.
-
보안 내부 AWS Lake Formation - Lake Formation의 데이터에 대한 보안 액세스를 지원하는 방법을 알아봅니다.