권장 데이터 계층 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

권장 데이터 계층

개인 식별이 불가능한 정보 (PII) 데이터와 같이 중요하지 않은 데이터로 작업하는 경우 의 데이터 레이크에 세 개 이상의 서로 다른 데이터 계층을 사용하는 것이 좋습니다AWS 클라우드.

그러나 데이터의 복잡성과 사용 사례에 따라 추가 계층이 필요할 수 있습니다. 예를 들어 민감한 데이터 (예: PII 데이터) 로 작업하는 경우 추가 Amazon Simple Storage Service (Amazon S3) 버킷을 landing zone 존으로 사용한 다음 데이터를 원시 데이터 계층으로 이동하기 전에 데이터를 마스킹하는 것이 좋습니다. 이에 대한 자세한 내용은 이 안내서의민감한 데이터 처리 단원을 참조하세요.

각 데이터 계층에는 개별 S3 버킷이 있어야 합니다. 다음 표는 권장 데이터 계층을 설명합니다.

데이터 레이어 이름 설명 샘플 라이프사이클 정책 전략
노골적인

처리되지 않은 원시 데이터를 포함하며 데이터가 데이터 레이크로 수집되는 계층입니다.

가능하면 원본 파일 형식을 유지하고 S3 버킷에서 버전 관리를 켜야 합니다.

1년 후에는 파일을 Amazon S3 IA (자주 액세스하지 않는 액세스) 스토리지 클래스로 이동합니다. Amazon S3 IA에서 2년을 보낸 후 Amazon S3 Glacier에 아카이빙하십시오.
단계

사용에 최적화된 중간 처리 데이터 (예: CSV에서 Apache Parquet으로 변환된 원시 파일 또는 데이터 변환) 를 포함합니다.

AWS Glue작업은 원시 레이어에서 파일을 읽고 데이터의 유효성을 검사합니다. 그런 다음AWS Glue 작업은 데이터를 Apache Parquet 형식 파일에 저장하고 메타데이터는AWS Glue 데이터 카탈로그의 테이블에 저장됩니다.

정의된 기간이 지난 후 또는 조직의 요구 사항에 따라 데이터를 삭제할 수 있습니다.

일부 데이터 파생 상품 (예: 원본 JSON 형식의 Apache Avro 변환) 은 더 짧은 시간 후에 (예: 90일 후) 데이터 레이크에서 제거될 수 있습니다.

분석 특정 사용 사례에 대한 집계된 데이터를 바로 사용할 수 있는 형식 (예: Apache Parquet) 으로 포함합니다. 데이터를 Amazon S3 IA로 이동한 다음 정의된 기간 이후 또는 조직의 요구 사항에 따라 삭제할 수 있습니다.
참고

조직의 요구 사항, 규제 요구 사항, 쿼리 패턴 및 비용 고려 사항을 기준으로 모든 권장 수명 주기 정책 전략을 평가해야 합니다.