기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
권장 데이터 계층
개인 식별이 불가능한 정보 (PII) 데이터와 같이 중요하지 않은 데이터로 작업하는 경우 의 데이터 레이크에 세 개 이상의 서로 다른 데이터 계층을 사용하는 것이 좋습니다AWS 클라우드.
그러나 데이터의 복잡성과 사용 사례에 따라 추가 계층이 필요할 수 있습니다. 예를 들어 민감한 데이터 (예: PII 데이터) 로 작업하는 경우 추가 Amazon Simple Storage Service (Amazon S3) 버킷을 landing zone 존으로 사용한 다음 데이터를 원시 데이터 계층으로 이동하기 전에 데이터를 마스킹하는 것이 좋습니다. 이에 대한 자세한 내용은 이 안내서의민감한 데이터 처리 단원을 참조하세요.
각 데이터 계층에는 개별 S3 버킷이 있어야 합니다. 다음 표는 권장 데이터 계층을 설명합니다.
데이터 레이어 이름 | 설명 | 샘플 라이프사이클 정책 전략 |
노골적인 |
처리되지 않은 원시 데이터를 포함하며 데이터가 데이터 레이크로 수집되는 계층입니다. 가능하면 원본 파일 형식을 유지하고 S3 버킷에서 버전 관리를 켜야 합니다. |
1년 후에는 파일을 Amazon S3 IA (자주 액세스하지 않는 액세스) 스토리지 클래스로 이동합니다. Amazon S3 IA에서 2년을 보낸 후 Amazon S3 Glacier에 아카이빙하십시오. |
단계 |
사용에 최적화된 중간 처리 데이터 (예: CSV에서 Apache Parquet으로 변환된 원시 파일 또는 데이터 변환) 를 포함합니다. AWS Glue작업은 원시 레이어에서 파일을 읽고 데이터의 유효성을 검사합니다. 그런 다음AWS Glue 작업은 데이터를 Apache Parquet 형식 파일에 저장하고 메타데이터는AWS Glue 데이터 카탈로그의 테이블에 저장됩니다. |
정의된 기간이 지난 후 또는 조직의 요구 사항에 따라 데이터를 삭제할 수 있습니다. 일부 데이터 파생 상품 (예: 원본 JSON 형식의 Apache Avro 변환) 은 더 짧은 시간 후에 (예: 90일 후) 데이터 레이크에서 제거될 수 있습니다. |
분석 | 특정 사용 사례에 대한 집계된 데이터를 바로 사용할 수 있는 형식 (예: Apache Parquet) 으로 포함합니다. | 데이터를 Amazon S3 IA로 이동한 다음 정의된 기간 이후 또는 조직의 요구 사항에 따라 삭제할 수 있습니다. |
참고
조직의 요구 사항, 규제 요구 사항, 쿼리 패턴 및 비용 고려 사항을 기준으로 모든 권장 수명 주기 정책 전략을 평가해야 합니다.