AWS Glue 관리형 변환으로 데이터 변환 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Glue 관리형 변환으로 데이터 변환

AWS Glue Studio에서는 두 가지 유형의 변환을 제공합니다.

  • AWS Glue 네이티브 변환 - 모든 사용자가 사용할 수 있으며 AWS Glue에서 관리합니다.

  • 사용자 지정 시각적 변환 - 자체 변환을 업로드하여 AWS Glue Studio에서 사용할 수 있습니다.

AWS Glue 관리형 데이터 변환 노드

AWS Glue Studio는 기본 설정 변환 세트를 제공하여 데이터를 사용할 수 있습니다. 데이터는 작업 다이어그램의 한 노드에서 Apache Spark SQL DataFrame의 확장인 DynamicFrame이라는 데이터 구조의 다른 노드로 전달됩니다.

작업에 대해 미리 채워진 다이어그램에서 데이터 소스와 데이터 대상 노드 사이에는 스키마 변경 변환 노드가 있습니다. 이 변환 노드를 구성하여 데이터를 수정하거나 추가 변환을 사용할 수 있습니다.

AWS Glue Studio에서 사용 가능한 기본 제공 변환은 다음과 같습니다.

  • ChangeSchema: 데이터 소스의 데이터 속성 키를 데이터 대상의 데이터 속성 키에 매핑합니다. 키의 이름을 바꾸고 키의 데이터 유형을 수정하고 데이터 집합에서 삭제할 키를 선택할 수 있습니다.

  • SelectFields: 유지할 데이터 속성 키를 선택합니다.

  • DropFields: 삭제할 데이터 속성 키를 선택합니다.

  • RenameField: 단일 데이터 속성 키의 이름을 바꿉니다.

  • Spigot: Amazon S3 버킷에 데이터 샘플을 씁니다.

  • Join: 지정된 데이터 속성 키의 비교 구문을 사용하여 두 데이터 집합을 하나의 데이터 집합으로 조인합니다. 내부, 외부, 왼쪽, 오른쪽, 왼쪽 반 및 왼쪽 안티 조인을 사용할 수 있습니다.

  • Union: 스키마가 동일한 둘 이상의 데이터 소스에서 행을 결합합니다.

  • SplitFields: 데이터 속성 키를 두 개의 DynamicFrames로 분할합니다. 출력은 DynamicFrames의 컬렉션입니다. 하나는 선택한 데이터 속성 키가 있고 다른 하나는 나머지 데이터 속성 키가 있습니다.

  • SelectFromCollection: DynamicFrames 컬렉션에서 DynamicFrame을 하나 선택합니다. 출력은 선택된 DynamicFrame입니다.

  • FillMissingValues: 데이터 집합에서 누락 값이 있는 레코드를 찾고 대체를 통해 결정된 제안 값으로 새 필드를 추가합니다.

  • 필터(Filter): 필터 조건에 따라 하나의 데이터 집합을 두 개로 분할합니다.

  • Null 필드 삭제: 열의 모든 값이 'null'인 경우 데이터 집합에서 열을 제거합니다.

  • 중복 삭제: 전체 행을 일치시키거나 키를 지정하도록 선택하여 데이터 소스에서 행을 제거합니다.

  • SQL: SQL 쿼리를 사용하여 데이터를 변환하려면 텍스트 입력 필드에 SparkSQL 코드를 입력합니다. 출력은 단일 DynamicFrame입니다.

  • 집계: 선택한 필드와 행에서 계산(예: 평균, 합계, 최소, 최대)을 수행하고 새로 계산된 값으로 새 필드를 생성합니다.

  • Flatten: 구조체 내부의 필드를 최상위 필드로 추출합니다.

  • UUID: 각 행에 범용 고유 식별자가 있는 열을 추가합니다.

  • 식별자: 각 행에 숫자 식별자가 있는 열을 추가합니다.

  • 타임스탬프로 변환: 열을 타임스탬프 유형으로 변환합니다.

  • 타임스탬프 형식 지정: 타임스탬프 열을 형식이 지정된 문자열로 변환합니다.

  • 조건부 라우터 변환: 수신 데이터에 여러 조건을 적용합니다. 수신 데이터의 각 행은 그룹 필터 조건을 기준으로 평가되고 해당 그룹으로 처리됩니다.

  • 열 연결 변환: 선택적 스페이서가 있는 다른 열의 값을 사용하여 새 문자열 열을 구축합니다.

  • 문자열 분할 변환: 정규식을 사용하여 문자열을 토큰 배열로 분할해 분할 방식을 정의합니다.

  • 배열을 열로 변환: 배열 유형의 열에 있는 일부 또는 모든 요소를 새 열로 추출합니다.

  • 현재 타임스탬프 추가 변환: 데이터가 처리된 시간으로 행을 표시합니다. 이는 감사 목적이나 데이터 파이프라인에서 지연 시간을 추적하는 데 유용합니다.

  • 행을 열로 피벗 변환: 선택한 열에서 고유 값을 교체하여 숫자 열을 집계합니다. 이 열은 새 열이 됩니다. 열을 여러 개 선택하면 값이 연결되어 새 열의 이름이 지정됩니다.

  • 열을 행으로 피벗 취소 변환: 열을 새 열의 값으로 변환하여 각 고유 값에 대한 행을 생성합니다.

  • 처리 균형 자동 조절 변환: 더 나은 성능을 위해 작업자 사이에서 데이터를 재배포합니다. 이는 데이터가 불균형하거나 소스에서 가져온 데이터로 인해 충분한 병렬 처리가 불가능한 경우에 유용합니다.

  • 파생 열 변환: 상수 및 리터럴뿐만 아니라 데이터의 다른 열을 사용할 수 있는 수학 공식 또는 SQL 표현식을 기반으로 새 열을 정의합니다.

  • 조회 변환: 키가 데이터에 정의된 조회 열과 일치하는 경우 정의된 카탈로그 테이블의 열을 추가합니다.

  • 배열 또는 맵을 행으로 분해 변환: 중첩된 구조에서 조작하기 쉬운 개별 행으로 값을 추출합니다.

  • 레코드 일치 변환: 기존 레코드 일치 기계 학습 데이터 분류 변환을 간접 호출합니다.

  • null 행 제거 변환 제거: 모든 열이 null이거나 비어 있는 행을 데이터세트에서 제거합니다.

  • JSON 열 구문 분석 변환: JSON 데이터를 포함하는 문자열 열을 구문 분석하고 JSON이 객체인지 또는 배열인지에 따라 각각 해당 문자열 열을 구문 또는 배열 열로 변환합니다.

  • JSON 경로 추출 변환: JSON 문자열 열에서 새 열을 추출합니다.

  • 정규식에서 문자열 조각 추출: 정규식을 사용하여 문자열 조각을 추출하고 문자열 조각에서 새 열을 생성하거나 정규식 그룹을 사용하는 경우 여러 열을 생성합니다.

  • 사용자 지정 변환(Custom transform): 사용자 지정 변환을 사용하려면 텍스트 입력 필드에 코드를 입력합니다. 출력은 DynamicFrames의 컬렉션입니다.