AWS Schema Conversion Tool을 사용하여 Google BigQuery에 연결 - AWS Schema Conversion Tool

AWS Schema Conversion Tool을 사용하여 Google BigQuery에 연결

AWS SCT를 사용하여 스키마, 코드 객체 및 애플리케이션 코드를 BigQuery에서 Amazon Redshift로 변환할 수 있습니다.

BigQuery를 소스로 사용하기 위한 권한

AWS SCT에서 BigQuery 데이터 웨어하우스를 소스로 사용하려면 서비스 계정을 생성합니다. Google Cloud에서 애플리케이션은 서비스 계정을 사용하여 승인된 API 호출을 수행합니다. 서비스 계정은 사용자 계정과 다릅니다. 자세한 내용은 Google Cloud Identity and Access Management 문서에서 서비스 계정을 참조하세요.

서비스 계정에 다음 역할을 부여해야 합니다.

  • BigQuery Admin

  • Storage Admin

BigQuery Admin 역할은 프로젝트 내 모든 리소스를 관리할 수 있는 권한을 제공합니다. AWS SCT는 이 역할을 사용하여 마이그레이션 프로젝트에 BigQuery 메타데이터를 로드합니다.

Storage Admin 역할은 데이터 객체 및 버킷에 대한 모든 제어 권한을 부여합니다. Cloud Storage에서 이 역할을 찾을 수 있습니다. AWS SCT는 이 역할을 사용하여 BigQuery에서 데이터를 추출한 다음 Amazon Redshift에 로드합니다.

서비스 계정 키 파일을 생성하려면
  1. https://console.cloud.google.com/에서 Google Cloud 관리 콘솔에 로그인합니다.

  2. BigQuery API 페이지에서 활성화를 선택합니다. API Enabled가 표시된 경우에는 이 단계를 건너뜁니다.

  3. 서비스 계정 페이지에서 프로젝트를 선택한 다음 Create service account를 선택합니다.

  4. Service account details 페이지에서 서비스 계정 이름을 설명하는 값을 입력합니다. Create and continue를 선택합니다. Grant this service account access to the project 페이지가 열립니다.

  5. 역할 선택에서 BigQuery를 선택한 다음 BigQuery Admin을 선택합니다.

  6. 다른 역할 추가를 선택합니다. 역할 선택에서 Cloud Storage를 선택한 다음 Storage Admin을 선택합니다.

  7. 계속을 선택한 다음 완료를 선택합니다.

  8. 서비스 계정 페이지에서 생성된 서비스 계정을 선택합니다.

  9. 를 선택한 다음 키 추가에서 새 키 생성을 선택합니다.

  10. JSON을 선택한 다음 생성을 선택합니다. 프라이빗 키를 저장할 폴더를 선택하거나 브라우저에서 다운로드에 사용할 기본 폴더를 선택합니다.

BigQuery 데이터 웨어하우스에서 데이터를 추출하기 위해 AWS SCT는 Google Cloud Storage 버킷 폴더를 사용합니다. 데이터 마이그레이션을 시작하기 전에 이 버킷을 생성합니다. Create Local task 대화 상자에 Google Cloud Storage 버킷 폴더의 경로를 입력합니다. 자세한 내용은 AWS SCT 작업 생성, 실행, 모니터링 단원을 참조하십시오.

BigQuery에 소스로 연결

다음 절차에 따라 AWS Schema Conversion Tool을 사용하여 소스 BigQuery 프로젝트에 연결합니다.

BigQuery 소스 데이터 웨어하우스에 연결하려면
  1. AWS Schema Conversion Tool에서 소스 추가를 선택합니다.

  2. BigQuery를 선택한 후 다음을 선택합니다.

    소스 추가 대화 상자가 나타납니다.

  3. 연결 이름에 BigQuery 프로젝트의 이름을 입력합니다. AWS SCT는 왼쪽 패널의 트리에 이 이름을 표시합니다.

  4. 키 경로에는 서비스 계정 키 파일의 경로를 입력합니다. 이 파일 생성에 대한 자세한 내용은 BigQuery를 소스로 사용하기 위한 권한 섹션을 참조하세요.

  5. Test Connection을 선택하여 AWS SCT가 소스 BigQuery 프로젝트에 연결할 수 있는지 확인합니다.

  6. 연결을 선택하여 소스 BigQuery 프로젝트에 연결합니다.

BigQuery를 AWS SCT에서 소스로 사용 시 적용되는 제한 사항

AWS SCT에서 BigQuery를 소스로 사용하는 경우 적용되는 제한 사항은 다음과 같습니다.

  • AWS SCT는 분석 함수의 하위 쿼리 변환을 지원하지 않습니다.

  • BigQuery SELECT AS STRUCTSELECT AS VALUE 문을 변환하는 데는 AWS SCT를 사용할 수 없습니다.

  • AWS SCT는 다음과 같은 유형의 함수 변환을 지원하지 않습니다.

    • Approximate aggregate

    • Bit

    • 디버깅

    • Federated query

    • Geography

    • 해시

    • Mathematical

    • Net

    • Statistical aggregate

    • UUID

  • AWS SCT는 문자열 함수의 변환을 제한적으로 지원합니다.

  • AWS SCT는 UNNEST 연산자 변환을 지원하지 않습니다.

  • AWS SCT에서 상관 관계가 있는 조인 연산은 변환할 수 없습니다.

  • AWS SCT는 QUALIFY, WINDOW, LIMIT, OFFSET 절의 변환을 지원하지 않습니다.

  • 재귀 공통 테이블 표현식을 변환하는 데는 AWS SCT를 사용할 수 없습니다.

  • AWS SCT는 VALUES 절 내에 하위 쿼리가 있는 INSERT 문 변환을 지원하지 않습니다.

  • AWS SCT는 중첩 필드 및 반복 레코드에 대한 UPDATE 문 변환을 지원하지 않습니다.

  • STRUCTARRAY 데이터 형식을 변환하는 데는 AWS SCT를 사용할 수 없습니다.

BigQuery에서 Amazon Redshift로의 변환 설정

BigQuery에서 Amazon Redshift로의 변환 설정을 편집하려면 AWS SCT에서 설정을 선택한 다음 변환 설정을 선택합니다. 상단 목록에서 Google BigQuery를 선택한 다음 Google BigQuery – Amazon Redshift를 선택합니다. AWS SCT는 BigQuery에서 Amazon Redshift로의 변환에 사용할 수 있는 모든 설정을 표시합니다.

AWS SCT에서 BigQuery를 Amazon Redshift로 변환하는 설정에는 다음과 같은 옵션이 포함됩니다.

  • 변환된 코드에서 작업 항목이 포함된 설명의 수를 제한합니다.

    Add comments in the converted code for the action items of selected severity and higher에서 작업 항목의 심각도를 선택합니다. AWS SCT가 선택된 심각도 이상의 작업 항목에 대한 변환된 코드에 설명을 추가합니다.

    예를 들어, 변환된 코드의 설명 수를 최소화하려면 오류만을 선택합니다. 변환된 코드의 모든 작업 항목에 대한 설명을 포함하려면 모든 메시지를 선택합니다.

  • AWS SCT가 대상 Amazon Redshift 클러스터에 적용할 수 있는 최대 테이블 수를 설정합니다.

    The maximum number of tables for the target Amazon Redshift cluster에서 AWS SCT가 Amazon Redshift 클러스터에 적용할 수 있는 테이블 수를 선택합니다.

    Amazon Redshift에는 여러 클러스터 노드 유형에 사용하는 테이블을 제한하는 할당량이 있습니다. 자동을 선택하면 AWS SCT가 노드 유형에 따라 대상 Amazon Redshift 클러스터에 적용되는 테이블 수를 결정합니다. 값을 수동으로 선택할 수도 있습니다. 자세한 내용은 Amazon Redshift 관리 가이드Amazon Redshift의 할당량 및 제한 섹션을 참조하세요.

    Amazon Redshift 클러스터가 저장할 수 있는 수보다 이 숫자가 많아도 AWS SCT는 모든 소스 테이블을 변환합니다. AWS SCT는 변환된 코드를 프로젝트에 저장하며 대상 데이터베이스에는 적용하지 않습니다. 변환된 코드를 적용할 때 테이블의 Amazon Redshift 클러스터 할당량에 도달하면 AWS SCT에서 경고 메시지가 표시됩니다. 또한 AWS SCT는 테이블 수가 한도에 도달할 때까지 대상 Amazon Redshift 클러스터에 테이블을 적용합니다.

  • Amazon Redshift 테이블 열에 압축을 적용합니다. 이렇게 하려면 Use compression encoding을 선택합니다.

    AWS SCT는 기본 Amazon Redshift 알고리즘을 사용하여 열에 압축 인코딩을 자동으로 할당합니다. 자세한 내용은 Amazon Redshift 데이터베이스 개발자 안내서압축 인코딩을 참조하세요.

    기본적으로 Amazon Redshift는 정렬 및 배포 키로 정의된 열에 압축을 적용하지 않습니다. 이 동작을 변경하여 이러한 열에 압축을 적용할 수 있습니다. 이렇게 하려면 Use compression encoding for KEY columns를 선택합니다. Use compression encoding 옵션을 선택한 경우에만 이 옵션을 선택할 수 있습니다.

BigQuery에서 Amazon Redshift로의 변환 최적화 설정

BigQuery에서 Amazon Redshift로의 변환 최적화 설정을 편집하려면 AWS SCT에서 설정을 선택한 다음 변환 설정을 선택합니다. 상단 목록에서 Google BigQuery를 선택한 다음 Google BigQuery – Amazon Redshift를 선택합니다. 왼쪽 창에서 Optimization strategies를 선택합니다. AWS SCT는 BigQuery에서 Amazon Redshift로의 변환에 대한 변환 최적화 설정을 표시합니다.

AWS SCT에서 BigQuery를 Amazon Redshift로 변환하는 변환 최적화 설정에는 다음과 같은 옵션이 포함됩니다.

  • 자동 테이블 최적화 작업을 수행합니다. 이 작업을 수행하려면 Use Amazon Redshift automatic table tuning을 선택합니다.

    자동 테이블 최적화는 테이블 디자인을 자동으로 최적화하는 Amazon Redshift의 자체 조정 프로세스입니다. 자세한 내용은 Amazon Redshift 데이터베이스 개발자 안내서자동 테이블 최적화 작업을 참조하세요.

    자동 테이블 최적화만 사용하려면 Initial key selection strategy에서 없음을 선택합니다.

  • 전략을 사용하여 정렬 및 배포 키를 선택합니다.

    Amazon Redshift 메타데이터, 통계 정보 또는 두 옵션을 모두 사용하여 정렬 및 배포 키를 선택할 수 있습니다. Optimization strategies 탭의 Initial key selection strategy에서 다음 옵션 중 하나를 선택합니다.

    • 메타데이터 사용, 통계 정보 무시

    • 메타데이터 무시, 통계 정보 사용

    • 메타데이터 및 통계 정보 사용

    선택한 옵션에 따라 최적화 전략을 선택할 수 있습니다. 그런 다음 각 전략에 대해 값(0~100)을 입력합니다. 이러한 값은 각 전략의 가중치를 정의합니다. AWS SCT는 이러한 가중치 값을 사용하여 각 규칙이 배포 및 정렬 키 선택에 미치는 영향을 정의합니다. 기본값은 AWS 마이그레이션 모범 사례를 기반으로 합니다.

    Find small tables 전략에서 작은 테이블의 크기를 정의할 수 있습니다. Min table row countMax table row count에 테이블의 최소 및 최대 행 수를 입력하여 작은 테이블로 정의합니다. AWS SCT는 작은 테이블에 ALL 배포 스타일을 적용합니다. 이 경우 전체 테이블의 사본이 모든 노드에 배포됩니다.

  • 전략 세부 정보를 구성합니다.

    각 최적화 전략의 가중치를 정의하는 것 외에 최적화 설정도 구성할 수 있습니다. 이 작업을 수행하려면 Conversion optimization을 선택합니다.

    • Sort key columns limit에 정렬 키의 최대 열 수를 입력합니다.

    • Skewed threshold value에 열에 대한 스큐된 값의 백분율(0~100)을 입력합니다. AWS SCT는 스큐 값이 임계값보다 큰 열을 배포 키의 후보 목록에서 제외합니다. AWS SCT는 열의 스큐된 값을 전체 레코드 수에 대한 가장 일반적인 값 발생 횟수의 백분율로 정의합니다.

    • Top N queries from the query history table에 분석할 가장 자주 사용되는 쿼리의 수(1~100)를 입력합니다.

    • Select statistics user에서 쿼리 통계를 분석하려는 데이터베이스 사용자를 선택합니다.

    또한 Optimization strategies 탭에서 Find small tables 전략을 위한 작은 테이블의 크기를 정의할 수 있습니다. Min table row countMax table row count에 테이블의 최소 및 최대 행 수를 입력하여 작은 테이블로 간주합니다. AWS SCT는 작은 테이블에 ALL 배포 스타일을 적용합니다. 이 경우 전체 테이블의 사본이 모든 노드에 배포됩니다.