Migrator를 사용하여 Hadoop 데이터를 Amazon S3로 WANdisco LiveData 마이그레이션

작성자: Tony Velcich

소스: 온프레미스 Hadoop 클러스터	대상: Amazon S3	R 유형: 리호스팅
환경: 프로덕션	기술: DataLakes, 빅 데이터, 하이브리드 클라우드, 마이그레이션	워크로드: 기타 모든 워크로드
AWS 서비스: Amazon S3

요약

이 패턴은 Hadoop 분산 파일 시스템(HDFS)에서 Amazon Simple Storage Service(Amazon S3)로 Apache Hadoop 데이터를 마이그레이션하는 프로세스를 설명합니다. WANdisco LiveData Migrator를 사용하여 데이터 마이그레이션 프로세스를 자동화합니다.

사전 조건 및 제한 사항

사전 조건

LiveData Migrator가 설치될 Hadoop 클러스터 엣지 노드입니다. 노드는 다음 요구 사항을 충족해야 합니다.
- 최소 사양: 4CPUs, 16GBRAM, 100GB 스토리지.
- 최소 2Gbps의 네트워크.
- UI에 액세스하기 위해 엣지 노드에서 액세스할 수 있는 포트 WANdisco 8081.
- Java 1.8 64비트
- 엣지 노드에 Hadoop 클라이언트 라이브러리가 설치되었습니다.
- HDFS 슈퍼 사용자로 인증할 수 있는 기능(예: 'hdfs').
- Hadoop 클러스터에서 Kerberos가 활성화된 경우, 엣지 노드에서 HDFS 수퍼유저에 적합한 보안 주체가 포함된 유효한 키탭을 사용할 수 있어야 합니다.
- 지원되는 운영 체제의 전체 목록은 릴리스 정보를 참조하십시오.
S3 버킷에 액세스할 수 있는 활성 AWS 계정입니다.
온프레미스 Hadoop 클러스터(특히 엣지 노드)와 간에 설정된 AWS Direct Connect 링크입니다AWS.

제품 버전

LiveData Migrator 1.8.6
WANdisco UI(OneUI) 5.8.0

아키텍처

소스 기술 스택

온프레미스 Hadoop 클러스터

대상 기술 스택

Amazon S3

아키텍처

다음 다이어그램은 LiveData Migrator 솔루션 아키텍처를 보여줍니다.

WANdisco LiveData Migrator를 사용하여 Hadoop 데이터를 Amazon S3로 마이그레이션하는 프로세스를 자동화합니다.

워크플로는 온프레미스에서 Amazon S3로 데이터 마이그레이션HDFS을 위한 네 가지 기본 구성 요소로 구성됩니다.

LiveData Migrator - 에서 Amazon S3HDFS로 데이터 마이그레이션을 자동화하고 Hadoop 클러스터의 엣지 노드에 상주합니다.
HDFS – 애플리케이션 데이터에 대한 높은 처리량의 액세스를 제공하는 분산 파일 시스템입니다.
Amazon S3 – 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다.
AWS Direct Connect - 온프레미스 데이터 센터에서 로 전용 네트워크 연결을 설정하는 서비스입니다AWS.

자동화 및 규모 조정

일반적으로 경로 또는 디렉토리별로 소스 파일 시스템에서 특정 콘텐츠를 선택할 수 있도록 여러 마이그레이션을 생성합니다. 또한 여러 마이그레이션 리소스를 정의하여 여러 독립 파일 시스템으로 데이터를 동시에 마이그레이션할 수 있습니다.

에픽

작업	설명	필요한 기술
AWS 계정에 로그인합니다.	AWS 관리 콘솔에 로그인하고 에서 Amazon S3 콘솔을 엽니다 https://console.aws.amazon.com/s3/.	AWS 경험
S3 버킷을 생성합니다.	대상 스토리지로 사용할 기존 S3 버킷이 아직 없는 경우 Amazon S3 콘솔에서 “버킷 생성” 옵션을 선택하고 퍼블릭 액세스 차단을 위한 버킷 이름, AWS 리전 및 버킷 설정을 지정합니다. AWS 및 에서는 S3 버킷에 대한 퍼블릭 액세스 차단 옵션을 활성화하고 조직의 요구 사항에 맞게 버킷 액세스 및 사용자 권한 정책을 설정하는 것이 WANdisco 좋습니다. AWS 예제는 https://docs.aws.amazon.com/AmazonS3/최신/dev/example-walkthroughs-managing-access-example1.html에서 제공됩니다.	AWS 경험

작업	설명	필요한 기술
LiveData Migrator 설치 관리자를 다운로드합니다.	LiveData Migrator 설치 관리자를 다운로드하여 Hadoop 엣지 노드에 업로드합니다. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https://aws.amazon.com/marketplace/pp/B07B8SZND9 LiveData Migrator 무료 평가판을 다운로드할 수 있습니다.	Hadoop 관리자, 애플리케이션 소유자
LiveData Migrator를 설치합니다.	다운로드한 설치 관리자를 사용하고 LiveData Hadoop 클러스터의 엣지 노드에 Migrator를 HDFS 슈퍼 사용자로 설치합니다. 설치 명령에 대한 내용은 “추가 정보” 섹션을 참조하십시오.	Hadoop 관리자, 애플리케이션 소유자
LiveData Migrator 및 기타 서비스의 상태를 확인합니다.	'추가 정보' 섹션에 제공된 명령을 사용하여 LiveData Migrator, Hive Migrator 및 WANdiscoUI의 상태를 확인합니다.	Hadoop 관리자, 애플리케이션 소유자

작업	설명	필요한 기술
LiveData Migrator 계정을 등록합니다.	포트 WANdisco 8081(Hadoop 엣지 노드)의 웹 브라우저를 통해 UI에 로그인하고 등록을 위한 세부 정보를 제공합니다. 예를 들어 myldmhost.example.com 이라는 호스트에서 LiveData Migrator를 실행하는 경우 는 http://myldmhost.example.com:8081 URL 됩니다.	애플리케이션 소유자
소스 HDFS 스토리지를 구성합니다.	소스 HDFS 스토리지에 필요한 구성 세부 정보를 제공합니다. 여기에는 “fs.DefaultFS” 값과 사용자 정의 스토리지 이름이 포함됩니다. Kerberos가 활성화된 경우 LiveData Migrator가 사용할 보안 주체 및 키탭 위치를 제공합니다. 클러스터에서 NameNode HA가 활성화된 경우 엣지 노드의 core-site.xml 및 hdfs-site.xml 파일에 대한 경로를 제공합니다.	Hadoop 관리자, 애플리케이션 소유자
대상 Amazon S3 스토리지를 구성합니다.	대상 스토리지를 S3a 유형으로 추가합니다. 사용자 정의 스토리지 이름과 S3 버킷 이름을 제공합니다. 자격 증명 impleAWSCredentials공급자 옵션에 “org.apache.hadoop.fs.s3a.S Provider”를 입력하고 S3 버킷에 대한 AWS 액세스 및 보안 키를 제공합니다. 추가 S3a 속성도 필요합니다. 자세한 내용은 https://docs.wandisco.com/live-data-migrator/docs/command-reference/#3a의 LiveData Migrator 설명서에서 'Sfilesystem-add-s3a 속성' 섹션을 참조하세요.	AWS, 애플리케이션 소유자

작업	설명	필요한 기술
제외 항목 추가을 추가합니다(필요한 경우).	마이그레이션에서 특정 데이터 세트를 제외하려면 소스 HDFS 스토리지에 대한 제외를 추가합니다. 이러한 제외는 파일 크기, 파일 이름(정규식 패턴 기반), 수정 날짜를 기반으로 할 수 있습니다.	Hadoop 관리자, 애플리케이션 소유자

작업	설명	필요한 기술
마이그레이션을 생성하고 구성합니다.	WANdisco UI의 대시보드에서 마이그레이션을 생성합니다. 소스(HDFS)와 대상(S3 버킷)을 선택합니다. 이전 단계에서 정의한 새 제외를 추가합니다. “덮어쓰기” 또는 “크기가 일치하면 건너뛰기” 옵션을 선택합니다. 모든 필드가 완성되면 마이그레이션을 생성합니다.	Hadoop 관리자, 애플리케이션 소유자
마이그레이션을 시작합니다.	대시보드에서 생성한 마이그레이션을 선택합니다. 마이그레이션을 시작하려면 클릭합니다. 마이그레이션을 생성할 때 자동 시작 옵션을 선택하여 마이그레이션을 자동으로 시작할 수도 있습니다.	애플리케이션 소유자

작업	설명	필요한 기술
소스와 대상 간의 네트워크 대역폭 제한을 설정합니다.	대시보드의 스토리지 목록에서 소스 스토리지를 선택하고 그룹화 목록에서 “대역폭 관리”를 선택합니다. 무제한 옵션의 선택을 취소하고 최대 대역폭 제한 및 단위를 정의합니다. “적용”을 선택합니다.	애플리케이션 소유자, 네트워킹

작업	설명	필요한 기술
WANdisco UI를 사용하여 마이그레이션 정보를 봅니다.	WANdisco UI를 사용하여 라이선스, 대역폭, 스토리지 및 마이그레이션 정보를 봅니다. UI는 또한 알림 시스템을 제공하므로 오류, 경고 또는 사용과 관련된 중요한 이정표에 대한 알림을 받을 수 있습니다.	Hadoop 관리자, 애플리케이션 소유자
마이그레이션을 중지, 재개 및 삭제합니다.	마이그레이션을 STOPPED 상태로 전환하여 콘텐츠를 대상으로 전송하는 것을 중지할 수 있습니다. 중지된 마이그레이션을 재개할 수 있습니다. STOPPED 상태의 마이그레이션도 삭제할 수 있습니다.	Hadoop 관리자, 애플리케이션 소유자

추가 정보

LiveData Migrator 설치

설치 프로그램이 작업 디렉터리 내에 있다고 가정하여 다음 명령을 사용하여 LiveData Migrator를 설치할 수 있습니다.


su – hdfs
chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

설치 후 LiveData Migrator 및 기타 서비스 상태 확인

다음 명령을 사용하여 LiveData Migrator, Hive migrator 및 WANdisco UI의 상태를 확인합니다.


service livedata-migrator status
service hivemigrator status
service livedata-ui status

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

에서 서버리스 데이터 레이크 배포 및 관리 AWS

패턴 더 보기

Migrator를 사용하여 Hadoop 데이터를 Amazon S3로 WANdisco LiveData 마이그레이션

요약

사전 조건 및 제한 사항

아키텍처

에픽

관련 리소스

추가 정보