HDFS에서 AWS DataSync 전송을 구성하기 - AWS DataSync

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HDFS에서 AWS DataSync 전송을 구성하기

Hadoop 분산 파일 시스템 (HDFS) 에서 데이터를 전송하려면 전송 위치를 만들어야 합니다. AWS DataSync

HDFS 클러스터에 액세스

HDFS 클러스터에 연결하려면 HDFS 클러스터 근처에 배포한 에이전트를 DataSync 사용합니다. DataSync상담원에 대해 자세히 알아보려면 을 참조하십시오AWS DataSync상담원과의 협력. DataSync에이전트는 HDFS 클라이언트 역할을 하며 DataNodes 클러스터의 NameNodes 및 와 통신합니다.

작업을 시작하면 클러스터의 파일 및 폴더 위치를 DataSync 쿼리합니다. NameNode HDFS 위치가 소스로 구성된 경우 클러스터에서 파일 및 폴더 데이터를 DataSync 읽고 데이터를 대상에 복사합니다. DataNodes HDFS 위치가 대상으로 구성된 경우 대상에서 클러스터에 있는 파일과 폴더를 DataSync 기록합니다. DataNodes DataSync작업을 실행하기 전에 HDFS 클러스터에 대한 에이전트 연결을 확인합니다. 자세한 정보는 스토리지 시스템에 대한 에이전트 접속 테스트을 참조하세요.

인증

HDFS 클러스터에 연결할 때 단순 인증 또는 Kerberos 인증을 DataSync 지원합니다. 단순 인증을 사용하려면 HDFS 클러스터에 대한 읽기 및 쓰기 권한이 있는 사용자의 사용자 이름을 제공하십시오. Kerberos 인증을 사용하려면 Kerberos 구성 파일, Kerberos 키 테이블 (keytab) 파일 및 Kerberos 주 이름을 제공하십시오. Kerberos 보안 주체의 자격 증명은 제공된 keytab 파일에 있어야 합니다.

암호화

Kerberos 인증을 사용하는 경우 DataSync 에이전트와 HDFS 클러스터 간에 전송되는 데이터의 암호화를 DataSync 지원합니다. HDFS 클러스터의 보호 품질 (QOP) 구성 설정을 사용하고 HDFS 위치를 생성할 때 QOP 설정을 지정하여 데이터를 암호화합니다. QOP 구성에는 데이터 전송 보호 및 원격 프로시저 호출 (RPC) 보호에 대한 설정이 포함됩니다.

DataSync다음과 같은 Kerberos 암호화 유형을 지원합니다.
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

TDE (Transparent Data Encryption) 를 사용하여 저장 시 암호화하도록 HDFS 클러스터를 구성할 수도 있습니다. 단순 인증을 사용하는 경우 TDE 지원 클러스터에서 DataSync 읽고 쓸 수 있습니다. TDE 지원 클러스터에 데이터를 복사하는 DataSync 데 사용하는 경우 먼저 HDFS 클러스터에서 암호화 영역을 구성해야 합니다. DataSync암호화 영역을 만들지 않습니다.

HDFS 전송 위치 만들기

DataSync전송 소스로 사용할 수 있는 위치를 구성하세요.

시작하기 전: 다음을 수행하여 에이전트와 Hadoop 클러스터 간의 네트워크 연결을 확인합니다.

콘솔을 사용하여 HDFS 위치를 만들려면 DataSync
  1. https://console.aws.amazon.com/datasync/ 에서 AWS DataSync 콘솔을 여세요.

  2. 왼쪽 탐색 창에서 데이터 전송을 확장한 다음 위치위치 생성을 선택합니다.

  3. 위치 유형에서 Hadoop 분산 파일 시스템 (HDFS) 을 선택합니다. 나중에 이 위치를 소스 또는 대상으로 구성할 수 있습니다.

  4. 에이전트의 경우 사용 가능한 에이전트 목록에서 사용할 에이전트를 하나 이상 선택합니다. 에이전트는 HDFS 클러스터에 연결하여 HDFS 클러스터 및 간에 데이터를 안전하게 전송합니다. DataSync

  5. NameNode경우 HDFS 클러스터 기본 NameNode 클러스터의 도메인 이름 또는 IP 주소를 입력합니다.

  6. 폴더에는 데이터 전송에 사용할 HDFS 클러스터의 폴더를 입력합니다. DataSync 위치를 작업의 원본으로 사용하는 경우 제공된 폴더에 파일을 DataSync 복사합니다. 사용자 위치가 작업의 대상으로 사용되는 경우 제공된 폴더에 모든 파일을 DataSync 기록합니다.

  7. 블록 크기 또는 복제 계수를 설정하려면 추가 설정을 선택합니다. 기본 블록 크기는 128MiB이며, 제공된 모든 블록 크기는 512바이트의 배수여야 합니다. 데이터를 HDFS 클러스터로 전송할 DataNodes 때 기본 복제 요소는 3입니다.

  8. 보안 섹션에서 HDFS 클러스터에 사용되는 인증 유형을 선택합니다.

    • 단순사용자의 경우 사용 사례에 따라 HDFS 클러스터에 대한 다음 권한을 사용하여 사용자 이름을 지정합니다.

      • 이 위치를 원본 위치로 사용하려는 경우 읽기 권한만 있는 사용자를 지정하십시오.

      • 이 위치를 대상 위치로 사용하려는 경우 읽기 및 쓰기 권한이 있는 사용자를 지정하십시오.

      선택적으로 HDFS 클러스터의 키 관리 서버 (KMS) 의 URI를 지정합니다.

    • Kerberos — HDFS 클러스터에 액세스할 수 있는 Kerberos 주체를 지정합니다. 그런 다음 제공된 Kerberos 보안 주체가 포함된 KeyTab파일을 제공합니다. 그런 다음 Kerberos 구성 파일을 제공합니다. 마지막으로 RPC 보호 및 데이터 전송 보호 드롭다운 목록에서 전송 중 암호화 보호 유형을 지정합니다.

  9. (선택 사항) [Add tag] 를 선택하여 HDFS 위치에 태그를 지정합니다.

    태그 는 위치 관리, 필터링 및 검색에 도움이 되는 키-값 페어입니다. 위치에 대한 이름 태그를 하나 이상 생성하는 것이 좋습니다.

  10. 위치 생성을 선택합니다.

지원되지 않는 HDFS 기능

현재 에서 지원되지 않는 HDFS 기능은 다음과 같습니다. DataSync

  • Kerberos 인증을 사용하는 경우 TDE (Transparent Data Encryption) 를 사용하는 경우 TDE

  • 다중 구성 NameNodes

  • HTTP를 통한 하둡 HDFS (HTTPFS)

  • POSIX 액세스 제어 목록 (ACL)

  • HDFS 확장 속성 (xattrs)