EMRFSS3 플러그인 - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMRFSS3 플러그인

멀티 테넌트 클러스터의 S3 객체에 대한 액세스 제어를 보다 쉽게 제공할 수 있도록 EMRFS S3 플러그인은 S3 내 데이터에 액세스할 EMRFS 때 해당 데이터에 대한 액세스 제어를 제공합니다. 사용자 및 그룹 수준에서 S3 리소스에 대한 액세스를 허용할 수 있습니다.

이를 위해 애플리케이션이 S3 내의 데이터에 액세스하려고 할 때 Secret Agent 프로세스에 자격 증명 요청을 EMRFS 보내면 Apache Ranger 플러그인에 대해 요청이 인증되고 승인됩니다. 요청이 승인되면 Secret Agent는 제한된 정책이 적용되는 Apache Ranger Engine의 IAM 역할을 맡아 액세스를 허용한 Ranger 정책에만 액세스할 수 있는 자격 증명을 생성합니다. 그런 다음 자격 증명이 액세스 S3에 EMRFS 다시 전달됩니다.

지원되는 기능

EMRFSS3 플러그인은 스토리지 수준 인증을 제공합니다. 정책을 생성하여 사용자 및 그룹에 S3 버킷 및 접두사에 대한 액세스를 제공할 수 있습니다. 권한 부여는 에 대해서만 수행됩니다EMRFS.

서비스 구성 설치

EMRFS서비스 정의를 설치하려면 Ranger 관리 서버를 설정해야 합니다. 서버를 설정하려면 을 참조하십시오Ranger Admin 서버 설정.

다음 단계에 따라 EMRFS 서비스 정의를 설치하십시오.

1단계: 아파치 레인저 관리 서버로 SSH 이동합니다.

예:

ssh ec2-user@ip-xxx-xxx-xxx-xxx.ec2.internal

2단계: EMRFS 서비스 정의를 다운로드합니다.

임시 디렉터리에서 Amazon EMR 서비스 정의를 다운로드합니다. 이 서비스 정의는 Ranger 2.x 버전에서 지원됩니다.

wget https://s3.amazonaws.com/elasticmapreduce/ranger/service-definitions/version-2.0/ranger-servicedef-amazon-emr-emrfs.json

3단계: EMRFS S3 서비스 정의를 등록합니다.

curl -u *<admin users login>*:*_<_**_password_ **_for_** _ranger admin user_**_>_* -X POST -d @ranger-servicedef-amazon-emr-emrfs.json \ -H "Accept: application/json" \ -H "Content-Type: application/json" \ -k 'https://*<RANGER SERVER ADDRESS>*:6182/service/public/v2/api/servicedef'

이 명령이 성공적으로 실행되면 다음 이미지와 같이 Ranger 관리 UI에 "AMAZON- EMR -S3"이라는 새 서비스가 표시됩니다 (Ranger 버전 2.0이 표시됨).

레인저 관리자는 S3 서비스를 생성합니다. EMRFS

4단계: AMAZON - EMR - EMRFS 애플리케이션의 인스턴스를 생성합니다.

서비스 정의 인스턴스를 생성합니다.

  • AMAZON- EMR - 옆의 +를 클릭합니다EMRFS.

다음 필드를 입력합니다.

서비스 이름(표시된 경우): 제안되는 값은 amazonemrspark입니다. EMR보안 구성을 생성할 때 필요하므로 이 서비스 이름을 기록해 두십시오.

표시 이름: 이 서비스에 대해 표시되는 이름. 제안된 값은 amazonemrspark입니다.

인증서의 일반 이름: 클라이언트 플러그인에서 관리 서버로 연결하는 데 사용되는 인증서 내 CN 필드입니다. 이 값은 플러그인용으로 만든 TLS 인증서의 CN 필드와 일치해야 합니다.

레인저 관리자는 EMRFS S3 서비스를 편집합니다.
참고

이 플러그인의 TLS 인증서는 Ranger Admin 서버의 신뢰 저장소에 등록되어 있어야 합니다. 자세한 내용은 TLS인증서 섹션을 참조하세요.

서비스가 생성되면 서비스 관리자에는 다음 이미지와 같이 "AMAZONEMR- EMRFS “가 포함됩니다.

레인저 관리자가 새 EMRFS S3 서비스를 보여주고 있습니다.

EMRFSS3 정책 생성

Service Manager의 정책 생성 페이지에서 새 정책을 생성하려면 다음 필드를 채웁니다.

정책 이름: 이 정책의 이름입니다.

정책 레이블: 이 정책에 적용할 수 있는 레이블입니다.

S3 리소스: 버킷과 선택적 접두사로 시작하는 리소스입니다. 모범 사례에 대한 자세한 내용은 EMRFSS3 정책 사용 노트 섹션을 참조하세요. Ranger Admin 서버의 리소스에는 s3://, s3a:// 또는 s3n://이 포함되어서는 안 됩니다.

EMRFSS3 서비스에 대한 생성 정책을 보여주는 레인저 관리자

권한을 부여할 사용자 및 그룹을 지정할 수 있습니다. 허용 조건 및 거부 조건에 대한 제외 항목을 지정할 수도 있습니다.

S3 정책에 대한 사용자/그룹 권한을 보여주는 레인저 관리자 EMRFS
참고

각 정책에는 최대 3개의 리소스가 허용됩니다. 클러스터에서 이 정책을 사용할 때 리소스를 3개 이상 추가하면 오류가 발생할 수 있습니다. EMR 정책을 3개 넘게 추가하면 정책 한도에 대한 알림이 표시됩니다.

EMRFSS3 정책 사용 노트

Apache Ranger 내에서 S3 정책을 생성할 때 알아두어야 할 몇 가지 사용 고려 사항이 있습니다.

여러 S3 객체에 대한 권한

재귀 정책과 와일드카드 표현식을 사용하여 공통 접두사가 있는 여러 S3 객체에 권한을 부여할 수 있습니다. 재귀 정책은 공통 접두사가 있는 모든 객체에 권한을 부여합니다. 와일드카드 표현식은 여러 접두사를 선택합니다. 이 두 방법을 함께 사용하면 다음 예제와 같이 여러 개의 공통 접두사가 있는 모든 객체에 권한을 부여합니다.

예 재귀 정책 사용

다음과 같이 구성된 S3 버킷의 모든 parquet 파일을 나열할 수 있는 권한을 원한다고 가정합니다.

s3://sales-reports/americas/ +- year=2000 | +- data-q1.parquet | +- data-q2.parquet +- year=2019 | +- data-q1.json | +- data-q2.json | +- data-q3.json | +- data-q4.json | +- year=2020 | +- data-q1.parquet | +- data-q2.parquet | +- data-q3.parquet | +- data-q4.parquet | +- annual-summary.parquet +- year=2021

먼저 s3://sales-reports/americas/year=2000 접두사의 parquet 파일을 고려합니다. 다음 두 가지 방법으로 모든 GetObject 사용자에게 권한을 부여할 수 있습니다.

비재귀 정책 사용: 한 가지 옵션은 두 개의 개별 비재귀 정책을 사용하는 것입니다. 하나는 디렉터리용이고 다른 하나는 파일용입니다.

첫 번째 정책은 s3://sales-reports/americas/year=2020 접두사에 권한을 부여합니다(후행 / 없음).

- S3 resource = "sales-reports/americas/year=2000" - permission = "GetObject" - user = "analyst"

두 번째 정책은 와일드카드 표현식을 사용하여 sales-reports/americas/year=2020/ 접두사가 있는 모든 파일에 권한을 부여합니다(후행 / 기록).

- S3 resource = "sales-reports/americas/year=2020/*" - permission = "GetObject" - user = "analyst"

재귀 정책 사용: 보다 편리한 대안은 단일 재귀 정책을 사용하고 접두사에 재귀 권한을 부여하는 것입니다.

- S3 resource = "sales-reports/americas/year=2020" - permission = "GetObject" - user = "analyst" - is recursive = "True"

지금까지는 s3://sales-reports/americas/year=2000 접두사의 parquet 파일만 포함되었습니다. 이제 다음과 같이 와일드카드 표현식을 도입하여 다른 s3://sales-reports/americas/year=2020 접두사의 parquet 파일을 동일한 재귀 정책에 포함할 수도 있습니다.

- S3 resource = "sales-reports/americas/year=20?0" - permission = "GetObject" - user = "analyst" - is recursive = "True"

정책 PutObject 및 DeleteObject 권한

파일에 대한 작성 정책 PutObject 및 파일에 대한 DeleteObject EMRFS 권한은 GetObject 권한과 달리 접두사에 부여된 추가 재귀 권한이 필요하기 때문에 각별한 주의가 필요합니다.

예 정책 및 권한 PutObject DeleteObject

예를 들어 파일을 삭제하려면 실제 파일에 대한 DeleteObject 권한만 annual-summary.parquet 필요한 것은 아닙니다.

- S3 resource = "sales-reports/americas/year=2020/annual-summary.parquet" - permission = "DeleteObject" - user = "analyst"

접두사에 재귀 GetObjectPutObject 권한을 부여하는 정책도 필요합니다.

마찬가지로 annual-summary.parquet 파일을 수정하려면 실제 파일에 대한 PutObject 권한만 필요한 것이 아닙니다.

- S3 resource = "sales-reports/americas/year=2020/annual-summary.parquet" - permission = "PutObject" - user = "analyst"

접두사에 재귀 GetObject 권한을 부여하는 정책도 필요합니다.

- S3 resource = "sales-reports/americas/year=2020" - permission = "GetObject" - user = "analyst" - is recursive = "True"

정책의 와일드카드

와일드카드를 지정할 수 있는 영역은 두 가지입니다. S3 리소스를 지정할 때는 '*'와 '?'를 사용할 수 있습니다. '*'는 S3 경로와의 일치 기능을 제공하고 접두사 뒤의 모든 항목을 일치시킵니다. 예를 들어 다음 정책과 같습니다.

S3 resource = "sales-reports/americas/*"

이는 다음 S3 경로와 일치합니다.

sales-reports/americas/year=2020/ sales-reports/americas/year=2019/ sales-reports/americas/year=2019/month=12/day=1/afile.parquet sales-reports/americas/year=2018/month=6/day=1/afile.parquet sales-reports/americas/year=2017/afile.parquet

'?' 와일드카드 문자는 모든 단일 문자와 일치합니다. 예를 들어 다음 정책과 같습니다.

S3 resource = "sales-reports/americas/year=201?/"

이는 다음 S3 경로와 일치합니다.

sales-reports/americas/year=2019/ sales-reports/americas/year=2018/ sales-reports/americas/year=2017/

사용자의 와일드카드

사용자에게 액세스 권한을 제공하기 위해 사용자를 할당할 때 두 가지 기본 제공 와일드카드가 있습니다. 첫 번째는 모든 사용자에게 액세스를 제공하는 “{USER}” 와일드카드입니다. 두 번째 와일드카드는 “{OWNER}”입니다. 이 와일드카드는 특정 객체의 소유자에게 또는 직접 액세스를 제공합니다. 그러나 “{USER}” 와일드카드는 현재 지원되지 않습니다.

제한 사항

EMRFSS3 플러그인의 현재 제한 사항은 다음과 같습니다.

  • Apache Ranger 정책에는 최대 세 개의 정책이 있을 수 있습니다.

  • S3에 대한 액세스는 Hadoop 관련 애플리케이션을 통해 이루어져야 EMRFS 하며 Hadoop 관련 애플리케이션과 함께 사용할 수 있습니다. 다음은 지원되지 않습니다.

    - Boto3 라이브러리

    - 및 AWS SDK AWK CLI

    - S3A 오픈 소스 커넥터

  • Apache Ranger 거부 정책은 지원되지 않습니다.

  • KMS암호화가 있는 키를 사용하는 CSE S3에서의 작업은 현재 지원되지 않습니다.

  • 교차 리전 지원은 지원되지 않습니다.

  • Apache Ranger의 보안 영역 기능은 지원되지 않습니다. 보안 영역 기능을 사용하여 정의된 액세스 제어 제한은 Amazon EMR 클러스터에는 적용되지 않습니다.

  • 하둡은 항상 인스턴스 프로필에 액세스하므로 하둡 사용자는 감사 이벤트를 생성하지 않습니다. EC2

  • Amazon EMR 일관성 보기를 비활성화하는 것이 좋습니다. S3는 매우 일관되므로 더 이상 필요하지 않습니다. 자세한 내용은 Amazon S3 강력한 일관성을 참조하세요.

  • EMRFSS3 플러그인은 수많은 STS 호출을 수행합니다. 개발 계정에서 로드 테스트를 수행하고 STS 호출량을 모니터링하는 것이 좋습니다. 또한 AssumeRole 서비스 한도 상향 STS 조정을 요청하는 것이 좋습니다.

  • Ranger 관리 서버는 자동 완성을 지원하지 않습니다.