사용자 위장을 활성화하여 Spark 사용자 및 작업 활동 모니터링
EMR Notebooks에서는 Spark 클러스터에서 사용자 위장을 구성할 수 있습니다. 이 기능은 노트북 편집기 안에서 시작된 작업 활동을 추적하는 데 도움이 됩니다. 또한 EMR Notebooks에는 노트북 편집기에서 쿼리 출력과 함께 Spark 작업 세부 정보를 볼 수 있는 기본 제공 Jupyter Notebook 위젯이 있습니다. 위젯은 기본적으로 사용 가능하며 특별한 구성이 필요 없습니다. 하지만 기록 서버를 보려면 프라이머리 노드에서 호스팅되는 Amazon EMR 웹 인터페이스를 보도록 클라이언트를 구성해야 합니다.
참고
EMR Notebooks는 콘솔에서 EMR Studio Workspace로 사용 가능합니다. 콘솔의 워크스페이스 생성 버튼을 사용하면 새 노트북을 생성할 수 있습니다. EMR Notebooks 사용자는 Workspace에 액세스하거나 Workspace를 생성하려면 추가 IAM 역할 권한이 필요합니다. 자세한 내용은 Amazon EMR Notebooks가 콘솔에서 Amazon EMR Studio 워크스페이스 역할 및 Amazon EMR 콘솔을 참조하세요.
Spark 사용자 위장 설정
기본적으로 노트북 편집기를 사용하여 사용자가 제출하는 Spark 작업은 불분명한 livy
사용자 자격 증명에서 시작되는 것처럼 보입니다. 코드를 대신 실행한 사용자 자격 증명과 이 작업이 연결되도록 클러스터의 사용자 위장을 구성할 수 있습니다. 노트북에서 코드를 실행하는 사용자 자격 증명마다 프라이머리 노드의 HDFS 사용자 디렉터리가 생성됩니다. 예를 들어 NbUser1
사용자가 노트북 편집기에서 코드를 실행하면 프라이머리 노드에 연결하여 hadoop fs -ls /user
가 /user/user_NbUser1
디렉터리를 표시하는 것을 볼 수 있습니다.
core-site
및 livy-conf
구성 분류에서 속성을 설정하여 이 기능을 활성화합니다. Amazon EMR에서 노트북과 함께 클러스터를 생성하도록 할 때는 이 기능이 기본적으로 사용 가능하지 않습니다. 애플리케이션을 사용자 지정하기 위해 구성 분류를 사용하는 방법에 대한 자세한 내용은 Amazon EMR 릴리스 안내서에서 애플리케이션 구성을 참조하세요.
다음 구성 분류와 값을 사용하여 EMR Notebooks의 사용자 위장을 활성화합니다.
[ { "Classification": "core-site", "Properties": { "hadoop.proxyuser.livy.groups": "*", "hadoop.proxyuser.livy.hosts": "*" } }, { "Classification": "livy-conf", "Properties": { "livy.impersonation.enabled": "true" } } ]
Spark 작업 모니터링 위젯 사용
EMR 클러스터에 대해 Spark 작업을 실행하는 코드를 노트북 편집기에서 실행할 때 Spark 작업 모니터링을 위한 Jupyter Notebook 위젯이 출력에 포함됩니다. 위젯은 작업 세부 정보 및 Spark 기록 서버 페이지와 Hadoop 작업 기록 페이지로 연결되는 유용한 링크와 실패한 작업에 대한 Amazon S3의 작업 로그로 연결되는 편리한 링크를 제공합니다.
클러스터 프라이머리 노드의 기록 서버 페이지를 보려면 SSH 클라이언트와 프록시를 적절하게 설정해야 합니다. 자세한 내용은 Amazon EMR 클러스터에 호스팅된 웹 인터페이스 보기 단원을 참조하십시오. Amazon S3에 있는 로그를 보려면 클러스터 로깅이 활성화되어 있어야 합니다. 이 설정은 새 클러스터의 기본값입니다. 자세한 내용은 Amazon S3에 아카이브된 로그 파일 보기 단원을 참조하십시오.
다음은 Spark 작업 모니터링의 예제입니다.