Amazon EMR Notebook 개요 - Amazon EMR

Amazon EMR Notebook 개요

참고

EMR Notebooks는 콘솔에서 EMR Studio Workspace로 사용 가능합니다. 콘솔의 워크스페이스 생성 버튼을 사용하면 새 노트북을 생성할 수 있습니다. EMR Notebooks 사용자는 Workspace에 액세스하거나 Workspace를 생성하려면 추가 IAM 역할 권한이 필요합니다. 자세한 내용은 Amazon EMR Notebooks가 콘솔에서 Amazon EMR Studio 워크스페이스 역할Amazon EMR 콘솔을 참조하세요.

Apache Spark를 실행하는 Amazon EMR 클러스터와 함께 Amazon EMR Notebooks를 사용하여 Amazon EMR 콘솔 내에서 Jupyter Notebook 및 JupyterLab 인터페이스를 생성하고 열 수 있습니다. EMR 노트북은 쿼리와 코드를 실행하는 데 사용할 수 있는 '서버리스' 노트북입니다. 기존 노트북과 달리 EMR 노트북의 콘텐츠(노트북 셀 내 방정식, 쿼리, 모델, 코드, 설명 텍스트)는 클라이언트에서 실행됩니다. 명령은 EMR 클러스터에서 커널을 사용하여 실행됩니다. 노트북 콘텐츠는 내구성과 유연한 재사용을 위해 클러스터 데이터와 별도로 Amazon S3에 저장됩니다.

클러스터를 시작하고, 분석을 위해 EMR 노트북을 연결한 다음, 클러스터를 종료할 수 있습니다. 실행 중인 한 클러스터에 연결된 노트북을 닫고 다른 클러스터로 전환할 수도 있습니다. 여러 사용자가 동일한 클러스터에 노트북을 동시에 연결하고 Amazon S3의 노트북 파일을 서로 공유할 수 있습니다. 이러한 기능을 사용하면 온디맨드로 클러스터를 실행하여 비용을 절감할 수 있으며 다양한 클러스터와 데이터 세트에 맞게 노트북을 재구성하는 데 소요되는 시간을 단축할 수 있습니다.

또한 Amazon EMR 콘솔과 상호 작용할 필요 없이 Amazon EMR API를 사용하여 프로그래밍 방식으로 EMR 노트북을 실행할 수도 있습니다('헤드리스 실행'). EMR 노트북에 파라미터 태그가 있는 셀을 포함해야 합니다. 이 셀을 사용하면 스크립트가 새 입력 값을 노트북에 전달할 수 있습니다. 파라미터화된 노트북은 다양한 입력 값 세트와 함께 재사용할 수 있습니다. 새 입력 값으로 편집하고 실행하기 위해 동일한 노트북을 복사할 필요가 없습니다. Amazon EMR은 파라미터화된 노트북을 실행할 때마다 S3에 출력 노트북을 생성하고 저장합니다. EMR 노트북 API 코드 샘플은 EMR Notebooks에 대한 프로그래밍 명령 샘플 섹션을 참조하세요.

중요

EMR Notebooks 기능은 Amazon EMR 릴리스 5.18.0 이상을 사용하는 클러스터를 지원합니다. 최신 버전의 Amazon EMR 또는 최소 5.30.0, 5.32.0 또는 6.2.0을 사용하는 클러스터에서 EMR Notebooks를 사용하는 것이 좋습니다. 이 릴리스에서 Jupyter 커널은 Jupyter 인스턴스에서 실행되는 대신, 연결된 클러스터에서 실행됩니다. 이를 통해 성능을 개선하는 데 도움이 되며 커널과 라이브러리를 사용자 지정하는 기능을 향상합니다. 자세한 내용은 클러스터 릴리스 버전별 기능 차이점 단원을 참조하십시오.

Amazon S3 스토리지와 Amazon EMR 클러스터의 해당 요금이 적용됩니다.