성능 튜닝
DynamoDB 테이블로 매핑되는 Hive 외부 테이블을 생성할 때 DynamoDB에서 읽기 또는 쓰기 용량이 소비되지 않습니다. 하지만 Hive 테이블에 대한 읽기 및 쓰기 작업(예: INSERT
또는 SELECT
)은 기본 DynamoDB 테이블에 대한 읽기 및 쓰기 작업으로 바로 변환됩니다.
Amazon EMR의 Apache Hive는 DynamoDB 테이블에 대한 I/O 로드를 밸런싱하는 자체 로직을 구현하여 테이블의 프로비저닝된 처리량을 초과할 가능성을 최소화합니다. 각 Hive 쿼리의 끝에서 Amazon EMR은 프로비저닝된 처리량이 초과된 횟수를 포함하여 런타임 지표를 .반환합니다. 이 정보를 DynamoDB 테이블에 대한 CloudWatch 지표와 함께 사용하여 후속 요청에서 성능을 개선할 수 있습니다.
Amazon EMR 콘솔은 클러스터에 대한 기본 모니터링 도구를 제공합니다. 자세한 내용은 Amazon EMR 관리 가이드의 클러스터 보기 및 모니터링 단원을 참조하세요.
또한 Hue, Ganglia, Hadoop 웹 인터페이스와 같은 웹 기반 도구를 사용하여 클러스터 및 Hadoop 작업을 모니터링할 수도 있습니다. 자세한 내용은 Amazon EMR 관리 가이드의 Amazon EMR 클러스터에 호스팅된 웹 인터페이스 보기 단원을 참조하세요.
이 단원에서는 외부 DynamoDB 테이블에서 Hive 작업 성능을 조정하기 위해 취할 수 있는 단계를 설명합니다.