추가 주제 - Amazon DynamoDB

추가 주제

다음은 Hive가 DynamoDB에 액세스하기 위해 사용하는 애플리케이션을 조정하기 위해 추가로 사용할 수 있는 몇 가지 방법입니다.

재시도 기간

기본적으로 Hive는 DynamoDB에서 2분 이내에 결과가 반환되지 않으면 Hadoop 작업을 재실행합니다. dynamodb.retry.duration 파라미터를 수정하여 이 간격을 조정할 수 있습니다.

SET dynamodb.retry.duration=2;

이 값은 0이 아닌 정수여야 하며, 재시도 주기를 분 단위로 지정합니다. dynamodb.retry.duration 기본값은 2(분)입니다.

병렬 데이터 요청

한 명 이상의 사용자 또는 하나 이상의 애플리케이션에서 단일 테이블로 데이터 요청이 다수 이루어지면 읽기 할당된 처리량이 한 번에 소비되어 성능이 느려질 수 있습니다.

프로세스 기간

DynamoDB의 데이터 일관성은 각 노드의 읽기 및 쓰기 작업 순서에 따라 달라집니다. Hive 쿼리가 진행 중일 때는 다른 애플리케이션이 새로운 데이터를 DynamoDB 테이블에 로드하거나 기존 데이터를 변경 또는 삭제하기도 합니다. 이 경우 쿼리 실행 중 데이터 변경 사항은 Hive 쿼리 결과에 반영되지 않습니다.

요청 시간

DynamoDB 테이블에 대한 수요가 낮은 시간에 Hive 쿼리가 DynamoDB 테이블에 액세스하도록 일정을 조정하면 성능이 향상됩니다. 예를 들어 애플리케이션 사용자 대부분이 샌프란시스코에 거주한다면 대다수가 잠드는 시간인 새벽 4시(PST)에 DynamoDB 데이터베이스의 레코드 업데이트 없이 1일 데이터를 내보내는 것도 좋은 방법입니다.