리스 테이블 워커 지표 테이블 조정자 상태 테이블 KCL에서 생성한 메타데이터 테이블의 DynamoDB 용량 모드 KCL이 워커에게 리스를 할당하고 로드의 균형을 조정하는 방법

KCL의 DynamoDB 메타데이터 테이블 및 로드 밸런싱

KCL은 워커의 리스 및 CPU 사용률 지표와 같은 메타데이터를 관리합니다. KCL은 DynamoDB 테이블을 사용하여 이러한 메타데이터를 추적합니다. 각 Amazon Kinesis Data Streams 애플리케이션에 대해 KCL 3.x는 기본적으로 리스 테이블, 작업자 지표 테이블 및 조정자 상태 테이블이라는 3개의 DynamoDB 테이블을 생성하여 메타데이터를 관리합니다. KCL 3.5부터는 단일 테이블 형식을 사용하여 모든 메타데이터를 임대 테이블에 통합할 수 있습니다. 자세한 내용은 KCL용 단일 테이블 형식 단원을 참조하십시오.

참고

KCL 3.x에는 워커 지표와 조정자 상태 테이블이라는 두 가지 새로운 메타데이터 테이블이 도입되었습니다. KCL 3.5부터는 단일 테이블 형식을 사용하여 이러한 테이블을 임대 테이블로 통합할 수 있습니다.

중요

DynamoDB에서 메타데이터 테이블을 생성하고 관리하려면 KCL 애플리케이션에 적절한 권한을 추가해야 합니다. 자세한 내용은 KCL 소비자 애플리케이션에 필요한 IAM 권한을 참조하세요.

KCL 소비자 애플리케이션은 이 세 가지 DynamoDB 메타데이터 테이블을 자동으로 제거하지 않습니다. 불필요한 비용을 방지하기 위해 소비자 애플리케이션을 폐기할 때 KCL 소비자 애플리케이션에서 생성한 이러한 DynamoDB 메타데이터 테이블을 제거해야 합니다.

리스 테이블

리스 테이블은 KCL 소비자 애플리케이션의 스케줄러가 리스하고 처리 중인 샤드를 추적하는 데 사용되는 고유한 Amazon DynamoDB 테이블입니다. 각 KCL 소비자 애플리케이션은 자체 리스 테이블을 생성합니다. KCL은 기본적으로 소비자 애플리케이션의 이름을 리스 테이블 이름으로 사용합니다. 구성을 사용하여 사용자 지정 테이블 이름을 설정할 수 있습니다. 또한 KCL은 효율적인 리스 검색을 위해 파티션 키 leaseOwner를 사용하여 리스 테이블에 글로벌 보조 인덱스를 생성합니다. 글로벌 보조 인덱스는 기본 리스 테이블의 leaseKey 속성을 미러링합니다. 애플리케이션이 시작될 때 KCL 소비자 애플리케이션에 대한 리스 테이블이 없는 경우 워커 중 하나가 이 애플리케이션에 대한 리스 테이블을 생성합니다.

소비자 애플리케이션이 실행되는 동안 Amazon DynamoDB 콘솔을 사용하여 리스 테이블을 볼 수 있습니다.

중요

각 KCL 소비자 애플리케이션 이름은 리스 테이블 이름의 중복을 방지하기 위해 고유해야 합니다.
Kinesis Data Streams 자체와 관련된 비용 외에도 DynamoDB 테이블 관련 비용이 계정에 청구됩니다.

리스 테이블의 각 행은 소비자 애플리케이션의 스케줄러가 처리 중인 샤드를 나타냅니다. 주요 필드는 다음과 같습니다.

leaseKey: 단일 스트림 처리의 경우 샤드 ID입니다. KCL을 사용한 멀티스트림 처리의 경우 account-id:StreamName:streamCreationTimestamp:ShardId로 구성됩니다. leaseKey는 리스 테이블의 파티션 키입니다. 멀티스트림 처리에 대한 자세한 내용은 KCL을 사용한 멀티스트림 처리 섹션을 참조하세요.
checkpoint: 샤드의 가장 최근 체크포인트 시퀀스 번호입니다.
checkpointSubSequenceNumber: Kinesis Producer Library의 집계 기능을 사용할 때 이는 Kinesis 레코드 내의 개별 사용자 레코드를 추적하는 체크포인트에 대한 확장입니다.
leaseCounter: 워커가 현재 리스를 활발하게 처리하고 있는지 확인하는 데 사용됩니다. 리스 소유권이 다른 워커에게 이전되면 leaseCounter가 증가합니다.
leaseOwner: 현재 이 리스를 보유하는 워커입니다.
ownerSwitchesSinceCheckpoint: 마지막 체크포인트 이후 이 리스가 워커를 변경한 횟수입니다.
parentShardId: 이 샤드의 상위 ID입니다. 하위 샤드에서 처리를 시작하기 전에 상위 샤드가 완전히 처리되어 올바른 레코드 처리 순서를 유지하는지 확인합니다.
childShardId: 이 샤드의 분할 또는 병합으로 인한 하위 샤드 ID 목록입니다. 샤드 계보를 추적하고 리샤딩 작업 중에 처리 순서를 관리하는 데 사용됩니다.
startingHashKey: 이 샤드에 대한 해시 키 범위의 하한입니다.
endingHashKey: 이 샤드에 대한 해시 키 범위의 상한입니다.

KCL에서 멀티스트림 처리를 사용하는 경우 리스 테이블에 다음 두 개의 필드가 추가로 표시됩니다. 자세한 내용은 KCL을 사용한 멀티스트림 처리 단원을 참조하십시오.

shardID: 샤드의 ID입니다.
streamName: account-id:StreamName:streamCreationTimestamp 형식의 데이터 스트림 식별자입니다.

워커 지표 테이블

워커 지표 테이블은 각 KCL 애플리케이션의 고유한 Amazon DynamoDB 테이블이며 각 워커의 CPU 사용률 지표를 기록하는 데 사용됩니다. 이러한 지표는 KCL에서 효율적인 리스 할당을 수행하여 워커 간에 리소스 사용률을 균형 있게 유지하는 데 사용됩니다. KCL은 기본적으로 워커 지표 테이블의 이름에 KCLApplicationName-WorkerMetricStats를 사용합니다.

조정자 상태 테이블

조정자 상태 테이블은 각 KCL 애플리케이션의 고유한 Amazon DynamoDB 테이블이며 워커의 내부 상태 정보를 저장하는 데 사용됩니다. 예를 들어 조정자 상태 테이블은 리더 선택에 관한 데이터 또는 KCL 2.x에서 KCL 3.x로의 인플레이스 마이그레이션과 관련된 메타데이터를 저장합니다. KCL은 기본적으로 조정자 상태 테이블의 이름에 KCLApplicationName-CoordinatorState를 사용합니다.

KCL에서 생성한 메타데이터 테이블의 DynamoDB 용량 모드

기본적으로 Kinesis Client Library(KCL)는 온디맨드 용량 모드를 사용하여 리스 테이블, 워커 지표 테이블, 조정자 상태 테이블과 같은 DynamoDB 메타데이터 테이블을 생성합니다. 이 모드는 트래픽을 수용하도록 읽기 및 쓰기 용량을 자동으로 조정하며 용량 계획이 필요하지 않습니다. 이러한 메타데이터 테이블을 더 효율적으로 운영하려면 용량 모드를 온디맨드 모드로 유지하는 것이 좋습니다.

리스 테이블을 프로비저닝된 용량 모드로 전환하려면 다음 모범 사례를 따르세요.

사용 패턴 분석:
- Amazon CloudWatch 지표를 사용하여 애플리케이션의 읽기 및 쓰기 패턴과 사용량(RCU, WCU)을 모니터링합니다.
- 최대 및 평균 처리량 요구 사항을 이해합니다.
필요한 용량 계산:
- 분석 내용을 기반으로 읽기 용량 단위(RCU)와 쓰기 용량 단위(WCU)를 추정합니다.
- 샤드 수, 체크포인트 빈도, 워커 수 등의 요소를 고려합니다.
오토 스케일링 구현:
- DynamoDB 오토 스케일링을 사용하여 프로비저닝된 용량을 자동으로 조정하고 적절한 최소 및 최대 용량 제한을 설정합니다.
- DynamoDB 오토 스케일링은 KCL 메타데이터 테이블이 용량 제한에 도달하여 스로틀링을 일으키지 않도록 방지하는 데 도움이 됩니다.
정기적인 모니터링 및 최적화:
- ThrottledRequests에 대한 CloudWatch 지표를 지속적으로 모니터링합니다.
- 시간이 지나면서 워크로드의 변화에 따라 용량을 조정합니다.

KCL 소비자 애플리케이션에 대한 메타데이터 DynamoDB 테이블에 ProvisionedThroughputExceededException이 발생하는 경우 DynamoDB 테이블의 프로비저닝된 처리량 용량을 늘려야 합니다. 소비자 애플리케이션을 처음 생성할 때 특정 수준의 읽기 용량 단위(RCU) 및 쓰기 용량 단위(WCU)를 설정하는 경우 사용량이 증가함에 따라 부족해질 수 있습니다. 예를 들어 KCL 소비자 애플리케이션이 자주 체크포인트를 수행하거나 샤드가 많은 스트림에서 작동하는 경우 더 많은 용량 단위가 필요할 수 있습니다. DynamoDB에서 프로비저닝된 처리량에 대한 자세한 내용은 Amazon DynamoDB 개발자 안내서의 DynamoDB 처리량 용량 및 테이블 업데이트를 참조하세요.

KCL이 워커에게 리스를 할당하고 로드의 균형을 조정하는 방법

KCL은 워커를 실행하는 컴퓨팅 호스트에서 CPU 사용률 지표를 지속적으로 수집하고 모니터링하여 워크로드의 균등한 분산을 보장합니다. 이러한 CPU 사용률 지표는 DynamoDB의 워커 지표 테이블에 저장됩니다. KCL에서 일부 워커가 다른 워커에 비해 CPU 사용률이 더 높음을 감지하면 워커 간에 리스를 재할당하여 사용량이 높은 워커의 로드를 줄입니다. 목표는 소비자 애플리케이션 플릿에서 워크로드의 균형을 더 균등하게 조정하여 단일 워커의 과부하를 방지하는 것입니다. KCL은 소비자 애플리케이션 플릿 전체에 CPU 사용률을 분산하므로 적절한 수의 워커를 선택하여 소비자 애플리케이션 플릿 용량을 적절하게 조정하거나 오토 스케일링을 사용하여 컴퓨팅 용량을 효율적으로 관리하여 비용을 절감할 수 있습니다.

중요

KCL은 특정 사전 조건이 충족되는 경우에만 워커로부터 CPU 사용률 지표를 수집할 수 있습니다. 자세한 내용은 사전 조건을 참조하세요. KCL이 워커로부터 CPU 사용률 지표를 수집할 수 없는 경우 KCL은 다시 워커당 처리량을 사용하여 리스를 할당하고 플릿의 워커 간에 로드의 균형을 조정합니다. KCL은 특정 시점에 각 워커가 수신하는 처리량을 모니터링하고 리스를 재할당하여 각 워커가 할당된 리스에서 유사한 총 처리량 수준을 얻을 수 있도록 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

KCL 개념

KCL을 사용하여 소비자 개발