기계 학습 개요 - Amazon Redshift

기계 학습 개요

Amazon Redshift를 사용하면 기계 학습 기능을 활용하여 데이터에서 중요한 인사이트를 확보할 수 있습니다. 이 기계 학습(ML) 개요에서는 ML 모델 훈련 및 배포용 데이터를 탐색, 시각화 및 준비하는 방법을 보여 줍니다. 다음 섹션에서는 Amazon Redshift ML을 사용하여 기계 학습으로 데이터의 잠재력을 활용하는 프로세스를 설명합니다.

Amazon Redshift 기계 학습을 사용하면 SQL 문으로 기계 학습 모델을 훈련하고 예측을 위해 SQL 쿼리에서 해당 기계 학습 모델을 호출할 수 있습니다.

Amazon Redshift 기계 학습 사용 방법에 대해 알아보려면 다음 동영상을 시청하세요.

Redshift 클러스터 또는 서버리스 작업 그룹 설정을 위한 전제 조건, 권한 및 Amazon Redshift ML 사용에 대한 소유권에 대한 자세한 내용은 다음 섹션을 참조하시기 바랍니다. 이 섹션에서는 Amazon Redshift 기계 학습에서 간단한 훈련 및 예측이 작동하는 방식도 설명합니다.

기계 학습으로 문제를 해결하는 방법

기계 학습 모델은 훈련 데이터에서 패턴을 찾아 새 데이터에 적용하여 예측을 생성합니다. 기계 학습에서는 데이터를 가장 잘 설명하는 패턴을 학습하여 이러한 모델을 훈련합니다. 그런 다음 모델을 사용하여 새 데이터에 대한 예측(추론이라고도 함)을 수행합니다. 기계 학습은 일반적으로 파라미터를 변경하고 훈련 데이터를 개선하여 예측의 정확도를 계속해서 개선할 수 있는 반복적인 프로세스입니다. 데이터가 변경되면 새 데이터 집합으로 새 모델을 다시 훈련합니다.

다양한 비즈니스 목표를 달성하기 위한 여러 가지 기본 기계 학습 접근 방식이 있습니다.

Amazon Redshift 기계 학습의 지도 학습

Amazon Redshift는 고급 엔터프라이즈 분석에 대한 가장 일반적인 접근 방식인 지도 학습을 지원합니다. 지도 학습은 설정된 데이터 집합이 있고 특정 입력 데이터가 다양한 비즈니스 결과를 예측하는 방법을 이해하고 있는 경우 선호되는 기계 학습 방식입니다. 이러한 결과는 레이블이라고도 합니다. 특히 데이터 집합은 특성(입력)과 타겟(출력)으로 구성된 속성이 있는 테이블입니다. 예를 들어 과거 및 현재 고객의 연령 및 우편 번호를 제공하는 테이블이 있다고 가정합니다. 현재 고객에 대해 true이고 멤버십을 일시 중단한 고객에 대해 false인 "활성" 필드도 있다고 가정합니다. 지도 기계 학습의 목표는 대상이 "False"인 고객으로 대표되는 고객 이탈로 이어지는 연령 및 우편 번호 패턴을 파악하는 것입니다. 이 모델을 사용하여 멤버십 일시 중단과 같이 이탈할 가능성이 있는 고객을 예측하고 잠재적으로 유지 인센티브를 제공할 수 있습니다.

Amazon Redshift는 회귀, 이진 분류 및 다중 클래스 분류를 포함하는 지도 학습을 지원합니다. 회귀는 고객의 총 지출과 같은 연속 값을 예측하는 문제를 나타냅니다. 이진 분류는 고객 이탈 여부를 예측하는 것과 같이 두 가지 결과 중 하나를 예측하는 문제를 나타냅니다. 다중 클래스 분류는 고객이 관심을 가질 만한 항목을 예측하는 것과 같이 많은 결과 중 하나를 예측하는 문제를 나타냅니다. 데이터 분석가와 데이터 사이언티스트는 이를 사용하여 예측, 개인화 또는 고객 이탈 예측에 이르는 문제를 해결할 수 있는 지도 학습을 수행할 수 있습니다. 또한 매출 종료 예측, 수익 예측, 사기 탐지 및 고객 평생 가치 예측과 같은 문제에서 지도 학습을 사용할 수 있습니다.

Amazon Redshift 기계 학습의 비지도 학습

비지도 학습은 기계 학습 알고리즘을 사용하여 레이블이 지정되지 않은 훈련 데이터를 분석하고 그룹화합니다. 알고리즘은 숨겨진 패턴 또는 그룹화를 검색합니다. 목표는 데이터의 기본 구조 또는 분포를 모델링하여 데이터에 대해 자세히 알아보는 것입니다.

비지도 학습 문제를 해결하기 위해 Amazon Redshift는 K-Means 클러스터링 알고리즘을 지원합니다. 이 알고리즘은 데이터에서 그룹을 검색하려는 클러스터링 문제를 해결합니다. K-Means 알고리즘은 데이터 내에서 개별 그룹 찾기를 시도합니다. 분류되지 않은 데이터는 유사점과 차이점에 따라 그룹화되고 분할됩니다. 그룹화를 통해 K-Means 알고리즘은 최상의 중심을 반복적으로 결정하고 각 구성원을 가장 가까운 중심에 할당합니다. 같은 중심에 가장 가까운 멤버는 같은 그룹에 속합니다. 그룹의 멤버는 같은 그룹의 다른 멤버와 최대한 유사하고 다른 그룹의 멤버와 최대한 다릅니다. 예를 들어, K-Means 클러스터링 알고리즘은 전염병의 영향을 받는 도시를 분류하거나 소비재의 인기를 기반으로 도시를 분류하는 데 사용할 수 있습니다.

K-Means 알고리즘을 사용할 때 데이터에서 찾을 클러스터 수를 지정하는 입력 k를 지정합니다. 이 알고리즘의 출력은 k 중심 집합입니다. 각 데이터 포인트는 가장 가까운 k 클러스터 중 하나에 속합니다. 각 클러스터는 중심으로 설명됩니다. 클러스터의 다차원 평균으로 중심을 생각할 수 있습니다. K-Means 알고리즘은 거리를 비교하여 클러스터가 서로 얼마나 다른지 확인합니다. 거리가 멀수록 일반적으로 클러스터 간의 차이가 커집니다.

데이터 사전 처리는 모델의 특성이 동일한 규모로 유지되고 신뢰할 수 있는 결과를 생성하도록 보장하기 때문에 K-Means에 중요합니다. Amazon Redshift는 StandardScaler, MinMax 및 NumericPassthrough와 같은 CREATE MODEL 문에 대한 일부 K-Means 프로프로세서를 지원합니다. K-means에 대한 사전 처리를 적용하지 않으려면 변환기로 명시적으로 NumericPassthrough를 선택합니다. K-Means 파라미터에 대한 자세한 내용은 K-MEANS 파라미터를 사용한 CREATE MODEL 섹션을 참조하세요.

K-Means 클러스터링을 사용하여 비지도 학습을 수행하는 방법에 대해 알아보려면 다음 동영상을 시청하세요.

Amazon Redshift 기계 학습 용어 및 개념

다음 용어는 몇 가지 Amazon Redshift 기계 학습 개념을 설명하는 데 사용됩니다.

  • Amazon Redshift의 기계 학습은 하나의 SQL 명령으로 모델을 훈련합니다. Amazon Redshift 기계 학습과 Amazon SageMaker는 모든 데이터 변환, 권한, 리소스 사용 및 적절한 모델 검색을 관리합니다.

  • 훈련은 Amazon Redshift가 지정된 데이터 하위 집합을 모델로 실행하여 기계 학습 모델을 생성하는 단계입니다. Amazon Redshift는 자동으로 Amazon SageMaker에서 훈련 작업을 시작하고 모델을 생성합니다.

  • 추론이라고도 하는 예측은 Amazon Redshift SQL 쿼리에서 모델을 사용하여 결과를 예측하는 것입니다. 추론 시 Amazon Redshift는 모델 기반 예측 함수를 더 큰 쿼리의 일부로 사용하여 예측을 생성합니다. 예측은 Redshift 클러스터에서 로컬로 계산되므로 처리량이 높고 대기 시간이 짧으며 추가 비용이 없습니다.

  • 기존 보유 모델 사용(BYOM)으로 Amazon Redshift에서 로컬로 데이터베이스 내 추론을 위해 Amazon SageMaker와 함께 Amazon Redshift 외부에서 훈련된 모델을 사용할 수 있습니다. Amazon Redshift 기계 학습은 로컬 추론에서 BYOM 사용을 지원합니다.

  • 로컬 추론은 모델이 Amazon SageMaker에서 사전 훈련되고 Amazon SageMaker Neo에서 컴파일되고 Amazon Redshift 기계 학습에서 현지화될 때 사용됩니다. 로컬 추론이 지원되는 모델을 Amazon Redshift로 가져오려면 CREATE MODEL 명령을 사용합니다. Amazon Redshift는 Amazon SageMaker Neo를 호출하여 사전 훈련된 SageMaker 모델을 가져옵니다. 여기서 모델을 컴파일하고 컴파일된 모델을 Amazon Redshift로 가져옵니다. 더 빠른 속도와 더 낮은 비용을 위해 로컬 추론을 사용합니다.

  • 원격 추론은 Amazon Redshift가 SageMaker에 배포된 모델 엔드포인트를 호출할 때 사용됩니다. 원격 추론은 Amazon SageMaker에서 구축 및 배포한 TensorFlow 모델과 같은 모든 유형의 사용자 지정 정의 및 딥 러닝 모델을 호출할 수 있는 유연성을 제공합니다.

다음과 같은 사항도 중요합니다.

  • Amazon SageMaker는 완전관리형 기계 학습 서비스입니다. Amazon SageMaker를 통해 데이터 사이언티스트와 개발자는 모델을 쉽게 구축 및 훈련하고 프로덕션 지원 호스팅 환경에 직접 배포할 수 있습니다. Amazon SageMaker에 대한 자세한 내용은 Amazon SageMaker Developer GuideWhat is Amazon SageMaker 섹션을 참조하세요.

  • Amazon SageMaker Autopilot는 데이터를 기반으로 분류 또는 회귀에 가장 적합한 기계 학습 모델을 자동으로 훈련하고 조정하는 기능 집합입니다. 완전한 제어와 가시성을 유지합니다. Amazon SageMaker Autopilot은 테이블형 입력 데이터를 지원합니다. Amazon SageMaker Autopilot은 자동 데이터 정리 및 사전 처리, 선형 회귀를 위한 자동 알고리즘 선택, 이진 분류 및 다중 클래스 분류를 제공합니다. 또한 자동 하이퍼파라미터 최적화(HPO), 분산 교육, 자동 인스턴스 및 클러스터 크기 선택을 지원합니다. Amazon SageMaker Autopilot에 대한 자세한 내용은 Amazon SageMaker Developer GuideAutomate model development with Amazon SageMaker Autopilot 섹션을 참조하세요.

  • Amazon Bedrock은 완전관리형 서비스로, 생성형 AI 애플리케이션을 구축하는 데 필요한 광범위한 여러 기능과 함께 단일 API를 통해 AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI 및 Amazon과 같은 선도적인 AI 회사의 고성능 파운데이션 모델(FM)을 제공합니다.