

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Personalize 데이터세트에서 데이터의 품질 및 양 분석
<a name="analyzing-data"></a>

항목 상호 작용, 사용자 또는 항목 데이터 세트로 데이터를 가져온 후 Amazon Personalize 콘솔을 사용하여 데이터를 분석할 수 있습니다. 데이터 인사이트와 열 및 행 통계를 통해 데이터에 대해 학습할 수 있습니다. 또한 데이터를 개선하기 위해 어떤 조치를 취할 수 있는지 학습할 수 있습니다. 이러한 조치는 모델 교육 요구 사항과 같은 Personalize 리소스 요구 사항을 충족하는 데 도움을 줄 수 있거나 추천을 개선할 수 있습니다.

**중요**  
Amazon Personalize 콘솔을 사용하여 *작업 상호 작용* 또는 *작업* 데이터 세트의 데이터를 분석할 수 없습니다.

 권장 변경을 실시한 후에는 데이터를 다시 가져와서 문제가 해결되었는지 또는 데이터세트 통계가 개선되었는지 확인할 수 있습니다. 데이터 업데이트에 대한 자세한 내용은 [학습 후 데이 세트의 데이터 업데이트](updating-datasets.md)섹션을 참조하세요.

 인사이트가 보이지 않으면 데이터가 Personalize 데이터 기대치에 부합하는 것입니다. 도메인 데이터세트 그룹 또는 사용자 지정 데이터세트 그룹에서 데이터를 분석할 수 있습니다.

 인사이트를 생성하고 통계를 계산할 때 Personalize는 익명이 아닌 사용자의 모든 대량 및 스트리밍 데이터를 고려합니다. 익명 사용자의 이벤트는 `userId`와 연결할 때까지 고려되지 않습니다. 자세한 내용은 [익명 사용자를 위한 이벤트 기록](recording-events.md#recording-anonymous-user-events)단원을 참조하세요.

**Topics**
+ [데이터 분석을 위한 필수 권한](#analyze-data-minimum-permissions)
+ [데이터 인사이트](#data-insights)
+ [데이터세트 인사이트 및 통계 보기](#run-analysis-console)

## 데이터 분석을 위한 필수 권한
<a name="analyze-data-minimum-permissions"></a>

사용자에게 Personalize에 대한 전체 액세스 권한을 부여하는 경우, 권한을 변경할 필요가 없습니다. 사용자에게 Personalize에서 작업을 수행하는 데 필요한 권한만 부여하는 경우 AWS Identity and Access Management (IAM) 정책에 다음과 같은 추가 데이터 인사이트 작업이 포함되어야 합니다.
+ 개인화: 데이터 인사이트 생성 작업
+ personalize:ListDataInsightsJobs
+ 개인화: 데이터 인사이트 설명 작업
+ personalize:GetDataInsights

## 데이터 인사이트
<a name="data-insights"></a>

 다음은 Personalize에서 생성할 수 있는 가능한 데이터 인사이트입니다.


| 인사이트 | 작업 | 관련 데이터세트 | 
| --- | --- | --- | 
| 상호작용 데이터세트에는 X개의 상호작용만 있습니다. 모델 학습에는 최소 1,000개의 상호작용이 필요합니다. 50,000개 이상을 권장합니다. | 모델을 학습시키기 전에 Y개의 고유한 상호작용 레코드을 추가로 가져오세요. | 항목 상호 작용 | 
| 상호작용 데이터세트에는 상호작용이 두 개 이상 있는 X명의 고유 사용자만 있습니다. 모델 교육에는 최소 25명의 사용자가 필요합니다. 1,000명 이상을 권장합니다. |  Y명의 추가 사용자에 대해 각각 2개 이상의 상호작용 레코드을 가져오세요. | 항목 상호 작용 | 
| 항목 데이터세트에 있는 X%의 항목에 상호작용 데이터세트에 상호작용이 없으므로 권장되지 않을 수 있습니다. |  모든 상호작용 데이터를 가져와서 항목과 상호작용 데이터세트 간 ID가 일치하지 않는지 확인하세요. 아래 데이터세트 통계에서 항목 및 상호작용 데이터세트를 확인하여 예상되는 행의 수를 가져왔는지 확인하세요. 사용 사례 또는 레시피에서 탐색을 사용하는 경우, 상호작용 데이터가 없는 더 많은 항목을 추천하도록 탐색 구성을 수정하세요.  | 항목 상호 작용 및 항목 | 
| 사용자 데이터세트에 있는 X%의 사용자는 상호작용 데이터세트에 상호작용이 없습니다. 이러한 사용자는 인기 항목에 대한 추천을 수신하게 됩니다. |  모든 상호작용 데이터를 가져와서 사용자와 상호작용 데이터세트 간 ID가 일치하지 않는지 확인하세요. 아래 데이터세트 통계에서 사용자 및 상호작용 데이터세트를 확인하여 예상되는 행의 수를 가져왔는지 확인하세요. 더 많은 사용자가 상호작용 데이터를 확보할 수 있도록 추가 상호작용을 가져오세요.  | 항목 상호 작용 및 사용자 | 
| <Users or Items or Interactions> 데이터세트에 누락된 값을 포함한 X%의 행이 있습니다. 이는 추천에 부정적인 영향을 미칠 수 있습니다. 모든 필수 및 선택 필드를 70% 이상 작성하는 것이 좋습니다. |  전체 기록을 추가로 가져오거나, 작성되지 않은 행이 없이 데이터를 다시 가져오거나, 누락된 값을 대체 데이터(예: 숫자 열의 평균 또는 범주형 열의 가장 일반적인 값)로 대체하여 데이터를 다시 가져옵니다.  | 모두 해당 | 
| <datasetType> 데이터세트의 다음 열: <ColumnName, ColumnName... >이 70% 미만 작성되었습니다. 이 데이터를 교육에 포함할 경우, 추천에 부정적인 영향을 미칠 수 있습니다. null 값을 허용하는 열은 70% 이상 작성하는 것이 좋습니다. |  전체 기록을 추가로 가져오거나, 작성되지 않은 행이 없이 데이터를 다시 가져오거나, 누락된 값을 대체 데이터(예: 숫자 열의 평균 또는 범주형 열의 가장 일반적인 값)로 대체하여 데이터를 다시 가져옵니다.  | 모두 해당 | 
| 다음(숫자) 열에는 특이값: <ColumnName, ColumnName... >이 있습니다. 특이값이 항상 문제가 되는 것은 아니지만 추천에 부정적인 영향을 미치는 경우도 있습니다. |  아래 열 통계를 사용하여 해당 열의 최소값과 최대값이 예상과 일치하는지 확인하세요. 이러한 값이 예상과 일치하지 않는 경우, 해당 열의 데이터가 부정확하지 않은지 확인하고 데이터 수집 및 데이터 처리에 문제가 있는지 검토하세요.  | 임의 | 
| <ColumnName, ColumnName...> 열에는 1000개 이상의 가능한 카테고리가 있습니다. 이 데이터가 교육에 포함되면 추천에 부정적인 영향을 미칠 수 있습니다: <ColumnName, ColumnName... >. |  범주형 데이터에 철자 차이로 인한 중복 카테고리 등의 문제가 없는지 확인하세요. 부정확성을 모두 해결하고 데이터를 다시 가져오세요.  | 임의 | 
|  다음과 같은 텍스트 메타데이터 열: <ColumnName, ColumnName... >은 85% 미만 작성되었으며, 모델 학습에 사용되지 않습니다. |  행을 추가로 가져오거나 해당 열의 텍스트 데이터와 함께 행을 다시 가져오세요.  | Items | 
|  상호작용 데이터세트에는 10개가 넘는 고유한 이벤트 유형이 있으며, 이로 인해 모델 학습이 실패할 수 있습니다. |  이벤트 유형 열에 철자 차이로 인한 이벤트 유형 중복 등 부정확한 부분이 없는지 확인하세요. 불필수 이벤트 유형을 제거하고 데이터를 다시 가져오세요.  | 항목 상호 작용 | 
|  상호작용 데이터세트에는 모든 기록에 대한 동일한 타임스탬프가 있습니다. 사용자\$1세분화 레시피를 사용하고 모든 기록의 타임스탬프가 동일하면, 모델 학습은 실패합니다. |  데이터에 타임스탬프 문제가 있는지 확인하고, 중복된 타임스탬프를 고유한 타임스탬프로 바꾸세요.  | 항목 상호 작용 | 

## 데이터세트 인사이트 및 통계 보기
<a name="run-analysis-console"></a>

Personalize 데이터세트의 데이터에 대한 인사이트와 통계를 보려면 Personalize 콘솔의 데이터세트로 이동한 다음 분석 실행을 선택합니다.

**참고**  
Amazon Personalize가 데이터를 분석하려면 먼저 데이터를 가져와야 합니다. 자세한 내용은 [Amazon Personalize 데이터세트로 학습 데이터 가져오기](import-data.md) 섹션을 참조하세요.

**인사이트와 통계를 보려면**

1. [https://console.aws.amazon.com/acm-pca/home](https://console.aws.amazon.com/personalize/home)에서 Personalize 콘솔을 열고 계정에 로그인합니다.

1.  **데이터세트 그룹** 페이지에서 데이터세트 그룹을 선택합니다.

1. 탐색 창의 **데이터 세트**에서 **데이터 분석**을 선택합니다.

1.  오른쪽 상단에서 **분석 실행**을 선택합니다. Personalize에서 데이터 분석을 시작합니다. 이 프로세스는 최대 15분이 걸릴 수 있습니다. 성공하면 결과가 이 페이지에 표시됩니다.

1. **인사이트**에서 다음을 사용하여 나타나는 인사이트를 필터링합니다.
   + 특정 언어가 포함된 인사이트를 찾으려면 **인사이트 찾기** 에 기준을 입력합니다. 텍스트를 입력하면 인사이트 또는 권장 조치에 정확한 문자열이 포함된 인사이트만 포함되도록 목록이 업데이트됩니다.
   +  데이터세트 유형별로 통찰력을 필터링하려면 **모든 데이터세트**를 특정 데이터세트 유형으로 변경하세요. 이 데이터세트와 관련된 인사이트만 포함하도록 목록이 업데이트됩니다.

1. 데이터세트에 대한 데이터세트 통계를 보려면 다음과 같이 하세요.
   + 상호작용 데이터세트의 행 수, 고유 사용자, 고유 항목 등 데이터세트에 대한 일반 세부 정보 및 통계를 보려면, 데이터세트 섹션을 펼칩니다.
   + 열에 대한 자세한 통계를 보려면 데이터세트 섹션을 펼치고 **열 수준 통계**를 선택한 다음 해당 열의 라디오 버튼을 선택합니다.

1.  데이터의 모든 문제를 수정하고 다시 가져온 다음, 다른 분석을 실행하여 확인합니다. 다시 데이터 가져오기에 대한 자세한 내용은 [학습 후 데이 세트의 데이터 업데이트](updating-datasets.md)섹션을 참조하세요.