翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ビジュアライゼーションとデータインサイトの生成
データを Data Wrangler にインポートすると、そのデータを使用してビジュアライゼーションやデータインサイトを生成できます。
-
ビジュアライゼーション: Data Wrangler は、ヒストグラムや散布図など、さまざまなタイプのグラフを生成できます。例えば、ヒストグラムを生成して、データの外れ値を特定できます。
-
データインサイト: Amazon Personalize のデータ品質およびインサイトレポートを使用すると、データインサイトと列と行の統計を通じてデータについて知ることができます。このレポートにより、データに何らかのタイプの問題があるかどうかがわかります。また、データを改善するためにどのようなアクションを取ればよいのかを知ることができます。これらのアクションは、モデルのトレーニングの要件などの Amazon Personalize のリソース要件を満たすのに役立つ場合や、レコメンデーションの改善につながる場合があります。
ビジュアライゼーションとインサイトを通じてデータについて学習したら、その情報を活用してさらに変換を適用してデータを改善することができます。または、データの準備が完了したら、データを処理して Amazon Personalize にインポートできます。データ変換については、「データ変換」を参照してください。データの処理とインポートについては、「データを処理して Amazon Personalize にインポートする」を参照してください。
ビジュアライゼーションの生成
Data Wrangler を使用して、ヒストグラムや散布図など、さまざまなタイプのグラフを作成できます。例えば、ヒストグラムを生成して、データの外れ値を特定できます。データビジュアライゼーションを生成するには、フローに分析ステップを追加し、[分析タイプ] から作成したいビジュアライゼーションを選択します。
Data Wrangler での視覚化の作成の詳細については、「Amazon SageMaker AI デベロッパーガイド」の「分析と視覚化」を参照してください。
データ分析情報の生成
Data Wrangler を使用して、データセットタイプに固有の Amazon Personalize のデータ品質およびインサイトレポートを生成できます。レポートを生成する前に、Amazon Personalize の要件を満たすようにデータを変換することをお勧めします。これにより、より関連性の高いインサイトが得られます。詳細については、「データ変換」を参照してください。
レポートの内容
Amazon Personalize のデータ品質およびインサイトレポートには、以下のセクションが含まれます。
-
概要: レポートの概要には、データセットの統計と優先度の高い警告が含まれます。
-
データセット統計: これらには、インタラクションデータ内のユニークユーザー数などの Amazon Personalize 固有の統計と、欠損値や外れ値の数などの一般的な統計が含まれます。
-
優先度の高い警告: これらは、トレーニングや推奨事項に最も影響する Amazon Personalize 固有のインサイトです。各警告には、問題を解決するために実行できる推奨アクションが含まれています。
-
-
重複行と不完全な行: これらのセクションには、データ内のどの行に欠損値があるか、どの行が重複しているかに関する情報が含まれます。
-
機能の概要: このセクションには、各列のデータタイプ、無効または欠落しているデータの情報、警告数が含まれます。
-
機能の詳細: このセクションには、各データ列の詳細情報が記載されたサブセクションがあります。各サブセクションには、カテゴリ値の数や欠損値情報など、列の統計情報が含まれています。また、各サブセクションには、Amazon Personalize 固有のインサイトとデータ列に関する推奨アクションが含まれています。例えば、ある列に 30 を超えるカテゴリがあるというインサイトがある場合があります。
データ型の問題
レポートでは、データ型が正しくない列を特定し、必要なデータ型を指定します。これらの機能に関するインサイトを得るには、列のデータ型を変換してレポートを再生成する必要があります。タイプを変換するには、Data Wrangler 変換の Parse Value as Type を使用できます。
Amazon Personalize のインサイト
Amazon Personalize のインサイトには、結果と推奨アクションが含まれます。このアクションはオプションです。例えば、レポートには、カテゴリデータ列のカテゴリ数に関するインサイトとアクションが含まれる場合があります。列がカテゴリに分類されていないと思われる場合は、このインサイトは無視して何も起こさないでください。
表現のわずかな違いを除いて、Amazon Personalize 固有のインサイトは、Amazon Personalize でデータを分析したときに生成される 1 つのデータセットのインサイトと同じです。例えば、Data Wrangler のインサイトレポートには、「アイテムインタラクションデータセットには、インタラクションが 2 回以上あるユニークユーザーが X 人しかいない」などのインサイトが含まれています。ただし、「アイテムデータセットの X% のアイテムで、アイテムインタラクションデータセット内でインタラクションが発生していない」などのインサイトは含まれていません。
Amazon Personalize 固有のインサイトのリストについては、「データインサイト」の複数のデータセットを参照していないインサイトを参照してください。
レポートの例
Amazon Personalize レポートのルックアンドフィールは、Data Wrangler の一般的なインサイトレポートと同じです。一般的なインサイトレポートの例については、Amazon SageMaker AI デベロッパーガイドの「データとデータ品質に関するインサイトの取得」を参照してください。次の例は、アイテムインタラクションデータセットのレポートの概要セクションがどのように表示されるかを示しています。これには、データセットの統計情報と、優先度が高いと思われるアイテムインタラクションデータセットの警告が含まれています。
![アイテムインタラクションデータセットのレポートの概要セクションを示します。](images/dw-reports-summary.png)
次の例は、アイテムインタラクションデータセットの EVENT_TYPE 列の特徴の詳細セクションがレポートにどのように表示されるかを示しています。
![アイテムインタラクションデータセットの EVENT_TYPE 列の特徴の詳細セクションを示します。](images/dw-event-type-report.png)
レポートの生成
Amazon Personalize のデータ品質およびインサイトレポートを生成するには、[変換に必要なデータインサイトを取得] を選択し、分析を作成します。
Amazon Personalize のデータ品質およびインサイトレポートを生成するには
-
分析しているトランスフォームの [+] オプションを選択します。トランスフォームをまだ追加していない場合は、データ型トランスフォームに [+] を選択してください。Data Wrangler は、このトランスフォームをフローに自動的に追加します。
-
[データインサイトを取得 を選択します。[分析の作成] パネルが表示されます。
-
分析タイプには、Amazon Personalize のデータ品質およびインサイトレポートを選択します。
-
[データセットタイプ] では、分析する Amazon Personalize データセットのタイプを選択します。
-
オプションで [フルデータで実行] を選択します。デフォルトでは、Data Wrangler はデータのサンプルについてのみインサイトを生成します。
-
[作成] を選択します。分析が完了すると、レポートが表示されます。