翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
モデルをプレビューする
注記
以下の機能は、表形式のデータセットで構築されたカスタムモデルでのみ使用できます。マルチカテゴリテキスト予測モデルも対象外です。
SageMaker Canvas には、構築を開始する前にモデルをプレビューし、データを検証するツールが用意されています。これらの機能には、モデル精度のプレビュー、モデル構築中のエラーを防ぐためのデータセットの検証、モデルのランダムサンプルのサイズの変更などが含まれます。
モデルをプレビューする
Amazon SageMaker Canvas では、モデル のプレビュー を選択して、モデルを構築する前にデータからインサイトを取得できます。例えば、各列のデータの分布状況を確認できます。カテゴリデータを使用して構築されたモデルでは、[モデルのプレビュー] を選択して、モデルによるデータの分析精度を表す [推定精度] 予測を生成することもできます。[クイックビルド] または [標準ビルド] の精度は、モデルが実際のデータで機能する精度を表しており、一般的に [推定精度] よりも高くなります。
Amazon Canvas SageMaker は、モデルの構築中にデータセット内の欠損値を自動的に処理します。データセット内にある隣接する値を使用することによって、欠損値が推測されます。
データを検証する
モデルを構築する前に、 SageMaker Canvas はデータセットをチェックして、ビルドが失敗する原因となる可能性のある問題がないかどうかを確認します。 SageMaker Canvas で問題が見つかった場合、モデルの構築を試みる前に、ビルドページで警告が表示されます。
データセットの問題のリストを表示するには、[データの検証] を選択します。その後、 SageMaker Canvas データ準備機能 または独自のツールを使用して、ビルドを開始する前にデータセットを修正できます。データセットの問題を修正しない場合、モデルの構築は失敗します。
問題を解決するためにデータセットに変更を加えた場合は、構築する前にデータセットを再検証することができます。構築する前にデータセットを再検証することをお勧めします。
次の表は、Canvas SageMaker がデータセットでチェックする問題とその解決方法を示しています。
問題 | 解決方法 |
---|---|
データのモデルタイプが正しく有りません。 |
別のモデルタイプを試すか、別のデータセットを使用してください。 |
ターゲット列に値が不足しています。 |
欠損値を置き換えるか、欠損値のある行を削除するか、別のデータセットを使用してください。 |
対象列の固有ラベルが多すぎます。 |
ターゲット列に正しい列を使用していることを確認するか、別のデータセットを使用してください。 |
ターゲット列に数値以外の値が多すぎます。 |
別のターゲット列を選択するか、別のモデルタイプを選択するか、別のデータセットを使用してください。 |
1 つ以上の列名に二重のアンダースコアが含まれています |
列の名前を変更して二重のアンダースコアを削除し、もう一度試します。 |
データセットのすべての行に欠損値があります。 |
欠損値を置き換えるか、別のデータセットを使用してください。 |
データの行数に対して固有ラベルが多すぎます。 |
正しいターゲット列を使用していることを確認するか、データセットの行数を増やすか、類似のラベルを統合するか、別のデータセットを使用してください。 |
ランダムサンプル
SageMaker Canvas はランダムサンプリング方法を使用してデータセットをサンプリングします。ランダムサンプリング法では、サンプルに選択される確率はすべての行で等しくなります。プレビューで列を選択すると、ランダムサンプルの要約統計 (平均やモードなど) を取得できます。
デフォルトでは、 SageMaker Canvas は 20,000 行を超えるデータセットに対して、データセットから 20,000 行のランダムサンプルサイズを使用します。20,000 行未満のデータセットの場合、デフォルトのサンプルサイズはデータセットの全行数になります。 SageMaker Canvas アプリケーションのビルドタブでランダムサンプルを選択すると、サンプルサイズを増減できます。スライダーを使用して目的のサンプルサイズを選択し、[更新] を選択してサンプルサイズを変更します。データセットに選択できる最大サンプルサイズは 40,000 行で、最小サンプルサイズは 500 行です。サンプルサイズを大きくすると、データセットのプレビューと要約統計が再度読み込まれるまでに時間がかかることがあります。
[モデルの構築] ページには、データセットの 100 行のプレビューが表示されます。サンプルサイズがデータセットと同じサイズの場合、プレビューではデータセットの最初の 100 行が使用されます。それ以外の場合、プレビューではランダムサンプルの最初の 100 行が使用されます。