データフローサンプリング設定を編集する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データフローサンプリング設定を編集する

Data Wrangler データフローに表形式データをインポートする場合、データセットのサンプルを取得して、データ探索とクリーニングプロセスを高速化できます。データセットのサンプルで探索的変換を実行することは、データセット全体で変換を実行するよりも高速であることが多く、データセットをエクスポートしてモデルを構築する準備ができたら、変換をデータセット全体に適用できます。

Canvas は、次のサンプリング方法をサポートしています。

  • FirstK – Canvas はデータセットから最初の K 項目を選択します。ここで、K は指定した数値です。このサンプリング方法は簡単ですが、データセットがランダムに順序付けられていない場合、バイアスが発生する可能性があります。

  • ランダム – Canvas はデータセットから項目をランダムに選択し、各項目は同じ確率で選択されます。このサンプリング方法は、サンプルがデータセット全体を代表するものであることを確実にするのに役立ちます。

  • Stratified – Canvas は、1 つ以上の属性 (年齢や所得レベルなど) に基づいてデータセットをグループ (または階層) に分割します。次に、各グループから比例数の項目がランダムに選択されます。この方法では、関連するすべてのサブグループがサンプルで適切に表現されます。

サンプリング設定はいつでも編集して、データ探索に使用されるサンプルのサイズを変更できます。

サンプリング設定を変更するには、以下を実行します。

  1. データフローグラフで、データソースノードを選択します。

  2. 下部のナビゲーションバーでサンプリングを選択します。

  3. サンプリングダイアログボックスが開きます。サンプリング方法ドロップダウンで、目的のサンプリング方法を選択します。

  4. 最大サンプルサイズ には、サンプリングする行数を入力します。

  5. [更新] を選択して変更を保存します。

これで、サンプリング設定の変更が適用されます。