データフローサンプリング設定を編集する

Data Wrangler データフローに表形式データをインポートする場合、データセットのサンプルを取得して、データ探索とクリーニングプロセスを高速化できます。データセットのサンプルで探索的変換を実行することは、データセット全体で変換を実行するよりも高速であることが多く、データセットをエクスポートしてモデルを構築する準備ができたら、変換をデータセット全体に適用できます。

Canvas は、次のサンプリング方法をサポートしています。

FirstK – Canvas はデータセットから最初の K 項目を選択します。ここで、K は指定した数値です。このサンプリング方法は簡単ですが、データセットがランダムに順序付けられていない場合、バイアスが発生する可能性があります。
ランダム – Canvas はデータセットから項目をランダムに選択し、各項目は同じ確率で選択されます。このサンプリング方法は、サンプルがデータセット全体を代表するものであることを確実にするのに役立ちます。
Stratified – Canvas は、1 つ以上の属性 (年齢や所得レベルなど) に基づいてデータセットをグループ (または階層) に分割します。次に、各グループから比例数の項目がランダムに選択されます。この方法では、関連するすべてのサブグループがサンプルで適切に表現されます。

サンプリング設定はいつでも編集して、データ探索に使用されるサンプルのサイズを変更できます。

サンプリング設定を変更するには、以下を実行します。

データフローグラフで、データソースノードを選択します。
下部のナビゲーションバーでサンプリングを選択します。
サンプリングダイアログボックスが開きます。サンプリング方法ドロップダウンで、目的のサンプリング方法を選択します。
最大サンプルサイズ には、サンプリングする行数を入力します。
[更新] を選択して変更を保存します。

これで、サンプリング設定の変更が適用されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

データフロー UI の仕組み

データフローにステップを追加する