データフローを作成する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データフローを作成する

Canvas の Data Wrangler SageMaker フロー、またはデータフロー を使用して、データ準備パイプラインを作成および変更します。5 GB を超えるデータセットには Data Wrangler を使用することをお勧めします。

開始するには、次の手順を使用してデータをデータフローにインポートします。

  1. Canvas SageMaker を開きます。

  2. 左側のナビゲーションで、Data Wrangler を選択します。

  3. インポートと準備を選択します

  4. ドロップダウンメニューから、表形式 または画像 を選択します。

  5. データソースの選択 で、データソースを選択し、インポートするデータを選択します。最大 30 個のファイルまたは 1 つのフォルダを選択できます。Canvas にインポート済みのデータセットがある場合は、ソースとして Canvas データセットを選択します。それ以外の場合は、Amazon S3 や Snowflake などのデータソースに接続し、データを参照します。データソースへの接続またはデータのインポートについては、次のページを参照してください。

  6. インポートするデータを選択したら、次へ を選択します。

  7. (オプション) 表形式のデータセットをインポートするときの設定のインポートセクションで、詳細ドロップダウンメニューを展開します。データフローのインポートには、次の詳細設定を指定できます。

    • サンプリング方法 – 使用するサンプリング方法とサンプルサイズを選択します。サンプルを変更する方法の詳細については、「」セクションを参照してくださいデータフローサンプリング設定を編集する

    • ファイルエンコーディング (CSV) – データセットファイルのエンコーディングを選択します。 UTF-8 がデフォルトです。

    • 最初の行をスキップする – データセットの先頭に冗長行がある場合は、インポートをスキップする行数を入力します。

    • 区切り文字 – データ内の各項目を区切る区切り文字を選択します。カスタム区切り文字を指定することもできます。

    • 複数行検出 — Canvas で複数行セルのデータセット全体をマニュアルで解析する場合は、このオプションを選択します。Canvas は、データのサンプルを取得して複数行サポートを使用するかどうかを決定しますが、Canvas はサンプル内の複数行セルを検出しない場合があります。この場合、複数行の検出オプションを選択して、Canvas がデータセット全体に複数行セルがないかチェックするように強制することをお勧めします。

  8. [Import] (インポート) を選択します。

これで、新しいデータフローが作成され、変換ステップと分析の追加を開始できます。