データセットの自動更新を設定する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットの自動更新を設定する

最初のデータセットを Amazon SageMaker Canvas にインポートした後で、データセットへの追加のデータがある場合があります。例えば、データセットに追加するインベントリデータを毎週末に受け取る場合があります。データを複数回インポートする代わりに、既存のデータセットを更新してファイルの追加や削除を行うことができます。

注記

更新できるデータセットは、ローカルアップロードまたは Amazon S3 を通じてインポートしたデータセットのみです。

データセットの自動更新では、指定した頻度で Canvas がファイルをチェックする場所を指定します。更新中に新しいファイルをインポートする場合、ファイルのスキーマは既存のデータセットと完全に一致する必要があります。

データセットを更新するたびに、Canvas はデータセットの新しいバージョンを作成します。モデルの構築や予測の生成には、データセットの最新バージョンのみを使用できます。データセットのバージョン履歴の表示方法の詳細については、「データセットの詳細を表示する」を参照してください。

データセットの更新を自動バッチ予測と併用することもできます。自動バッチ予測は、データセットを更新するたびにバッチ予測ジョブを開始します。詳細については、「SageMaker Canvas でのバッチ予測」を参照してください。

以下のセクションでは、データセットの自動更新を行う方法について説明します。

自動更新では、データセットを特定の頻度で更新するように Canvas を設定します。データセットに定期的に追加する新しいデータファイルがある場合は、このオプションを使用することをお勧めします。

自動更新設定を行う際は、ファイルをアップロードする Amazon S3 の場所、および Canvas が場所を確認してファイルをインポートする頻度を指定します。データセットを更新する Canvas の各インスタンスは、ジョブと呼ばれます。各ジョブで、Canvas は Amazon S3 ロケーションにあるすべてのファイルをインポートします。データセット内の既存のファイルと同じ名前のファイルを追加すると、Canvas は新しいファイルで古いバージョンのファイルを上書きします。

データセットを自動更新では、Canvas はスキーマの検証を行いません。自動更新中にインポートされたファイルのスキーマが既存のファイルのスキーマと一致しないか、サイズ制限を超えている場合 (ファイルサイズ制限の表については、「データセットをインポートする」を参照)、ジョブの実行時にエラーが発生します。

注記

Canvas アプリケーションで設定できる自動更新は最大 20 件までです。また、Canvas は ユーザーが Canvas アプリケーションにログインしている間のみ自動更新を行います。Canvas アプリケーションからログアウトすると、ログインし直すまで自動更新は一時停止します。

データセットの自動更新を設定するには、次の手順に従います。

  1. SageMaker Canvas アプリケーションを開きます。

  2. 左のナビゲーションペインの [Dataset] (データセット) を選択します。

  3. データセットのリストで、更新するデータセットを選択します。

  4. [データセットの更新] ドロップダウンメニューを選択して、[自動更新] を選択します。データセットの [自動更新] タブが表示されます。

  5. [自動更新を有効化 トグルを有効にします。

  6. [データソースの指定] に、定期的にファイルをアップロードするフォルダへの Amazon S3 パスを入力します。

  7. [頻度の選択] で、[毎時][毎週]、または [毎日] を選択します。

  8. [開始時刻の指定] で、カレンダーとタイムピッカーを使用して、最初の自動更新ジョブを開始する時刻を選択します。

  9. 自動更新設定を作成する準備ができたら、[保存] を選択します。

Canvas は、指定された開始時間に自動更新ケイデンスの最初のジョブを開始します。