Neptune からエクスポートされたグラフデータをトレーニング用に処理する

データ処理ステップでは、エクスポートプロセスによって Neptune グラフデータが取得され、トレーニング中にディープグラフライブラリ (DGL) が使用する情報が作成されます。これには、さまざまなデータマッピングと変換の実行が含まれます。

ノードとエッジを解析して、DGL で必要とされるグラフおよび ID マッピングファイルを構築する。
ノードとエッジプロパティを DGL で必要なノードおよびエッジ特徴に変換する。
データをトレーニング、検証、およびテストセットに分割します。

Neptune ML のデータ処理ステップを管理する

モデルトレーニングに使用するデータを Neptune からエクスポートした後、curl (または awscurl) コマンドを使用してデータ処理ジョブを開始できます。


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
        "configFileName" : "training-job-configuration.json"
      }'

このコマンドの使用方法の詳細については、データ処理コマンドを参照してください。また、実行中のジョブのステータスの取得方法、実行中のジョブの停止方法、実行中のすべてのジョブの一覧表示方法について説明した情報もご覧ください。

Neptune ML の更新されたグラフデータの処理

また、previousDataProcessingJobId をAPI に追加して、新しいデータ処理ジョブが前のジョブと同じ処理方法を使用するようにします。これは、新しいデータで古いモデルを再学習するか、新しいデータのモデルアーティファクトを再計算することによって、Neptune で更新されたグラフデータの予測を取得する場合に必要です。

これを行うには、次のような curl (または awscurl) コマンドを使います。


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
        "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

トレーニング済みモデルに対応する前のデータ処理ジョブのジョブ ID に previousDataProcessingJobId パラメータの値を設定します。

注記

更新されたグラフでのノードの削除は、現在サポートされていません。更新されたグラフでノードが削除されている場合は、previousDataProcessingJobId を使用するのではなく、まったく新しいデータ処理ジョブを開始する必要があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

例

特徴エンコーディング