處理從 Neptune 匯出用於訓練的圖形資料

PDF

RSS

焦點模式

處理從 Neptune 匯出用於訓練的圖形資料 - Amazon Neptune

管理資料處理更新的處理

資料處理步驟會取得匯出程序所建立的 Neptune 圖形資料，並建立 Deep Graph Library (DGL) 在訓練期間使用的資訊。這包括執行各種資料對應和轉換：

解析節點和邊緣以建構 DGL 所需的圖形和 ID 對應檔案。
將節點和邊緣屬性轉換為 DGL 所需的節點和邊緣特徵。
將資料分割為訓練、驗證和測試集。

管理 Neptune ML 的資料處理步驟

在從 Neptune 匯出了您要用於模型訓練的資料之後，您可以使用 curl (或 awscurl) 命令啟動資料處理工作，如下所示：


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{
        "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
        "configFileName" : "training-job-configuration.json"
      }'

如何使用此命令的詳細資訊會在 dataprocessing 命令中加以說明，伴隨如何取得執行中工作狀態、如何停止執行中工作，以及如何列出所有執行中工作的相關資訊。

處理 Neptune ML 的更新圖形資料

您也可以將 previousDataProcessingJobId 提供給 API，以確保新的資料處理工作使用與先前工作相同的處理方法。當您想要透過對新資料重新訓練舊模型，或對新資料上重新計算模型成品，以在 Neptune 中取得更新圖形資料的預測時，這是必要的。

您可以使用 curl (或 awscurl) 命令來執行此操作，如下所示：


curl \
  -X POST https://(your Neptune endpoint)/ml/dataprocessing \
  -H 'Content-Type: application/json' \
  -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
        "id" : "(a job ID for the new job)",
        "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
        "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'