處理從 Neptune 匯出用於訓練的圖形資料 - Amazon Neptune

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

處理從 Neptune 匯出用於訓練的圖形資料

資料處理步驟會取得匯出程序所建立的 Neptune 圖形資料,並建立 Deep Graph Library (DGL) 在訓練期間使用的資訊。這包括執行各種資料對應和轉換:

  • 解析節點和邊緣以建構 DGL 所需的圖形和 ID 對應檔案。

  • 將節點和邊緣屬性轉換為 DGL 所需的節點和邊緣特徵。

  • 將資料分割為訓練、驗證和測試集。

管理 Neptune ML 的資料處理步驟

在從 Neptune 匯出了您要用於模型訓練的資料之後,您可以使用 curl (或 awscurl) 命令啟動資料處理工作,如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)", "configFileName" : "training-job-configuration.json" }'

如何使用此命令的詳細資訊會在 dataprocessing 命令 中加以說明,伴隨如何取得執行中工作狀態、如何停止執行中工作,以及如何列出所有執行中工作的相關資訊。

處理 Neptune ML 的更新圖形資料

您也可以將 previousDataProcessingJobId 提供給 API,以確保新的資料處理工作使用與先前工作相同的處理方法。當您想要透過對新資料重新訓練舊模型,或對新資料上重新計算模型成品,以在 Neptune 中取得更新圖形資料的預測時,這是必要的。

您可以使用 curl (或 awscurl) 命令來執行此操作,如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)", "previousDataProcessingJobId", "(the job ID of the previous data-processing job)"}'

previousDataProcessingJobId 參數值設定為對應至訓練模型之先前資料處理工作的工作 ID。

注意

目前不支援更新圖形中的節點刪除。如果節點已在更新圖形中移除,您必須啟動全新的資料處理工作,而不是使用 previousDataProcessingJobId