使用 dataprocessing 命令進行資料處理 - Amazon Neptune

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 dataprocessing 命令進行資料處理

您可以使用 Neptune ML dataprocessing 命令來建立資料處理工作、檢查其狀態、停止該工作,或列出所有作用中的資料處理工作。

使用 Neptune ML dataprocessing 命令建立資料處理工作

用於建立新工作的典型 Neptune ML dataprocessing 命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'

要啟動增量重新處理的命令如下所示:

curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
用於建立 dataprocessing 工作的參數
  • id – (選用) 新工作的唯一識別符。

    類型:字串 預設值:自動產生的 UUID。

  • previousDataProcessingJobId – (選用) 在舊版資料上執行且已完成之資料處理工作的工作 ID。

    類型:字串 預設值none

    注意:使用此項進行增量資料處理,以在圖形資料變更時更新模型 (但在資料已遭刪除時不適用)。

  • inputDataS3Location – (必要) Amazon S3 位置的 URI,您想要 SageMaker 在該位置下載執行資料處理工作所需的資料。

    類型:字串

  • processedDataS3Location – (必要) Amazon S3 位置的 URI,您想要 SageMaker 在該位置儲存資料處理工作的結果。

    類型:字串

  • sagemakerIamRoleArn – (選用) 用於 SageMaker 執行之 IAM 角色的 ARN。

    類型:字串 注意:這必須列示在您的資料庫叢集參數群組中,否則會發生錯誤。

  • neptuneIamRoleArn – (選用) IAM 角色的 Amazon Resource Name (ARN),SageMaker 可以擔任這個角色來代表您執行任務。

    類型:字串 注意:這必須列示在您的資料庫叢集參數群組中,否則會發生錯誤。

  • processingInstanceType – (選用) 資料處理期間所使用的 ML 執行個體類型。它的記憶體應該大到足以保留處理後的資料集。

    類型:字串 預設值:最小的 ml.r5 類型,其記憶體十倍於磁碟上所匯出圖形資料的大小。

    注意:Neptune ML 可以自動選取執行個體類型。請參閱 選取執行個體進行資料處理

  • processingInstanceVolumeSizeInGB – (選用) 處理執行個體的磁碟區大小。輸入資料和處理後的資料都會儲存在磁碟上,因此磁碟區大小必須大到足以保留這兩個資料集。

    類型:整數。預設0

    注意:如果未指定或指定 0,Neptune ML 會根據資料大小自動選擇磁碟區大小。

  • processingTimeOutInSeconds – (選用) 資料處理工作的逾時 (以秒為單位)。

    類型:整數。預設值86,400 (1 天)。

  • modelType – (選用) Neptune ML 目前支援的兩種模型類型之一:異質圖形模型 (heterogeneous) 和知識圖譜 (kge)。

    類型:字串 預設值none

    注意:如果未指定,Neptune ML 會根據資料自動選擇模型類型。

  • configFileName – (選用) 描述如何載入所匯出圖形資料進行訓練的資料規格檔案。Neptune 匯出工具組會自動產生此檔案。

    類型:字串 預設training-data-configuration.json

  • subnets – (選用) Neptune VPC 中子網路的 ID。

    類型:字串清單。預設值none

  • securityGroupIds – (選用) VPC 安全群組 ID。

    類型:字串清單。預設值none

  • volumeEncryptionKMSKey – (選用) SageMaker 用來加密資料旳 AWS Key Management Service (AWS KMS) 金鑰,這些資料位於附加至執行處理工作之 ML 運算執行個體的儲存磁碟區。

    類型:字串 預設值none

  • enableInterContainerTrafficEncryption – (選用) 在訓練或超參數調校工作中啟用或停用容器間流量加密。

    類型:布林值。預設值true

    注意

    enableInterContainerTrafficEncryption 參數僅適用於引擎版本 1.2.0.2.R3

  • s3OutputEncryptionKMSKey – (選用) SageMaker 用來加密訓練工作輸出的 AWS Key Management Service (AWS KMS) 金鑰。

    類型:字串 預設值none

使用 Neptune ML dataprocessing 命令取得資料處理工作的狀態

工作狀態的範例 Neptune ML dataprocessing 命令如下所示:

curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
dataprocessing 工作狀態的參數
  • id – (必要) 資料處理工作的唯一識別符。

    類型:字串

  • neptuneIamRoleArn – (選用) IAM 角色的 ARN,此角色可讓 Neptune 存取 SageMaker 和 Amazon S3 資源。

    類型:字串 注意:這必須列示在您的資料庫叢集參數群組中,否則會發生錯誤。

使用 Neptune ML dataprocessing 命令停止資料處理工作

用於停止工作的範例 Neptune ML dataprocessing 命令如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"

或如下所示:

curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
dataprocessing 停止工作的參數
  • id – (必要) 資料處理工作的唯一識別符。

    類型:字串

  • neptuneIamRoleArn – (選用) IAM 角色的 ARN,此角色可讓 Neptune 存取 SageMaker 和 Amazon S3 資源。

    類型:字串 注意:這必須列示在您的資料庫叢集參數群組中,否則會發生錯誤。

  • clean – (選用) 此旗標指定在工作停止時應刪除所有 Amazon S3 成品。

    類型:布林值。預設FALSE

使用 Neptune ML dataprocessing 命令列出作用中的資料處理工作

用於列出作用中工作的範例 Neptune ML dataprocessing 命令如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing"

或如下所示:

curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
dataprocessing 列出工作的參數
  • maxItems – (選用) 要傳回的項目數上限。

    類型:整數。預設10允許的最大值1024

  • neptuneIamRoleArn – (選用) IAM 角色的 ARN,此角色可讓 Neptune 存取 SageMaker 和 Amazon S3 資源。

    類型:字串 注意:這必須列示在您的資料庫叢集參數群組中,否則會發生錯誤。