Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memproses data grafik yang diekspor dari Neptune untuk pelatihan
Langkah pemrosesan data mengambil data grafik Neptune yang dibuat oleh proses ekspor dan menciptakan informasi yang digunakan oleh Deep Graph Library (DGL) selama pelatihan. Ini termasuk melakukan berbagai pemetaan data dan transformasi:
Simpul parsing dan edge untuk membangun grafik- dan file pemetaan ID yang dibutuhkan oleh DGL.
Mengkonversi properti simpul dan fitur simpul dan edge yang dibutuhkan oleh DGL.
Memisahkan data ke dalam pelatihan, validasi, dan set tes.
Mengelola langkah pemrosesan data untuk Neptune ML
Setelah Anda mengekspor data dari Neptunus yang ingin Anda gunakan untuk pelatihan model, Anda dapat memulai pekerjaan pemrosesan data menggunakan perintah seperti berikut:
- AWS CLI
-
aws neptunedata start-ml-data-processing-job \
--endpoint-url https://your-neptune-endpoint:port \
--input-data-s3-location "s3://(S3 bucket name)/(path to your input folder)" \
--id "(a job ID for the new job)" \
--processed-data-s3-location "s3://(S3 bucket name)/(path to your output folder)" \
--config-file-name "training-job-configuration.json"
Untuk informasi selengkapnya, lihat start-ml-data-processing-job di Referensi AWS CLI Perintah.
- SDK
-
import boto3
from botocore.config import Config
client = boto3.client(
'neptunedata',
endpoint_url='https://your-neptune-endpoint:port',
config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)
response = client.start_ml_data_processing_job(
inputDataS3Location='s3://(S3 bucket name)/(path to your input folder)',
id='(a job ID for the new job)',
processedDataS3Location='s3://(S3 bucket name)/(path to your output folder)',
configFileName='training-job-configuration.json'
)
print(response)
- awscurl
-
awscurl https://your-neptune-endpoint:port/ml/dataprocessing \
--region us-east-1 \
--service neptune-db \
-X POST \
-H 'Content-Type: application/json' \
-d '{
"inputDataS3Location" : "s3://(S3 bucket name)/(path to your input folder)",
"id" : "(a job ID for the new job)",
"processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
"configFileName" : "training-job-configuration.json"
}'
Contoh ini mengasumsikan bahwa AWS kredenal Anda dikonfigurasi di lingkungan Anda. Ganti us-east-1 dengan Wilayah cluster Neptunus Anda.
- curl
-
curl \
-X POST https://your-neptune-endpoint:port/ml/dataprocessing \
-H 'Content-Type: application/json' \
-d '{
"inputDataS3Location" : "s3://(S3 bucket name)/(path to your input folder)",
"id" : "(a job ID for the new job)",
"processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)",
"configFileName" : "training-job-configuration.json"
}'
Rincian tentang cara menggunakan perintah ini dijelaskan dalam Perintah pemrosesandata, bersama dengan informasi tentang cara untuk mendapatkan status tugas yang sedang berjalan, cara menghentikan tugas yang sedang berjalan, dan mendaftar semua tugas yang sedang berjalan.
Memproses data grafik yang diperbarui untuk Neptunus ML
Anda juga dapat menyediakan a previousDataProcessingJobId ke API untuk memastikan bahwa pekerjaan pemrosesan data baru menggunakan metode pemrosesan yang sama dengan pekerjaan sebelumnya. Ini diperlukan saat Anda ingin mendapatkan prediksi untuk data grafik yang diperbarui di Neptunus, baik dengan melatih ulang model lama pada data baru, atau dengan menghitung ulang artefak model pada data baru.
Anda melakukan ini dengan menggunakan perintah seperti ini:
- AWS CLI
-
aws neptunedata start-ml-data-processing-job \
--endpoint-url https://your-neptune-endpoint:port \
--input-data-s3-location "s3://(Amazon S3 bucket name)/(path to your input folder)" \
--id "(a job ID for the new job)" \
--processed-data-s3-location "s3://(Amazon S3 bucket name)/(path to your output folder)" \
--previous-data-processing-job-id "(the job ID of the previous data-processing job)"
Untuk informasi selengkapnya, lihat start-ml-data-processing-job di Referensi AWS CLI Perintah.
- SDK
-
import boto3
from botocore.config import Config
client = boto3.client(
'neptunedata',
endpoint_url='https://your-neptune-endpoint:port',
config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)
response = client.start_ml_data_processing_job(
inputDataS3Location='s3://(Amazon S3 bucket name)/(path to your input folder)',
id='(a job ID for the new job)',
processedDataS3Location='s3://(Amazon S3 bucket name)/(path to your output folder)',
previousDataProcessingJobId='(the job ID of the previous data-processing job)'
)
print(response)
- awscurl
-
awscurl https://your-neptune-endpoint:port/ml/dataprocessing \
--region us-east-1 \
--service neptune-db \
-X POST \
-H 'Content-Type: application/json' \
-d '{
"inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
"id" : "(a job ID for the new job)",
"processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
"previousDataProcessingJobId" : "(the job ID of the previous data-processing job)"
}'
Contoh ini mengasumsikan bahwa AWS kredenal Anda dikonfigurasi di lingkungan Anda. Ganti us-east-1 dengan Wilayah cluster Neptunus Anda.
- curl
-
curl \
-X POST https://your-neptune-endpoint:port/ml/dataprocessing \
-H 'Content-Type: application/json' \
-d '{
"inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)",
"id" : "(a job ID for the new job)",
"processedDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your output folder)",
"previousDataProcessingJobId" : "(the job ID of the previous data-processing job)"
}'
Tetapkan nilai previousDataProcessingJobId parameter ke ID pekerjaan dari pekerjaan pemrosesan data sebelumnya yang sesuai dengan model terlatih.
Penghapusan node dalam grafik yang diperbarui saat ini tidak didukung. Jika node telah dihapus dalam grafik yang diperbarui, Anda harus memulai pekerjaan pemrosesan data yang sama sekali baru daripada menggunakanpreviousDataProcessingJobId.