本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
关于如何使用 Neptune ML 特征的概述
Amazon Neptune 中的 Neptune 机器学习功能为在图形数据库中利用机器学习模型提供了简化的工作流程。该过程涉及几个关键步骤——将来自Neptune的数据导出为CSV格式,对数据进行预处理以准备模型训练,使用Amazon训练机器学习模型 SageMaker,创建用于预测的推理端点,然后直接从Gremlin查询中查询模型。Neptune 工作台提供便捷的线路和细胞魔法命令,以帮助管理和自动执行这些步骤。通过将机器学习功能直接集成到图形数据库中,Neptune ML 使用户能够使用存储在 Neptune 图中的丰富关系数据得出宝贵的见解并做出预测。
开始使用 Neptune ML 的工作流程
在 Amazon Neptune 中使用 Neptune ML 特征通常需要从以下五个步骤开始:
-
数据导出和配置 — 数据导出步骤使用 Neptune-Export 服务或
neptune-export
命令行工具,将数据以表格形式从 Neptune 导出到亚马逊简单存储服务 (Amazon S3) 中。CSV同时会自动生成一个名为training-data-configuration.json
的配置文件,该文件指定如何将导出的数据加载到可训练的图形中。 -
数据预处理 - 在此步骤中,使用标准技术对导出的数据集进行预处理,准备好数据以进行模型训练。可以对数字数据执行特征标准化,也可以使用
word2vec
对文本特征进行编码。在此步骤结束时,将根据导出的数据集生成一个DGL(深度图库)图供模型训练步骤使用。此步骤是使用您账户中的 SageMaker 处理任务来实现的,生成的数据存储在您指定的 Amazon S3 位置。
-
模型训练 - 模型训练步骤训练将用于预测的机器学习模型。
模型训练分两个阶段完成:
第一阶段使用 SageMaker 处理作业生成模型训练策略配置集,该配置集指定模型训练将使用哪种类型的模型和模型超参数范围。
然后,第二阶段使用 SageMaker 模型调整作业来尝试不同的超参数配置,并选择生成性能最佳模型的训练作业。调整任务对处理后的数据运行预先指定数量的模型训练任务试验。在此阶段结束时,将使用最佳训练任务的训练模型参数来生成模型构件以进行推理。
-
在 Amazon 中创建推理终端节点 SageMaker — 推理终 SageMaker 端节点是一个使用最佳训练作业生成的模型工件启动的终端节点实例。每个模型都绑定到单个端点。端点能够接受来自图形数据库的传入请求,并返回请求中输入的模型预测。创建端点后,它会一直处于活动状态,直到您将其删除。
使用 Gremlin 查询机器学习模型 – 您可以使用 Gremlin 查询语言的扩展来查询来自推理端点的预测。
注意
Neptune Workbench 包含行魔术命令和单元格魔术命令,它们可以为您节省大量管理这些步骤的时间,即: