选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

IP 洞察

聚焦模式
IP 洞察 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker AI IP Insights 是一种无人监督的学习算法,可以学习地址的使用模式。 IPv4 它旨在捕获 IPv4 地址与各种实体(例如用户 IDs 或账号)之间的关联。例如,您可以使用它来识别试图从异常 IP 地址登录 Web 服务的用户。或者,您可以使用它来识别尝试从异常 IP 地址创建计算资源的账户。经过训练的 IP Insight 模型可以托管在端点上,以进行实时预测或用于处理批量转换。

SageMaker AI IP Insights 以(实体、 IPv4 地址)配对的形式提取历史数据,并了解每个实体的 IP 使用模式。当使用(实体、 IPv4 地址)事件进行查询时, SageMaker AI IP Insights 模型会返回一个分数,该分数可以推断事件模式的异常程度。例如,当用户尝试从 IP 地址登录时,如果 IP 洞察分数足够高,Web 登录服务器会决定触发多重身份验证系统。在更高级的解决方案中,您可以将 IP 洞察分数提供到另一个机器学习模型中。例如,您可以将 IP Insight 分数与其他功能相结合,对其他安全系统(例如来自 Amazon 的安全系统)的发现结果进行排名 GuardDuty。

SageMaker AI IP Insights 算法还可以学习 IP 地址的矢量表示形式,即嵌入。您可以在下游机器学习任务中,使用向量编码嵌入作为特征,从而利用在 IP 地址中观察到的信息。例如,在衡量集群和可视化任务中 IP 地址之间的相似性等任务中,您可以使用它们。

IP 洞察的输入/输出接口

训练和验证

A SageMaker I IP Insights 算法支持训练和验证数据通道。它使用可选的验证通道根据预定义的负采样策略计算 area-under-curve (AUC) 分数。AUC 指标验证模型在区分正样本和负样本方面做得如何。训练和验证数据内容类型需要为 text/csv 格式。CSV 数据的第一列是不透明字符串,为实体提供唯一标识符。第二列是十进制点表示法 IPv4 的地址。IP 洞察目前仅支持文件模式。有关更多信息以及示例,请参阅 IP 洞察训练数据格式

推理

对于推理,IP 洞察支持 text/csvapplication/jsonapplication/jsonlines 数据内容类型。有关 SageMaker AI 提供的用于推理的常用数据格式的更多信息,请参阅用于推理的常见数据格式。IP 洞察推理返回的输出格式 application/jsonapplication/jsonlines。这些输出数据中的每个记录包含各个输入数据点对应的 dot_product(或相容性分数)。有关更多信息以及示例,请参阅 IP 洞察推理数据格式

EC2 IP Insights 算法的实例推荐

SageMaker AI IP Insights 算法可以在 GPU 和 CPU 实例上运行。对于训练作业,我们建议使用 GPU 实例。但是,对于具有大型训练数据集的某些工作负载,分布式 CPU 实例可降低训练成本。对于推理,我们建议使用 CPU 实例。IP 洞察支持 P2、P3、G4dn 和 G5 GPU 系列。

IP 洞察算法的 GPU 实例

IP Insights 支持所有可用 GPUs的。如果您需要加快训练速度,我们建议您从单个 GPU 实例开始,例如 ml.p3.2xlarge,然后迁移到多 GPU 环境,例如 ml.p3.8xlarge 和 ml.p3.16xlarge。Multi-GPUs 自动将小批次的训练数据划分到它们本身。如果从单个 GPU 切换到多个 GPU GPUs,mini_batch_size则按 GPUs 使用的数量平均分配。您可能需要增加 mini_batch_size 的值来补偿这种情况。

IP 洞察算法的 CPU 实例

我们推荐的 CPU 实例类型在很大程度上取决于实例的可用内存和型号大小。模型大小由两个超参数决定:vector_dimnum_entity_vectors。支持的最大模型大小为 8 GB。下表列出了您将根据这些输入参数为各种模型大小部署的典型 EC2 实例类型。在表 1 中,第一列的 vector_dim 值范围为 32 到 2048,第一行的 num_entity_vectors 值范围为 1 万到 5000 万。

vector_dim \ num_entity_vectors. 10000 50000 100000 500,000 1000000 5,000,000 10,000,000 50,000,000
32

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.2xlarge ml.m5.4xlarge

64

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.2xlarge

128

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge ml.m5.4xlarge

256

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

512

ml.m5.large

ml.m5.large ml.m5.large ml.m5.large ml.m5.2xlarge

1024

ml.m5.large

ml.m5.large ml.m5.large ml.m5.xlarge ml.m5.4xlarge

2048

ml.m5.large

ml.m5.large ml.m5.xlarge ml.m5.xlarge

mini_batch_sizenum_ip_encoder_layersrandom_negative_sampling_rateshuffled_negative_sampling_rate 超参数的值还会影响所需的内存量。如果这些值很大,则可能需要使用比正常更大的实例类型。

IP 洞察示例笔记本

有关演示如何训练 SageMaker AI IP Insights 算法并使用该算法进行推断的示例笔记本,请参阅 SageMaker AIIP Insights 算法简介。有关如何创建和访问可用于在 SageMaker AI 中运行示例的 Jupyter 笔记本实例的说明,请参阅。Amazon SageMaker 笔记本实例创建笔记本实例后,选择 SageMaker AI 示例选项卡以查看所有 SageMaker AI 示例的列表。要打开笔记本,请选择其使用选项卡,然后选择创建副本

下一主题:

工作方式

上一主题:

无监督
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。