Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Información de IP
Amazon SageMaker IP Insights es un algoritmo de aprendizaje no supervisado que aprende los patrones de uso de las direcciones IPv4. Está diseñado para capturar asociaciones entre las direcciones IPv4 y diversas entidades, como ID de usuario o números de cuenta. Puede utilizarlo para identificar a un usuario que intenta iniciar sesión en un servicio web desde una dirección IP anómala, por ejemplo. O bien, puede utilizarlo para identificar una cuenta que está intentando crear recursos informáticos desde una dirección IP inusual. Los modelos de información IP entrenados se pueden alojar en un punto de enlace para realizar predicciones en tiempo real o se pueden utilizar para procesar transformaciones por lotes.
SageMaker IP Insights recopila los datos históricos en pares (entidad, dirección IPv4) y aprende los patrones de uso de IP de cada entidad. Cuando se consulta con un evento (entidad, dirección IPv4), un modelo de SageMaker IP Insights devuelve una puntuación que deduce qué tan anómalo es el patrón del evento. Por ejemplo, cuando un usuario intenta iniciar sesión desde una dirección IP, si la puntuación de Información IP es lo suficientemente alta, un servidor de inicio de sesión web podría decidir activar un sistema de Multi-Factor Authentication. En las soluciones más avanzadas, puede enviar la puntuación de Información IP a otro modelo de machine learning. Por ejemplo, puede combinar la puntuación IP Insight con otras funciones para clasificar los resultados de otro sistema de seguridad, como los de Amazon GuardDuty.
El algoritmo SageMaker IP Insights también puede aprender las representaciones vectoriales de las direcciones IP, conocidas como incrustaciones. Puede utilizar incrustaciones con codificación del vector como características en tareas de machine learning posteriores que usan la información observada en las direcciones IP. Por ejemplo, puede utilizarlas en tareas como medir similitudes entre las direcciones IP en tareas de clustering y visualización.
Temas
Interfaz de entrada/salida para el algoritmo Información IP
Entrenamiento y validación
El algoritmo SageMaker IP Insights admite los canales de datos de entrenamiento y validación. Utiliza el canal de validación opcional para calcular una puntuación area-under-curve (AUC) en una estrategia de muestreo negativo predefinida. La métrica AUC valida la eficacia del modelo para discriminar entre muestras positivas y negativas. Los tipos de contenido de datos de capacitación y validación tienen que estar en formato text/csv
. La primera columna de los datos CSV es una cadena opaca que proporciona un identificador único para la entidad. La segunda columna es una dirección IPv4 en formato decimal con punto. Información IP actualmente solo admite el modo de Archivo. Para obtener más información y ejemplos, consulte Formatos de datos de capacitación de Información IP.
Inferencia
Para inferencia, Información IP admite los tipos de contenido de datos text/csv
, application/json
y application/jsonlines
. Para obtener más información sobre los formatos de datos comunes para la inferencia proporcionados por SageMaker, consulte. Formatos de datos comunes para inferencias La inferencia de Información IP devuelve un resultado con formato application/json
o application/jsonlines
. Cada uno de los registros de los datos de salida contienen las correspondientes dot_product
(o puntuación de compatibilidad) para cada punto de datos de entrada. Para obtener más información y ejemplos, consulte Formatos de datos de inferencia de Información IP.
Recomendación de instancia EC2 para el algoritmo de Información IP
El algoritmo SageMaker IP Insights puede ejecutarse tanto en instancias de GPU como de CPU. Para trabajos de capacitación, le recomendamos que utilice las instancias de GPU. Sin embargo, para determinadas cargas de trabajo con grandes conjuntos de datos de capacitación, las instancias de CPU distribuidas podrían reducir los costos de capacitación. Se recomiendan las instancias de CPU para inferencia. IP Insights es compatible con las familias de GPU P2, P3, G4dn y G5.
Instancias GPU para el algoritmo de Información IP
Información IP admite todas las GPUs disponibles. Si necesita acelerar la capacitación, le recomendamos que comience con una sola instancia de GPU, como ml.p3.2xlarge y, a continuación, cambiar a un entorno multi-GPU, como ml.p3.8xlarge y ml.p3.16xlarge. Multi-GPUs dividen automáticamente los mini lotes de datos de capacitación entre sí mismos. Si cambia de una única GPU a varias GPU, mini_batch_size
se divide por igual entre el número de GPU utilizadas. Es posible que desee aumentar el valor del mini_batch_size
para compensarlo.
Instancias CPU para el algoritmo Información IP
El tipo de instancia de CPU que le recomendamos depende en gran medida de la memoria disponible de la instancia y el tamaño del modelo. El tamaño del modelo se determina en función de dos hiperparámetros: vector_dim
y num_entity_vectors
. El tamaño de modelo máximo soportado es 8 GB. En la siguiente tabla se muestran los tipos de instancias EC2 típicos que implementaría en función de estos parámetros de entrada para distintos tamaños de modelo. En la tabla 1, el valor de vector_dim
en la primera columna va desde 32 hasta 2048 y los valores de num_entity_vectors
en la primera fila, de 10 000 a 50 000 000.
vector_dim \
num_entity_vectors . |
10 000 | 50 000 | 100 000 | 500 000 | 1 000 000 | 5,000,000 | 10 000 000 | 50,000,000 |
---|---|---|---|---|---|---|---|---|
32 |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.2xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
ml.m5.4xlarge |
|
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.2xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.4xlarge |
|||
|
ml.m5.large |
ml.m5.large |
ml.m5.xlarge |
ml.m5.xlarge |
Los valores de los hiperparámetros mini_batch_size
, num_ip_encoder_layers
, random_negative_sampling_rate
y shuffled_negative_sampling_rate
afectan a la cantidad de memoria necesaria. Si estos valores son altos, es posible que necesite utilizar un tipo de instancia mayor de lo habitual.
Cuadernos de ejemplo de Información IP
Para ver un ejemplo de cuaderno que muestra cómo entrenar el algoritmo SageMaker IP Insights y realizar inferencias con él, consulte Introducción al algoritmo SageMaker IP Insights