Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
El algoritmo de máquinas de factorización es un algoritmo de aprendizaje supervisado de uso general que puede utilizar para tareas de clasificación y regresión. Es una extensión de un modelo lineal que se ha diseñado para capturar de manera económica interacciones entre características dentro de conjuntos de datos dispersos de grandes dimensiones. Por ejemplo, en un sistema de predicción de clics, el modelo de máquinas de factorización puede capturar los patrones de tasas de clics observados cuando los anuncios de una determinada categoría de anuncios se colocan en páginas de una categoría de página específica. Las máquinas de factorización son una buena opción para las tareas que tratan con conjuntos de datos dispersos de grandes dimensiones, como la recomendación de productos y predicciones de clics.
nota
La implementación de Amazon SageMaker AI del algoritmo Factorization Machines solo considera las interacciones por pares (segundo orden) entre características.
Temas
Interfaz de entrada/salida para el algoritmo de máquinas de factorización
El algoritmo de máquinas de factorización se puede ejecutar en el modo de regresión o en el modo de clasificación binaria. En cada modo, puede proporcionarse un conjunto de datos en el canal de prueba junto con el conjunto de datos de canal de capacitación. La puntuación depende del modo utilizado. En el modo de regresión, el conjunto de datos de prueba se puntúa mediante la desviación cuadrática media (RMSE, Root Mean Square Error). En el modo de clasificación binario, el conjunto de datos de prueba se puntúa mediante la entropía cruzada binaria (pérdida de registro), la precisión (umbral = 0,5) y la puntuación F1 (umbral = 0,5).
Para el entrenamiento, el algoritmo de máquinas de factorización admite actualmente solo el formato recordIO-protobuf
con tensores Float32
. Puesto que su caso de uso es predominante en los datos dispersos, CSV
no es un buen candidato. La capacitación de los modos File y Pipe es compatible con el formato protobuf integrado recordIO.
Para la inferencia, el algoritmo de máquinas de factorización admite los formatos application/json
y x-recordio-protobuf
.
-
Para el problema de clasificación binaria, el algoritmo predice una puntuación y una etiqueta. La etiqueta es un número y puede ser
0
o1
. La puntuación es un número que indica en qué medida el algoritmo cree que la etiqueta debe ser1
. El algoritmo calcula la puntuación en primer lugar y, a continuación, obtiene la etiqueta del valor de puntuación. Si la puntuación superior o igual a 0,5, la etiqueta es1
. -
Para el problema de regresión, solo se devuelve una puntuación y es el valor esperado. Por ejemplo, si se utiliza máquinas de factorización para predecir una calificación de película, la puntuación es el valor de calificación esperado.
Consulte Cuadernos de ejemplo de máquinas de factorización para obtener más información sobre capacitación y los formatos de archivo de inferencia.
EC2 Recomendación de instancias para el algoritmo de máquinas de factorización
El algoritmo Amazon SageMaker AI Factorization Machines es altamente escalable y puede entrenarse en instancias distribuidas. Recomendamos realizar la capacitación y la inferencia con instancias de CPU para los conjuntos de datos dispersos y densos. En algunas circunstancias, el entrenamiento con uno o más GPUs datos densos puede ofrecer alguna ventaja. La capacitación con solo GPUs está disponible con datos densos. Utilice las instancias de CPU para los datos dispersos. El algoritmo de máquinas de factorización admite instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.
Cuadernos de ejemplo de máquinas de factorización
Para ver un ejemplo de cuaderno que utiliza el algoritmo de máquinas de factorización con SageMaker IA para analizar las imágenes de dígitos manuscritos del cero al nueve en el conjunto de datos del MNIST, consulte Introducción a las máquinas de factorización