Algoritmo de máquinas de factorización - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Algoritmo de máquinas de factorización

El algoritmo de máquinas de factorización es un algoritmo de aprendizaje supervisado de uso general que puede utilizar para tareas de clasificación y regresión. Es una extensión de un modelo lineal que se ha diseñado para capturar de manera económica interacciones entre características dentro de conjuntos de datos dispersos de grandes dimensiones. Por ejemplo, en un sistema de predicción de clics, el modelo de máquinas de factorización puede capturar los patrones de tasas de clics observados cuando los anuncios de una determinada categoría de anuncios se colocan en páginas de una categoría de página específica. Las máquinas de factorización son una buena opción para las tareas que tratan con conjuntos de datos dispersos de grandes dimensiones, como la recomendación de productos y predicciones de clics.

nota

La SageMaker implementación de Amazon del algoritmo Factorization Machines considera solo las interacciones por pares (segundo orden) entre características.

Interfaz de entrada/salida para el algoritmo de máquinas de factorización

El algoritmo de máquinas de factorización se puede ejecutar en el modo de regresión o en el modo de clasificación binaria. En cada modo, puede proporcionarse un conjunto de datos en el canal de prueba junto con el conjunto de datos de canal de capacitación. La puntuación depende del modo utilizado. En el modo de regresión, el conjunto de datos de prueba se puntúa mediante la desviación cuadrática media (RMSE, Root Mean Square Error). En el modo de clasificación binario, el conjunto de datos de prueba se puntúa mediante la entropía cruzada binaria (pérdida de registro), la precisión (umbral = 0,5) y la puntuación F1 (umbral = 0,5).

Para el entrenamiento, el algoritmo de máquinas de factorización admite actualmente solo el formato recordIO-protobuf con tensores Float32. Puesto que su caso de uso es predominante en los datos dispersos, CSV no es un buen candidato. La capacitación de los modos File y Pipe es compatible con el formato protobuf integrado recordIO.

Para la inferencia, el algoritmo de máquinas de factorización admite los formatos application/json y x-recordio-protobuf.

  • Para el problema de clasificación binaria, el algoritmo predice una puntuación y una etiqueta. La etiqueta es un número y puede ser 0 o 1. La puntuación es un número que indica en qué medida el algoritmo cree que la etiqueta debe ser 1. El algoritmo calcula la puntuación en primer lugar y, a continuación, obtiene la etiqueta del valor de puntuación. Si la puntuación superior o igual a 0,5, la etiqueta es 1.

  • Para el problema de regresión, solo se devuelve una puntuación y es el valor esperado. Por ejemplo, si se utiliza máquinas de factorización para predecir una calificación de película, la puntuación es el valor de calificación esperado.

Consulte Cuadernos de ejemplo de máquinas de factorización para obtener más información sobre capacitación y los formatos de archivo de inferencia.

Recomendación de la instancia EC2 para el algoritmo de máquinas de factorización

El algoritmo de Amazon SageMaker Factorization Machines es altamente escalable y puede entrenarse en instancias distribuidas. Recomendamos realizar la capacitación y la inferencia con instancias de CPU para los conjuntos de datos dispersos y densos. En determinadas circunstancias, la capacitación con uno o más GPU en datos densos puede proporcionar algunos beneficios. La capacitación con GPU está disponible solo en datos densos. Utilice las instancias de CPU para los datos dispersos. El algoritmo de máquinas de factorización admite instancias P2, P3, G4dn y G5 para el entrenamiento y la inferencia.

Cuadernos de ejemplo de máquinas de factorización

Para ver un ejemplo de cuaderno que utiliza el algoritmo de máquinas de SageMaker factorización para analizar las imágenes de dígitos manuscritos del cero al nueve en el conjunto de datos del MNIST, consulte Introducción a las máquinas de factorización con el MNIST. Para obtener instrucciones sobre cómo crear instancias de Jupyter Notebook y acceder a ellas, que puede utilizar para ejecutar el ejemplo, consulte. SageMaker Instancias de Amazon SageMaker Notebook Una vez que haya creado una instancia de bloc de notas y la haya abierto, seleccione la pestaña SageMaker Ejemplos para ver una lista de todos los SageMaker ejemplos. Los cuadernos de ejemplo del algoritmo de máquinas de factorización se encuentran en la sección Introducción a los algoritmos de Amazon. Para abrir un cuaderno, haga clic en la pestaña Usar y seleccione Crear copia.