Cómo funcionan los modelos personalizados - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo funcionan los modelos personalizados

Utilice Amazon SageMaker Canvas para crear un modelo personalizado en el conjunto de datos que ha importado. Utilice el modelo que ha creado para hacer predicciones a partir de nuevos datos. SageMaker Canvas usa la información del conjunto de datos para crear hasta 250 modelos y elegir el que tenga el mejor rendimiento.

Al empezar a crear un modelo, Canvas recomienda automáticamente uno o más tipos de modelos. Los tipos de modelos se dividen en las siguientes categorías:

  • Predicción numérica: esto se conoce como regresión en el machine learning. Utilice el tipo de modelo de predicción numérica cuando desee realizar predicciones para datos numéricos. Por ejemplo, es posible que desee predecir el precio de las casas en función de características como la superficie de la casa.

  • Predicción categórica: esto se conoce como clasificación en el machine learning. Cuando desee clasificar los datos en grupos, utilice los tipos de modelos de predicción categórica:

    • Predicción de 2 categorías: utilice el tipo de modelo de predicción de 2 categorías (también conocido como clasificación binaria en el machine learning) cuando tenga dos categorías que desee predecir para sus datos. Por ejemplo, es posible que desee determinar si es probable que un cliente se dé de baja.

    • Predicción de 3 categorías o más: utilice el tipo de modelo de predicción de 3 categorías o más (también conocido como clasificación multiclase en el machine learning) cuando desee predecir tres o más categorías a partir de sus datos. Por ejemplo, es posible que desee predecir el estado del préstamo de un cliente en función de características como los pagos anteriores.

  • Previsión de series temporales: utilice previsiones de series temporales cuando desee realizar predicciones durante un período de tiempo. Por ejemplo, es posible que desee predecir la cantidad de artículos que venderá en el próximo trimestre. Para obtener información sobre las previsiones de series temporales, consulte Pronósticos de series temporales en Amazon SageMaker Canvas.

  • Predicción de imágenes: utilice el tipo de modelo de predicción de imágenes de etiqueta única (también conocido como clasificación de imágenes de etiqueta única en el machine learning) cuando desee asignar etiquetas a las imágenes. Por ejemplo, es posible que desee clasificar diferentes tipos de defectos de fabricación en las imágenes de su producto.

  • Predicción de texto: utilice el tipo de modelo de predicción de texto multicategoría (también conocido como clasificación de texto multiclase en el machine learning) cuando desee asignar etiquetas a pasajes de texto. Por ejemplo, es posible que tenga un conjunto de datos de reseñas de clientes sobre un producto y quiera determinar si a los clientes les gustó o no el producto. Puede hacer que su modelo prediga si un pasaje de texto determinado es Positive, Negative o Neutral.

Para ver una tabla de los tipos de datos de entrada admitidos para cada tipo de modelo, consulte Modelos personalizados.

Para cada modelo de datos tabulares que cree (que incluye modelos numéricos, categóricos, de previsión de series temporales y de predicción de texto), debe elegir la Columna de destino. La Columna de destino es la columna que contiene la información que quiera predecir. Por ejemplo, si está creando un modelo para predecir si las personas han cancelado sus suscripciones, la Columna de destino contiene puntos de datos que indican yes o no en relación con el estado de cancelación de una persona.

En el caso de los modelos de predicción de imágenes, se crea el modelo con un conjunto de datos de imágenes a las que se les han asignado etiquetas. Para las imágenes sin etiquetas que proporcione, el modelo predice una etiqueta. Por ejemplo, si está creando un modelo para predecir si una imagen es de un gato o un perro, debe proporcionar imágenes etiquetadas como gatos o perros al crear el modelo. A continuación, el modelo puede aceptar imágenes sin etiquetar y predecirlas como gatos o perros.

Qué ocurre cuando se crea un modelo

Para crear su modelo, puede elegir entre una compilación rápida o una compilación estándar. La compilación rápida tiene un tiempo de compilación más corto, pero la compilación estándar generalmente tiene una precisión mayor.

Para los modelos de pronóstico tabulares y de series temporales, Canvas utiliza la reducción del muestreo para reducir el tamaño de los conjuntos de datos de más de 5 GB o 30 GB, respectivamente. Canvas reduce el muestreo con el método de muestreo estratificado. La siguiente tabla muestra el tamaño de la muestra descendente por tipo de modelo. Para controlar el proceso de muestreo, puede utilizar el Data Wrangler de Canvas para muestrear utilizando la técnica de muestreo que prefiera. En el caso de los datos de series temporales, puede volver a muestrear para agregar puntos de datos. Para obtener más información sobre el muestreo, consulteMuestreo. Para obtener más información sobre el remuestreo de datos de series temporales, consulte. Remuestreo de datos de series temporales

Si opta por realizar una compilación rápida a partir de un conjunto de datos con más de 50 000 filas, Canvas muestreará los datos hasta 50 000 filas para reducir el tiempo de entrenamiento del modelo.

En la siguiente tabla se resumen las características clave del proceso de creación de modelos, incluidos los tiempos de creación promedio de cada modelo y tipo de construcción, el tamaño de la muestra descendente al crear modelos con conjuntos de datos de gran tamaño y la cantidad mínima y máxima de puntos de datos que debe tener para cada tipo de compilación.

Límite Predicción numérica y categórica Previsión de serie temporal Predicción de imágenes Predicción de texto

Tiempo de construcción rápido

De 2 a 20 minutos

De 2 a 20 minutos

De 3 a 15 minutos

De 3 a 15 minutos

Tiempo de construcción estándar

De 2 a 4 horas

De 2 a 4 horas

De 2 a 5 horas

De 2 a 5 horas

Reducir el tamaño de la muestra (el tamaño reducido de un conjunto de datos grande después de reducir la muestra de Canvas)

5 GB

30 GB

N/A

N/A

Número mínimo de entradas (filas) para compilaciones rápidas

2 categorías: 500 filas

Más de 3 categorías, numéricos, serie temporal: N/A

N/A

N/A

N/A

Número mínimo de entradas (filas, imágenes o documentos) para las compilaciones estándares

250

50

50

N/A

Número máximo de entradas (filas, imágenes o documentos) para las compilaciones rápidas

N/A

N/A

5000

7500

Número máximo de entradas (filas, imágenes o documentos) para las compilaciones estándares

N/A

150.000

180,000

N/A

Número máximo de columnas.

1 000

1 000

N/A

N/A

Si cierra sesión mientras ejecuta una compilación rápida, es posible que la compilación se interrumpa hasta que vuelva a iniciar sesión. Cuando vuelva a iniciar sesión, Canvas reanudará la compilación rápida.

Canvas predice los valores utilizando la información del resto del conjunto de datos, según el tipo de modelo:

  • Para la predicción categórica, Canvas coloca cada fila en una de las categorías enumeradas en la Columna de destino.

  • Para la predicción numérica, Canvas utiliza la información del conjunto de datos para predecir los valores numéricos de la Columna de destino.

  • Para la previsión de series temporales, Canvas utiliza datos históricos para predecir los valores de la Columna de destino en el futuro.

  • Para la predicción de imágenes, Canvas utiliza imágenes a las que se les han asignado etiquetas para predecir las etiquetas de las imágenes sin etiquetar.

  • Para la predicción de texto, Canvas analiza los datos de texto a los que se les han asignado etiquetas para predecir las etiquetas de los pasajes de texto sin etiquetar.

Características adicionales que le ayudarán a crear su modelo

Antes de crear su modelo, puede usar Data Wrangler en Canvas para preparar sus datos con más de 300 transformaciones y operadores integrados. Data Wrangler admite transformaciones para conjuntos de datos tabulares y de imágenes. Además, puede conectarse a fuentes de datos fuera de Canvas, crear trabajos para aplicar transformaciones a todo su conjunto de datos y exportar sus datos completamente preparados y limpios para usarlos en flujos de trabajo de aprendizaje automático fuera de Canvas. Para obtener más información, consulte Preparación de los datos.

Para ver las visualizaciones y los análisis para explorar sus datos y determinar qué características incluir en su modelo, puede utilizar los análisis integrados de Data Wrangler. También puede acceder a un informe de información y calidad de los datos que destaca los posibles problemas con su conjunto de datos y proporciona recomendaciones sobre cómo solucionarlos. Para obtener más información, consulte Realice un análisis exploratorio de datos () EDA.

Además de la funcionalidad más avanzada de preparación y exploración de datos que ofrece Data Wrangler, Canvas ofrece algunas funciones básicas que puede utilizar:

  • Para filtrar los datos y acceder a un conjunto de transformaciones de datos básicas, consulte. Prepare los datos para la creación de modelos

  • Para acceder a visualizaciones y análisis sencillos para la exploración de funciones, consulteExploración y análisis de datos.

  • Para obtener más información sobre características adicionales, como la vista previa del modelo, la validación del conjunto de datos y el cambio del tamaño de la muestra aleatoria utilizada para crear el modelo, consulte Vista previa del modelo.

En el caso de los conjuntos de datos tabulares con varias columnas (como los conjuntos de datos para crear tipos de modelos de previsión categóricos, numéricos o de series temporales), es posible que tenga filas en las que falten puntos de datos. Mientras Canvas crea el modelo, agrega automáticamente los valores faltantes. Canvas usa los valores de su conjunto de datos para realizar una aproximación matemática de los valores faltantes. Para obtener la máxima precisión del modelo, le recomendamos agregar los datos que faltan si puede encontrarlos. Tenga en cuenta que la característica de datos faltantes no es compatible con los modelos de predicción de texto o de imagen.

Introducción

Para empezar a compilar un modelo personalizado, consulte Creación de un modelo y siga el procedimiento correspondiente al tipo de modelo que desee crear.