Cómo funcionan los modelos personalizados

Modo de enfoque

Cómo funcionan los modelos personalizados - Amazon SageMaker AI

Utilice Amazon SageMaker Canvas para crear un modelo personalizado en el conjunto de datos que ha importado. Utilice el modelo que ha creado para hacer predicciones a partir de nuevos datos. SageMaker Canvas usa la información del conjunto de datos para crear hasta 250 modelos y elegir el que tenga el mejor rendimiento.

Al empezar a crear un modelo, Canvas recomienda automáticamente uno o más tipos de modelos. Los tipos de modelos se dividen en las siguientes categorías:

Predicción numérica: esto se conoce como regresión en el machine learning. Utilice el tipo de modelo de predicción numérica cuando desee realizar predicciones para datos numéricos. Por ejemplo, es posible que desee predecir el precio de las casas en función de características como la superficie de la casa.
Predicción categórica: esto se conoce como clasificación en el machine learning. Cuando desee clasificar los datos en grupos, utilice los tipos de modelos de predicción categórica:
- Predicción de 2 categorías: utilice el tipo de modelo de predicción de 2 categorías (también conocido como clasificación binaria en el machine learning) cuando tenga dos categorías que desee predecir para sus datos. Por ejemplo, es posible que desee determinar si es probable que un cliente se dé de baja.
- Predicción de 3 categorías o más: utilice el tipo de modelo de predicción de 3 categorías o más (también conocido como clasificación multiclase en el machine learning) cuando desee predecir tres o más categorías a partir de sus datos. Por ejemplo, es posible que desee predecir el estado del préstamo de un cliente en función de características como los pagos anteriores.
Previsión de series temporales: utilice previsiones de series temporales cuando desee realizar predicciones durante un período de tiempo. Por ejemplo, es posible que desee predecir la cantidad de artículos que venderá en el próximo trimestre. Para obtener información sobre las previsiones de series temporales, consulte Pronósticos de series temporales en Amazon SageMaker Canvas.
Predicción de imágenes: utilice el tipo de modelo de predicción de imágenes de etiqueta única (también conocido como clasificación de imágenes de etiqueta única en el machine learning) cuando desee asignar etiquetas a las imágenes. Por ejemplo, es posible que desee clasificar diferentes tipos de defectos de fabricación en las imágenes de su producto.
Predicción de texto: utilice el tipo de modelo de predicción de texto multicategoría (también conocido como clasificación de texto multiclase en el machine learning) cuando desee asignar etiquetas a pasajes de texto. Por ejemplo, es posible que tenga un conjunto de datos de reseñas de clientes sobre un producto y quiera determinar si a los clientes les gustó o no el producto. Puede hacer que su modelo prediga si un pasaje de texto determinado es Positive, Negative o Neutral.

Para ver una tabla de los tipos de datos de entrada admitidos para cada tipo de modelo, consulte Modelos personalizados.

Para cada modelo de datos tabulares que cree (que incluye modelos numéricos, categóricos, de previsión de series temporales y de predicción de texto), debe elegir la Columna de destino. La Columna de destino es la columna que contiene la información que quiera predecir. Por ejemplo, si está creando un modelo para predecir si las personas han cancelado sus suscripciones, la Columna de destino contiene puntos de datos que indican yes o no en relación con el estado de cancelación de una persona.

En el caso de los modelos de predicción de imágenes, se crea el modelo con un conjunto de datos de imágenes a las que se les han asignado etiquetas. Para las imágenes sin etiquetas que proporcione, el modelo predice una etiqueta. Por ejemplo, si está creando un modelo para predecir si una imagen es de un gato o un perro, debe proporcionar imágenes etiquetadas como gatos o perros al crear el modelo. A continuación, el modelo puede aceptar imágenes sin etiquetar y predecirlas como gatos o perros.

Qué ocurre cuando se crea un modelo

Para crear su modelo, puede elegir entre una compilación rápida o una compilación estándar. La compilación rápida tiene un tiempo de compilación más corto, pero la compilación estándar generalmente tiene una precisión mayor.

Para los modelos de previsión tabulares y de series temporales, Canvas utiliza reducción del muestreo para reducir el tamaño de los conjuntos de datos de más de 5 GB o 30 GB, respectivamente. Canvas reduce el muestreo con el método de muestreo estratificado. La siguiente tabla presenta el tamaño de la muestra reducida por tipo de modelo. Para controlar el proceso de muestreo, puede utilizar Data Wrangler en Canvas para muestrear utilizando la técnica de muestreo que prefiera. En el caso de los datos de series temporales, puede volver a muestrear para agregar puntos de datos. Para obtener más información sobre el muestreo, consulte Muestreo. Para obtener más información sobre el remuestreo de datos de series temporales, consulte Remuestreo de datos de series temporales.

Si realiza una Compilación rápida a partir de un conjunto de datos con más de 50 000 filas, Canvas muestreará los datos hasta 50 000 filas para reducir el tiempo de entrenamiento del modelo.

La siguiente tabla resume las características clave del proceso de compilación de modelos, incluidos los tiempos de compilación medios de cada modelo y tipo de compilación, el tamaño de la muestra reducida al compilar modelos con conjuntos de datos de gran tamaño y la cantidad mínima y máxima de puntos de datos que debe tener para cada tipo de compilación.

Límite	Predicción numérica y categórica	Previsión de serie temporal	Predicción de imágenes	Predicción de texto
Tiempo de compilación rápida	De 2 a 20 minutos	De 2 a 20 minutos	De 3 a 15 minutos	De 3 a 15 minutos
Tiempo de compilación estándar	De 2 a 4 horas	De 2 a 4 horas	De 2 a 5 horas	De 2 a 5 horas
Tamaño de la muestra reducida (tamaño de un conjunto de datos grande después de que Canvas reduzca la muestra)	5 GB	30 GB	N/A	N/A
Número mínimo de entradas (filas) para compilaciones rápidas	2 categorías: 500 filas Más de 3 categorías, numéricos, serie temporal: N/A	N/A	N/A	N/A
Número mínimo de entradas (filas, imágenes o documentos) para las compilaciones estándares	250	50	50	N/A
Número máximo de entradas (filas, imágenes o documentos) para las compilaciones rápidas	N/A	N/A	5000	7500
Número máximo de entradas (filas, imágenes o documentos) para las compilaciones estándares	N/A	150.000	180,000	N/A
Número máximo de columnas.	1 000	1 000	N/A	N/A

Canvas predice los valores utilizando la información del resto del conjunto de datos, según el tipo de modelo:

Para la predicción categórica, Canvas coloca cada fila en una de las categorías enumeradas en la Columna de destino.
Para la predicción numérica, Canvas utiliza la información del conjunto de datos para predecir los valores numéricos de la Columna de destino.
Para la previsión de series temporales, Canvas utiliza datos históricos para predecir los valores de la Columna de destino en el futuro.
Para la predicción de imágenes, Canvas utiliza imágenes a las que se les han asignado etiquetas para predecir las etiquetas de las imágenes sin etiquetar.
Para la predicción de texto, Canvas analiza los datos de texto a los que se les han asignado etiquetas para predecir las etiquetas de los pasajes de texto sin etiquetar.

Características adicionales que le ayudarán a crear su modelo

Antes de compilar el modelo, puede usar Data Wrangler en Canvas para preparar los datos con más de 300 transformaciones y operadores integrados. Data Wrangler admite transformaciones para conjuntos de datos tabulares y de imágenes. Además, puede conectarse a orígenes de datos fuera de Canvas, crear trabajos para aplicar transformaciones a todo el conjunto de datos y exportar datos completamente preparados y limpios para usarlos en flujos de trabajo de ML fuera de Canvas. Para obtener más información, consulte Preparación de datos.

Para ver visualizaciones y análisis a fin de explorar los datos y determinar qué características se incluyen en el modelo, puede utilizar los análisis integrados de Data Wrangler. También puede acceder a un informe de información y calidad de los datos que destaca los posibles problemas del conjunto de datos y proporciona recomendaciones sobre cómo solucionarlos. Para obtener más información, consulte Realización de análisis de datos exploratorio (EDA).

Además de la funcionalidad más avanzada de preparación y exploración de datos que ofrece Data Wrangler, Canvas ofrece características básicas que puede utilizar:

Para filtrar los datos y acceder a un conjunto de transformaciones de datos básicas, consulte Preparación de datos para la creación de modelos.
Para acceder a visualizaciones y análisis sencillos para explorar características, consulte Exploración y análisis de datos.
Para obtener más información sobre características adicionales, como la vista previa del modelo, la validación del conjunto de datos y el cambio del tamaño de la muestra aleatoria utilizada para crear el modelo, consulte Vista previa del modelo.

En el caso de los conjuntos de datos tabulares con varias columnas (como los conjuntos de datos para crear tipos de modelos de previsión categóricos, numéricos o de series temporales), es posible que tenga filas en las que falten puntos de datos. Mientras Canvas crea el modelo, agrega automáticamente los valores faltantes. Canvas usa los valores de su conjunto de datos para realizar una aproximación matemática de los valores faltantes. Para obtener la máxima precisión del modelo, le recomendamos agregar los datos que faltan si puede encontrarlos. Tenga en cuenta que la característica de datos faltantes no es compatible con los modelos de predicción de texto o de imagen.

Introducción

Para empezar a compilar un modelo personalizado, consulte Creación de un modelo y siga el procedimiento correspondiente al tipo de modelo que desee crear.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Modelos personalizados

Vista previa del modelo

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Cómo funcionan los modelos personalizados

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?