Machine learning para principiantes y expertos
Con Amazon Redshift, puede aprovechar las capacidades de machine learning (ML) para obtener información a partir de los datos, si es un principiante o si es un experto en ML. Machine learning es una característica de Amazon Redshift que le permite crear, entrenar e implementar modelos de ML mediante comandos SQL, sin necesidad de una amplia experiencia en ML ni de una compleja ingeniería de datos.
Las siguientes secciones lo guiarán a través del proceso de uso de machine learning, lo que le permitirá desbloquear el potencial completo de los datos con Amazon Redshift.
Amazon Redshift ML le permite formar modelos con un solo comando SQL CREATE MODEL. El comando CREATE MODEL crea un modelo que Amazon Redshift utiliza para generar predicciones basadas en el modelo con construcciones SQL conocidas.
Amazon Redshift ML resulta de gran utilidad cuando no se tiene experiencia en lo que respecta a machine learning, herramientas, lenguajes, algoritmos y API. Gracias a Amazon Redshift ML, no se ve obligado a realizar las tareas complejas y no diferenciadas que se requieren para la integración con un servicio de machine learning externo. Amazon Redshift le permite ahorrar tiempo para formatear y mover datos; administrar controles de permisos; o crear integraciones, flujos de trabajo y scripts personalizados. Se pueden utilizar fácilmente algoritmos de machine learning populares y simplificar las necesidades de formación que requieren una iteración frecuente desde la formación hasta la predicción. Amazon Redshift detecta de forma automática el mejor algoritmo y ajusta el modelo más adecuado para su problema. Puede generar predicciones desde el clúster de Amazon Redshift sin necesidad de trasladar los datos fuera de este ni de interconectarlos con otro servicio ni pagar por su uso.
Amazon Redshift ML ayuda a analistas de datos y científicos de datos a utilizar machine learning. También permite que los expertos en machine learning utilicen sus conocimientos para guiar la instrucción CREATE MODEL y utilizar únicamente los aspectos que especifican. De este modo, se puede acelerar el tiempo que CREATE MODEL necesita a la hora de buscar el mejor candidato, mejorar la precisión del modelo o ambos.
La instrucción CREATE MODEL ofrece flexibilidad en la manera en que puede especificar los parámetros para el trabajo de formación. Con esta flexibilidad, los principiantes o expertos en machine learning pueden elegir sus procesadores previos, algoritmos, tipos de problemas o hiperparámetros preferidos. Por ejemplo, un usuario interesado en la deserción de los clientes podría especificar para la instrucción CREATE MODEL que el tipo de problema corresponde a una clasificación binaria, la cual funciona bien para los casos de deserción de clientes. A continuación, la instrucción CREATE MODEL acota la búsqueda para encontrar el modelo más adecuado entre los modelos de clasificación binaria. Incluso con la elección del tipo de problema por parte del usuario, aún existen numerosas opciones con las que puede funcionar la instrucción CREATE MODEL. Por ejemplo, CREATE MODEL detecta y aplica las transformaciones de preprocesamiento más adecuadas y determina cuál es la mejor configuración de los hiperparámetros.
Amazon Redshift ML facilita la formación mediante la búsqueda automática del modelo más adecuado a través de Amazon SageMaker Autopilot. En segundo plano, Amazon SageMaker Autopilot forma y ajusta automáticamente el modelo de machine learning más adecuado en función de los datos suministrados. A continuación, Amazon SageMaker Neo compila el modelo de formación y lo pone a disposición para la predicción en su clúster de Redshift. Cuando se ejecuta una consulta de inferencia de machine learning con un modelo formado, la consulta puede utilizar las capacidades de procesamiento masivo en paralelo de Amazon Redshift. Al mismo tiempo, la consulta puede utilizar predicciones basadas en machine learning.
-
Los principiantes en machine learning, con conocimientos generales sobre los diferentes aspectos de esta tecnología, como procesadores previos, algoritmos e hiperparámetros, utilizan la instrucción CREATE MODEL únicamente para aquellos aspectos que especifican. De este modo, se puede acortar el tiempo que CREATE MODEL necesita a la hora de buscar el mejor candidato o mejorar la precisión del modelo. Además, se puede aumentar el valor empresarial de las predicciones mediante la incorporación de conocimientos adicionales sobre la materia, como el tipo de problema o el objetivo. Por ejemplo, en un escenario de deserción de clientes, si el resultado “el cliente no está activo” es poco frecuente, se suele preferir el objetivo F1 en lugar del objetivo de precisión. Como los modelos de alta precisión tal vez predicen que “el cliente está activo” en todo momento, esto se traduce en una alta precisión, pero escaso valor empresarial. Para obtener más información acerca de los objetivos F1, consulte AutoMLJobObjective en la Referencia de la API de Amazon SageMaker.
Para obtener más información sobre las opciones básicas de la instrucción CREATE MODEL, consulte CREATE MODEL simple.
-
Como profesional avanzado de machine learning, puede especificar el tipo de problema y los preprocesadores para ciertas características (aunque no todas). Luego, CREATE MODEL sigue las sugerencias sobre los aspectos especificados. Al mismo tiempo, CREATE MODEL continúa con la detección de los mejores procesadores previos para las características restantes y los mejores hiperparámetros. Para obtener más información sobre cómo restringir uno o más aspectos de la canalización de formación, consulte CREATE MODEL con guía para el usuario.
-
Como experto en machine learning, puede tomar el control total de la formación y el ajuste de los hiperparámetros. Entonces, la instrucción CREATE MODEL no intenta detectar los procesadores previos, los algoritmos y los hiperparámetros óptimos, ya que es usted quien determina todas las opciones. Para obtener más información sobre cómo utilizar CREATE MODEL con AUTO OFF, consulte CREATE para modelos XGBoost con AUTO OFF.
-
Como ingeniero de datos, puede incorporar un modelo XGBoost ya sometido a formación en Amazon SageMaker e importarlo a Amazon Redshift para la inferencia local. Mediante bring your own model (BYOM), puede utilizar un modelo formado fuera de Amazon Redshift con Amazon SageMaker para la inferencia local en la base de datos de Amazon Redshift. Amazon Redshift ML admite el uso de BYOM en la inferencia local o remota.
Para obtener más información sobre cómo utilizar la instrucción CREATE MODEL para inferencia local o remota, consulte Bring your own model (BYOM): inferencia local.
Los usuarios de Amazon Redshift ML pueden elegir cualquiera de las siguientes opciones para formar e implementar su modelo:
-
Para los tipos de problemas, consulte CREATE MODEL con guía para el usuario.
-
Para los objetivos, consulte CREATE MODEL con guía para el usuario o CREATE para modelos XGBoost con AUTO OFF.
-
Para los tipos de modelo, consulte CREATE para modelos XGBoost con AUTO OFF.
-
Para los preprocesadores, consulte CREATE MODEL con guía para el usuario.
-
Para los hiperparámetros, consulte CREATE para modelos XGBoost con AUTO OFF.
-
Para bring your own model (BYOM), consulte Bring your own model (BYOM): inferencia local.