Fuentes de datos Modelos de ML Evaluaciones Predicciones por lotes Predicciones en tiempo real

Amazon Machine Learning: Conceptos clave

En esta sección se indican los siguientes conceptos clave y se describen con más detalle cómo se utilizan en Amazon ML:

Fuentes de datos contienen metadatos asociados con las entradas de datos en Amazon ML
Modelos de ML generan predicciones utilizando los patrones extraídos de los datos de entrada
Las Evaluaciones miden la calidad de modelos de ML
Predicciones por lotes generan predicciones de forma asíncrona para varias observaciones de datos de entrada
Predicciones en tiempo real generan predicciones de forma sincrónica para observaciones de datos individuales

Fuentes de datos

Una fuente de datos es un objeto que contiene metadatos sobre los datos de entrada. Amazon ML lee los datos de entrada, calcula estadísticas descriptivas sobre sus atributos y almacena las estadísticas, junto con un esquema y otra información, como parte del objeto de fuente de datos. A continuación, Amazon ML utiliza la fuente de datos para entrenar y evaluar un modelo de ML y generar predicciones por lotes.

importante

Una fuente de datos no almacena ninguna copia de los datos de entrada. En su lugar, almacena una referencia a la ubicación de Amazon S3 en la que se encuentran los datos de entrada. Si mueve o cambia el archivo de Amazon S3, Amazon ML no puede obtener acceso a él o utilizarlo para crear un modelo de ML, generar evaluaciones o generar predicciones.

En la siguiente tabla se definen términos relacionados con las fuentes de datos.

Plazo	Definición
Atributo	Una propiedad única con nombre que pertenece a una observación. En los datos formateados por tablas, como las hojas de cálculo o los archivos de valores separados por comas (.csv), los encabezados de columna representan los atributos y las filas contienen los valores de cada atributo. Sinónimos: variable, nombre de variable, campo, columna
Nombre de la fuente de datos	(Opcional) Permite definir un nombre legible para una fuente de datos. Estos nombres le permiten encontrar y administrar sus fuentes de datos en la consola de Amazon ML.
Datos de entrada	Nombre colectivo para todas las observaciones a las que hace referencia una fuente de datos.
Ubicación	Ubicación de los datos de entrada. En la actualidad, Amazon ML puede utilizar datos que se almacenan en un bucket de Amazon S3, bases de datos de Amazon Redshift o bases de datos MySQL en Amazon Relational Database Service (RDS).
Observación	Una sola unidad de datos de entrada. Por ejemplo, si está creando un modelo de ML para detectar transacciones fraudulentas, los datos de entrada se componen de muchas observaciones, cada una de las cuales representa una transacción individual. Sinónimos: registro, ejemplo, instancia, fila
ID de fila	(Opcional) Una marca que, si se especifica, identifica un atributo en los datos de entrada que se incluye en la salida de predicciones. Este atributo facilita determinar qué predicción se corresponde con cada observación. Sinónimos: identificador de fila
Esquema	La información necesaria para interpretar los datos de entrada, incluidos los nombres de los atributos y sus tipos de datos asignados, así como los nombres de los atributos especiales.
Statistics	Estadísticas de resumen para cada atributo en los datos de entrada. Estas estadísticas tienen dos propósitos: La consola de Amazon ML los muestra en gráficos para ayudarle a entender sus datos at-a-glance e identificar irregularidades o errores. Amazon ML las utiliza durante el proceso de entrenamiento para mejorar la calidad del modelo de ML resultante.
Estado	Indica el estado actual del origen de datos, como, In Progress (En curso), Completed (Completado) o Failed (Error).
Atributo de destino	En el contexto de la formación de un modelo de ML, el atributo de destino identifica el nombre del atributo en los datos de entrada que contiene las respuestas "correctas". Amazon ML lo utiliza para descubrir patrones en los datos de entrada y generar un modelo de ML. En el contexto de la evaluación y la generación de predicciones, el atributo de destino es el atributo cuyo valor se prevé por un modelo entrenado de ML. Sinónimos: destino

Modelos de ML

Un modelo de ML es un modelo matemático que genera predicciones detectando patrones en los datos. Amazon ML admite tres tipos de modelos de ML: clasificación binaria, clasificación multiclase y regresión.

En la siguiente tabla se definen términos relacionados con los modelos de ML.

Plazo	Definición
Regresión	El objetivo de entrenar un modelo de ML de regresión es predecir un valor numérico.
Multiclase	El objetivo de entrenar un modelo de ML multiclase es predecir valores pertenecientes a un conjunto limitado y predefinido de valores permitidos.
Binario	El objetivo de entrenar un modelo de ML binario es predecir valores que solo pueden tener uno de los dos estados posibles, como verdadero o falso.
Tamaño del modelo	Los modelos de ML capturan y almacenan patrones. Cuantos más patrones almacena un modelo de ML, más grande será. El tamaño del modelo de ML se describe en megabytes.
Número de iteraciones	Cuando entrena un modelo de ML, utiliza datos de una fuente de datos. A veces es beneficioso utilizar más de una vez cada registro de datos en el proceso de aprendizaje. El número de veces que Amazon ML utiliza los mismos registros de datos se denomina número de iteraciones.
Regularización	La regulación es una técnica de machine learning que puede usar para obtener modelos de mayor calidad. Amazon ML ofrece una configuración predeterminada que funciona bien para la mayoría de los casos.

Evaluaciones

Una evaluación mide la calidad del modelo de ML y determina si se está desempeñando bien.

En la siguiente tabla se definen términos relacionados con las evaluaciones.

Plazo	Definición
Informaciones del modelo	Amazon ML le proporciona una métrica y una serie de informaciones que puede utilizar para evaluar el desempeño predictivo de su modelo.
AUC	El parámetro Area Under the ROC Curve (AUC) mide la capacidad de un modelo de ML binario de predecir una mayor puntuación para ejemplos positivos en comparación con ejemplos negativos.
Puntuación F1 macropromediada	La puntuación F1 macropromediada se utiliza para evaluar el desempeño predictivo de modelos de ML multiclase.
RMSE	El parámetro Root Mean Square Error (RMSE) es una métrica utilizada para evaluar el desempeño predictivo de modelos de ML de regresión.
Valor de corte	Los modelos de ML trabajan generando puntuaciones de predicción numérica. Al aplicar un valor de corte, el sistema convierte estas puntuaciones en etiquetas 0 y 1.
Exactitud	La exactitud mide el porcentaje de predicciones correctas.
Precisión	La precision muestra el porcentaje de instancias positivas reales (en lugar de falsos positivos) de las instancias que se han recuperado (las que se predijeron como positivas). En decir, cuántos elementos seleccionados son positivos.
Exhaustividad	La exhaustividad muestra el porcentaje de positivos reales entre el número total de instancias pertinentes (positivos reales). En decir, cuántos elementos positivos se han seleccionado.

Predicciones por lotes

Las predicciones por lotes son para un conjunto de observaciones que se pueden ejecutarse a la vez. Esto es ideal para análisis predictivos que no tienen requisitos en tiempo real.

En la siguiente tabla se definen términos relacionados con las predicciones por lotes.

Plazo	Definición
Ubicación de la salida	Los resultados de una predicción por lotes se almacenan en una ubicación de salida del bucket de S3.
Archivo de manifiesto	Este archivo relaciona cada archivo de datos de entrada con sus resultados de predicción por lotes asociados. Se almacena en la ubicación de salida del bucket de S3.

Predicciones en tiempo real

Las predicciones en tiempo real son para aplicaciones que requieren una latencia baja, como webs interactivas, móviles o aplicaciones de escritorio. Cualquier modelo de ML puede consultarse para obtener predicciones usando la API de predicciones en tiempo real de baja latencia.

En la siguiente tabla se definen términos relacionados con las predicciones en tiempo real.

Plazo	Definición
API de predicción en tiempo real	La API de predicción en tiempo real acepta una única observación de entrada en la solicitud de carga y devuelve la predicción de la respuesta.
Punto de enlace de predicción en tiempo real	Para utilizar un modelo de ML con la API de predicción en tiempo real, debe crear un punto de enlace de predicción en tiempo real. Una vez creado, el punto de enlace contiene la URL que puede utilizar para solicitar las predicciones en tiempo real.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

¿Qué es Amazon Machine Learning?

Acceder a Amazon Machine Learning