Amazon Machine Learning: Conceptos clave - Amazon Machine Learning

Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Machine Learning: Conceptos clave

En esta sección se indican los siguientes conceptos clave y se describen con más detalle cómo se utilizan en Amazon ML:

  • Fuentes de datos contienen metadatos asociados con las entradas de datos en Amazon ML

  • Modelos de ML generan predicciones utilizando los patrones extraídos de los datos de entrada

  • Las Evaluaciones miden la calidad de modelos de ML

  • Predicciones por lotes generan predicciones de forma asíncrona para varias observaciones de datos de entrada

  • Predicciones en tiempo real generan predicciones de forma sincrónica para observaciones de datos individuales

Fuentes de datos

Una fuente de datos es un objeto que contiene metadatos sobre los datos de entrada. Amazon ML lee los datos de entrada, calcula estadísticas descriptivas sobre sus atributos y almacena las estadísticas, junto con un esquema y otra información, como parte del objeto de fuente de datos. A continuación, Amazon ML utiliza la fuente de datos para entrenar y evaluar un modelo de ML y generar predicciones por lotes.

importante

Una fuente de datos no almacena ninguna copia de los datos de entrada. En su lugar, almacena una referencia a la ubicación de Amazon S3 en la que se encuentran los datos de entrada. Si mueve o cambia el archivo de Amazon S3, Amazon ML no puede obtener acceso a él o utilizarlo para crear un modelo de ML, generar evaluaciones o generar predicciones.

En la siguiente tabla se definen términos relacionados con las fuentes de datos.

Plazo Definición
Atributo

Una propiedad única con nombre que pertenece a una observación. En los datos formateados por tablas, como las hojas de cálculo o los archivos de valores separados por comas (.csv), los encabezados de columna representan los atributos y las filas contienen los valores de cada atributo.

Sinónimos: variable, nombre de variable, campo, columna

Nombre de la fuente de datos (Opcional) Permite definir un nombre legible para una fuente de datos. Estos nombres le permiten encontrar y administrar sus fuentes de datos en la consola de Amazon ML.
Datos de entrada Nombre colectivo para todas las observaciones a las que hace referencia una fuente de datos.
Location Ubicación de los datos de entrada. En la actualidad, Amazon ML puede utilizar datos que se almacenan en un bucket de Amazon S3, bases de datos de Amazon Redshift o bases de datos MySQL en Amazon Relational Database Service (RDS).
Observación

Una sola unidad de datos de entrada. Por ejemplo, si está creando un modelo de ML para detectar transacciones fraudulentas, los datos de entrada se componen de muchas observaciones, cada una de las cuales representa una transacción individual.

Sinónimos: registro, ejemplo, instancia, fila

ID de fila

(Opcional) Una marca que, si se especifica, identifica un atributo en los datos de entrada que se incluye en la salida de predicciones. Este atributo facilita determinar qué predicción se corresponde con cada observación.

Sinónimos: identificador de fila

Esquema La información necesaria para interpretar los datos de entrada, incluidos los nombres de los atributos y sus tipos de datos asignados, así como los nombres de los atributos especiales.
Estadísticas

Estadísticas de resumen para cada atributo en los datos de entrada. Estas estadísticas tienen dos propósitos:

La consola de Amazon ML las muestra en gráficos para ayudarle a comprender los datos rápidamente y a identificar irregularidades o errores.

Amazon ML las utiliza durante el proceso de entrenamiento para mejorar la calidad del modelo de ML resultante.

Estado Indica el estado actual del origen de datos, como, In Progress (En curso), Completed (Completado) o Failed (Error).
Atributo de destino

En el contexto de la formación de un modelo de ML, el atributo de destino identifica el nombre del atributo en los datos de entrada que contiene las respuestas "correctas". Amazon ML lo utiliza para descubrir patrones en los datos de entrada y generar un modelo de ML. En el contexto de la evaluación y la generación de predicciones, el atributo de destino es el atributo cuyo valor se prevé por un modelo entrenado de ML.

Sinónimos: destino

Modelos de ML

Un modelo de ML es un modelo matemático que genera predicciones detectando patrones en los datos. Amazon ML admite tres tipos de modelos de ML: clasificación binaria, clasificación multiclase y regresión.

En la siguiente tabla se definen términos relacionados con los modelos de ML.

Plazo Definición
Regresión El objetivo de entrenar un modelo de ML de regresión es predecir un valor numérico.
Multiclase El objetivo de entrenar un modelo de ML multiclase es predecir valores pertenecientes a un conjunto limitado y predefinido de valores permitidos.
Binario El objetivo de entrenar un modelo de ML binario es predecir valores que solo pueden tener uno de los dos estados posibles, como verdadero o falso.
Tamaño del modelo Los modelos de ML capturan y almacenan patrones. Cuantos más patrones almacena un modelo de ML, más grande será. El tamaño del modelo de ML se describe en megabytes.
Número de iteraciones Cuando entrena un modelo de ML, utiliza datos de una fuente de datos. A veces es beneficioso utilizar más de una vez cada registro de datos en el proceso de aprendizaje. El número de veces que Amazon ML utiliza los mismos registros de datos se denomina número de iteraciones.
Regularización La regulación es una técnica de machine learning que puede usar para obtener modelos de mayor calidad. Amazon ML ofrece una configuración predeterminada que funciona bien para la mayoría de los casos.

Evaluaciones

Una evaluación mide la calidad del modelo de ML y determina si se está desempeñando bien.

En la siguiente tabla se definen términos relacionados con las evaluaciones.

Plazo Definición
Informaciones del modelo Amazon ML le proporciona una métrica y una serie de informaciones que puede utilizar para evaluar el desempeño predictivo de su modelo.
AUC El parámetro Area Under the ROC Curve (AUC) mide la capacidad de un modelo de ML binario de predecir una mayor puntuación para ejemplos positivos en comparación con ejemplos negativos.
Puntuación F1 macropromediada La puntuación F1 macropromediada se utiliza para evaluar el desempeño predictivo de modelos de ML multiclase.
RMSE El parámetro Root Mean Square Error (RMSE) es una métrica utilizada para evaluar el desempeño predictivo de modelos de ML de regresión.
Valor de corte Los modelos de ML trabajan generando puntuaciones de predicción numérica. Al aplicar un valor de corte, el sistema convierte estas puntuaciones en etiquetas 0 y 1.
Accuracy La exactitud mide el porcentaje de predicciones correctas.
Precisión La precision muestra el porcentaje de instancias positivas reales (en lugar de falsos positivos) de las instancias que se han recuperado (las que se predijeron como positivas). En decir, cuántos elementos seleccionados son positivos.
Exhaustividad La exhaustividad muestra el porcentaje de positivos reales entre el número total de instancias pertinentes (positivos reales). En decir, cuántos elementos positivos se han seleccionado.

Predicciones por lotes

Las predicciones por lotes son para un conjunto de observaciones que se pueden ejecutarse a la vez. Esto es ideal para análisis predictivos que no tienen requisitos en tiempo real.

En la siguiente tabla se definen términos relacionados con las predicciones por lotes.

Plazo Definición
Ubicación de la salida Los resultados de una predicción por lotes se almacenan en una ubicación de salida del bucket de S3.
Archivo de manifiesto Este archivo relaciona cada archivo de datos de entrada con sus resultados de predicción por lotes asociados. Se almacena en la ubicación de salida del bucket de S3.

Predicciones en tiempo real

Las predicciones en tiempo real son para aplicaciones que requieren una latencia baja, como webs interactivas, móviles o aplicaciones de escritorio. Cualquier modelo de ML puede consultarse para obtener predicciones usando la API de predicciones en tiempo real de baja latencia.

En la siguiente tabla se definen términos relacionados con las predicciones en tiempo real.

Plazo Definición
API de predicción en tiempo real La API de predicción en tiempo real acepta una única observación de entrada en la solicitud de carga y devuelve la predicción de la respuesta.
Punto de enlace de predicción en tiempo real Para utilizar un modelo de ML con la API de predicción en tiempo real, debe crear un punto de enlace de predicción en tiempo real. Una vez creado, el punto de enlace contiene la URL que puede utilizar para solicitar las predicciones en tiempo real.