Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de transformaciones de machine learning
Puede utilizar AWS Glue para crear transformaciones de machine learning personalizadas que puedan utilizarse para limpiar sus datos. Puede usar estas transformaciones cuando cree un trabajo en la consola de AWS Glue.
Para obtener información sobre cómo crear una transformación de machine learning, consulte Coincidencia de registros con FindMatches de AWS Lake Formation.
Temas
Propiedades de transformación
Para ver una transformación de machine learning existente, inicie sesión en la AWS Management Console, y abra la consola de AWS Glue en https://console.aws.amazon.com/glue/
Las propiedades de cada transformación:
- Transform name (Nombre de transformación)
-
El nombre único que asignó a la transformación cuando la creó.
- ID
-
Un ID único de la transformación.
- Recuento de etiquetas
-
La cantidad de etiquetas en el archivo de etiquetado que se proporcionó para ayudar a enseñar a la transformación.
- Status
-
Indica si la transformación tiene el estado Ready (Listo) o Needs teaching (Necesita formación). Para ejecutar una transformación de machine learning correctamente en un trabajo, el estado debe ser Ready (Listo).
- Creado
-
La fecha en que se creó la transformación.
- Modificado
-
La fecha en la que se actualizó por última vez la transformación.
- Descripción
-
La descripción suministrada para la transformación, si se ha proporcionado una.
- Versión de AWS Glue
-
La versión de AWS Glue usada.
- ID de ejecución
-
El nombre único que asignó a la transformación cuando la creó.
- Tipo de tarea
-
El tipo de transformación de machine learning; por ejemplo, Find matching records (Búsqueda de registros de coincidencia).
- Status
-
Indica el estado de la ejecución de la tarea. Entre las causas posibles se incluyen las siguientes:
-
Iniciando
-
Running
-
Deteniendo
-
Stopped (Detenido)
-
Succeeded
-
Con error
-
Tiempo de espera
-
- Error
-
Si el estado es Con error, aparece un mensaje de error que describe el motivo.
Agregado y edición de transformaciones de machine learning
Puede ver, eliminar, configurar y enseñar, o ajustar una transformación en la consola de AWS Glue. Active la casilla de verificación junto a la transformación en la lista, elija Action (Acción) y, a continuación, seleccione la acción que desee realizar.
Crear una nueva transformación de ML
Para agregar una nueva transformación de machine learning, elija Crear transformación. Siga las instrucciones en el asistente Agregar trabajo. Para obtener más información, consulte Coincidencia de registros con FindMatches de AWS Lake Formation.
Paso 1. Configure propiedades de transformación
-
Ingrese el nombre y la descripción (opcional).
-
Si lo desea, establezca la configuración de seguridad. Consulte Uso de cifrado de datos con transformaciones de machine learning.
-
Si lo desea, establezca la configuración de ejecución de tareas. La configuración de ejecución de tareas permite personalizar la forma en que se ejecuta la tarea. Seleccione el tipo de trabajador, el número de trabajadores, el tiempo de espera de la tarea (en minutos), el número de reintentos y la versión de AWS Glue.
-
Si lo desea, defina las etiquetas. Las etiquetas son marcas que asigna a un recurso de AWS. Cada etiqueta consta de una clave y un valor opcional. Las etiquetas se pueden usar para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.
Paso 2. Elija la tabla y la clave principal.
-
Elija la base de datos y la tabla del catálogo de AWS Glue.
-
Elija una clave principal de la tabla seleccionada. La columna de clave principal normalmente contiene un identificador único para cada registro del origen de datos.
Paso 3. Seleccione las opciones de ajuste.
-
Para Exhaustividad vs. precisión, elija el valor de ajuste para la transformación y así favorecer la exhaustividad o la precisión. De forma predeterminada, está seleccionada la opción Equilibrado, pero puede elegir entre favorecer la exhaustividad o la precisión o bien elegir Personalizado e ingresar un valor entre 0,0 y 1,0 (ambos incluidos).
-
Para menor costo vs. precisión, elija el valor de ajuste que favorezca una reducción del costo o la precisión o bien elija Personalizado e ingrese un valor entre 0,0 y 1,0 (ambos incluidos).
-
Para Forzar la coincidencia, seleccione Forzar la salida para que coincida con las etiquetas si quiere enseñarle a la transformación de ML a que la salida coincida con las etiquetas utilizadas.
Paso 4. Revisar y crear.
-
Revise las opciones de los pasos 1 a 3.
-
Seleccione Editar para cualquier paso que necesite modificarse. Seleccione Crear transformación para completar el asistente de creación de transformaciones.
Uso de cifrado de datos con transformaciones de machine learning
Al agregar una transformación de machine learning a AWS Glue, puede especificar opcionalmente una configuración de seguridad asociada con el origen de datos o el destino de datos. Si el bucket de Amazon S3 utilizado para almacenar los datos está cifrado con una configuración de seguridad, especifique la misma configuración de seguridad al crear la transformación.
También puede elegir utilizar el cifrado del lado del servidor con AWS KMS (SSE-KMS) para cifrar el modelo y las etiquetas, y así evitar la inspección de parte de personas no autorizadas. Si elige esta opción, se le pedirá que elija la opción AWS KMS key por nombre, o puede elegir Enter a key ARN (Ingresar una clave de ARN). Si elige ingresar el ARN para la clave KMS, aparecerá un segundo campo en el que puede introducir el ARN de la clave KMS.
nota
En la actualidad, las transformaciones de ML que utilizan una clave de cifrado personalizada no son compatibles en las siguientes regiones:
-
Asia-Pacífico (Osaka):
ap-northeast-3
Visualización de los detalles de la transformación
Visualización de las propiedades de transformación
La página de Propiedades de la transformación incluye los atributos de la transformación. Muestra los detalles sobre la definición de transformación, incluidos los siguientes:
-
Transform name (Nombre de transformación) muestra el nombre de la transformación.
-
Type (Tipo) muestra el tipo de transformación.
-
Status (Estado) muestra si la transformación ya se está usando en un script o trabajo.
-
Force output to match labels (Forzar resultado para que las etiquetas coincidan) muestra si la transformación fuerza el resultado para que las etiquetas proporcionadas por el usuario coincidan.
-
La Spark version (versión de Spark) se relaciona con la versión de AWS Glue que eligió en Task run properties (Propiedades de ejecución de tarea) al agregar la transformación. Se recomienda AWS Glue 1.0 y Spark 2.4 para la mayoría de los clientes. Para obtener más información, consulte Versiones de AWS Glue.
Pestañas Historial, Estimación de la calidad y Etiquetas
Los detalles de la transformación incluirán la información que definió al crear la transformación. Para ver los detalles de una transformación, seleccione la transformación en la lista Machine learning transforms (Transformaciones de machine learning) y revise la información en las siguientes pestañas:
-
Historial
-
Estimar calidad
-
Etiquetas
Historial
La pestaña History (Historial) muestra su historial de ejecuciones de tareas de transformación. Se ejecutan varios tipos de tareas para enseñar a una transformación. Para cada tarea, las métricas de ejecución incluyen lo siguiente:
-
El Run ID (ID de ejecución) es un identificador creado por AWS Glue para cada una de las ejecuciones de esta tarea.
-
Task type (Tipo de tarea) muestra el tipo de ejecución de tareas.
-
Status (Estado) muestra el éxito de cada tarea que aparece con la ejecución más reciente en la parte superior.
-
En Error, se muestran los detalles de un mensaje de error si la ejecución no se ha realizado correctamente.
-
En Start time (Hora de inicio) se muestra la fecha y la hora (hora local) en que se inició la tarea.
-
En Hora de finalización se muestra la fecha y la hora (hora local) en que finalizó la tarea.
-
Logs (Registros) se vincula a los registros escritos en
stdout
para esta ejecución de trabajo.El enlace Logs (Registros) lo dirigirá a Amazon CloudWatch Logs. Aquí podrá ver los detalles sobre las tablas que creó en AWS Glue Data Catalog y los errores detectados. Puede administrar su periodo de retención de registros en la consola de CloudWatch. La retención de registros predeterminada es
Never Expire
. Para obtener más información sobre cómo cambiar el periodo de retención, consulte Cambiar la retención de datos de registro en CloudWatch Logs en la Guía del usuario de Amazon CloudWatch Logs. -
En Archivo de etiqueta se muestra un enlace a Amazon S3 para un archivo de etiquetado generado.
Estimar calidad
La pestaña Estimate quality (Estimar calidad) muestra las métricas que utiliza para medir la calidad de la transformación. Las estimaciones se calculan comparando las predicciones de coincidencia de transformación mediante un subconjunto de sus datos etiquetados con las etiquetas proporcionadas. Estas estimaciones son aproximadas. Puede invocar una ejecución de tareas de estimación de calidad para esta pestaña.
La pestaña Estimar calidad muestra las métricas de la última ejecución de Estimar calidad incluidas las siguientes propiedades:
-
El área bajo la curva Precision-Recall (Precisión-exhaustividad) es un único número que calcula el límite superior de la calidad general de la transformación. Es independiente de la elección realizada para el parámetro precisión-exhaustividad. Los valores más altos indican que cuenta con una compensación de precisión-exhaustividad más atractiva.
-
Precision (Precisión) indica la frecuencia con la que la transformación es correcta cuando predice una coincidencia.
-
Recall upper limit (Límite superior de exhaustividad) indica la frecuencia con la que la transformación predice la coincidencia en una coincidencia real.
-
F1 indica la exactitud de la transformación entre 0 y 1, donde 1 es la mejor exactitud. Para obtener más información, consulte Valor-F
en Wikipedia. -
La tabla Column importance (Importancia de columnas) muestra los nombres de columna y la puntuación de importancia para cada columna. La importancia de columna ayuda a comprender cómo contribuyen las columnas al modelo, al identificar qué columnas de los registros se están utilizando con mayor frecuencia para hacer la coincidencia. Estos datos pueden solicitarle que agregue o cambie el conjunto de etiquetas para aumentar o reducir la importancia de las columnas.
La columna Importance (Importancia) proporciona una puntuación numérica para cada columna, como un decimal no mayor que 1,0.
Para obtener más información sobre cómo comprender las estimaciones de calidad frente a verdadera calidad, consulte Estimaciones de calidad frente a calidad integral (verdadero).
Para obtener más información sobre cómo ajustar su transformación, consulte Ajuste de transformaciones de machine learning en AWS Glue.
Estimaciones de calidad frente a calidad integral (verdadero)
AWS Glue estima la calidad de su transformación al presentar el modelo de machine learning interno con un número de pares de registros que proporcionó para las etiquetas de coincidencia, pero que el modelo no ha visto antes. Estas estimaciones de calidad son una función de la calidad del modelo de machine learning (que está influenciado por el número de registros que etiqueta para "enseñar" a la transformación). La recuperación integral o verdadera (que no se calcula automáticamente mediante la ML transform
) también se ve influenciada por el mecanismo de filtrado de ML transform
que propone una amplia variedad de posibles coincidencias con el modelo de machine learning.
Puede ajustar este método de filtrado principalmente al especificar el valor de ajuste Costo inferior-exactitud. A medida que este valor de ajuste se acerca al valor que favorece la Exactitud, el sistema realiza una búsqueda más completa y más cara de pares de registro que pueden ser coincidencias. Se ofrecen más pares de registro a su modelo de machine learning y la exhaustividad de verdad o integral de su ML transform
se acerca a la métrica de exhaustividad estimada. Como resultado, los cambios en la calidad integral de las coincidencias, como resultado de los cambios en la compensación de costo/precisión de las coincidencias, normalmente no se verán reflejados en la estimación de calidad.
Etiquetas
Las etiquetas son marcas que asigna a un recurso de AWS. Cada etiqueta consta de una clave y un valor opcional. Las etiquetas se pueden usar para buscar y filtrar los recursos o hacer un seguimiento de los costos de AWS.
Cómo enseñar a las transformaciones mediante el uso de etiquetas
Puede enseñar a la transformación de ML mediante etiquetas (ejemplos) al seleccionar Enseñar transformación en la página de detalles de la transformación de ML. Si enseña a su algoritmo de machine learning con ejemplos (denominados “etiquetas”), puede elegir las etiquetas existentes para usarlas o crear un archivo de etiquetado.
-
Etiquetado: si tiene etiquetas, elija Tengo etiquetas. Si no tiene etiquetas, puede continuar con el siguiente paso, es decir, generar un archivo de etiquetado.
-
Generar un archivo de etiquetado: AWS Glue extrae los registros de los datos de origen y sugiere posibles registros de coincidencias. Usted elige el bucket de Amazon S3 para almacenar el archivo de etiquetas generado. Elija Generar archivo de etiquetado para iniciar el proceso. Cuando haya terminado, elija Descargar archivo de etiquetado. El archivo descargado tendrá una columna de etiquetas en la que podrá rellenar las etiquetas.
-
Cargar etiquetas desde Amazon S3: elija el archivo de etiquetado completo del bucket de Amazon S3 en el que está almacenado el archivo de etiquetas. A continuación, elija agregar las etiquetas a las etiquetas existentes o sobrescribirlas. Seleccione Cargar archivo de etiquetado desde Amazon S3.