— tipos de datos —TransformParameters EvaluationMetrics MLTransform FindMatchesParameters FindMatchesMetrics ConfusionMatrix GlueTable TaskRun TransformFilterCriteria TransformSortCriteria TaskRunFilterCriteria TaskRunSortCriteria TaskRunProperties FindMatchesTaskRunProperties ImportLabelsTaskRunProperties ExportLabelsTaskRunProperties LabelingSetGenerationTaskRunProperties SchemaColumn TransformEncryption MLUserDataEncryption ColumnImportance — operaciones —CreateMLTransform (create_ml_transform)UpdateMLTransform (update_ml_transform)DeleteMLTransform (delete_ml_transform)GetMLTransform (get_ml_transform)GetMLTransforms (get_ml_transforms)ListMLTransforms (list_ml_transforms)StartMLEvaluationTaskRun (start_ml_evaluation_task_run)StartMLLabelingSetGenerationTaskRun (start_ml_labeling_set_generation_task_run)GetMLTaskRun (get_ml_task_run)GetMLTaskRuns (get_ml_task_runs)CancelMLTaskRun (cancel_ml_task_run)StartExportLabelsTaskRun (start_export_labels_task_run)StartImportLabelsTaskRun (start_import_labels_task_run)

API de machine learning

La API de machine learning describe los tipos de datos de machine learning e incluye la API para crear, eliminar o actualizar una transformación, o para iniciar la ejecución una tarea de machine learning.

Tipos de datos

Estructura TransformParameters

Los parámetros específicos del algoritmo que están asociados a la transformación de machine learning.

Campos

TransformType – Obligatorio: cadena UTF-8 (valores válidos: FIND_MATCHES).

El tipo de transformación de machine learning.

Para obtener más información sobre los tipos de transformaciones de machine learning, consulte Creación de transformaciones de machine learning.
FindMatchesParameters: un objeto FindMatchesParameters.

Los parámetros para el algoritmo de búsqueda de coincidencias.

Estructura EvaluationMetrics

Las métricas de evaluación proporcionan una estimación de la calidad de su transformación de machine learning.

Campos

TransformType – Obligatorio: cadena UTF-8 (valores válidos: FIND_MATCHES).

El tipo de transformación de machine learning.
FindMatchesMetrics: un objeto FindMatchesMetrics.

Las métricas de evaluación para el algoritmo de búsqueda de coincidencias.

Estructura MLTransform

Una estructura para una transformación de machine learning.

Campos

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El ID de transformación único que se genera para la transformación de machine learning. Se garantiza que el ID es único y que no cambia.
Name: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un nombre definido por el usuario para la transformación de machine learning. No se garantiza que los nombres sean únicos y se puedan cambiar en cualquier momento.
Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

Un texto de descripción largo definido por el usuario para la transformación de machine learning. No se garantiza que las descripciones sean únicas y se puedan cambiar en cualquier momento.
Status: cadena UTF-8 (valores válidos: NOT_READY | READY | DELETING).

El estado actual de la transformación de machine learning.
CreatedOn: marca temporal.

Una marca temporal. La fecha y hora en las que se creó esta transformación de machine learning.
LastModifiedOn: marca temporal.

Una marca temporal. El último momento en el que se modificó esta transformación de machine learning.
InputRecordTables: matriz de objetos GlueTable, con 10 estructuras como máximo.

Una lista de definiciones de tabla de AWS Glue utilizadas por la transformación.
Parameters: un objeto TransformParameters.

Un objeto TransformParameters. Puede utilizar parámetros para ajustar (personalizar) el comportamiento de la transformación de machine learning mediante la especificación de los datos que aprende y sus preferencias en diversas compensaciones (como precisión frente a exhaustividad o exactitud frente a costo).
EvaluationMetrics: un objeto EvaluationMetrics.

Un objeto EvaluationMetrics. Las métricas de evaluación proporcionan una estimación de la calidad de su transformación de machine learning.
LabelCount: número (entero).

Un identificador de recuentos para los archivos de etiquetado generados por AWS Glue para esta transformación. A medida que se crea una mejor transformación, puede descargar, etiquetar y cargar de forma iterativa el archivo de etiquetado.
Schema: matriz de objetos SchemaColumn, con 100 estructuras como máximo.

Una asignación de pares clave-valor que representa las columnas y tipos de datos con la que se puede ejecutar esta transformación. Tiene un límite superior de 100 columnas.
Role: cadena UTF-8.

El nombre o nombre de recurso de Amazon (ARN) del rol de IAM con los permisos obligatorios. Los permisos necesarios incluyen tanto permisos de rol de servicio de AWS Glue para recursos de AWS Glue, como permisos de Amazon S3 requeridos por la transformación.
- Este rol necesita permisos de rol de servicio de AWS Glue para permitir el acceso a los recursos de AWS Glue. Consulte Asociar una política a usuarios de IAM que obtienen acceso a AWS Glue.
- Este rol necesita permiso para los orígenes, los destinos, los directorios temporales, los scripts y las bibliotecas de Amazon Simple Storage Service (Amazon S3) utilizados por la ejecución de tareas para esta plataforma.
GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.

Este valor determina con qué versión de AWS Glue es compatible esta transformación de machine learning. Se recomienda Glue 1.0 para la mayoría de los clientes. Si el valor no está establecido, la compatibilidad de Glue se establece de forma predeterminada en Glue 0.9. Para obtener más información, consulte las Versiones de AWS Glue en la guía para desarrolladores.
MaxCapacity: número (doble).

El número de unidades de procesamiento de datos (DPU) de AWS Glue que se asigna a ejecuciones de tareas para esta transformación. Puede asignar de 2 a 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

MaxCapacity es una opción mutuamente excluyente con NumberOfWorkers y WorkerType.
- Si se establecen NumberOfWorkers o WorkerType, no se puede establecer MaxCapacity.
- Si MaxCapacity se establece, no se pueden establecer NumberOfWorkers ni WorkerType.
- Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
- MaxCapacity y NumberOfWorkers deben ser al menos 1.
Cuando el campo WorkerType se establece en un valor distinto a Standard, el campo MaxCapacity se establece automáticamente y se convierte a solo lectura.
WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta una tarea de esta transformación. Admite un valor de Standard, G.1X o G.2X.
- Para el tipo de proceso de trabajo Standard, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 50 GB y 2 ejecutores por trabajador.
- Para el tipo de proceso de trabajo G.1X, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 64 GB y 1 ejecutor por proceso de trabajo.
- Para el tipo de proceso de trabajo G.2X, cada proceso de trabajo proporciona 8 vCPU, 32 GB de memoria y un disco de 128 GB y 1 ejecutor por proceso de trabajo.
MaxCapacity es una opción mutuamente excluyente con NumberOfWorkers y WorkerType.
- Si se establecen NumberOfWorkers o WorkerType, no se puede establecer MaxCapacity.
- Si MaxCapacity se establece, no se pueden establecer NumberOfWorkers ni WorkerType.
- Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
- MaxCapacity y NumberOfWorkers deben ser al menos 1.
NumberOfWorkers: número (entero).

El número de procesos de trabajo de un workerType definido que se asigna cuando se ejecuta una tarea de la transformación.

Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
Timeout: número (entero), como mínimo 1.

El tiempo de espera en minutos de la transformación de machine learning.
MaxRetries: número (entero).

El número máximo de reintentos después de que se produzca un error de MLTaskRun de la transformación de machine learning.
TransformEncryption: un objeto TransformEncryption.

La configuración de cifrado en reposo de la transformación que se aplica al acceso a los datos del usuario. Las transformaciones de machine learning pueden acceder a los datos de usuario cifrados en Amazon S3 mediante KMS.

Estructura FindMatchesParameters

Los parámetros para configurar la transformación de búsquedas de coincidencias.

Campos

PrimaryKeyColumnName: cadena UTF-8, con 1 byte como mínimo o más de 1024 bytes de largo, que coincide con el Single-line string pattern.

El nombre de una columna que identifica de forma única las filas en la tabla de origen. Se utiliza para ayudar a identificar los registros coincidentes.
PrecisionRecallTradeoff: número (doble), 1,0 como máximo.

El valor seleccionado al ajustar su transformación para un equilibrio entre la precisión y la exhaustividad. Un valor de 0,5 implica que no hay preferencia; un valor de 1,0 significa un sesgo únicamente para precisión, y un valor de 0,0 implica un sesgo de exhaustividad. Puesto que se trata de una compensación, elegir valores próximos a 1,0 implica una exhaustividad menor y elegir resultados próximos a 0,0 origina una precisión muy baja.

La métrica de precisión indica la frecuencia con la que el modelo es correcto cuando predice una coincidencia.

La métrica de exhaustividad indica la frecuencia con la que el modelo predice la coincidencia en la coincidencia real.
AccuracyCostTradeoff: número (doble), 1,0 como máximo.

El valor seleccionado al ajustar su transformación para un equilibrio entre la exactitud y el costo. Un valor de 0,5 significa que el sistema equilibra los problemas de exactitud y costo. Un valor de 1,0 implica un sesgo únicamente para la exactitud, que normalmente da como resultado un costo considerablemente mayor, a veces bastante superior. Un valor de 0,0 hace referencia a un sesgo solo para el costo, lo que se traduce en una transformación FindMatches menos precisa, a veces con una exactitud inaceptable.

La exactitud mide la facilidad con la que la transformación encuentra verdaderos positivos y verdaderos negativos. El aumento de la exactitud requiere más recursos informáticos y costos. Sin embargo, también genera una mayor exhaustividad.

El costo mide la cantidad de recursos informáticos y, por lo tanto, dinero, necesario para ejecutar la transformación.
EnforceProvidedLabels: booleano.

El valor para activar o desactivar la opción para forzar la salida para que coincida con las etiquetas proporcionadas de los usuarios. Si el valor es True, la transformación find matches fuerza la salida para que coincida con las etiquetas proporcionadas. Los resultados anulan los resultados de combinación normales. Si el valor es False, la transformación find matches no que se respeten todas las etiquetas proporcionadas, y los resultados se basan en el modelo entrenado.

Tenga en cuenta que si se establece este valor en true, el tiempo de ejecución de la combinación puede aumentar.

Estructura FindMatchesMetrics

Las métricas de evaluación para el algoritmo de búsqueda de coincidencias. La calidad de su transformación de machine learning se mide mediante su transformación para predecir algunas coincidencias y comparar los resultados con las coincidencias conocidas desde el mismo conjunto de datos. Las métricas de calidad se basan en un subconjunto de los datos, por lo que no son precisas.

Campos

AreaUnderPRCurve: número (doble), 1,0 como máximo.

El área bajo la curva de precisión/exhaustividad (AUPRC) es un número único que mide la calidad general de la transformación, que es independiente de la elección realizada para precisión en lugar de la exhaustividad. Los valores más altos indican que cuenta con una compensación de precisión frente a exhaustividad más atractiva.

Para obtener más información, consulte Precisión y exhaustividad en Wikipedia.
Precision: número (doble), 1,0 como máximo.

La métrica de precisión indica la frecuencia con la que la transformación es correcta cuando predice una coincidencia. En concreto, mide la facilidad con la que de la transformación encuentra verdaderos positivos en el número total de verdaderos positivos posible.

Para obtener más información, consulte Precisión y exhaustividad en Wikipedia.
Recall: número (doble), 1,0 como máximo.

La métrica de exhaustividad indica la frecuencia con la que la transformación predice la coincidencia en la coincidencia real. En concreto, mide la facilidad con la que de la transformación encuentra verdaderos positivos en los registros totales en los datos de origen.

Para obtener más información, consulte Precisión y exhaustividad en Wikipedia.
F1: número (doble), 1,0 como máximo.

El valor-F máximo indica la exactitud de la transformación entre 0 y 1, donde 1 es la mejor exactitud.

Para obtener más información, consulte Valor-F en Wikipedia.
ConfusionMatrix: un objeto ConfusionMatrix.

La matriz de confusión le muestra lo que la transformación está prediciendo de forma precisa y qué tipos de errores está realizando.

Para obtener más información, consulte Matriz de confusión en Wikipedia.
ColumnImportances: matriz de objetos ColumnImportance, con 100 estructuras como máximo.

Una lista de estructuras de ColumnImportance que contienen métricas de importancia de columna, clasificadas en orden de importancia descendente.

Estructura ConfusionMatrix

La matriz de confusión le muestra lo que la transformación está prediciendo de forma precisa y qué tipos de errores está realizando.

Para obtener más información, consulte Matriz de confusión en Wikipedia.

Campos

NumTruePositives: número (largo).

El número de coincidencias en los datos que ha detectado la transformación correctamente, en la matriz de confusión para la transformación.
NumFalsePositives: número (largo).

El número de no coincidencias en los datos que la transformación ha clasificado incorrectamente como una coincidencia en la matriz de confusión para la transformación.
NumTrueNegatives: número (largo).

El número de no coincidencias en los datos que ha rechazado la transformación correctamente en la matriz de confusión para la transformación.
NumFalseNegatives: número (largo).

El número de coincidencias en los datos que no ha detectado la transformación en la matriz de confusión para la transformación.

Estructura GlueTable

La base de datos y la tabla en el AWS Glue Data Catalog que se usa para los datos de entrada y salida.

Campos

DatabaseName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un nombre de base de datos en el AWS Glue Data Catalog.
TableName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un nombre de tabla en el AWS Glue Data Catalog.
CatalogId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un identificador único para el AWS Glue Data Catalog.
ConnectionName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre de la conexión a AWS Glue Data Catalog.
AdditionalOptions: una matriz de asignación de pares de clave-valor, con 1 par como mínimo y 10 como máximo.

Cada clave es una cadena UTF-8 con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Cada valor es una cadena Description (Descripción), con 2048 bytes de largo como máximo, que coincide con URI address multi-line string pattern.

Opciones adicionales para la tabla. Actualmente se admiten dos claves:
- pushDownPredicate: filtra particiones sin tener que enumerar y leer todos los archivos del conjunto de datos.
- catalogPartitionPredicate: para utilizar la eliminación de particiones del lado del servidor mediante los índices de particiones de AWS Glue Data Catalog.

Estructura TaskRun

Los parámetros de muestreo que están asociados a la transformación de machine learning.

Campos

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación.
TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único para esta ejecución de tareas.
Status: cadena UTF-8 (valores válidos: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

El estado actual de la ejecución de tareas solicitada.
LogGroupName: cadena UTF-8.

Los nombres del grupo de registros para el registro segur asociados a esta ejecución de tareas.
Properties: un objeto TaskRunProperties.

Especifica las propiedades de configuración asociadas a esta ejecución de tareas.
ErrorString: cadena UTF-8.

La lista de cadenas de error asociadas a esta ejecución de tareas.
StartedOn: marca temporal.

La fecha y la hora en la que se inició esta tarea.
LastModifiedOn: marca temporal.

La última vez que se actualizó la ejecución de tareas solicitada.
CompletedOn: marca temporal.

La última vez que se completó la tarea solicitada.
ExecutionTime: número (entero).

El período (en segundos) que la ejecución de tareas consumió recursos.

Estructura TransformFilterCriteria

Los criterios utilizados para filtrar las transformaciones de machine learning.

Campos

Name: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un nombre de transformación único que se utiliza para filtrar las transformaciones de machine learning.
TransformType: cadena UTF-8 (valores válidos: FIND_MATCHES).

El tipo de transformación de machine learning que se utiliza para filtrar las transformaciones de machine learning.
Status: cadena UTF-8 (valores válidos: NOT_READY | READY | DELETING).

Permite filtrar la lista de transformaciones de machine learning por el último estado conocido de las transformaciones (para indicar si una transformación se puede utilizar o no). Una de "NOT_READY", "READY" o "DELETING".
GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.

Este valor determina con qué versión de AWS Glue es compatible esta transformación de machine learning. Se recomienda Glue 1.0 para la mayoría de los clientes. Si el valor no está establecido, la compatibilidad de Glue se establece de forma predeterminada en Glue 0.9. Para obtener más información, consulte las Versiones de AWS Glue en la guía para desarrolladores.
CreatedBefore: marca temporal.

La fecha y hora antes de las que se crearon las transformaciones.
CreatedAfter: marca temporal.

La fecha y hora después de las que se crearon las transformaciones.
LastModifiedBefore: marca temporal.

Permite filtrar por las últimas transformaciones modificadas antes de esta fecha.
LastModifiedAfter: marca temporal.

Permite filtrar por las últimas transformaciones modificadas después de esta fecha.
Schema: matriz de objetos SchemaColumn, con 100 estructuras como máximo.

Permite filtrar por conjuntos de datos con un esquema específico. El objeto Map<Column, Type> es una matriz de pares clave-valor que representa el esquema que acepta esta transformación, donde Column es el nombre de una columna, y Type es el tipo de datos como, por ejemplo, un número entero o una cadena. Tiene un límite superior de 100 columnas.

Estructura TransformSortCriteria

Los criterios de ordenación que están asociados a la transformación de machine learning.

Campos

Column – Obligatorio: cadena de UTF-8 (valores válidos: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED).

La columna que se va a utilizar en los criterios de ordenación que están asociados a la transformación de machine learning.
SortDirection: obligatorio: cadena UTF-8 (valores válidos: DESCENDING | ASCENDING).

La dirección de ordenación que se va a utilizar en los criterios de ordenación que están asociados a la transformación de machine learning.

Estructura TaskRunFilterCriteria

Los criterios que se utilizan para filtrar las ejecuciones de tareas durante la transformación de machine learning.

Campos

TaskRunType: cadena UTF-8 (valores válidos: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

El tipo de ejecución de tareas.
Status: cadena UTF-8 (valores válidos: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

El estado actual de la ejecución de tareas.
StartedBefore: marca temporal.

Permite filtrar por ejecuciones de tareas iniciadas antes de esa fecha.
StartedAfter: marca temporal.

Permite filtrar por ejecuciones de tareas iniciadas después de esa fecha.

Estructura TaskRunSortCriteria

Los criterios de ordenación que se utilizan para filtrar la lista de ejecuciones de tareas durante la transformación de machine learning.

Campos

Column – Obligatorio: cadena UTF-8 (valores válidos: TASK_RUN_TYPE | STATUS | STARTED).

La columna que se va a utilizar para ordenar la lista de ejecuciones de tareas durante la transformación de machine learning.
SortDirection: obligatorio: cadena UTF-8 (valores válidos: DESCENDING | ASCENDING).

La dirección de ordenación que se va a utilizar para ordenar la lista de ejecuciones de tareas durante la transformación de machine learning.

Estructura TaskRunProperties

Las propiedades de configuración de la ejecución de tareas.

Campos

TaskType: cadena UTF-8 (valores válidos: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

El tipo de ejecución de tareas.
ImportLabelsTaskRunProperties: un objeto ImportLabelsTaskRunProperties.

Las propiedades de configuración de una ejecución de tareas de etiquetas de importación.
ExportLabelsTaskRunProperties: un objeto ExportLabelsTaskRunProperties.

Las propiedades de configuración de una ejecución de tareas de etiquetas de exportación.
LabelingSetGenerationTaskRunProperties: un objeto LabelingSetGenerationTaskRunProperties.

Las propiedades de configuración de una ejecución de tareas de generación de conjuntos de etiquetas.
FindMatchesTaskRunProperties: un objeto FindMatchesTaskRunProperties.

Las propiedades de configuración para la ejecución de tareas de búsqueda de coincidencias.

Estructura FindMatchesTaskRunProperties

Especifica las propiedades de configuración para la ejecución de tareas de búsqueda de coincidencias.

Campos

JobId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El ID de trabajo para la ejecución de tareas de búsqueda de coincidencias.
JobName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre asignado al trabajo para la ejecución de tareas de búsqueda de coincidencias.
JobRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El ID de ejecución de tareas para la ejecución de tareas de búsqueda de coincidencias.

Estructura ImportLabelsTaskRunProperties

Especifica las propiedades de configuración de una ejecución de tareas de etiquetas de importación.

Campos

InputS3Path: cadena UTF-8.

La ruta de Amazon Simple Storage Service (Amazon S3) desde la que importará las etiquetas.
Replace: booleano.

Indica si se van a sobrescribir las etiquetas existentes.

Estructura ExportLabelsTaskRunProperties

Especifica las propiedades de configuración de una ejecución de tareas de etiquetas de exportación.

Campos

OutputS3Path: cadena UTF-8.

La ruta de Amazon Simple Storage Service (Amazon S3) en la que exportará las etiquetas.

Estructura LabelingSetGenerationTaskRunProperties

Especifica las propiedades de configuración de una ejecución de tareas de generación de conjuntos de etiquetas.

Campos

OutputS3Path: cadena UTF-8.

La ruta de Amazon Simple Storage Service (Amazon S3) en la que generará el conjunto de etiquetas.

Estructura SchemaColumn

Un par clave-valor que representa una columna y tipo de datos con el que se puede ejecutar esta transformación. El parámetro Schema de MLTransform puede contener hasta 100 de estas estructuras.

Campos

Name: cadena UTF-8, con 1 byte como mínimo o más de 1024 bytes de largo, que coincide con el Single-line string pattern.

El nombre de la columna.
DataType: cadena UTF-8 con un máximo de 131072 bytes de largo, que coincide con el Single-line string pattern.

El tipo de datos en la columna.

Estructura TransformEncryption

La configuración de cifrado en reposo de la transformación que se aplica al acceso a los datos del usuario. Las transformaciones de machine learning pueden acceder a los datos de usuario cifrados en Amazon S3 mediante KMS.

Además, las etiquetas importadas y las transformaciones entrenadas se pueden cifrar mediante una clave KMS proporcionada por el cliente.

Campos

MlUserDataEncryption: un objeto MLUserDataEncryption.

Objeto MLUserDataEncryption que contiene el modo de cifrado y el ID de clave KMS proporcionado por el cliente.
TaskRunSecurityConfigurationName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre de la configuración de seguridad.

Estructura MLUserDataEncryption

La configuración de cifrado en reposo de la transformación que se aplica al acceso a los datos del usuario.

Campos

MlUserDataEncryptionMode: obligatorio: cadena UTF-8 (valores válidos: DISABLED | SSE-KMS="SSEKMS").

Modo de cifrado aplicado a los datos del usuario. Los valores válidos son:
- DISABLED: el cifrado está desactivado
- SSEKMS: uso del cifrado del lado del servidor con AWS Key Management Service (SSE-KMS) para los datos de usuario almacenados en Amazon S3.
KmsKeyId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

ID de la clave KMS proporcionada por el cliente.

Estructura ColumnImportance

Estructura que contiene el nombre de columna y la puntuación de importancia de columna para una columna.

La importancia de columnas ayuda a comprender cómo contribuyen las columnas al modelo, al identificar qué columnas en sus registros son más importantes que otras.

Campos

ColumnName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre de una columna.
Importance: número (doble), 1,0 como máximo.

Puntuación de importancia de columna para la columna, como decimal.

Operaciones

Acción CreateMLTransform (Python: create_ml_transform)
Acción UpdateMLTransform (Python: update_ml_transform)
Acción DeleteMLTransform (Python: delete_ml_transform)
Acción GetMLTransform (Python: get_ml_transform)
Acción GetMLTransforms (Python: get_ml_transforms)
Acción ListMLTransforms (Python: list_ml_transforms)
Acción StartMLEvaluationTaskRun (Python: start_ml_evaluation_task_run)
Acción StartMLLabelingSetGenerationTaskRun (Python: start_ml_labeling_set_generation_task_run)
Acción GetMLTaskRun (Python: get_ml_task_run)
Acción GetMLTaskRuns (Python: get_ml_task_runs)
Acción CancelMLTaskRun (Python: cancel_ml_task_run)
Acción StartExportLabelsTaskRun (Python: start_export_labels_task_run)
Acción StartImportLabelsTaskRun (Python: start_import_labels_task_run)

Acción CreateMLTransform (Python: create_ml_transform)

Permite crear una transformación de machine learning de AWS Glue. En esta operación se crea la transformación y todos los parámetros necesarios para su entrenamiento.

Realice esta operación como el primer paso del proceso de uso de una transformación de machine learning (como la transformación FindMatches) para la deduplicación de datos. Puede proporcionar una Description opcional, además de los parámetros que desee utilizar para su algoritmo.

Además, debe especificar determinados parámetros para las tareas que AWS Glue ejecuta en su nombre como parte del aprendizaje a partir de los datos y la creación de una transformación de machine learning de alta calidad. Estos parámetros incluyen Role y, de forma opcional,, AllocatedCapacity, Timeout y MaxRetries. Para obtener más información, consulte Trabajos.

Solicitud

Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre único que asigna a la transformación cuando la creó.
Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

Una descripción de la transformación de machine learning que se está definiendo. El valor predeterminado es una cadena vacía.
InputRecordTables – Obligatorio: matriz de objetos GlueTable, con 10 estructuras como máximo.

Una lista de definiciones de tabla de AWS Glue utilizadas por la transformación.
Parameters: obligatorio: objeto TransformParameters.

Los parámetros de algoritmo específicos para el tipo de transformación utilizado. Dependen condicionalmente del tipo de transformación.
Role – Obligatorio: cadena UTF-8.

El nombre o nombre de recurso de Amazon (ARN) del rol de IAM con los permisos obligatorios. Los permisos necesarios incluyen tanto permisos de rol de servicio de AWS Glue para recursos de AWS Glue, como permisos de Amazon S3 requeridos por la transformación.
- Este rol necesita permisos de rol de servicio de AWS Glue para permitir el acceso a los recursos de AWS Glue. Consulte Asociar una política a usuarios de IAM que obtienen acceso a AWS Glue.
- Este rol necesita permiso para los orígenes, los destinos, los directorios temporales, los scripts y las bibliotecas de Amazon Simple Storage Service (Amazon S3) utilizados por la ejecución de tareas para esta plataforma.
GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.

Este valor determina con qué versión de AWS Glue es compatible esta transformación de machine learning. Se recomienda Glue 1.0 para la mayoría de los clientes. Si el valor no está establecido, la compatibilidad de Glue se establece de forma predeterminada en Glue 0.9. Para obtener más información, consulte las Versiones de AWS Glue en la guía para desarrolladores.
MaxCapacity: número (doble).

El número de unidades de procesamiento de datos (DPU) de AWS Glue que se asigna a ejecuciones de tareas para esta transformación. Puede asignar de 2 a 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

MaxCapacity es una opción mutuamente excluyente con NumberOfWorkers y WorkerType.
- Si se establecen NumberOfWorkers o WorkerType, no se puede establecer MaxCapacity.
- Si MaxCapacity se establece, no se pueden establecer NumberOfWorkers ni WorkerType.
- Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
- MaxCapacity y NumberOfWorkers deben ser al menos 1.
Cuando el campo WorkerType se establece en un valor distinto a Standard, el campo MaxCapacity se establece automáticamente y se convierte a solo lectura.

Cuando el campo WorkerType se establece en un valor distinto a Standard, el campo MaxCapacity se establece automáticamente y se convierte a solo lectura.
WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta esta tarea. Admite un valor de Standard, G.1X o G.2X.
- Para el tipo de proceso de trabajo Standard, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 50 GB y 2 ejecutores por trabajador.
- Para el tipo de proceso de trabajo G.1X, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 64 GB y 1 ejecutor por proceso de trabajo.
- Para el tipo de proceso de trabajo G.2X, cada proceso de trabajo proporciona 8 vCPU, 32 GB de memoria y un disco de 128 GB y 1 ejecutor por proceso de trabajo.
MaxCapacity es una opción mutuamente excluyente con NumberOfWorkers y WorkerType.
- Si se establecen NumberOfWorkers o WorkerType, no se puede establecer MaxCapacity.
- Si MaxCapacity se establece, no se pueden establecer NumberOfWorkers ni WorkerType.
- Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
- MaxCapacity y NumberOfWorkers deben ser al menos 1.
NumberOfWorkers: número (entero).

El número de procesos de trabajo de workerType definido que se asignan cuando se ejecuta esta tarea.

Si WorkerType se establece, NumberOfWorkers es obligatorio (y viceversa).
Timeout: número (entero), como mínimo 1.

El tiempo de espera de la ejecución de tareas para esta transformación en minutos. Es el tiempo máximo que una ejecución de flujo para esta transformación puede consumir recursos antes de que se termine y cambie al estado TIMEOUT. El valor predeterminado es 2880 minutos (48 horas).
MaxRetries: número (entero).

El número máximo de veces que se intenta una tarea para esta transformación después de que se produzca un error en una ejecución de tareas.
Tags: matriz de mapas de pares de clave-valor, con 50 pares como máximo.

Cada clave es una cadena UTF-8 con una longitud de entre 1 y 128 bytes.

Cada valor es una cadena UTF-8 que no tiene más de 256 bytes de largo.

Las etiquetas que se van a utilizar con esta transformación de machine learning. Puede utilizar etiquetas para limitar el acceso la transformación de machine learning. Para obtener más información acerca de las etiquetas en AWS Glue, consulte Etiquetas de AWS en AWS Glue en la guía para desarrolladores.
TransformEncryption: un objeto TransformEncryption.

La configuración de cifrado en reposo de la transformación que se aplica al acceso a los datos del usuario. Las transformaciones de machine learning pueden acceder a los datos de usuario cifrados en Amazon S3 mediante KMS.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un identificador único que se genera para la transformación.

Errores

AlreadyExistsException
InvalidInputException
OperationTimeoutException
InternalServiceException
AccessDeniedException
ResourceNumberLimitExceededException
IdempotentParameterMismatchException

Acción UpdateMLTransform (Python: update_ml_transform)

Permite actualizar una transformación de machine learning existente. Realice esta operación para ajustar los parámetros del algoritmo para conseguir mejores resultados.

Después de realizar esta operación, puede realizar la operación StartMLEvaluationTaskRun para evaluar la facilidad con la que los nuevos parámetros consiguieron sus objetivos (como la mejora de la calidad de la transformación de machine learning o la transformación en una solución más rentable).

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un identificador único que se generó cuando se creó la transformación.
Name: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre único que asignó a la transformación cuando la creó.
Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

Una descripción de la transformación. El valor predeterminado es una cadena vacía.
Parameters: un objeto TransformParameters.

Los parámetros de configuración específicos para el tipo de transformación (algoritmo) utilizado. Dependen condicionalmente del tipo de transformación.
Role: cadena UTF-8.

El nombre o nombre de recurso de Amazon (ARN) del rol de IAM con los permisos obligatorios.
GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.

Este valor determina con qué versión de AWS Glue es compatible esta transformación de machine learning. Se recomienda Glue 1.0 para la mayoría de los clientes. Si el valor no está establecido, la compatibilidad de Glue se establece de forma predeterminada en Glue 0.9. Para obtener más información, consulte las Versiones de AWS Glue en la guía para desarrolladores.
MaxCapacity: número (doble).

El número de unidades de procesamiento de datos (DPU) de AWS Glue que se asigna a ejecuciones de tareas para esta transformación. Puede asignar de 2 a 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

Cuando el campo WorkerType se establece en un valor distinto a Standard, el campo MaxCapacity se establece automáticamente y se convierte a solo lectura.
WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta esta tarea. Admite un valor de Standard, G.1X o G.2X.
- Para el tipo de proceso de trabajo Standard, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 50 GB y 2 ejecutores por trabajador.
- Para el tipo de proceso de trabajo G.1X, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 64 GB y 1 ejecutor por proceso de trabajo.
- Para el tipo de proceso de trabajo G.2X, cada proceso de trabajo proporciona 8 vCPU, 32 GB de memoria y un disco de 128 GB y 1 ejecutor por proceso de trabajo.
NumberOfWorkers: número (entero).

El número de procesos de trabajo de workerType definido que se asignan cuando se ejecuta esta tarea.
Timeout: número (entero), como mínimo 1.

El tiempo de espera de una ejecución de tareas para esta transformación en minutos. Es el tiempo máximo que una ejecución de flujo para esta transformación puede consumir recursos antes de que se termine y cambie al estado TIMEOUT. El valor predeterminado es 2880 minutos (48 horas).
MaxRetries: número (entero).

El número máximo de veces que se intenta una tarea para esta transformación después de que se produzca un error en una ejecución de tareas.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único para la transformación que se ha actualizado.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
AccessDeniedException

Acción DeleteMLTransform (Python: delete_ml_transform)

Elimina una transformación de machine learning de AWS Glue. Las transformaciones de machine learning son un tipo especial de transformación que utiliza el machine learning para aprender los detalles de la transformación que se va a realizar a través del aprendizaje de ejemplos proporcionados por los humanos. Luego, AWS Glue guarda estas transformaciones. Si ya no necesita una transformación, puede eliminarla con DeleteMLTransforms. Sin embargo, los trabajos de AWS Glue que todavía hagan referencia a la transformación eliminada dejarán de ser correctos.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación que eliminar.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación que se ha eliminado.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción GetMLTransform (Python: get_ml_transform)

Obtiene un artefacto de transformación de machine learning de AWS Glue y todos sus metadatos correspondientes. Las transformaciones de machine learning son un tipo especial de transformación que utiliza el machine learning para aprender los detalles de la transformación que se va a realizar a través del aprendizaje de ejemplos proporcionados por los humanos. Luego, AWS Glue guarda estas transformaciones. Puede recuperar sus metadatos con GetMLTransform.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación, generado en el momento en que se creó la transformación.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación, generado en el momento en que se creó la transformación.
Name: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El nombre único proporcionado a la transformación en el momento en el que se creó.
Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

Una descripción de la transformación.
Status: cadena UTF-8 (valores válidos: NOT_READY | READY | DELETING).

El último estado conocido de la transformación (para indicar si se puede utilizar o no). Una de "NOT_READY", "READY" o "DELETING".
CreatedOn: marca temporal.

La fecha y hora de cuando se creó la transformación.
LastModifiedOn: marca temporal.

La fecha y hora de cuando se modificó la transformación por última vez.
InputRecordTables: matriz de objetos GlueTable, con 10 estructuras como máximo.

Una lista de definiciones de tabla de AWS Glue utilizadas por la transformación.
Parameters: un objeto TransformParameters.

Los parámetros de configuración específicos para el algoritmo utilizado.
EvaluationMetrics: un objeto EvaluationMetrics.

Las métricas de evaluación más recientes.
LabelCount: número (entero).

El número de etiquetas disponibles para esta transformación.
Schema: matriz de objetos SchemaColumn, con 100 estructuras como máximo.

El objeto Map<Column, Type> que representa al esquema que acepta esta transformación. Tiene un límite superior de 100 columnas.
Role: cadena UTF-8.

El nombre o nombre de recurso de Amazon (ARN) del rol de IAM con los permisos obligatorios.
GlueVersion: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.

Este valor determina con qué versión de AWS Glue es compatible esta transformación de machine learning. Se recomienda Glue 1.0 para la mayoría de los clientes. Si el valor no está establecido, la compatibilidad de Glue se establece de forma predeterminada en Glue 0.9. Para obtener más información, consulte las Versiones de AWS Glue en la guía para desarrolladores.
MaxCapacity: número (doble).

El número de unidades de procesamiento de datos (DPU) de AWS Glue que se asigna a ejecuciones de tareas para esta transformación. Puede asignar de 2 a 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue.

Cuando el campo WorkerType se establece en un valor distinto a Standard, el campo MaxCapacity se establece automáticamente y se convierte a solo lectura.
WorkerType: cadena UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta esta tarea. Admite un valor de Standard, G.1X o G.2X.
- Para el tipo de proceso de trabajo Standard, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 50 GB y 2 ejecutores por trabajador.
- Para el tipo de proceso de trabajo G.1X, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria y un disco de 64 GB y 1 ejecutor por proceso de trabajo.
- Para el tipo de proceso de trabajo G.2X, cada proceso de trabajo proporciona 8 vCPU, 32 GB de memoria y un disco de 128 GB y 1 ejecutor por proceso de trabajo.
NumberOfWorkers: número (entero).

El número de procesos de trabajo de workerType definido que se asignan cuando se ejecuta esta tarea.
Timeout: número (entero), como mínimo 1.

El tiempo de espera de una ejecución de tareas para esta transformación en minutos. Es el tiempo máximo que una ejecución de flujo para esta transformación puede consumir recursos antes de que se termine y cambie al estado TIMEOUT. El valor predeterminado es 2880 minutos (48 horas).
MaxRetries: número (entero).

El número máximo de veces que se intenta una tarea para esta transformación después de que se produzca un error en una ejecución de tareas.
TransformEncryption: un objeto TransformEncryption.

La configuración de cifrado en reposo de la transformación que se aplica al acceso a los datos del usuario. Las transformaciones de machine learning pueden acceder a los datos de usuario cifrados en Amazon S3 mediante KMS.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción GetMLTransforms (Python: get_ml_transforms)

Permite obtener una lista ordenable y filtrable de transformaciones de machine learning de AWS Glue. Las transformaciones de machine learning son un tipo especial de transformación que utiliza el machine learning para aprender los detalles de la transformación que se va a realizar a través del aprendizaje de ejemplos proporcionados por los humanos. Luego, AWS Glue guarda estas transformaciones y el usuario puede recuperar metadatos con la llamada a GetMLTransforms.

Solicitud

NextToken: cadena UTF-8.

Un token paginado para compensar los resultados.
MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

El número máximo de resultados que devolver.
Filter: un objeto TransformFilterCriteria.

Los criterios de transformación del filtro.
Sort: un objeto TransformSortCriteria.

Los criterios de ordenación.

Respuesta

Transforms (obligatorio): una matriz de objetos MLTransform.

Una lista de transformaciones de machine learning.
NextToken: cadena UTF-8.

Un token de paginación, si hay disponibles más resultados.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción ListMLTransforms (Python: list_ml_transforms)

Recupera una lista ordenable y filtrable de las transformaciones de machine learning de AWS Glue existentes en esta cuenta de AWS, o los recursos con la etiqueta especificada. Esta operación toma el campo Tags opcional, que se puede utilizar como filtro en las respuestas para que los recursos etiquetados se devuelvan agrupados. Si elige utilizar el filtrado de etiquetas, solo se recuperan los recursos con las etiquetas especificadas.

Solicitud

NextToken: cadena UTF-8.

Token de continuación, si se trata de una solicitud de continuidad.
MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

Tamaño máximo de una lista que se devolverá.
Filter: un objeto TransformFilterCriteria.

Valor TransformFilterCriteria utilizado para filtrar las transformaciones de machine learning.
Sort: un objeto TransformSortCriteria.

Valor TransformSortCriteria utilizado para ordenar las transformaciones de machine learning.
Tags: matriz de mapas de pares de clave-valor, con 50 pares como máximo.

Cada clave es una cadena UTF-8 con una longitud de entre 1 y 128 bytes.

Cada valor es una cadena UTF-8 que no tiene más de 256 bytes de largo.

Especifica que se devuelvan solamente los recursos etiquetados.

Respuesta

TransformIds – Obligatorio: una matriz de cadenas UTF-8.

Los identificadores de todas las transformaciones de machine learning de la cuenta o las transformaciones de machine learning con las etiquetas especificadas.
NextToken: cadena UTF-8.

Token de continuación, si la lista devuelta no contiene la última métrica disponible.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción StartMLEvaluationTaskRun (Python: start_ml_evaluation_task_run)

Permite iniciar una tarea para calcular la calidad de la transformación.

Al proporcionar conjuntos de etiquetas como ejemplos de verdad, machine learning de AWS Glue utiliza algunos ejemplos para aprender de ellos. El resto de etiquetas se utilizan como una prueba para estimar la calidad.

Permite devolver un identificador único para la ejecución. Puede llamar a GetMLTaskRun para obtener más información sobre las estadísticas de EvaluationTaskRun.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.

Respuesta

TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único asociado a esta ejecución.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ConcurrentRunsExceededException
MLTransformNotReadyException

Acción StartMLLabelingSetGenerationTaskRun (Python: start_ml_labeling_set_generation_task_run)

Permite iniciar el flujo de trabajo de aprendizaje activo para su transformación de machine learning para mejorar la calidad de la transformación mediante la generación de conjuntos de etiquetas y la adición de etiquetas.

Cuando StartMLLabelingSetGenerationTaskRun finaliza, AWS Glue dispondrá de un “conjunto de etiquetas” generado o un conjunto de preguntas que los humanos tendrán que responder.

En el caso de la transformación FindMatches, estas preguntas tienen la siguiente forma: "¿Cuál es la forma correcta de agrupar estas filas en grupos compuestos enteramente por registros coincidentes?".

Una vez que el proceso de etiquetado finalice, puede cargar etiquetas con una llamada a StartImportLabelsTaskRun. Una vez que StartImportLabelsTaskRun acabe, todas las ejecuciones futuras de la transformación de machine learning utilizarán las etiquetas nuevas y mejoradas, y realizarán una transformación de alta calidad.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
OutputS3Path – Obligatorio: cadena UTF-8.

La ruta de Amazon Simple Storage Service (Amazon S3) en la que generará el conjunto de etiquetas.

Respuesta

TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador de ejecución único que está asociado a esta ejecución de tareas.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException
ConcurrentRunsExceededException

Acción GetMLTaskRun (Python: get_ml_task_run)

Permite obtener detalles para una ejecución de tareas específica en una transformación de machine learning. Las ejecuciones de tareas de machine learning son tareas asíncronas que AWS Glue ejecuta en nombre del usuario como parte de varios flujos de trabajo de machine learning. Puede comprobar las estadísticas de cualquier ejecución de tareas llamando a GetMLTaskRun con TaskRunID y TransformID de la transformación principal.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
TaskRunId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la ejecución de tareas.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la ejecución de tareas.
TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador de ejecución único asociado a esta ejecución.
Status: cadena UTF-8 (valores válidos: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

El estado de esta ejecución de tareas.
LogGroupName: cadena UTF-8.

Los nombres de los grupos de registros asociados a la ejecución de tareas.
Properties: un objeto TaskRunProperties.

La lista de propiedades asociadas a la ejecución de tareas.
ErrorString: cadena UTF-8.

Las cadenas de error asociadas a la ejecución de tareas.
StartedOn: marca temporal.

La fecha y la hora en las que se inició esta ejecución de tareas.
LastModifiedOn: marca temporal.

La fecha y hora de cuando se modificó esta ejecución de tareas por última vez.
CompletedOn: marca temporal.

La fecha y hora de cuando se completó esta ejecución de tareas.
ExecutionTime: número (entero).

El período (en segundos) que la ejecución de tareas consumió recursos.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción GetMLTaskRuns (Python: get_ml_task_runs)

Permite obtener una lista de ejecuciones para una transformación de machine learning. Las ejecuciones de tareas de machine learning son tareas asíncronas que AWS Glue ejecuta en nombre del usuario como parte de varios flujos de trabajo de machine learning. Puede obtener una lista ordenable y filtrable de ejecuciones de tareas de machine learning con GetMLTaskRuns con TransformID de la transformación principal y otros parámetros opcionales tal y como se indica en esta sección.

En esta operación se devuelve una lista de ejecuciones históricas y se debe paginar.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
NextToken: cadena UTF-8.

Un token para la paginación de los resultados. El valor predeterminado es vacío.
MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

El número máximo de resultados que devolver.
Filter: un objeto TaskRunFilterCriteria.

Los criterios de filtro, en la estructura TaskRunFilterCriteria, para la ejecución de tareas.
Sort: un objeto TaskRunSortCriteria.

Los criterios de ordenación, en la estructura TaskRunSortCriteria, para la ejecución de tareas.

Respuesta

TaskRuns: matriz de objetos TaskRun.

La lista de ejecuciones de tareas que se asocian a la transformación.
NextToken: cadena UTF-8.

Un token de paginación, si hay disponibles más resultados.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción CancelMLTaskRun (Python: cancel_ml_task_run)

Permite cancelar (detener) una ejecución de tareas. Las ejecuciones de tareas de machine learning son tareas asíncronas que AWS Glue ejecuta en nombre del usuario como parte de varios flujos de trabajo de machine learning. Puede cancelar una ejecución de tareas de machine learning en cualquier momento llamando a CancelMLTaskRun con TransformID de la transformación principal de una ejecución de tareas y TaskRunId de la ejecución de tareas.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
TaskRunId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

Un identificador único de la ejecución de tareas.

Respuesta

TransformId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la ejecución de tareas.
Status: cadena UTF-8 (valores válidos: RUNNING | FINISHED | FAILED | PENDING_EXECUTION | TIMED_OUT | CANCELING | CANCELED | RECEIVED_BY_TASKRUNNER).

El estado de esta ejecución.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción StartExportLabelsTaskRun (Python: start_export_labels_task_run)

Permite iniciar una tarea asíncrona para exportar todos los datos etiquetados para una transformación determinada. Esta tarea es la única llamada de la API relacionada con la etiqueta que no forma parte del flujo de trabajo de aprendizaje activo normal. Normalmente, utiliza StartExportLabelsTaskRun cuando desea trabajar con todas las etiquetas existentes a la vez, como cuando desea quitar o cambiar etiquetas que se enviaron anteriormente como verdad. Esta operación de la API permite aceptar TransformId cuyas etiquetas quiere exportar y una ruta de Amazon Simple Storage Service (Amazon S3) en la que exportar las etiquetas. La operación devuelve TaskRunId. Puede comprobar el estado de su ejecución de tareas llamando a la API de GetMLTaskRun.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
OutputS3Path – Obligatorio: cadena UTF-8.

La ruta de Amazon S3 en la que exporta las etiquetas.

Respuesta

TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la ejecución de tareas.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
InternalServiceException

Acción StartImportLabelsTaskRun (Python: start_import_labels_task_run)

Le permite proporcionar etiquetas adicionales (ejemplos de verdad) que se va a utilizar para enseñar a la transformación de machine learning y mejorar su calidad. Esta operación de la API se utiliza normalmente como parte del flujo de trabajo de aprendizaje activo que comienza con la llamada de StartMLLabelingSetGenerationTaskRun y que, en última instancia, da lugar a un aumento en la calidad de su transformación de machine learning.

Cuando StartMLLabelingSetGenerationTaskRun finaliza, machine learning de AWS Glue dispondrá de una serie de preguntas que los humanos tendrán que responder. (El proceso de respuesta a estas preguntas se suele denominar "etiquetado" en los flujos de trabajo de machine learning). En el caso de la transformación FindMatches, estas preguntas tienen la siguiente forma: "¿Cuál es la forma correcta de agrupar estas filas en grupos compuestos enteramente por registros coincidentes?". Una vez que el proceso de etiquetado finaliza, los usuarios cargan sus respuestas/etiquetas con una llamada a StartImportLabelsTaskRun. Una vez que StartImportLabelsTaskRun acabe, todas las ejecuciones futuras de la transformación de machine learning utilizarán las etiquetas nuevas y mejoradas, y realizarán una transformación de alta calidad.

De forma predeterminada, StartMLLabelingSetGenerationTaskRun aprende continuamente de todas las etiquetas que carga, y las combina, a no ser que establezca Replace en true. Si define Replace en true, StartImportLabelsTaskRun elimina y olvida todas las etiquetas cargadas previamente y aprende solo del conjunto exacto que carga. El reemplazo de etiquetas puede resultar útil si se da cuenta de que ha cargado etiquetas incorrectas anteriormente y cree que tendrán un efecto negativo en la calidad de su transformación.

Puede comprobar el estado de su ejecución de tareas con la operación GetMLTaskRun.

Solicitud

TransformId: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la transformación de machine learning.
InputS3Path – Obligatorio: cadena UTF-8.

La ruta de Amazon Simple Storage Service (Amazon S3) desde la que importará las etiquetas.
ReplaceAllLabels: booleano.

Indica si se van a sobrescribir las etiquetas existentes.

Respuesta

TaskRunId: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

El identificador único de la ejecución de tareas.

Errores

EntityNotFoundException
InvalidInputException
OperationTimeoutException
ResourceNumberLimitExceededException
InternalServiceException

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Perfiles de uso

Calidad de datos