Entidades de seguimiento de linaje - Amazon SageMaker

Entidades de seguimiento de linaje

Las entidades de seguimiento mantienen una representación de todos los elementos de su flujo de trabajo integral de machine learning. Puede utilizar esta representación para establecer un modelo de gobernanza, reproducir su flujo de trabajo y mantener un registro de su historial de trabajos.

Amazon SageMaker crea automáticamente entidades de seguimiento para los componentes de prueba y sus pruebas y experimentos asociados al crear trabajos de SageMaker, como trabajos de procesamiento, trabajos de entrenamiento y trabajos de transformación por lotes. Además del seguimiento automático, también puede Creación manual de entidades de seguimiento para modelar pasos personalizados en su flujo de trabajo. Para obtener más información, consulte Experimentos de Amazon SageMaker en Studio Classic.

SageMaker también crea automáticamente entidades de seguimiento para los demás pasos de un flujo de trabajo para que pueda realizar un seguimiento del flujo de trabajo de principio a fin. Para obtener más información, consulte Entidades de seguimiento creadas por Amazon SageMaker.

Puede crear entidades adicionales para complementar las creadas por SageMaker. Para obtener más información, consulte Creación manual de entidades de seguimiento.

SageMaker reutiliza cualquier entidad existente en lugar de crear entidades nuevas. Por ejemplo, solo puede haber un artefacto con un únicoSourceUri.

Conceptos clave para consultar el linaje
  • Linaje: metadatos que rastrean las relaciones entre varias entidades en sus flujos de trabajo de ML.

  • QueryLineage: la acción para inspeccionar su linaje y descubrir las relaciones entre las entidades.

  • Entidades de linaje: los elementos de metadatos que componen su linaje.

  • Linaje entre cuentas: su flujo de trabajo de ML puede abarcar más de una cuenta. Con el linaje entre cuentas, puede configurar varias cuentas para crear automáticamente asociaciones de linaje entre los recursos de la entidad compartidos. Luego, QueryLineage puede devolver entidades incluso de estas cuentas compartidas.

Se definen las siguientes entidades de seguimiento:

Entidades del experimento
  • Componente de prueba: una etapa de una prueba de machine learning. Incluye trabajos de procesamiento, trabajos de entrenamiento y trabajos de transformación por lotes.

  • Prueba: combinación de componentes de prueba que, por lo general, produce un modelo.

  • Experimento: grupo de pruebas que, por lo general, se centran en resolver un caso de uso específico.

Entidades de linaje
  • Componente de prueba: representa los trabajos de procesamiento, entrenamiento y transformación en el linaje. También forma parte de la administración del experimento.

  • Contexto: proporciona una agrupación lógica de otras entidades de seguimiento o experimentación. Conceptualmente, los experimentos y las pruebas son contextos. Algunos ejemplos son un punto de conexión y un paquete de modelos.

  • Acción: representa una acción o actividad. Por lo general, una acción implica al menos un artefacto de entrada o un artefacto de salida. Algunos ejemplos son un paso del flujo de trabajo y la implementación de un modelo.

  • Artefacto: representa un objeto o dato direccionable mediante URI. Por lo general, un artefacto es una entrada o una salida de un componente o acción de prueba. Algunos ejemplos incluyen un conjunto de datos (URI de bucket S3) o una imagen (ruta de registro de Amazon ECR).

  • Asociación: vincula otras entidades de seguimiento o experimentación, como una asociación entre la ubicación de los datos de entrenamiento y un trabajo de entrenamiento.

    Una asociación tiene una propiedad AssociationType opcional. A continuación, se indican los valores disponibles junto con el uso sugerido para cada tipo. SageMaker no impone restricciones a su uso:

    • ContributedTo: el origen contribuyó al destino o participó en la habilitación del destino. Por ejemplo, los datos de entrenamiento contribuyeron al trabajo de entrenamiento.

    • AssociatedWith: el origen está conectado al destino. Por ejemplo, un flujo de trabajo de aprobación está asociado a la implementación de un modelo.

    • DerivedFrom: el destino es una modificación del origen. Por ejemplo, la salida resumida de una entrada de canal para un trabajo de procesamiento se deriva de las entradas originales.

    • Produced: el origen generó el destino. Por ejemplo, un trabajo de entrenamiento produjo un artefacto del modelo.

    • SameAs: cuando la misma entidad de linaje se utiliza en cuentas diferentes.

Propiedades comunes

  • Propiedad de tipo

    Las entidades de acción, artefacto y contexto tienen una propiedad de tipo, ActionType, ArtifactType y ContextType, respectivamente. Esta propiedad es una cadena personalizada que puede asociar información significativa a la entidad y usarse como filtro en las API de lista.

  • Propiedad de origen

    Las entidades de acción, artefacto y contexto tienen una propiedad de Source. Esta propiedad proporciona el URI subyacente que representa la entidad. Algunos ejemplos son:

    • Una acción UpdateEndpoint en la que el origen es el EndpointArn.

    • Un artefacto de imagen para un trabajo de procesamiento en el que el origen es el ImageUri.

    • Un contexto Endpoint en la que el origen es el EndpointArn.

  • Propiedad de metadatos

    Las entidades de acción y artefacto tienen una propiedad de Metadata opcional que puede proporcionar la siguiente información:

    • ProjectId: por ejemplo, el ID del proyecto de MLOps de SageMaker al que pertenece un modelo.

    • GeneratedBy: por ejemplo, la ejecución de la canalización de SageMaker que registró una versión del paquete de modelos.

    • Repository: por ejemplo, el repositorio que contiene un algoritmo.

    • CommitId: por ejemplo, el ID de confirmación de una versión del algoritmo.