AWS Clean Rooms ML - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Clean Rooms ML

AWS Clean Rooms ML

AWS Clean Rooms O ML fornece um método de preservação da privacidade para duas partes identificarem usuários semelhantes em seus dados sem a necessidade de compartilhar seus dados entre si. A primeira parte traz os dados de treinamento para que AWS Clean Rooms possam criar e configurar um modelo semelhante e associá-lo a uma colaboração. Em seguida, os dados iniciais são trazidos para a colaboração para criar um segmento semelhante aos dados de treinamento.

Consulte uma explicação mais detalhada de como isso funciona em Trabalhos entre contas.

  • Provedor de dados de treinamento: a parte que contribui com os dados de treinamento, cria e configura um modelo de semelhanças e o associa a uma colaboração.

  • Provedor de dados de seed: a parte que contribui com os dados de seed, gera um segmento de semelhanças e o exporta.

  • Dados de treinamento: os dados do provedor de dados de treinamento, que são usados para gerar um modelo de semelhanças. Os dados de treinamento são usados para medir a semelhança nos comportamentos do usuário.

    Os dados de treinamento devem conter uma coluna de ID de usuário, ID do item e carimbo de data/hora. Opcionalmente, os dados de treinamento podem conter outras interações como atributos numéricos ou categóricos. Exemplos de interações são uma lista de vídeos assistidos, itens comprados ou artigos lidos.

  • Dados de seed: os dados do provedor de dados de seed, que são usados para criar um segmento de semelhanças. Os dados iniciais podem ser fornecidos diretamente ou podem vir dos resultados de uma AWS Clean Rooms consulta. A saída do segmento de semelhanças é um conjunto de usuários dos dados de treinamento que mais se assemelha aos usuários de seed.

  • Modelo de semelhanças: um modelo de machine learning dos dados de treinamento usado para encontrar usuários semelhantes em outros conjuntos de dados.

    Ao usar oAPI, o termo modelo de público é usado de forma equivalente ao modelo semelhante. Por exemplo, você usa o CreateAudienceModelAPIpara criar um modelo semelhante.

  • Segmento semelhante — Um subconjunto dos dados de treinamento que mais se assemelha aos dados iniciais.

    Ao usar oAPI, você cria um segmento semelhante com o. StartAudienceGenerationJobAPI

Os dados do provedor de dados de treinamento nunca são compartilhados com o provedor de dados de seed e os dados do provedor de dados de seed nunca são compartilhados com o provedor de dados de treinamento. A saída do segmento de semelhanças é compartilhada com o provedor de dados de treinamento, mas nunca com o provedor de dados de seed.

Para ter mais informações sobre modelos de semelhanças, consulte os tópicos a seguir.

Como funciona o AWS Clean Rooms ML

Uma visão geral de como o AWS Clean Rooms ML funciona.

O Clean Rooms ML exige que duas partes, um provedor de dados de treinamento e um provedor de dados iniciais, trabalhem sequencialmente AWS Clean Rooms para reunir seus dados em uma colaboração. Esse é o fluxo de trabalho que o provedor de dados de treinamento deve concluir primeiro:

  1. Os dados do provedor de dados de treinamento devem ser armazenados em uma tabela de catálogo de AWS Glue dados de interações com itens do usuário. No mínimo, os dados de treinamento devem conter uma coluna de ID de usuário, uma coluna de ID de interação e uma coluna de carimbo de data/hora.

  2. O provedor de dados de treinamento registra os dados de treinamento com AWS Clean Rooms.

  3. O provedor de dados de treinamento cria um modelo de semelhanças que pode ser compartilhado com vários provedores de dados de seed. O modelo de semelhanças é uma rede neural profunda que pode levar até 24 horas para ser treinado. Ele não é retreinado automaticamente e recomendamos que você treine novamente o modelo semanalmente.

  4. O provedor de dados de treinamento configura o modelo de semelhanças, incluindo se deseja compartilhar métricas de relevância e a localização dos segmentos de saída do Amazon S3. O provedor de dados de treinamento pode criar vários modelos de semelhanças configurados com base em um único modelo de semelhanças.

  5. O provedor de dados de treinamento associa o modelo de público configurado a uma colaboração que é compartilhada com um provedor de dados iniciais.

Esse é o fluxo de trabalho que o provedor de dados de seed deve concluir a seguir:

  1. Os dados do provedor de dados iniciais podem ser armazenados em um bucket do Amazon S3 e podem vir dos resultados da consulta.

  2. O provedor de dados de seed abre a colaboração que compartilha com o provedor de dados de treinamento.

  3. O provedor de dados iniciais cria um segmento semelhante na guia Clean Rooms ML da página de colaboração.

  4. O provedor de dados de seed poderá avaliar as métricas de relevância, se elas foram compartilhadas, e exportar o segmento de semelhanças para uso fora do AWS Clean Rooms.