Protezioni della privacy del machine learning AWS Clean Rooms

Clean Rooms ML è progettato per ridurre il rischio di attacchi di inferenza dei membri, in cui il fornitore di dati di formazione può scoprire chi è presente nei dati iniziali e il fornitore di dati iniziali può scoprire chi c'è nei dati di formazione. Sono state adottate diverse misure per prevenire questo attacco.

Innanzitutto, i fornitori di dati di avviamento non osservano direttamente l'output di Clean Rooms ML e i fornitori di dati di formazione non possono mai osservare i dati iniziali. I fornitori di dati di semina possono scegliere di includere i dati di semina nel segmento di output.

Successivamente, il modello simile viene creato da un campione casuale dei dati di addestramento. Questo esempio include un numero significativo di utenti che non corrispondono al pubblico iniziale. Questo processo rende più difficile determinare se un utente non fosse presente nei dati, il che rappresenta un altro modo per inferire l'appartenenza.

Inoltre, è possibile utilizzare più clienti di seed per ogni parametro di addestramento basato su modelli simili specifici per ciascun seme. Ciò limita quanto il modello può sovra-adattarsi e quindi quanto si può dedurre su un utente. Di conseguenza, consigliamo che la dimensione minima dei dati iniziali sia di 500 utenti.

Infine, le metriche a livello di utente non vengono mai fornite ai fornitori di dati di formazione, il che elimina un'altra possibilità per un attacco di inferenza dell'appartenenza.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AWS modelli in Clean Rooms ML

Requisiti dei dati di formazione