Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Requisiti relativi ai dati di formazione per Clean Rooms ML
Per creare correttamente un modello simile, i dati di addestramento devono soddisfare i seguenti requisiti:
-
I dati di addestramento devono essere in formato Parquet, CSV o JSON.
-
I dati di allenamento devono essere catalogati in. AWS Glue Per ulteriori informazioni, consulta Getting started with the AWS Glue Data Catalog nella AWS Glue Developer Guide. Ti consigliamo di utilizzare AWS Glue i crawler per creare le tabelle perché lo schema viene dedotto automaticamente.
-
Il bucket Amazon S3 che contiene i dati di addestramento e i dati iniziali si trova nella stessa AWS regione delle altre risorse Clean Rooms ML.
-
I dati di addestramento devono contenere almeno 100.000 utenti unici IDs con almeno due interazioni tra elementi ciascuno.
-
I dati di allenamento devono contenere almeno 1 milione di record.
-
Lo schema specificato nell'CreateTrainingDatasetazione deve essere allineato allo schema definito al momento della creazione della AWS Glue tabella.
-
I campi obbligatori, come definiti nella tabella fornita, sono definiti nell'CreateTrainingDatasetazione.
Tipo di campo Tipi di dati supportati Richiesto Descrizione USER_ID string, int, bigint Sì Un identificatore univoco per ogni utente del set di dati. Dovrebbe essere un valore di informazioni non identificabili personalmente (PII). Potrebbe trattarsi di un identificatore con hash o di un ID cliente. ITEM_ID string, int, bigint Sì Un identificatore univoco per ogni elemento con cui un utente interagisce. TIMESTAMP bigint, int, timestamp Sì L'ora in cui un utente ha interagito con l'elemento. I valori devono essere nel formato Unix epoch time in secondi. CARATTERISTICA_CATEGORIALE string, int, float, bigint, double, booleano, array No Acquisisce dati categorici relativi all'utente o all'elemento. Ciò può includere dati come il tipo di evento (ad esempio un clic o un acquisto), i dati demografici degli utenti (fascia di età, sesso, resi anonimi), la posizione dell'utente (città, paese, in forma anonima), la categoria dell'articolo (come abbigliamento o elettronica) o la marca dell'articolo. CARATTERISTICA_NUMERICA double, float, int, bigint No Acquisisce dati numerici relativi all'utente o all'elemento. Ciò può includere elementi come la cronologia degli acquisti degli utenti (importo totale speso), il prezzo dell'articolo, il numero di volte in cui un articolo viene visitato o le valutazioni degli utenti relative agli articoli. -
Facoltativamente, puoi fornire fino a 10 funzioni categoriali o numeriche totali.
Ecco un esempio di un set di dati di addestramento valido in formato CSV
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE) 196,242,881250949,click,15 186,302,891717742,click,13 22,377,878887116,click,10 244,51,880606923,click,20 166,346,886397596,click,10