Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Imposta il comportamento di memorizzazione nella cache del SageMaker modello di endpoint multimodello
Per impostazione predefinita, gli endpoint multimodello memorizzano nella cache i modelli usati di frequente in memoria (CPUoGPU, a seconda che tu CPU disponga di istanze GPU supportate) e su disco per fornire inferenze a bassa latenza. I modelli memorizzati nella cache vengono scaricati e/o eliminati dal disco solo quando un container esaurisce la memoria o lo spazio su disco per ospitare un nuovo modello di destinazione.
È possibile modificare il comportamento di memorizzazione nella cache di un endpoint a più modelli e abilitare o disabilitare esplicitamente la memorizzazione nella cache del modello impostando il parametro ModelCacheSetting
quando si chiama create_model
Consigliamo di impostare il valore del parametro ModelCacheSetting
su Disabled
per i casi d'uso che non traggono vantaggio dalla memorizzazione nella cache dei modelli. Ad esempio, quando è necessario fornire un numero elevato di modelli dall'endpoint, ma ogni modello viene richiamato una sola volta (o molto raramente). In questi casi d'uso, l'impostazione del valore del ModelCacheSetting
parametro per Disabled
consentire transazioni al secondo (TPS) per le invoke_endpoint
richieste più elevate rispetto alla modalità di memorizzazione nella cache predefinita. Il valore più elevato TPS in questi casi d'uso è dovuto al fatto che dopo la invoke_endpoint
richiesta SageMaker si verifica quanto segue:
-
Scarica in modo asincrono il modello dalla memoria e lo elimina dal disco immediatamente dopo la sua chiamata.
-
Consente una maggiore concomitanza per il download e il caricamento dei modelli nel container di inferenza. CPUSia per gli endpoint GPU supportati che per quelli supportati, la concorrenza è un fattore del numero dell'istanza vCPUs del contenitore.
Per linee guida sulla scelta di un tipo di istanza SageMaker ML per un endpoint multimodello, consulta. Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli