Imposta il comportamento di memorizzazione nella cache del SageMaker modello di endpoint multimodello - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Imposta il comportamento di memorizzazione nella cache del SageMaker modello di endpoint multimodello

Per impostazione predefinita, gli endpoint multimodello memorizzano nella cache i modelli usati di frequente in memoria (CPUoGPU, a seconda che tu CPU disponga di istanze GPU supportate) e su disco per fornire inferenze a bassa latenza. I modelli memorizzati nella cache vengono scaricati e/o eliminati dal disco solo quando un container esaurisce la memoria o lo spazio su disco per ospitare un nuovo modello di destinazione.

È possibile modificare il comportamento di memorizzazione nella cache di un endpoint a più modelli e abilitare o disabilitare esplicitamente la memorizzazione nella cache del modello impostando il parametro ModelCacheSetting quando si chiama create_model.

Consigliamo di impostare il valore del parametro ModelCacheSetting su Disabled per i casi d'uso che non traggono vantaggio dalla memorizzazione nella cache dei modelli. Ad esempio, quando è necessario fornire un numero elevato di modelli dall'endpoint, ma ogni modello viene richiamato una sola volta (o molto raramente). In questi casi d'uso, l'impostazione del valore del ModelCacheSetting parametro per Disabled consentire transazioni al secondo (TPS) per le invoke_endpoint richieste più elevate rispetto alla modalità di memorizzazione nella cache predefinita. Il valore più elevato TPS in questi casi d'uso è dovuto al fatto che dopo la invoke_endpoint richiesta SageMaker si verifica quanto segue:

  • Scarica in modo asincrono il modello dalla memoria e lo elimina dal disco immediatamente dopo la sua chiamata.

  • Consente una maggiore concomitanza per il download e il caricamento dei modelli nel container di inferenza. CPUSia per gli endpoint GPU supportati che per quelli supportati, la concorrenza è un fattore del numero dell'istanza vCPUs del contenitore.

Per linee guida sulla scelta di un tipo di istanza SageMaker ML per un endpoint multimodello, consulta. Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli