Seleziona le tue preferenze relative ai cookie

Utilizziamo cookie essenziali e strumenti simili necessari per fornire il nostro sito e i nostri servizi. Utilizziamo i cookie prestazionali per raccogliere statistiche anonime in modo da poter capire come i clienti utilizzano il nostro sito e apportare miglioramenti. I cookie essenziali non possono essere disattivati, ma puoi fare clic su \"Personalizza\" o \"Rifiuta\" per rifiutare i cookie prestazionali.

Se sei d'accordo, AWS e le terze parti approvate utilizzeranno i cookie anche per fornire utili funzionalità del sito, ricordare le tue preferenze e visualizzare contenuti pertinenti, inclusa la pubblicità pertinente. Per continuare senza accettare questi cookie, fai clic su \"Continua\" o \"Rifiuta\". Per effettuare scelte più dettagliate o saperne di più, fai clic su \"Personalizza\".

Imposta il comportamento di memorizzazione nella cache del modello di SageMaker endpoint multimodello AI

Modalità Focus
Imposta il comportamento di memorizzazione nella cache del modello di SageMaker endpoint multimodello AI - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per impostazione predefinita, gli endpoint a più modelli memorizzano nella memoria (CPU o GPU, a seconda che si disponga di istanze supportate da CPU o GPU) e su disco per fornire inferenze a bassa latenza. I modelli memorizzati nella cache vengono scaricati e/o eliminati dal disco solo quando un container esaurisce la memoria o lo spazio su disco per ospitare un nuovo modello di destinazione.

È possibile modificare il comportamento di memorizzazione nella cache di un endpoint a più modelli e abilitare o disabilitare esplicitamente la memorizzazione nella cache del modello impostando il parametro ModelCacheSetting quando si chiama create_model.

Consigliamo di impostare il valore del parametro ModelCacheSetting su Disabled per i casi d'uso che non traggono vantaggio dalla memorizzazione nella cache dei modelli. Ad esempio, quando è necessario fornire un numero elevato di modelli dall'endpoint, ma ogni modello viene richiamato una sola volta (o molto raramente). In questi casi d'uso, l'impostazione del valore del parametro ModelCacheSetting a Disabled consente transazioni al secondo (TPS) più elevate per le richieste invoke_endpoint rispetto alla modalità di memorizzazione nella cache predefinita. Un TPS più elevato in questi casi d'uso è dovuto al fatto che l' SageMaker IA esegue le seguenti operazioni dopo la richiesta: invoke_endpoint

  • Scarica in modo asincrono il modello dalla memoria e lo elimina dal disco immediatamente dopo la sua chiamata.

  • Consente una maggiore concomitanza per il download e il caricamento dei modelli nel container di inferenza. Per gli endpoint basati su CPU e GPU, la concorrenza è un fattore del numero di v dell'istanza CPUs del contenitore.

Per linee guida sulla scelta di un tipo di istanza SageMaker AI ML per un endpoint multimodello, consulta. Raccomandazioni sulle istanze per le distribuzioni di endpoint a più modelli

PrivacyCondizioni del sitoPreferenze cookie
© 2025, Amazon Web Services, Inc. o società affiliate. Tutti i diritti riservati.