Best practice per l'ottimizzazione dei costi di inferenza - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Best practice per l'ottimizzazione dei costi di inferenza

Il seguente contenuto fornisce tecniche e considerazioni per ottimizzare il costo degli endpoint. È possibile utilizzare questi suggerimenti per ottimizzare i costi sia per gli endpoint nuovi che per quelli esistenti.

Best practice

Per ottimizzare i costi di SageMaker AI Inference, segui queste best practice.

SageMaker L'intelligenza artificiale offre 4 diverse opzioni di inferenza per fornire la migliore opzione di inferenza per il lavoro. Potresti essere in grado di risparmiare sui costi scegliendo l'opzione di inferenza più adatta al tuo carico di lavoro.

  • Utilizza l'inferenza in tempo reale per carichi di lavoro a bassa latenza con modelli di traffico prevedibili che devono avere caratteristiche di latenza coerenti e essere sempre disponibili. Si paga per l'utilizzo dell'istanza.

  • Utilizza l'inferenza serverless per carichi di lavoro sincroni con un modello di traffico intenso e in grado di accettare variazioni nella latenza p99. L'inferenza serverless si dimensiona automaticamente per soddisfare il traffico del carico di lavoro, in modo da non pagare per le risorse inattive. Si paga solo per la durata della richiesta di inferenza. È possibile utilizzare lo stesso modello e gli stessi container con inferenza real-time e serverless, in modo da poter passare da una modalità all'altra se le esigenze cambiano.

  • Utilizza l'inferenza asincrona per carichi di lavoro asincroni che elaborano fino a 1 GB di dati (come corpus di testo, immagini, video e audio) non sensibili alla latenza e ai costi. Con l'inferenza asincrona, puoi controllare i costi specificando un numero fisso di istanze per la velocità di elaborazione ottimale anziché effettuare il provisioning per il picco. Puoi anche ridurle a zero per risparmiare costi aggiuntivi.

  • Utilizza l'inferenza in batch per i carichi di lavoro per i quali è necessaria l'inferenza per un ampio set di dati per i processi che avvengono offline (ovvero, non è necessario un endpoint persistente). Si paga l'istanza per la durata del processo di inferenza batch.

  • Se disponi di un livello di utilizzo coerente per tutti i servizi di SageMaker intelligenza artificiale, puoi optare per un SageMaker AI Savings Plan per ridurre i costi fino al 64%.

  • Amazon SageMaker AI Savings Plans offre un modello di prezzo flessibile per Amazon SageMaker AI, in cambio dell'impegno a garantire una quantità di utilizzo costante (misurata in $/ora) per un periodo di uno o tre anni. Questi piani si applicano automaticamente agli utilizzi idonei delle istanze SageMaker AI ML, tra cui SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference e SageMaker Batch Transform, indipendentemente dalla famiglia, dalle dimensioni o dalla regione dell'istanza. Ad esempio, è possibile modificare l'utilizzo da un'istanza CPU ml.c5.xlarge in esecuzione negli Stati Uniti orientali (Ohio) a un'istanza ML.Inf1 negli Stati Uniti occidentali (Oregon) per i carichi di lavoro di inferenza in qualsiasi momento e continuare automaticamente a pagare il prezzo Savings Plans.

  • SageMaker Inference ha oltre 70 tipi e dimensioni di istanze che possono essere utilizzati per implementare modelli di machine learning, inclusi i chipset AWS Inferentia e Graviton ottimizzati per il machine learning. La scelta dell'istanza giusta per il tuo modello ti aiuta ad avere l'istanza più performante al costo più basso per i modelli.

  • Utilizzando il Suggeritore di inferenza, è possibile confrontare rapidamente diverse istanze per comprendere le prestazioni del modello e i costi. Con questi risultati, puoi scegliere l'istanza da implementare con il miglior ritorno sull'investimento.

  • Senza il dimensionamento automatico, è necessario prevedere il traffico di picco o la non disponibilità del modello di rischio. A meno che il traffico verso il modello non sia costante per tutto il giorno, ci sarà un eccesso di capacità inutilizzata. Ciò comporta un basso utilizzo e uno spreco di risorse.

  • L'autoscaling è una out-of-the-box funzionalità che monitora i carichi di lavoro e regola dinamicamente la capacità per mantenere prestazioni stabili e prevedibili al minor costo possibile. Quando il carico di lavoro aumenta, Auto Scaling offre più istanze online. Quando il carico di lavoro diminuisce, il dimensionamento automatico rimuove le istanze non necessarie, aiutandoti a ridurre i costi di elaborazione. Per ulteriori informazioni, consulta Configurazione degli endpoint di inferenza con scalabilità automatica in Amazon AI SageMaker sul blog Machine Learning. AWS