Die Dokumentation zum Large Model Inference (LMI) -Container

Die Container-Dokumentation für Large Model Inference (LMI) finden Sie auf der Dokumentationsseite der Deep Java Library.

Die Dokumentation richtet sich an Entwickler, Datenwissenschaftler und Ingenieure für maschinelles Lernen, die umfangreiche Sprachmodelle (LLMs) auf Amazon SageMaker AI bereitstellen und optimieren müssen. Es hilft Ihnen bei der Verwendung von LMI-Containern, bei denen es sich um spezialisierte Docker-Container für LLM-Inferenz handelt, die von bereitgestellt werden. AWS Es bietet einen Überblick, Bereitstellungsleitfäden, Benutzerhandbücher für unterstützte Inferenzbibliotheken und Tutorials für Fortgeschrittene.

Mithilfe der LMI-Container-Dokumentation können Sie:

Die Komponenten und die Architektur von LMI-Containern verstehen
Erfahren Sie, wie Sie den geeigneten Instanztyp und das passende Backend für Ihren Anwendungsfall auswählen
Konfiguration und Bereitstellung LLMs auf SageMaker KI mithilfe von LMI-Containern
Optimieren Sie die Leistung mithilfe von Funktionen wie Quantisierung, Tensorparallelität und kontinuierlichem Batching
Benchmarken und optimieren Sie Ihre SageMaker KI-Endpunkte, um einen optimalen Durchsatz und eine optimale Latenz zu erzielen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Modellparallelität und Inferenz großer Modelle

SageMaker KI-Endpunktparameter für LMI