Erweitertes Manifest-Dateiformat für Pipe-Modus-Training - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erweitertes Manifest-Dateiformat für Pipe-Modus-Training

Das erweiterte Manifestformat ermöglicht es Ihnen, Trainings im Pipe-Modus mit Dateien durchzuführen, ohne RecordIO-Dateien erstellen zu müssen. Sie müssen sowohl den train- als auch den und validation-Kanal als Werte für den InputDataConfig-Parameter der CreateTrainingJob-Anforderung angeben. Erweiterte Manifestdateien werden nur für Kanäle unterstützt, die den Pipe-Eingabemodus nutzen. Für jeden Kanal werden die Daten aus der erweiterten Manifestdatei extrahiert und (in derselben Reihenfolge) über die Named Pipe des Kanals an den Algorithmus gestreamt. Der Pipe-Modus verwendet die Methode first in first out (FIFO), sodass Datensätze in der Reihenfolge verarbeitet werden, in der sie sich in der Warteschlange befinden. Informationen zum Pipe-Eingabemodus finden Sie unter Input Mode.

Attributnamen mit dem Suffix "-ref" verweisen auf vorformatierte binäre Daten. In einigen Fällen weiß der Algorithmus, wie die Daten geparst werden müssen. In anderen Fällen müssen Sie die Daten möglicherweise umschließen, sodass Datensätze für den Algorithmus voneinander getrennt werden. Wenn der Algorithmus mit RecordIO-formatierten Daten kompatibel ist, löst die Angabe von RecordIO für RecordWrapperType dieses Problem. Wenn der Algorithmus nicht mit dem RecordIO-Format kompatibel ist, geben Sie None für RecordWrapperType an und stellen Sie sicher, dass Ihre Daten für Ihren Algorithmus korrekt geparst werden.

Wenn Sie im Beispiel ["image-ref", "is-a-cat"] einen RecordIO-Wrapper verwenden, wird der folgende Datenstream an die Warteschlange gesendet:

recordio_formatted(s3://amzn-s3-demo-bucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://amzn-s3-demo-bucket/bar/image2.jpg)recordio_formatted("0")

Bilder, die nicht im RecordIO-Format verpackt sind, werden mit dem entsprechenden is-a-cat-Attributwert als ein Datensatz gestreamt. Dies kann Probleme verursachen, da der Algorithmus die Bilder und Attribute möglicherweise nicht korrekt voneinander trennt. Weitere Informationen zur Verwendung von Augmented Manifest-Dateien für die Bildklassifizierung finden Sie unter Train with Augmented Manifest Image Format.

Bei erweiterten Manifestdateien und im Pipe-Modus im Allgemeinen gelten die Größenbeschränkungen des EBS Volumes nicht. Dazu gehören Einstellungen, die andernfalls innerhalb der EBS Volumengrößenbeschränkung liegen müssen, wie S3DataDistributionType z. Weitere Informationen zum Pipe-Modus und dessen Verwendung finden Sie unter Verwenden Ihres eigenen Trainingsalgorithmus – Eingabedatenkonfiguration.