Formato de arquivo de manifesto aumentado para treinamento em modo Pipe - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formato de arquivo de manifesto aumentado para treinamento em modo Pipe

O formato de manifesto aumentado permite que você faça treinamentos no modo Pipe usando arquivos de imagem, sem precisar criar arquivos RecordIO. Você precisa especificar ambos os canais de treinamento e de validação como valores para o parâmetro InputDataConfig da solicitação CreateTrainingJob. Arquivos manifestos aumentados são compatíveis apenas para canais que usam o modo de entrada Pipe. Para cada canal, os dados são extraídos de seu arquivo manifesto aumentado e transmitidos (em ordem) ao algoritmo por meio do Pipe nomeado do canal. O modo Pipe usa o método first in first out (FIFO), então os registros são processados na ordem em que são colocados na fila. Para obter informações sobre o modo de entrada Pipe, consulte Input Mode.

Nomes de atributos com um sufixo "-ref" apontam para dados binários pré-formatados. Em alguns casos, o algoritmo sabe como analisar os dados. Em outros casos, pode ser necessário encapsular os dados para que os registros sejam delimitados pelo algoritmo. Se o algoritmo for compatível com dados formatados em RecordIO, especificar RecordIO para RecordWrapperType resolverá esse problema. Se o algoritmo for incompatível com o formato RecordIO, especifique None para RecordWrapperType e certifique-se de que seus dados sejam analisados corretamente para o seu algoritmo.

Usando o exemplo ["image-ref", "is-a-cat"], se você usar o encapsulamento de RecordIO, o seguinte fluxo de dados será enviado à fila:

recordio_formatted(s3://amzn-s3-demo-bucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://amzn-s3-demo-bucket/bar/image2.jpg)recordio_formatted("0")

Imagens que não forem encapsuladas com o formato RecordIO serão transmitidas com o valor de atributo is-a-cat correspondente como um único registro. Isso pode causar um problema, pois o algoritmo pode não delimitar corretamente as imagens e os atributos. Para obter mais informações sobre o uso de arquivos manifesto aumentados para classificação de imagens, consulte Treinar com o formato de imagem de manifesto aumentado.

Com arquivos de manifesto aumentados e o modo Pipe em geral, os limites de tamanho do EBS volume não se aplicam. Isso inclui configurações que, de outra forma, devem estar dentro do limite de tamanho do EBS volume, como S3DataDistributionType . Para obter mais informações sobre o modo Pipe e como usá-lo, consulte Usar seus próprios algoritmos de treinamento - Configuração de dados de entrada.