Configure o canal de entrada de dados para usar o Amazon FSx for Lustre - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configure o canal de entrada de dados para usar o Amazon FSx for Lustre

Aprenda a usar o Amazon FSx for Lustre como sua fonte de dados para maior produtividade e treinamento mais rápido, reduzindo o tempo de carregamento de dados.

nota

Ao usar instâncias EFA habilitadas, como P4d e P3dn, certifique-se de definir as regras de entrada e saída apropriadas no grupo de segurança. Especialmente, a abertura dessas portas é necessária SageMaker para acessar o sistema de FSx arquivos da Amazon no trabalho de treinamento. Para saber mais, consulte Controle de acesso ao sistema de arquivos com a Amazon VPC.

Sincronize o Amazon S3 e o Amazon for FSx Lustre

Para vincular seu Amazon S3 ao Amazon FSx for Lustre e carregar seus conjuntos de dados de treinamento, faça o seguinte.

  1. Prepare o conjunto de dados e faça upload para um bucket do Amazon S3. Por exemplo, suponha que os caminhos do Amazon S3 para um conjunto de dados de treino e um conjunto de dados de teste estejam no formato a seguir.

    s3://amzn-s3-demo-bucket/data/train s3://amzn-s3-demo-bucket/data/test
  2. Para criar um FSx sistema de arquivos for Lustre vinculado ao bucket do Amazon S3 com os dados de treinamento, siga as etapas em Vincular seu sistema de arquivos a um bucket do Amazon S3 no Guia do usuário do FSx Amazon for Lustre. Certifique-se de adicionar um endpoint ao seu acesso ao VPC Amazon S3. Para obter mais informações, consulte Crie um endpoint Amazon S3 VPC. Ao especificar o caminho do repositório de dados, forneça o URI bucket Amazon S3 da pasta que contém seus conjuntos de dados. Por exemplo, com base nos exemplos de caminhos do S3 na etapa 1, o caminho do repositório de dados deve ser o seguinte.

    s3://amzn-s3-demo-bucket/data
  3. Depois que o sistema de arquivos FSx for Lustre for criado, verifique as informações de configuração executando os seguintes comandos.

    aws fsx describe-file-systems && \ aws fsx describe-data-repository-association

    Esses comandos retornam FileSystemId, MountName, FileSystemPath e DataRepositoryPath. Por exemplo, os resultados serão semelhantes ao seguinte.

    # Output of aws fsx describe-file-systems "FileSystemId": "fs-0123456789abcdef0" "MountName": "1234abcd" # Output of aws fsx describe-data-repository-association "FileSystemPath": "/ns1", "DataRepositoryPath": "s3://amzn-s3-demo-bucket/data/"

    Depois que a sincronização entre o Amazon S3 e a Amazon for FSx concluída, seus conjuntos de dados serão salvos na Amazon FSx nos seguintes diretórios.

    /ns1/train # synced with s3://amzn-s3-demo-bucket/data/train /ns1/test # synced with s3://amzn-s3-demo-bucket/data/test

Defina o caminho do sistema de FSx arquivos da Amazon como o canal de entrada de dados para SageMaker treinamento

Os procedimentos a seguir orientam você no processo de configuração do sistema de FSx arquivos da Amazon como fonte de dados para trabalhos de SageMaker treinamento.

Using the SageMaker Python SDK

Para definir adequadamente o sistema de FSx arquivos da Amazon como fonte de dados, configure as classes do SageMaker estimador FileSystemInput usando as instruções a seguir.

  1. Configure um objeto FileSystemInput de classe.

    from sagemaker.inputs import FileSystemInput train_fs = FileSystemInput( file_system_id="fs-0123456789abcdef0", file_system_type="FSxLustre", directory_path="/1234abcd/ns1/", file_system_access_mode="ro", )
    dica

    Ao especificardirectory_path, certifique-se de fornecer o caminho do sistema de FSx arquivos da Amazon começando comMountName.

  2. Configure um SageMaker estimador com a VPC configuração usada para o sistema de FSx arquivos da Amazon.

    from sagemaker.estimator import Estimator estimator = Estimator( ... role="your-iam-role-with-access-to-your-fsx", subnets=["subnet-id"], # Should be the same as the subnet used for Amazon FSx security_group_ids="security-group-id" )

    Certifique-se de que a IAM função do trabalho SageMaker de treinamento tenha as permissões para acessar e ler na AmazonFSx.

  3. Inicie o trabalho de treinamento executando o método estimator.fit com o sistema de arquivos da Amazon. FSx

    estimator.fit(train_fs)

Para encontrar mais exemplos de código, consulte Usar sistemas de arquivos como entradas de treinamento na documentação do SageMaker SDKPython.

Using the SageMaker CreateTrainingJob API

Como parte da CreateTrainingJobsolicitaçãoJSON, configure da InputDataConfig seguinte maneira.

"InputDataConfig": [ { "ChannelName": "string", "DataSource": { "FileSystemDataSource": { "DirectoryPath": "/1234abcd/ns1/", "FileSystemAccessMode": "ro", "FileSystemId": "fs-0123456789abcdef0", "FileSystemType": "FSxLustre" } } } ],
dica

Ao especificarDirectoryPath, certifique-se de fornecer o caminho do sistema de FSx arquivos da Amazon começando comMountName.