Trabalhar com trabalhos do Ray no AWS Glue
Esta seção fornece informações sobre o uso do AWS Glue para Ray. Para obter mais informações sobre escrever scripts do AWS Glue para Ray, consulte a seção Programar scripts de ETL.
Tópicos
Conceitos básicos do AWS Glue para Ray
Para trabalhar com o AWS Glue para Ray, você usa os mesmos trabalhos e sessões interativas do AWS Glue que usaria com o AWS Glue para Spark. Os trabalhos do AWS Glue foram criados para executar o mesmo script em uma cadência recorrente, enquanto as sessões interativas foram criadas para permitir que você execute trechos de código sequencialmente nos mesmos recursos provisionados.
O AWS Glue ETL e o Ray são diferentes internamente, portanto, em seu script, você terá acesso a diferentes ferramentas, atributos e configurações. Como uma nova estrutura de computação gerenciada pelo AWS Glue, o Ray tem uma arquitetura diferente e usa um vocabulário diferente para descrever o que faz. Para obter mais informações, consulte Architecture Whitepapers
nota
O AWS Glue for Ray está disponível em Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Ásia-Pacífico (Tóquio) e Europa (Irlanda).
Trabalhos do Ray no console do AWS Glue Studio
Na página Trabalhos no console do AWS Glue Studio, você pode selecionar uma nova opção ao criar um trabalho no AWS Glue Studio - editor de script do Ray. Escolha essa opção para criar um trabalho do Ray no console. Para obter mais informações sobre trabalhos e sobre como eles são usados, consulte Criar trabalhos ETL visuais com o AWS Glue Studio.
Os trabalhos do Ray na AWS CLI e SDK
Os trabalhos do Ray na AWS CLI usam as mesmas ações e parâmetros do SDK dos outros trabalhos. O AWS Glue para Ray introduz novos valores para determinados parâmetros. Para obter mais informações sobre a API de trabalhos, consulte Tarefas.
Ambientes de runtime do Ray compatíveis
Em trabalhos do Spark, o GlueVersion
determina as versões do Apache Spark e do Python disponíveis em um trabalho do AWS Glue para Spark. A versão do Python indica a versão compatível com trabalhos do tipo Spark. Não é assim que os ambientes de runtime do Ray são configurados.
Os trabalhos do Ray, você deve definir GlueVersion
como 4.0
ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo campo Runtime
na definição do trabalho.
O ambiente de runtime to Ray2.4
estará disponível por no mínimo 6 meses após o lançamento. À medida que o Ray evolui rapidamente, você poderá incorporar atualizações e melhorias do Ray por meio de versões futuras do runtime.
Valores válidos: Ray2.4
Valor do runtime | Versões do Ray e Python |
---|---|
Ray2.4 (para AWS Glue 4.0+) |
Ray 2.4.0 Python 3.9 |
Informações adicionais
-
Para obter as notas de versão que acompanham os lançamentos do AWS Glue para Ray, consulte Versões do AWS Glue.
-
Para bibliotecas do Python que são fornecidas em um runtime, consulte Módulos fornecidos com trabalhos do Ray.
Explicar os operadores em trabalhos do Ray
O AWS Glue executa trabalhos do Ray em novos tipos de operadores EC2 baseados em Graviton, que só estão disponíveis para trabalhos do Ray. Para provisionar adequadamente esses trabalhadores para workloads para os quais o Ray foi projetado, fornecemos uma proporção diferente de recursos de computação e recursos de memória da maioria dos operadores. Para processar esses recursos, usamos a unidade de processamento de dados otimizada para memória (M-DPU) em vez da unidade de processamento de dados padrão (DPU).
-
Uma M-DPU corresponde a 4 vCPUs e 32 GB de memória.
-
Uma DPU corresponde a 4 vCPUs e 16 GB de memória. As DPUs são usadas para contabilizar os recursos no AWS Glue com trabalhos do Spark e os operadores correspondentes.
Trabalhos do Ray têm acesso a um tipo de operador, Z.2X
. O operador Z.2X
mapeia para 2 M-DPUs (8 vCPUs, 64 GB de memória) e tem 128 GB de espaço em disco. Uma máquina Z.2X
fornece 8 operadores Ray (um por vCPU).
O número de M-DPUs que você pode usar de forma concorrente em uma conta está sujeito a uma cota de serviço. Para obter mais informações sobre os limites da sua conta do AWS Glue, consulte endpoints e cotas do AWS Glue.
Você especifica o número de nós de processamento que estão disponíveis para um trabalho do Ray com --number-of-workers
(NumberOfWorkers)
na definição do trabalho. Para obter mais informações sobre os valores do Ray na API de trabalhos, consulte Tarefas.
Você também pode especificar um número mínimo de operadores que um trabalho do Ray deve alocar com o parâmetro do trabalho --min-workers
. Para obter mais informações sobre parâmetros de trabalho, consulte Referência.