Criação e configuração de um bucket Configuração de upload de várias partes Práticas recomendadas

Carregar dados no Amazon S3

Para obter instruções sobre como carregar objetos no Amazon S3, consulte Add an object to your bucket no Guia do usuário do Amazon Simple Storage Service. Para obter mais informações sobre o uso do Amazon S3 com o Hadoop, consulte. http://wiki.apache.org/hadoop/AmazonS3

Tópicos

Criar e configurar um bucket do Amazon S3
Configurar o carregamento multiparte para o Amazon S3
Práticas recomendadas
Upload de dados no Amazon S3 Express One Zone

Criar e configurar um bucket do Amazon S3

O Amazon EMR usa o AWS SDK para Java com o Amazon S3 para armazenar dados de entrada, arquivos de log e dados de saída. O Amazon S3 se refere a esses locais de armazenamento como bucket. Os buckets têm algumas restrições e limitações para estar em conformidade com os requisitos do Amazon S3 e do DNS. Para obter mais informações, consulte Restrições e limitações de bucket no Manual do usuário do Amazon Simple Storage Service.

Esta seção mostra como usar o Amazon S3 AWS Management Console para criar e depois definir permissões para um bucket do Amazon S3. Você também pode criar e definir permissões para um bucket do Amazon S3 usando a API do Amazon S3 ou a AWS CLI. Você também pode usar curl junto com uma modificação para transmitir os parâmetros de autenticação apropriados para o Amazon S3.

Consulte os recursos a seguir:

Para criar um bucket usando o console, consulte Criação de um bucket, no Guia do usuário do Amazon S3.
Para criar e trabalhar com buckets usando o AWS CLI, consulte Como usar comandos de alto nível do S3 com o AWS Command Line Interface no Guia do usuário do Amazon S3.
Para criar um bucket usando um SDK, veja exemplos de criação de um bucket no Guia do usuário do Amazon Simple Storage Service.
Para trabalhar com buckets usando Curl, consulte Amazon S3 authentication tool for curl.
Para obter mais informações sobre a especificação de Region-specific buckets, consulte Acessando um bucket no Guia do usuário do Amazon Simple Storage Service.
Para trabalhar com buckets usando Pontos de Acesso Amazon S3, consulte Usar um alias em estilo de bucket para seu ponto de acesso de bucket do S3 no Guia do usuário do Amazon S3. Você facilmente pode usar os Pontos de Acesso Amazon S3 com o alias do Ponto de Acesso Amazon S3 em vez do nome do bucket do Amazon S3. Use o Ponto de Acesso Amazon S3 para aplicações novas e já existentes, inclusive Spark, Hive, Presto e outros.

nota

Se você ativar o registro em log para um bucket, ele só permitirá logs de acesso do bucket, e não logs de cluster do Amazon EMR.

Durante a criação do bucket ou depois, você pode definir as permissões apropriadas para acessar o bucket, dependendo de seu aplicativo. Normalmente, você atribui acesso de leitura e gravação para si mesmo (o proprietário) e atribui acesso de leitura para os usuários autenticados.

Os buckets do Amazon S3 obrigatórios devem existir para que você possa criar um cluster. Você deve carregar todos os scripts necessários ou dados referenciados no cluster no Amazon S3.

Configurar o carregamento multiparte para o Amazon S3

O Amazon EMR oferece suporte ao upload de várias partes do Amazon S3 por meio do SDK AWS for Java. O multipart upload permite que você faça upload de um único objeto como um conjunto de partes. O upload dessas partes de objetos pode ser feito de maneira independente e em qualquer ordem. Se a transmissão de alguma parte falhar, você poderá retransmitir essa parte sem afetar outras partes. Depois que todas as partes do objeto forem carregadas, o Amazon S3 montará as partes e criará o objeto.

Para obter mais informações, consulte Visão geral do carregamento fracionado no Manual do usuário do Amazon Simple Storage Service.

Além disso, o Amazon EMR oferece propriedades que permitem controlar mais precisamente a limpeza de partes de carregamentos multiparte com falha.

A tabela a seguir descreve as propriedades de configuração do Amazon EMR para o carregamento multiparte. Você pode configurar esses valores usando a classificação de configuração core-site. Para obter mais informações, consulte Configure applications no Guia de lançamento do Amazon EMR.

Nome do parâmetro de configuração	Valor padrão	Description
`fs.s3n.multipart.uploads.enabled`	`true`	Um tipo booleano que indica se os carregamentos multiparte devem ou não ser habilitados. Quando a visualização consistente do EMRFS está habilitada, os carregamentos multiparte são habilitados por padrão, e a definição desse valor como `false` é ignorada.
`fs.s3n.multipart.uploads.split.size`	`134217728`	Especifica o tamanho máximo de uma parte, em bytes, antes que o EMRFS inicie o upload de uma nova parte quando os multipart uploads estão habilitados. O valor mínimo é `5242880` (5 MB). Se um valor menor for especificado, `5242880` será usado. O máximo é `5368709120` (5 GB). Se um valor maior for especificado, `5368709120` será usado. Se a criptografia do lado do cliente do EMRFS estiver desabilitada e o confirmador otimizado para Amazon S3 também estiver desabilitado, esse valor também controlará o tamanho máximo que um arquivo de dados pode crescer até que o EMRFS use carregamentos multiparte em vez de uma solicitação `PutObject` para carregar o arquivo. Para obter mais informações, consulte .
`fs.s3n.ssl.enabled`	`true`	Um tipo booleano que indica se o http ou o https deve ser usado.
`fs.s3.buckets.create.enabled`	`false`	Um tipo booleano que indica se um bucket deve ser criado caso ele não exista. Configurar como `false` gera uma exceção em operações `CreateBucket`.
`fs.s3.multipart.clean.enabled`	`false`	Um tipo booliano que indica se deseja habilitar a limpeza periódica em segundo plano de carregamentos multiparte incompletos.
`fs.s3.multipart.clean.age.threshold`	`604800`	Um tipo longo que especifica a idade mínima de um multipart upload, em segundos, antes de ser considerado para limpeza. O padrão é uma semana.
`fs.s3.multipart.clean.jitter.max`	`10000`	Um tipo inteiro que especifica o valor máximo de atraso de oscilação aleatória em segundos adicionado ao atraso fixo de 15 minutos antes de programar a próxima execução de limpeza.

Desabilitar carregamentos multiparte

Console

Para desabilitar uploads multiparte usando o console

Faça login no AWS Management Console e abra o console do Amazon EMR em. https://console.aws.amazon.com/emr
Em EMR no EC2, no painel de navegação esquerdo, escolha Clusters e depois Criar cluster.
Em Configurações do software, insira a seguinte configuração: classification=core-site,properties=[fs.s3n.multipart.uploads.enabled=false].
Escolha qualquer outra opção que se aplique ao cluster.
Para iniciar o cluster, escolha Criar cluster.

CLI

Para desativar o upload de várias partes usando o AWS CLI

Esse procedimento explica como desabilitar o multipart upload usando a AWS CLI. Para desabilitar o multipart upload, digite o comando create-cluster com o parâmetro --bootstrap-actions.

Crie um arquivo, myConfig.json, com o seguinte conteúdo e salve-o no mesmo diretório onde você executa o comando:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.multipart.uploads.enabled": "false"
    }
  }
]

Digite o seguinte comando, substituindo myKey pelo nome do par de chaves do EC2.

nota
Os caracteres de continuação de linha do Linux (\) são incluídos para facilitar a leitura. Eles podem ser removidos ou usados em comandos do Linux. No Windows, remova-os ou substitua-os por um sinal de interpolação (^).
```
aws emr create-cluster --name "Test cluster" \
--release-label emr-7.13.0 --applications Name=Hive Name=Pig \
--use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge \
--instance-count 3 --configurations file://myConfig.json
```

API

Desabilitar carregamento multiparte usando a API

Para obter informações sobre o uso programático de carregamentos multiparte do Amazon S3, consulte Using the AWS SDK for Java for multipart upload no Guia do usuário do Amazon Simple Storage Service.

Para obter mais informações sobre o AWS SDK para Java, AWS consulte SDK for Java.

Práticas recomendadas

Veja a seguir as recomendações para o uso de buckets do Amazon S3 com clusters do EMR.

Habilitar o versionamento.

O versionamento é uma configuração recomendada para o seu bucket do Amazon S3. Habilitando o versionamento, você garante que, mesmo que os dados sejam excluídos ou substituídos sem querer, eles possam ser recuperados. Para obter mais informações, consulte Usando versionamento no Guia do usuário do Amazon Simple Storage Service.

Limpar carregamentos multiparte com falha

Os componentes de cluster do EMR usam uploads de várias partes por meio do SDK for AWS Java com as APIs do Amazon S3 para gravar arquivos de log e enviar dados para o Amazon S3 por padrão. Para obter informações sobre como alterar as propriedades relacionadas a essa configuração usando o Amazon EMR, consulte Configurar o carregamento multiparte para o Amazon S3. Às vezes, carregar um arquivo grande pode resultar em um carregamento multiparte do Amazon S3 incompleto. Quando não é possível concluir com êxito um multipart upload em andamento, este continua a ocupar seu bucket e resulta em cobranças de armazenamento. Recomendamos as seguintes opções para evitar excesso de armazenamento de arquivos:

Para buckets usados com o Amazon EMR, use uma regra de configuração de ciclo de vida no Amazon S3 para remover carregamentos multiparte incompletos três dias após a data de início do carregamento. As regras de configuração de ciclo de vida permitem que você controle a classe de armazenamento e o tempo de vida dos objetos. Para obter mais informações, consulte Object lifecycle management e Aborting incomplete multipart uploads using a bucket lifecycle policy.
Habilite o atributo de limpeza de multiparte do Amazon EMR definindo fs.s3.multipart.clean.enabled como true e ajustando outros parâmetros de limpeza. Esse recurso é útil em alto volume, grande escala e com clusters que tenham tempo limitado. Nesse caso, o parâmetro DaysAfterIntitiation de uma regra de configuração do ciclo de vida pode ser muito longo, mesmo se definido como o mínimo, causando picos no armazenamento do Amazon S3. A limpeza multiparte do Amazon EMR possibilita um controle mais preciso. Para obter mais informações, consulte Configurar o carregamento multiparte para o Amazon S3.

Gerenciar marcadores de versão

Recomendamos habilitar a regra de configuração do ciclo de vida no Amazon S3 para remover marcadores de exclusão de objetos expirados para buckets com versionamento que você usa no Amazon EMR. Ao excluir um objeto em um bucket com versionamento, um marcador de exclusão é criado. Se todas as versões anteriores do objeto expirarem posteriormente, um marcador de exclusão de objeto expirado será deixado no bucket. Embora você não seja cobrado por marcadores de exclusão, a remoção dos marcadores expirados pode melhorar o desempenho das solicitações LIST. Para obter mais informações, consulte Lifecycle configuration for a bucket with versioning no Guia do usuário do Amazon Simple Storage Service.

Práticas recomendadas de performance

Dependendo das suas workloads, tipos específicos de uso de clusters do EMR e de aplicativos nesses clusters podem resultar em um alto número de solicitações em um bucket. Para obter mais informações, consulte Request rate and performance considerations no Guia do usuário do Amazon Simple Storage Service.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Diferentes formas de inserir dados no Amazon EMR

Upload de dados no S3 Express One Zone