As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
O committer EMRFS otimizado para S3 e os uploads em várias partes
Para usar o committer EMRFS otimizado para S3, você deve habilitar uploads de várias partes para a Amazon. EMR Multipart uploads são habilitados por padrão. Você pode habilitá-los novamente, se necessário. Para obter mais informações, consulte Configurar o upload de várias partes para o Amazon S3 no EMRAmazon Management Guide.
O committer EMRFS otimizado para S3 usa as características de transação de uploads de várias partes para garantir que os arquivos gravados por tentativas de tarefa só apareçam no local de saída do trabalho após a confirmação da tarefa. Ao usar uploads de várias partes dessa forma, o committer melhora o desempenho da confirmação da tarefa em relação à versão 2 do FileOutputCommitter algoritmo padrão. Ao usar o committer EMRFS otimizado para S3, há algumas diferenças importantes em relação ao comportamento tradicional de upload em várias partes a serem consideradas:
-
Os multipart uploads são sempre executados, independentemente do tamanho do arquivo. Isso difere do comportamento padrão deEMRFS, em que a
fs.s3n.multipart.uploads.split.size
propriedade controla o tamanho do arquivo no qual os uploads de várias partes são acionados. -
Os multipart uploads são deixados incompletos por um período mais longo até que a tarefa seja confirmada ou cancelada. Isso difere do comportamento padrão de EMRFS quando um upload de várias partes é concluído quando uma tarefa termina de gravar um determinado arquivo.
Por causa dessas diferenças, se um executor do Spark JVM falhar ou for interrompido enquanto as tarefas estão sendo executadas e gravando dados no Amazon S3, é mais provável que os uploads incompletos de várias partes sejam deixados para trás. Por esse motivo, ao usar o committer EMRFS otimizado para S3, certifique-se de seguir as melhores práticas para gerenciar uploads de várias partes com falha. Para obter mais informações, consulte Melhores práticas para trabalhar com buckets do Amazon S3 no Guia de gerenciamento da Amazon EMR.