Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Usar Spigot (Torneira) para fazer uma amostra de seu conjunto de dados

Modo de foco
Usar Spigot (Torneira) para fazer uma amostra de seu conjunto de dados - AWS Glue

Para testar as transformações executadas pelo trabalho, convém obter uma amostra dos dados para verificar se a transformação funciona como pretendido. A transformação Spigot (Torneira) grava um subconjunto de registros do conjunto de dados em um arquivo JSON, em um bucket do Amazon S3. O método de amostragem de dados pode ser um número especificado de registros desde o início do arquivo ou um fator de probabilidade usado para selecionar registros.

Para adicionar um nó de transformação Spigot (Torneira) ao diagrama de trabalho
  1. (Opcional) abra o painel Recurso e escolha Spigot para adicionar uma nova transformação ao diagrama de trabalho, se necessário.

  2. Na guia Node properties (Propriedades do nó), insira um nome para o nó no diagrama de trabalho. Se ainda não houver um nó pai selecionado, escolha um na lista Node parents (Nós pais) para usar como fonte de entrada para a transformação.

  3. Escolha a guia Transform (Transformação) no painel de detalhes do nó.

  4. Insira um caminho do Amazon S3 ou escolha Browse S3 (Procurar no S3) para escolher um local no Amazon S3. Esse é o local onde o trabalho grava o arquivo JSON que contém a amostra de dados.

  5. Insira informações para o método de amostragem. É possível especificar um valor em Number of records (Número de registros) para gravar a partir do início do conjunto de dados e um Probability threshold (Limite de probabilidade, inserido como um valor decimal com um valor máximo de 1) de escolher qualquer registro dado.

    Por exemplo, para gravar os primeiros 50 registros do conjunto de dados, você definiria Number of records (Número de registros) como 50 e Probability threshold (Limite de probabilidade) como 1 (100%).

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.