Usar Spigot (Torneira) para fazer uma amostra de seu conjunto de dados
Para testar as transformações executadas pelo trabalho, convém obter uma amostra dos dados para verificar se a transformação funciona como pretendido. A transformação Spigot (Torneira) grava um subconjunto de registros do conjunto de dados em um arquivo JSON, em um bucket do Amazon S3. O método de amostragem de dados pode ser um número especificado de registros desde o início do arquivo ou um fator de probabilidade usado para selecionar registros.
Para adicionar um nó de transformação Spigot (Torneira) ao diagrama de trabalho
-
(Opcional) abra o painel Recurso e escolha Spigot para adicionar uma nova transformação ao diagrama de trabalho, se necessário.
-
Na guia Node properties (Propriedades do nó), insira um nome para o nó no diagrama de trabalho. Se ainda não houver um nó pai selecionado, escolha um na lista Node parents (Nós pais) para usar como fonte de entrada para a transformação.
-
Escolha a guia Transform (Transformação) no painel de detalhes do nó.
-
Insira um caminho do Amazon S3 ou escolha Browse S3 (Procurar no S3) para escolher um local no Amazon S3. Esse é o local onde o trabalho grava o arquivo JSON que contém a amostra de dados.
-
Insira informações para o método de amostragem. É possível especificar um valor em Number of records (Número de registros) para gravar a partir do início do conjunto de dados e um Probability threshold (Limite de probabilidade, inserido como um valor decimal com um valor máximo de 1) de escolher qualquer registro dado.
Por exemplo, para gravar os primeiros 50 registros do conjunto de dados, você definiria Number of records (Número de registros) como 50 e Probability threshold (Limite de probabilidade) como 1 (100%).