As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Realizar análise exploratória de dados () EDA
O Data Wrangler inclui análises integradas que ajudam você a gerar visualizações e análises de dados com apenas alguns cliques. Você também pode criar análises personalizadas usando seu próprio código.
Você adiciona uma análise a um quadro de dados selecionando uma etapa em seu fluxo de dados e, em seguida, escolhendo Adicionar análise. Para acessar uma análise que você criou, selecione a etapa que contém a análise e selecione a análise.
As análises são geradas usando uma amostra de até 200.000 linhas do seu conjunto de dados, e você pode configurar o tamanho da amostra. Para obter mais informações sobre como alterar o tamanho amostral do seu fluxo de dados, consulteEdite a configuração de amostragem do fluxo de dados.
nota
As análises são otimizadas para dados com 1000 colunas ou menos. Você pode sentir alguma latência ao gerar análises de dados com colunas adicionais.
Você pode adicionar a seguinte análise a um quadro de dados:
-
Visualizações de dados, incluindo histogramas e gráficos de dispersão.
-
Um resumo rápido do seu conjunto de dados, incluindo número de entradas, valores mínimos e máximos (para dados numéricos) e categorias mais e menos frequentes (para dados categóricos).
-
Um modelo rápido do conjunto de dados, que pode ser usado para gerar uma pontuação de importância para cada recurso.
-
Um relatório de vazamento de destino, que você pode usar para determinar se um ou mais recursos estão fortemente correlacionadas com seu recurso de destino.
-
Uma visualização personalizada usando seu próprio código.
Use as seguintes seções para saber mais sobre essas opções.
Obtenha insights sobre dados e qualidade de dados
Use o Relatório de qualidade dos dados e insights para realizar uma análise dos dados que você importou para o Data Wrangler. Recomendamos que você crie o relatório após importar o conjunto de dados. Você pode usar o relatório para ajudar você a limpar e processar seus dados. Ele fornece informações como o número de valores ausentes e o número de valores atípicos. Caso tenha problemas com seus dados, como vazamento ou desequilíbrio de destino, o relatório de insights pode chamar sua atenção para esses problemas.
Use o procedimento a seguir para criar um relatório de qualidade dos dados e insights. Ele pressupõe que você já tenha importado um conjunto de dados para o fluxo do Data Wrangler.
Para criar um relatório de qualidade dos dados e insights
-
Escolha o ícone de reticências ao lado de um nó em seu fluxo do Data Wrangler.
-
Selecione Obter insights de dados.
-
Para Tipo de análise, selecione Relatório de qualidade de dados e insights.
-
Em Nome da análise, especifique um nome para o relatório de insights.
-
Para Tipo de problema, especifique Regressão ou Classificação.
-
Em Coluna de destino, especifique a coluna de destino.
-
Para Tamanho dos dados, especifique uma das opções a seguir:
-
Conjunto de dados amostrado — usa a amostra interativa do seu fluxo de dados, que pode conter até 200.000 linhas do seu conjunto de dados. Para obter informações sobre como editar o tamanho da sua amostra, consulteEdite a configuração de amostragem do fluxo de dados.
-
Conjunto de dados completo — usa o conjunto de dados completo da sua fonte de dados para criar o relatório.
nota
A criação de um relatório de qualidade de dados e insights sobre o conjunto de dados completo usa um trabalho de SageMaker processamento da Amazon. Um trabalho SageMaker de processamento provisiona os recursos computacionais adicionais necessários para obter insights sobre todos os seus dados. Para obter mais informações sobre trabalhos SageMaker de processamento, consulteCargas de trabalho de transformação de dados com processamento SageMaker .
-
-
Escolha Criar.
Os tópicos a seguir mostram as seções do relatório:
Você pode fazer download do relatório ou visualizá-lo online. Para fazer download do relatório, escolha o botão de download no canto superior direito da tela.
Resumo
O relatório de insights tem um breve resumo dos dados que inclui informações gerais, como valores ausentes, valores inválidos, tipos de recursos, contagens de valores atípicos e muito mais. Ele também pode incluir avisos de severidade alta que apontam para prováveis problemas com os dados. Recomendamos que você investigue os avisos.
Coluna de destino
Quando você cria o Relatório de Qualidade de Dados e Insights, o Data Wrangler oferece a opção de selecionar uma coluna de destino. Uma coluna de destino é uma coluna que você está tentando prever. Quando você escolhe uma coluna de destino, o Data Wrangler cria automaticamente uma análise da coluna de destino. Ele também classifica os recursos na ordem de seu poder preditivo. Ao selecionar uma coluna de destino, você deve especificar se está tentando resolver um problema de regressão ou classificação.
Para classificação, o Data Wrangler mostra uma tabela e um histograma das classes mais comuns. Uma classe é uma categoria. Ele também apresenta observações, ou linhas, com um valor de destino ausente ou inválido.
Para regressão, o Data Wrangler mostra um histograma de todos os valores na coluna de destino. Ele também apresenta observações, ou linhas, com um valor de destino ausente, inválido ou atípico.
Modelo rápido
O modelo rápido fornece uma estimativa da qualidade prevista esperada de um modelo que você treina em seus dados.
O Data Wrangler divide seus dados em folds de treinamento e validação. Ele usa 80% das amostras para treinamento e 20% dos valores para validação. Para classificação, a amostra é dividida estratificada. Para uma divisão estratificada, cada partição de dados tem a mesma proporção de rótulos. Para problemas de classificação, é importante ter a mesma proporção de rótulos entre os folds de treinamento e classificação. O Data Wrangler treina o XGBoost modelo com os hiperparâmetros padrão. Ele aplica a interrupção antecipada dos dados de validação e executa o mínimo de pré-processamento de recursos.
Para modelos de classificação, o Data Wrangler retorna um resumo do modelo e uma matriz de confusão.
Para saber mais sobre as informações que o resumo do modelo de classificação retorna, consulteDefinições.
Uma matriz de confusão fornece as seguintes informações:
-
O número de vezes que o rótulo previsto corresponde ao rótulo verdadeiro.
-
O número de vezes que o rótulo previsto não corresponde ao rótulo verdadeiro.
O rótulo verdadeiro representa uma observação real em seus dados. Por exemplo, se você está usando um modelo para detectar transações fraudulentas, o rótulo verdadeiro representa uma transação que é realmente fraudulenta ou não fraudulenta. O rótulo previsto representa o rótulo que seu modelo atribui aos dados.
Você pode usar a matriz de confusão para ver o quão bem o modelo prevê a presença ou a ausência de uma condição. Se você está prevendo transações fraudulentas, pode usar a matriz de confusão para ter uma ideia da sensibilidade e da especificidade do modelo. A sensibilidade se refere à capacidade do modelo de detectar transações fraudulentas. A especificidade se refere à capacidade do modelo de evitar a detecção de transações não fraudulentas como fraudulentas.
Resumo de recursos
Quando você especifica uma coluna de destino, o Data Wrangler ordena os recursos de acordo com seu poder de previsão. O poder de predição é medido nos dados após serem divididos em 80% de treinamento e 20% de dobras de validação. O Data Wrangler ajusta um modelo para cada recurso separadamente no fold de treinamento. Ele aplica o mínimo de pré-processamento de recursos e mede a performance da previsão nos dados de validação.
Ele normaliza as pontuações para o intervalo [0,1]. Pontuações de previsão mais altas indicam colunas mais úteis para prever o destino sozinhas. Pontuações mais baixas apontam para colunas não preditivas da coluna de destino.
É incomum que uma coluna que não seja preditiva por si só seja preditiva quando usada em conjunto com outras colunas. Você pode usar com confiança as pontuações de previsão para determinar se um recurso em seu conjunto de dados é preditivo.
Uma pontuação baixa geralmente indica que o recurso é redundante. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. O vazamento do destino geralmente ocorre quando o conjunto de dados contém uma coluna que não está disponível no momento da previsão. Por exemplo, pode ser uma duplicata da coluna de destino.
Amostras
O Data Wrangler fornece informações sobre se suas amostras são anômalas ou se há duplicatas em seu conjunto de dados.
O Data Wrangler detecta amostras anômalas usando o algoritmo de floresta de isolamento. A floresta de isolamento associa uma pontuação de anomalias a cada amostra (linha) do conjunto de dados. Pontuações de anomalias baixas indicam amostras anômalas. Pontuações altas estão associadas a amostras não anômalas. Amostras com pontuação de anomalias negativas geralmente são consideradas anômalas, e amostras com pontuação de anomalias positivas são consideradas não anômalas.
Ao analisar uma amostra que pode ser anômala, recomendamos que você preste atenção aos valores incomuns. Por exemplo, você pode ter valores anômalos resultantes de erros na coleta e no processamento dos dados. A seguir está um exemplo das amostras mais anômalas de acordo com a implementação do algoritmo de floresta de isolamento do Data Wrangler. Recomendamos usar o conhecimento do domínio e a lógica de negócios ao examinar as amostras anômalas.
O Data Wrangler detecta linhas duplicadas e calcula a proporção de linhas duplicadas em seus dados. Algumas fontes de dados podem incluir duplicatas válidas. Outras fontes de dados podem ter duplicatas que apontam para problemas na coleta de dados. Amostras duplicadas resultantes de uma coleta de dados incorreta podem interferir nos processos de machine learning que dependem da divisão dos dados em folds de treinamento e validação independentes.
A seguir estão os elementos do relatório de insights que podem ser impactados por amostras duplicadas:
-
Modelo rápido
-
Estimativa do poder de previsão
-
Ajuste automático de hiperparâmetros
Você pode remover amostras duplicadas do conjunto de dados usando a transformação Descartar duplicata em Gerenciar linhas. O Data Wrangler mostra as linhas duplicadas com mais frequência.
Definições
Estas são as definições dos termos técnicos usados no relatório de insights de dados.
Relatório de desvio
SageMaker O Canvas fornece o relatório de viés no Data Wrangler para ajudar a descobrir possíveis vieses em seus dados. O relatório de viés analisa a relação entre a coluna de destino (rótulo) e uma coluna que você acredita que possa conter viés (variável facetária). Por exemplo, se você está tentando prever a conversão do cliente, a variável principal pode ser a idade do cliente. O relatório de viés pode ajudá-lo a determinar se seus dados são tendenciosos ou não em relação a uma determinada faixa etária.
Para gerar um relatório de viés no Canvas, faça o seguinte:
Em seu fluxo de dados no Data Wrangler, escolha o ícone Mais opções ( ) ao lado de um nó no fluxo.
No menu de contexto, escolha Obter insights de dados.
O painel lateral Criar análise é aberto. No menu suspenso Tipo de análise, selecione Relatório de polarização.
No campo Nome da análise, insira um nome para o relatório de viés.
No menu suspenso Selecione a coluna que seu modelo prevê (alvo), selecione sua coluna de destino.
Para Sua coluna prevista é um valor ou limite? , selecione Valor se sua coluna de destino tiver valores categóricos ou Limite se tiver valores numéricos.
Em Valor previsto (ou Limite previsto, dependendo da sua seleção na etapa anterior), insira o valor ou valores da coluna alvo que correspondem a um resultado positivo. Por exemplo, ao prever a conversão do cliente, seu valor pode ser
yes
indicar que um cliente foi convertido.No menu suspenso Selecionar a coluna a ser analisada quanto ao viés, selecione a coluna que você acredita que possa conter viés, também conhecida como variável facetária.
Para Sua coluna é um valor ou limite? , selecione Valor se a variável facetária tiver valores categóricos ou Limite se tiver valores numéricos.
Em Valores da coluna a serem analisados quanto ao vício (ou Limite da coluna para analisar o viés, dependendo da sua seleção na etapa anterior), insira o valor ou os valores que você deseja analisar quanto ao possível viés. Por exemplo, se você estiver verificando preconceitos contra clientes acima de uma certa idade, use o início dessa faixa etária como seu limite.
Em Escolher métricas de viés, selecione as métricas de preconceito que você gostaria de incluir em seu relatório de preconceito. Passe o mouse sobre os ícones de informações para obter mais informações sobre cada métrica.
(Opcional) Quando solicitado com a opção Você gostaria de analisar métricas adicionais? , selecione Sim para visualizar e incluir mais métricas de viés.
Quando estiver pronto para criar o relatório de parcialidade, escolha Adicionar.
Depois de gerado, o relatório fornece uma visão geral das métricas de viés selecionadas. Você pode visualizar o relatório de viés a qualquer momento na guia Análises do seu fluxo de dados.
Histograma
Use histogramas para ver as contagens dos valores de um recurso específico. Você pode inspecionar as relações entre os recursos usando a opção Colorir por.
Você pode usar o recurso Facet by para criar histogramas de uma coluna, para cada valor em outra coluna.
Gráfico de dispersão
Use o recurso Gráfico de dispersão para inspecionar a relação entre os recursos. Para criar um gráfico de dispersão, selecione um recurso para plotar no eixo X e no eixo Y. Ambas as colunas devem ser colunas de tipo numérico.
Você pode colorir gráficos de dispersão usando uma coluna adicional.
Além disso, você pode facetar gráficos de dispersão por recursos.
Resumo da tabela
Use a análise de Resumo da tabela para resumir rapidamente seus dados.
Para colunas com dados numéricos, incluindo dados de log e flutuantes, um resumo da tabela relata o número de entradas (contagem), mínimo (mínimo), máximo (máximo), média e desvio padrão (stddev) para cada coluna.
Para colunas com dados não numéricos, incluindo colunas com dados de string, booleanos ou de data/hora, um resumo da tabela relata o número de entradas (contagem), o valor menos frequente (mínimo) e o valor mais frequente (máximo).
Modelo rápido
Use a visualização do Modelo rápidol para avaliar rapidamente seus dados e produzir pontuações de importância para cada recurso. Uma pontuação de importância de um recurso
Ao criar um gráfico de modelo rápido, você seleciona um conjunto de dados que deseja avaliar e um rótulo de destino com o qual deseja comparar a importância do recurso. O Data Wrangler faz o seguinte:
-
Infere os tipos de dados para o rótulo de destino e cada recurso no conjunto de dados selecionado.
-
Determina o tipo de problema. Com base no número de valores distintos na coluna do rótulo, o Data Wrangler determina se esse é um tipo de problema de regressão ou classificação. O Data Wrangler define um limite categórico para 100. Se houver mais de 100 valores distintos na coluna do rótulo, o Data Wrangler o classifica como um problema de regressão; caso contrário, ele é classificado como um problema de classificação.
-
Pré-processa os recursos e os dados de rótulos para treinamento. O algoritmo usado requer recursos de codificação para tipo vetorial e rótulos de codificação para tipo duplo.
-
Treina um algoritmo de floresta aleatório com 70% dos dados. O Spark's RandomForestRegressor
é usado para treinar um modelo para problemas de regressão. O RandomForestClassifier é usado para treinar um modelo para problemas de classificação. -
Avalia um modelo de floresta aleatória com os 30% restantes dos dados. O Data Wrangler avalia modelos de classificação usando uma pontuação F1 e avalia modelos de regressão usando uma pontuação. MSE
-
Calcula a importância do recurso para cada recurso usando o método de importância de Gini.
Vazamento alvo
O vazamento de destino ocorre quando há dados em um conjunto de dados de treinamento de machine learning que estão fortemente correlacionados com o rótulo de destino, mas não estão disponíveis em dados do mundo real. Por exemplo, você pode ter uma coluna em seu conjunto de dados que serve como proxy para a coluna que você deseja prever com seu modelo.
Ao usar a análise Vazamento do destino, você especifica o seguinte:
-
Destino: esse é o recurso sobre o qual você deseja que seu modelo de ML seja capaz de fazer previsões.
-
Tipo de problema: esse é o tipo de problema de ML no qual você está processando. O tipo de problema pode ser classificação ou regressão.
-
(Opcional) Máximo de recursos: esse é o número máximo de recursos a serem apresentados na visualização, que mostra os recursos classificados de acordo com o risco de serem vazamentos de destino.
Para classificação, a análise de vazamento alvo usa a área sob a característica de operação do receptor, ou ROC curva AUC - para cada coluna, até as características máximas. Para regressão, ele usa um coeficiente de determinação ou métrica R2.
A ROC curva AUC - fornece uma métrica preditiva, calculada individualmente para cada coluna usando validação cruzada, em uma amostra de até cerca de 1000 linhas. Uma pontuação de 1 indica habilidades preditivas perfeitas, o que geralmente indica vazamento do destino. Uma pontuação de 0,5 ou menos indica que as informações na coluna não poderiam fornecer, por si só, nenhuma informação útil para prever o destino. Embora seja possível que uma coluna seja pouco informativa por si só, mas seja útil na previsão do destino quando usada em conjunto com outras características, uma pontuação baixa pode indicar que o recurso é redundante.
Multicolinearidade
A multicolinearidade é uma circunstância em que duas ou mais variáveis preditoras estão relacionadas entre si. As variáveis preditoras são os recursos do seu conjunto de dados que você está usando para prever uma variável destino. Quando você tem multicolinearidade, as variáveis preditoras não são apenas preditivas da variável destino, mas também preditivas umas das outras.
Você pode usar o Fator de Inflação de Variância (VIF), a Análise de Componentes Principais (PCA) ou a seleção do recurso Lasso como medidas para a multicolinearidade em seus dados. Para obter mais informações, consulte.
Detecte anomalias em dados de séries temporais
Você pode usar a visualização de detecção de anomalias para ver valores discrepantes em seus dados de séries temporais. Para entender o que determina uma anomalia, você precisa entender que decompomos a série temporal em um termo previsto e um termo de erro. Tratamos a sazonalidade e a tendência da série temporal como o termo previsto. Tratamos os resíduos como o termo de erro.
Para o termo de erro, você especifica um limite como o número de desvios padrão que o resíduo pode afastar da média para que seja considerado uma anomalia. Por exemplo, é possível especificar um limite como sendo 3 desvios padrão. Qualquer resíduo maior que 3 desvios padrão da média é uma anomalia.
Você pode usar o procedimento a seguir para realizar uma análise de detecção de anomalias.
-
Abra seu fluxo de dados do Data Wrangler.
-
No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.
-
Para Tipo de análise, escolha Séries temporais.
-
Para Visualização, escolha Detecção de anomalias.
-
Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.
-
Escolha Visualizar para gerar uma visualização prévia da análise.
-
Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.
Decomposição de tendências sazonais em dados de séries temporais
Você pode determinar se há sazonalidade em seus dados de séries temporais usando a visualização de Decomposição de tendências sazonais. Usamos o método STL (usando decomposição de tendência sazonalLOESS) para realizar a decomposição. Decompomos a série temporal em seus componentes sazonais, de tendência e residuais. A tendência reflete a progressão a longo prazo da série. O componente sazonal é um sinal que se repete em um período de tempo. Depois de remover a tendência e os componentes sazonais da série temporal, você tem o resíduo.
Você pode usar o procedimento a seguir para realizar uma análise de decomposição de tendência sazonal.
-
Abra seu fluxo de dados do Data Wrangler.
-
No seu fluxo de dados, em Tipos de dados, escolha o + e selecione Adicionar análise.
-
Para Tipo de análise, escolha Séries temporais.
-
Para Visualização, escolha Decomposição de tendências sazonais.
-
Em Limite de anomalia, escolha o limite em que um valor é considerado uma anomalia.
-
Escolha Visualizar para gerar uma visualização prévia da análise.
-
Escolha Adicionar para adicionar a transformação ao fluxo de dados do Data Wrangler.
Crie visualizações personalizadas
Você pode adicionar uma análise ao seu fluxo do Data Wrangler para criar uma visualização personalizada. Seu conjunto de dados, com todas as transformações que você aplicou, está disponível como Pandas. DataFramedf
para armazenar o quadro de dados. Você acessa o quadro de dados chamando a variável.
Você deve fornecer a variável de saída, chart
, para armazenar um gráfico de saída do Altair
import altair as alt df = df.iloc[:30] df = df.rename(columns={"Age": "value"}) df = df.assign(count=df.groupby('value').value.transform('count')) df = df[["value", "count"]] base = alt.Chart(df) bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count')) rule = base.mark_rule(color='red').encode( x='mean(value):Q', size=alt.value(5)) chart = bar + rule
Para criar uma visualização personalizada:
-
Ao lado do nó que contém a transformação que você gostaria de visualizar, escolha o +.
-
Escolha Adicionar análise.
-
Em Tipo de análise, escolha Visualização personalizada.
-
Em Nome da análise, especifique um nome.
-
Insira seu código na caixa do código.
-
Escolha Visualizar para visualizar sua visualização.
-
Escolha Salvar para adicionar sua visualização.
Se você não souber como usar o pacote de visualização Altair em Python, você pode usar trechos de código personalizados para ajudá-lo a começar.
Data Wrangler possui uma coleção pesquisável de trechos de código de visualização. Para usar um trecho de visualização, escolha Pesquisar trechos de exemplo e especifique uma consulta na barra de pesquisa.
O exemplo a seguir usa o trecho de código para um gráfico de dispersão com bins. Traça um histograma para 2 dimensões.
Os trechos de código possuem comentários para ajudar você a entender as alterações que precisa fazer no código. Normalmente, é necessário especificar os nomes das colunas do seu conjunto de dados no código.
import altair as alt # Specify the number of top rows for plotting rows_number = 1000 df = df.head(rows_number) # You can also choose bottom rows or randomly sampled rows # df = df.tail(rows_number) # df = df.sample(rows_number) chart = ( alt.Chart(df) .mark_circle() .encode( # Specify the column names for binning and number of bins for X and Y axis x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)), y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)), size="count()", ) ) # :Q specifies that label column has quantitative type. # For more details on Altair typing refer to # https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types