Histograma: o que é, tipos e como fazer no Python 

Daniel Siqueira
Daniel Siqueira

Compartilhe

Você já precisou analisar um grande volume de dados e não sabia por onde começar? O histograma é uma ferramenta visual que facilita a compreensão de distribuições e padrões em conjuntos de dados complexos. 

Usado em estatística, ciência de dados, economia e engenharia, o histograma de frequência transforma números em insights visuais.  

Neste artigo, eu vou te mostrar o que é histograma, para que serve, seus principais tipos e como criar gráficos no Python. Vamos lá? 

O que é histograma? 

Um histograma é um tipo de gráfico de barras que representa a distribuição de frequências de um conjunto de dados contínuos

No gráfico histograma, cada barra possui: 

  • Base: representa uma classe ou intervalo de valores 
  • Altura: indica a frequência absoluta (quantas vezes aquele valor aparece nos dados) 

Diferente de um gráfico de barras comum (usado para dados categóricos), o histograma trabalha com dados numéricos contínuos e suas barras ficam coladas uma na outra, sem espaços entre elas. 

Em resumo, o histograma é uma representação gráfica que mostra como seus dados estão distribuídos, facilitando a identificação de padrões e concentrações de valores. 

Banner da Alura anunciando o Último Deploy do Ano com até 40% de desconto nos cursos. A imagem convida quem ainda tem metas para o fim do ano a transformar esse momento em uma oportunidade de fazer upgrade na carreira em tecnologia. Há destaque para a oferta por tempo limitado e um botão com a chamada “Matricule-se com desconto”. Promoção da Alura para estudar programação, dados, design e tecnologia com desconto especial.

Exemplo de histograma

Veja um exemplo de histograma básico: 

histograma 02 #inset

Ou seja, o principal ponto de um histograma é que você consegue rapidamente tirar conclusões sobre um grande conjunto de dados e está trabalhando com conceitos que envolvem frequências.  

O histograma ajuda a identificar onde a maioria dos valores se concentra, quais são os valores mais raros e como os dados se comportam ao longo da distribuição. 

Para que serve um histograma

De forma geral, um histograma é útil quando você precisa: 

1. Resumir grandes conjuntos de dados visualmente 

Muitas vezes, quando usamos tabelas, fica difícil tirar conclusões sobre os dados.  

Nesse contexto, o histograma funciona bem para resumir grandes conjuntos de dados transformá-los em uma visualização clara, economizando tempo e aumentando sua eficiência na análise. 

2. Comparar resultados rapidamente 

Além do mais, os histogramas comparam resultados de forma rápida.  

Afinal de contas, com o eixo vertical (frequência) bem definido, você identifica facilmente quais valores ultrapassam limites estabelecidos ou se comportam fora do esperado. 

3. Comunicar informações de forma clara 

Por fim, o histograma também serve para comunicar as informações de forma clara e visual já que tanto sua equipe quanto clientes conseguem visualizar rapidamente os valores que ocorrem com mais frequência.  

Então, não é exagerado afirmar que o histograma funciona como uma poderosa ferramenta de comunicação de dados. 

Em resumo, nosso cérebro processa informações visuais muito mais rápido que tabelas. O histograma torna a visualização dos dados mais inteligível e explícita. 

Qual é o objetivo de um histograma? 

O objetivo principal de um histograma é ilustrar como uma amostra de dados está distribuída, facilitando a compreensão da localização do valor central e como os dados se espalham ao redor dele

Com um histograma, você consegue responder perguntas importantes sobre seus dados, como: 

  • Centralidade: onde está o centro da distribuição? Onde a maioria das observações se concentra? 
  • Amplitude: entre quais valores os dados normalmente estão? Quais são os pontos máximo e mínimo? 
  • Simetria: há mais dados em valores altos ou baixos? A distribuição é equilibrada ou possui assimetrias? 

Ou seja, o histograma revela o comportamento geral dos seus dados, permitindo análises mais profundas e decisões baseadas em evidências. 

Histograma vs. Gráfico de barras: qual a diferença? 

É comum confundir histogramas com gráficos de barras, mas eles têm aplicações diferentes: 

CARACTERÍSTICA HISTOGRAMA GRÁFICO DE BARRAS 
Tipo de dados Contínuos (numéricos) Categóricos (discretos) 
Espaçamento Sem espaços entre as barras Com espaços entre as barras 
Uso Mostrar distribuição de frequências Comparar categorias diferentes 
Exemplo Distribuição de salários Vendas por região 

Em resumo, deve-se usar histograma para dados numéricos contínuos e gráfico de barras para categorias distintas. 

Tipos de histograma 

Existem diferentes tipos de histograma, cada um revelando padrões específicos nos dados. Conhecer esses tipos vai te ajudar a ganhar tempo e eficiência na análise. 

Como você vai perceber, identificar o tipo de histograma dos seus dados revela imediatamente o comportamento da distribuição e orienta suas análises seguintes. 

1. Histograma simétrico (ou unimodal) 

O histograma simétrico centraliza os dados ao redor da média, formando uma distribuição equilibrada. A maior concentração de dados fica no centro do gráfico. 

Histograma simétrico/unimodal em tons de cinza mostrando a distribuição de um conjunto de dados centrado próximo de zero. O eixo horizontal varia aproximadamente de –2,5 a 2,5, enquanto o eixo vertical exibe a contagem de observações. O formato das barras forma uma curva simétrica semelhante a uma distribuição normal, com o maior número de ocorrências concentrado entre –0,5 e 0,5. As barras diminuem gradualmente em altura conforme se afastam do centro, indicando menos valores nas extremidades. O fundo possui linhas de grade horizontais e verticais em cinza claro, características do estilo padrão do ggplot2.

Em estatística, esse modelo é chamado de distribuição normal e serve como referência para analisar o quanto outros dados se afastam desse padrão. 

Características principais: 

As características principais de um histograma simétrico são: 

  • Dados concentrados no centro 
  • Frequências diminuem igualmente para ambos os lados 
  • Média, mediana e moda são aproximadamente iguais 

2. Histograma distorcido à direita (cauda à direita) 

Um histograma é distorcido à direita quando a maioria dos dados se concentra nos valores mais baixos, com poucos valores altos ocorrendo com baixa frequência. 

Histograma mostrando uma distribuição com forte assimetria positiva (à direita). A maior frequência é observada no primeiro bin, com uma contagem de aproximadamente 43, indicando que a maioria dos dados tem valores baixos. A frequência diminui drasticamente à medida que os valores da variável aumentam, com uma cauda longa e esparsa à direita e algumas poucas observações em valores mais altos (cerca de 4.5).

O gráfico vai "afinando" conforme você percorre o eixo horizontal para a direita, formando uma cauda alongada nessa direção. 

Exemplo prático: distribuição de salários, em que a maioria das pessoas ganha valores menores e poucos ganham salários muito altos. 

3. Histograma distorcido à esquerda (cauda à esquerda) 

No histograma distorcido à esquerda, a frequência dos dados está concentrada nos valores mais altos, com poucos dados nos valores baixos. 

Histograma mostrando uma distribuição com forte assimetria negativa (à esquerda), também conhecida como distorcida à esquerda. A maior frequência é observada no bin mais à direita (valores mais altos), com uma contagem de aproximadamente 43, indicando que a maioria dos dados tem valores altos. A frequência diminui drasticamente à medida que os valores da variável se tornam mais baixos (negativos), formando uma cauda longa e esparsa na direção esquerda, com contagens de apenas 1 a 4 nos bins mais negativos.

A "cauda" se forma à esquerda devido à baixa frequência dos dados iniciais. Você observa que há mais informações acima da média por causa da falta de simetria. 

Exemplo prático: notas de uma prova fácil, em que a maioria tira notas altas e poucos tiram notas baixas. 

4. Histograma bimodal 

O histograma bimodal apresenta dois picos distintos, indicando que existem dois momentos ou grupos diferentes com concentração de frequência. 

Histograma mostrando uma distribuição bimodal, com dois picos de frequência distintos. O primeiro pico (moda menor), nos valores baixos, atinge uma contagem de aproximadamente 10. O segundo pico (moda principal), nos valores mais altos da variável, é significativamente maior, atingindo uma contagem de aproximadamente 29. Os dois picos são separados por um vale onde a contagem é baixa (cerca de 5), sugerindo duas subpopulações na amostra.

Exemplo prático: altura de pessoas em uma escola que mistura crianças e adultos - você verá dois picos, um para cada grupo. 

5. Histograma multimodal 

Um histograma multimodal possui vários picos, cada um indicando diferentes concentrações de dados. 

Histograma mostrando uma distribuição multimodal com pelo menos três picos distintos. O eixo y representa a Contagem. O primeiro pico (esquerda) ocorre em valores negativos (aproximadamente -4.5), com uma contagem de cerca de 13. O segundo pico (central) ocorre próximo a zero, sendo o mais alto, com uma contagem de aproximadamente 17. O terceiro pico (direita) ocorre em valores positivos (aproximadamente 4), com uma contagem de cerca de 16. A presença de múltiplos picos separados por vales sugere a existência de várias subpopulações distintas nos dados.

Esse tipo geralmente sugere que você está analisando múltiplas populações ou processos misturados nos mesmos dados. 

6. Histograma platô (achatado) 

O histograma platô tem barras com alturas praticamente iguais, formando uma distribuição achatada. 

Histograma mostrando uma distribuição aproximadamente uniforme. O eixo x é rotulado como 'y' e o eixo y é 'count'. As barras de frequência são quase todas da mesma altura, variando estreitamente entre uma contagem de aproximadamente 8 e 12. Há um leve pico no centro, perto do valor 0.5, com uma contagem de 12, e uma contagem de 10 nos bins 0.0, 0.4 e 0.9, e as contagens mais baixas são de 8 no valor 0.8. A variação mínima nas alturas das barras indica que os valores da variável são distribuídos quase igualmente em toda a sua faixa.

Isso ocorre quando existem várias distribuições juntas com médias diferentes, criando um padrão uniforme de frequências. 

Como fazer histograma no Python com Seaborn 

Você pode criar histogramas facilmente usando Python com as bibliotecas Pandas e Seaborn dentro de um notebook no Google Collab. Vou te mostrar um exemplo prático. 

Aqui está um passo a passo para criar um histograma no Python: 

1. Importe as bibliotecas necessárias: 

import pandas as pd 
import seaborn as sns 
import matplotlib.pyplot as plt 

2. Carregue seus dados: 

# Exemplo com dados de salários 
df = pd.read_csv('dados_salarios.csv') 
df.head()  # Visualizar o cabeçalho 

3. Crie o histograma: 

sns.histplot(data=df, x='salario') 
plt.title('Distribuição de Salários') 
plt.xlabel('Salário Anual (USD)') 
plt.ylabel('Frequência') 
plt.show()
Tabela de dados em tipo de Histograma, cruzados através de Python com biblioteca Pandas, dentro do Google Collab.

Como interpretar o resultado de um histograma 

histograma 10 #inset

Observando o histograma gerado, você consegue identificar rapidamente que ele é do tipo distorcido à direita (com cauda à direita).  

Isso indica que a maior parte dos salários está concentrada no início da distribuição. 

Analisando visualmente, você percebe que a maioria dos salários está entre $50.000 e $100.000 dólares anuais, com poucos casos de salários muito altos. 

Ou seja, com apenas algumas linhas de código, você transforma dados brutos em uma visualização que facilita a análise e a tomada de decisões. 

Histograma e polígono de frequência 

O polígono de frequência é uma representação complementar ao histograma. Ele conecta os pontos médios do topo de cada barra do histograma, formando uma linha contínua. 

Enquanto o histograma usa barras para mostrar a distribuição, o polígono de frequência usa linhas, facilitando a comparação entre múltiplas distribuições no mesmo gráfico. 

Quer dizer, ambos são gráficos estatísticos que representam frequências, mas com visualizações diferentes que podem ser usadas juntas para análises mais completas. 

Como aprender mais sobre histograma e análise de dados 

Se você quer se aprofundar em histogramas, gráficos estatísticos e análise de dados, eu preparei algumas recomendações: 

  • Biblioteca Seaborn: descubra como criar visualizações profissionais e personalizadas 
  • Documentação oficial do Seaborn: consulte a documentação para conhecer todas as possibilidades de customização de histogramas 

Compreender o que é um histograma e como usá-lo é um passo fundamental para qualquer pessoa que trabalha com dados. 

Essa ferramenta visual transforma números complexos em insights claros, acelerando suas análises e melhorando suas decisões. 

Agora é sua vez de aplicar esse conhecimento nos seus projetos! 

Daniel Siqueira
Daniel Siqueira

Daniel é instrutor na escola de Dados e professor de Matemática, Física, Química e Inglês. Tem verdadeira paixão em aprender coisas e assuntos novos, e transmitir seus conhecimentos.

Veja outros artigos sobre Data Science