As distribuições de probabilidade, também conhecidas como modelos ou lei de probabilidade, são muito úteis em modelagem e problemas que exijam uma inferência a partir de uma amostra coletada. Traduzindo, elas facilitam muito a sua vida na hora de tomar uma decisão.

No entanto, dentre tantas uma pergunta frequente é qual distribuição de probabilidade devo utilizar baseado nos dados que eu tenho? Para a maioria dos casos o fenômeno define sua distribuição, basta verificar qual a natureza da sua variável que está sendo analisada, mas também temos ferramentas para definir qual distribuição utilizar baseado em informações extraídas de nossa amostra.

Vejamos então algumas situações e quais são as distribuições mais adequadas para cada caso.

Quando estou trabalhando com dados de contagem

Se você está estudando a contagem de algum evento, como número de peças produzidas, número de folhas por ramo, quantas formigas em um formigueiro e exemplos similares, então provavelmente o uso de uma Poisson para modelar a probabilidade deste evento seja adequado. Por exemplo, se eu quero estudar a produção de café de determinada plantação, coleto dados de quantos grãos foram coletados de cada pé e calculo uma média de quantos grãos cada pé produziu. Com isso é possível verificar, por exemplo, qual a probabilidade de um pé produzir uma quantidade de grãos duas vezes acima da média.

Mas atenção, para utilizar a distribuição de Poisson uma das condições necessárias é que a média e a variância de sua amostra sejam próximas, caso contrário o modelo de Poisson não é adequado. Quando temos média e variância muito distantes, é recomendado utilizar uma Binomial Negativa para lidar com essa dispersão maior dos dados.

Quando estou trabalhando com eventos binários

Antes de tudo é preciso especificar o que são eventos binários. Eventos com apenas duas possibilidades são eventos binários. Por exemplo, o resultado do lançamento de uma moeda só pode ser cara ou coroa. Outro exemplo é considerar respostas do tipo “sim” e “não” como eventos binários, como a resposta à pergunta “Você já experimentou o novo suco de maracujá desta marca?”.

A distribuição a se utilizar neste caso depende muito de como você deseja analisar estes dados. Se seu interesse é verificar, por exemplo, quantas caras eu posso obter em um número específico de lançamentos, daí utilizamos o modelo Binomial. Se você deseja saber quantas caras em sequência eu consigo obter até sair a primeira coroa, daí utilizamos o modelo Geométrico.

No exemplo do suco de maracujá mencionado acima, se entrevistamos, suponha, 100 pessoas e estamos interessados em saber quantas já experimentaram o novo suco de maracujá, então temos que trabalhar com uma binomial. O outro caso é mais raro, mas se o interesse é saber quantas pessoas respondem “não” até eu encontrar a primeira que já experimentou o suco, então este tipo de evento é caracterizado pela distribuição geométrica.

Quando estou trabalhando com médias ou dados numéricos contínuos

Este é talvez o caso mais comum. Primeiramente é preciso deixar claro o que são dados numéricos contínuos. Grosseiramente falando é quando o que estou medindo admite vírgula. Por exemplo, sua altura pode ser 1,69 ou 1,92, números que podem conter casas decimais. Porém, ao contar o número de pessoas em uma festa não é possível obter 893,2 pessoas porque número de pessoas são números inteiros: 1, 2, 3, 4, 5, etc.

Entendido o que são dados contínuos, em geral trabalhamos com a média de alguma variável de interesse. Por exemplo, estamos sempre interessados no custo médio, risco médio, altura média, rendimento médio, média de gols, média de vendas e muitas outras coisas que podemos listar infinitamente aqui. Em estatística há um teorema muito poderoso que diz que a média de qualquer coisa tem distribuição que pode ser aproximada por uma normal sob certas condições. A efeito de curiosidade, essas condições são independência e um número grande de observações. Por isso que a distribuição Normal é tão enfatizada e valorizada nos cursos de estatística.

De fato, a distribuição Normal é a mais apropriada quando trabalhamos com dados contínuos, principalmente se o interesse é a média de alguma variável. Porém é preciso verificar se os dados realmente são normais antes de iniciar qualquer análise. Para isso, veja aqui nosso guia.

E se eu não souber com o que estou trabalhando?!

Isso pode ser a maioria dos casos. Na verdade, nunca sabemos. Quem nos diz são os dados que você coletou. Na prática o que fazemos é supor alguma distribuição e depois verificar se essa distribuição é adequada. Por exemplo, se vou trabalhar com contagem vou supor que meus dados tem distribuição Poisson, mas não posso deixar de verificar se a média e a variância dos dados estão próximas. Depois com o tempo fica mais fácil de fazer essas suposições, mas é sempre importante verificar.

Como verificar a distribuição dos seus dados?

A primeira coisa que deve ser analisada é o tipo de variável: se for discreta (contagem) ou contínua (números que admitem vírgula). Essas duas categorias possuem distribuições específicas de sua natureza, como vimos nos parágrafos anteriores. Depois podemos olhar o histograma de seus dados. A forma do histograma lhe dá muitas informações importantes para poder decidir qual distribuição utilizar. Por fim, podemos utilizar o qq-plot para verificar com maior precisão se estamos supondo a distribuição correta. Para ver um exemplo de como verificar se uma distribuição é Normal, clique aqui.

Qual distribuição devo usar?
Classificado como:                    

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *