Estatística
Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da
ocorrência de eventos, tanto em estudos observacionais quanto em experimento modelar a aleatoriedade
e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.
Algumas práticas estatísticas incluem, por exemplo, o planejamento, a sumarização e a
interpretação de observações. Dado que o objetivo da estatística é a produção da melhor informação
possível a partir dos dados disponíveis, alguns autores sugerem que a estatística é um ramo da teoria da
decisão.
Média
Em estatística a média é o valor que aponta para onde mais se concentram os dados de uma
distribuição. Pode ser considerada o ponto de equilíbrio das frequências, num histograma.
Média é um valor significativo de uma lista de valores. Se todos os números da lista são os mesmos, então
este número será a média dos valores. Caso contrário, um modo simples de representar os números da
lista é escolher de forma aleatória algum número da lista. Contudo, a palavra 'média' é usualmente
reservada para métodos mais sofisticados. Em último caso, a média é calculada através da combinação de
valores de um conjunto de um modo específico e gerando um valor, a média do conjunto.
Média aritmética é a forma mais simples de calcular uma média, mas existem outros métodos, como a
mediana (usada quando a distribuição de valores é mal organizada, com grandes e pequenos valores, como
valores de rendimento).
Com base no arquivo de log, podemos notar que a média de acesso por pessoa no dia 27/11 é 18,4
acessos, representado no gráfico abaixo.
Logs (acessos)
40
35
30
25
20
Logs (acessos)
15
10
5
0
Logs (acessos)
Gustavo
Eduardo
Isael
Tarik
Manuel
20
10
7
17
38
Moda
É o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes,
ou ainda "o valor que ocorre com maior frequência num conjunto de dados, isto é, o valor mais comum".
O termo moda foi utilizado primeiramente em 1895 por Karl Pearson, sob influência do termo moda
referindo-se ao uso popular com o significado de objeto que se está usando muito no tempo presente.
A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil
quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser
bem definidas.

Bimodal: possui dois valores modais.

Amodal: não possui moda.

Multimodal: possui mais do que dois valores modais.
EXEMPLOS:
A moda de {azul, verde, verde, vermelho, roxo} é verde.
A série {1,1, 3, 5, 5, 5, 6, 6, 6} apresenta duas modas (BIMODAL): 5 e 6.
A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda (AMODAL).
A série {1, 3, 5, 5, 6, 6, 7, 7, 9, 9} apresenta mais do que duas modas (MULTIMODAL): 5, 6, 7 e 9.
De acordo com o gráfico (logs(acessos)) e com o arquivo de log, podemos notar que a moda dos
acessos nos dia 27/11 é 38.
Mediana
É o valor numérico que separa a metade superior de uma amostra de dados, uma população ou
uma distribuição de probabilidade, a partir da metade inferior. A mediana de uma lista finita de números
pode ser encontrada por providenciar todas as observações do valor mais baixo para o valor mais elevado
e colheita do meio (por exemplo, a mediana de {3, 3, 5, 9, 11} é 5). Se houver um número par de
observações, então não existe um valor médio único, a mediana é, então, geralmente definida como a
média dos dois valores médios (a mediana de {3, 5, 7, 9} é (5+7) /2 = 6), o que corresponde a interpretar a
mediana como semi amplitudes totalmente aparadas.
A mediana é de importância central nas estatísticas robustas, já que é a estatística mais resistente,
ter um ponto de ruptura de 50%: enquanto não mais de metade dos dados está contaminada, a mediana
não vai dar um resultado arbitrariamente grande. A mediana é definida apenas em dados unidimensionais
encomendados, e é independente de qualquer distância métrica. Uma média geométrica, por outro lado, é
definida em qualquer número de dimensões.
Variância
Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da
sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.
A variância de uma variável aleatória real é o seu segundo momento central e também o seu
segundo cumulante (os cumulante só diferem dos momentos centrais a partir do 4º grau, inclusive). Sendo
o seu valor o quadrado do Desvio Padrão.
A variância tem o objetivo de analisar o grau de variabilidade de determinadas situações, através
dela podemos perceber desempenhos iguais, muito próximos ou muito distantes. A média aritmética pode
ser usada para avaliar situações de forma geral, já a variância determina de forma mais específica as
possíveis variações, no intuito de não comprometer os resultados da análise. Vamos, através de um
exemplo, determinar a eficiência da variância.
Desvio Padrão
É a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). Ele mostra
o quanto de variação ou "dispersão" existe em relação à média (ou valor esperado). Um baixo desvio padrão
indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão
espalhados por uma gama de valores.
O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira
a dar-nos uma medida da dispersão que:
1. Seja um número não negativo;
2. Use a mesma unidade de medida dos dados fornecidos inicialmente.
Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável
aleatória, e o desvio padrão de um subconjunto em amostra.
O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a
dissecção de curvas de frequência assimétricas".
Coeficiente de Variação
O coeficiente de variação de Pearson é uma medida de dispersão relativa empregada para
estimar a precisão de experimentos e representa o desvio-padrãoexpresso como porcentagem da média.
Sua principal qualidade é a capacidade de comparação de distribuições diferentes.
O coeficiente de variação (CV) é obtido pela razão entre o desvio-padrão e a média. Indica-se
a variância por "S" (s elevado a 2). O desvio-padrão, calculado pela raiz quadrada da variância, é
representado por "S". Também considerado uma medida de dispersão, é relativo à média e, como duas
distribuições podem ter médias/valor médio diferente, o desvio-padrão dessas duas distribuições não é
comparável. A solução é usar o coeficiente de variação, que é igual ao desvio-padrão dividido pela média:
Algumas vezes, o coeficiente de variação é ainda multiplicado por 100, passando aser expressocomo
percentagem. O coeficiente de variação em uma carteira de ativos serve como medida de risco para cada
unidade de ativo. O uso do coeficiente de variação é usualmente recomendado para variáveis
quantitativas do tipo razão (na qual exista um zero absoluto), tais como altura, peso e velocidade.
Se a variável não é do tipo razão (ex: temperatura em graus Célsius), o coeficiente de variação poderá
assumir valores negativos (ex: caso a média seja negativa) e sua interpretação dependerá do ponto de
referência (ponto considerado como "0" na escala), levando a interpretações equivocadas e relativas.
Probabilidade
A palavra probabilidade deriva do Latim probare (provar ou testar). Informalmente, provável é uma
das muitas palavras utilizadas para eventos incertos ou conhecidos, sendo também substituído por algumas
palavras como “sorte”, “risco”, “azar”, “incerteza”, “duvidoso”, dependendo do contexto.
O estudo da probabilidade vem da necessidade de em certas situações, prevermos a possibilidade
de ocorrência de determinados fatos.
Ao começarmos o estudo da probabilidade, normalmente a primeira ideia que nos vem à mente é a da sua
utilização em jogos, mas podemos utilizá-lo em muitas outras áreas. Um bom exemplo é na área comercial,
onde um site de comércio eletrônico pode dela se utilizar, para prever a possibilidade de fraude por parte
de um possível comprador.
Distribuição Normal
A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também
como Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de
Moivre.
Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística
inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendose estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal.
Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras
distribuições quando o número de observações fica grande. Essa importante propriedade provém
do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita
e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja
suficientemente grande" (ver o teorema para um enunciado mais preciso).
A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre em um artigo no
ano 1733, que foi reproduzido na segunda edição de seu The Doctrine of Chances (1738) no contexto da
aproximação de distribuições binomiais para grandes valores de n. Seu resultado foi estendido por Laplace,
em seu livro Analytical Theory of Probabilities (1812), e agora é chamado o teorema de Moivre-Laplace.
Laplace usou a distribuição normal na análise de erros de experimentos. O importante método dos
quadrados mínimos foi introduzido por Legendre, em 1805. Gauss, que alegou ter usado o método desde
1794, demonstrou-o rigorosamente em 1809 supondo uma distribuição normal para os erros.
O nome "curva em forma de sino" ou "curva de sino" remonta a Esprit Jouffret que primeiro utilizou o termo
"superfície de sino" em 1872 para um normal bivariado com componentes independentes (atentar que nem
toda curva de sino é uma gaussiana). O nome "distribuição normal" foi inventado independentemente por
Charles S. Peirce, Francis Galton e Wilhelm Lexis, por volta de 1875.
Supondo-se que a média de acessos por usuário é de 25, com desvio padrão 7 acessos. Sendo
assim qual a probabilidade de que em um determinado dia aconteça de uma pessoa ter acessado 50 vezes?
Z=X–M
σ
=> 50 – 25 => -3,571 => =0,4990
22
-3,571, convertendo para o valor da tabela de distribuição normal padrão é -0,4990.
A probabilidade de que um determinado usuário acesse 50 vezes é de 0,01%.
Download

Estatística Aplicada