Estatística Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimento modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso. Algumas práticas estatísticas incluem, por exemplo, o planejamento, a sumarização e a interpretação de observações. Dado que o objetivo da estatística é a produção da melhor informação possível a partir dos dados disponíveis, alguns autores sugerem que a estatística é um ramo da teoria da decisão. Média Em estatística a média é o valor que aponta para onde mais se concentram os dados de uma distribuição. Pode ser considerada o ponto de equilíbrio das frequências, num histograma. Média é um valor significativo de uma lista de valores. Se todos os números da lista são os mesmos, então este número será a média dos valores. Caso contrário, um modo simples de representar os números da lista é escolher de forma aleatória algum número da lista. Contudo, a palavra 'média' é usualmente reservada para métodos mais sofisticados. Em último caso, a média é calculada através da combinação de valores de um conjunto de um modo específico e gerando um valor, a média do conjunto. Média aritmética é a forma mais simples de calcular uma média, mas existem outros métodos, como a mediana (usada quando a distribuição de valores é mal organizada, com grandes e pequenos valores, como valores de rendimento). Com base no arquivo de log, podemos notar que a média de acesso por pessoa no dia 27/11 é 18,4 acessos, representado no gráfico abaixo. Logs (acessos) 40 35 30 25 20 Logs (acessos) 15 10 5 0 Logs (acessos) Gustavo Eduardo Isael Tarik Manuel 20 10 7 17 38 Moda É o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes, ou ainda "o valor que ocorre com maior frequência num conjunto de dados, isto é, o valor mais comum". O termo moda foi utilizado primeiramente em 1895 por Karl Pearson, sob influência do termo moda referindo-se ao uso popular com o significado de objeto que se está usando muito no tempo presente. A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas. Bimodal: possui dois valores modais. Amodal: não possui moda. Multimodal: possui mais do que dois valores modais. EXEMPLOS: A moda de {azul, verde, verde, vermelho, roxo} é verde. A série {1,1, 3, 5, 5, 5, 6, 6, 6} apresenta duas modas (BIMODAL): 5 e 6. A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda (AMODAL). A série {1, 3, 5, 5, 6, 6, 7, 7, 9, 9} apresenta mais do que duas modas (MULTIMODAL): 5, 6, 7 e 9. De acordo com o gráfico (logs(acessos)) e com o arquivo de log, podemos notar que a moda dos acessos nos dia 27/11 é 38. Mediana É o valor numérico que separa a metade superior de uma amostra de dados, uma população ou uma distribuição de probabilidade, a partir da metade inferior. A mediana de uma lista finita de números pode ser encontrada por providenciar todas as observações do valor mais baixo para o valor mais elevado e colheita do meio (por exemplo, a mediana de {3, 3, 5, 9, 11} é 5). Se houver um número par de observações, então não existe um valor médio único, a mediana é, então, geralmente definida como a média dos dois valores médios (a mediana de {3, 5, 7, 9} é (5+7) /2 = 6), o que corresponde a interpretar a mediana como semi amplitudes totalmente aparadas. A mediana é de importância central nas estatísticas robustas, já que é a estatística mais resistente, ter um ponto de ruptura de 50%: enquanto não mais de metade dos dados está contaminada, a mediana não vai dar um resultado arbitrariamente grande. A mediana é definida apenas em dados unidimensionais encomendados, e é independente de qualquer distância métrica. Uma média geométrica, por outro lado, é definida em qualquer número de dimensões. Variância Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado. A variância de uma variável aleatória real é o seu segundo momento central e também o seu segundo cumulante (os cumulante só diferem dos momentos centrais a partir do 4º grau, inclusive). Sendo o seu valor o quadrado do Desvio Padrão. A variância tem o objetivo de analisar o grau de variabilidade de determinadas situações, através dela podemos perceber desempenhos iguais, muito próximos ou muito distantes. A média aritmética pode ser usada para avaliar situações de forma geral, já a variância determina de forma mais específica as possíveis variações, no intuito de não comprometer os resultados da análise. Vamos, através de um exemplo, determinar a eficiência da variância. Desvio Padrão É a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). Ele mostra o quanto de variação ou "dispersão" existe em relação à média (ou valor esperado). Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores. O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que: 1. Seja um número não negativo; 2. Use a mesma unidade de medida dos dados fornecidos inicialmente. Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão de um subconjunto em amostra. O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas". Coeficiente de Variação O coeficiente de variação de Pearson é uma medida de dispersão relativa empregada para estimar a precisão de experimentos e representa o desvio-padrãoexpresso como porcentagem da média. Sua principal qualidade é a capacidade de comparação de distribuições diferentes. O coeficiente de variação (CV) é obtido pela razão entre o desvio-padrão e a média. Indica-se a variância por "S" (s elevado a 2). O desvio-padrão, calculado pela raiz quadrada da variância, é representado por "S". Também considerado uma medida de dispersão, é relativo à média e, como duas distribuições podem ter médias/valor médio diferente, o desvio-padrão dessas duas distribuições não é comparável. A solução é usar o coeficiente de variação, que é igual ao desvio-padrão dividido pela média: Algumas vezes, o coeficiente de variação é ainda multiplicado por 100, passando aser expressocomo percentagem. O coeficiente de variação em uma carteira de ativos serve como medida de risco para cada unidade de ativo. O uso do coeficiente de variação é usualmente recomendado para variáveis quantitativas do tipo razão (na qual exista um zero absoluto), tais como altura, peso e velocidade. Se a variável não é do tipo razão (ex: temperatura em graus Célsius), o coeficiente de variação poderá assumir valores negativos (ex: caso a média seja negativa) e sua interpretação dependerá do ponto de referência (ponto considerado como "0" na escala), levando a interpretações equivocadas e relativas. Probabilidade A palavra probabilidade deriva do Latim probare (provar ou testar). Informalmente, provável é uma das muitas palavras utilizadas para eventos incertos ou conhecidos, sendo também substituído por algumas palavras como “sorte”, “risco”, “azar”, “incerteza”, “duvidoso”, dependendo do contexto. O estudo da probabilidade vem da necessidade de em certas situações, prevermos a possibilidade de ocorrência de determinados fatos. Ao começarmos o estudo da probabilidade, normalmente a primeira ideia que nos vem à mente é a da sua utilização em jogos, mas podemos utilizá-lo em muitas outras áreas. Um bom exemplo é na área comercial, onde um site de comércio eletrônico pode dela se utilizar, para prever a possibilidade de fraude por parte de um possível comprador. Distribuição Normal A distribuição normal é uma das mais importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre. Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. É inteiramente descrita por seus parâmetros de média e desvio padrão, ou seja, conhecendose estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal. Um interessante uso da Distribuição Normal é que ela serve de aproximação para o cálculo de outras distribuições quando o número de observações fica grande. Essa importante propriedade provém do Teorema do Limite Central que diz que "toda soma de variáveis aleatórias independentes de média finita e variância limitada é aproximadamente Normal, desde que o número de termos da soma seja suficientemente grande" (ver o teorema para um enunciado mais preciso). A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre em um artigo no ano 1733, que foi reproduzido na segunda edição de seu The Doctrine of Chances (1738) no contexto da aproximação de distribuições binomiais para grandes valores de n. Seu resultado foi estendido por Laplace, em seu livro Analytical Theory of Probabilities (1812), e agora é chamado o teorema de Moivre-Laplace. Laplace usou a distribuição normal na análise de erros de experimentos. O importante método dos quadrados mínimos foi introduzido por Legendre, em 1805. Gauss, que alegou ter usado o método desde 1794, demonstrou-o rigorosamente em 1809 supondo uma distribuição normal para os erros. O nome "curva em forma de sino" ou "curva de sino" remonta a Esprit Jouffret que primeiro utilizou o termo "superfície de sino" em 1872 para um normal bivariado com componentes independentes (atentar que nem toda curva de sino é uma gaussiana). O nome "distribuição normal" foi inventado independentemente por Charles S. Peirce, Francis Galton e Wilhelm Lexis, por volta de 1875. Supondo-se que a média de acessos por usuário é de 25, com desvio padrão 7 acessos. Sendo assim qual a probabilidade de que em um determinado dia aconteça de uma pessoa ter acessado 50 vezes? Z=X–M σ => 50 – 25 => -3,571 => =0,4990 22 -3,571, convertendo para o valor da tabela de distribuição normal padrão é -0,4990. A probabilidade de que um determinado usuário acesse 50 vezes é de 0,01%.