1 2 Objetivos da Aula Bases Computacionais da Ciência (BC-0005) Introduzir algumas ferramentas iniciais de Análise Estatística: Permitem visualizar e compreender características de dados experimentais e realizar formas simples de inferência Noções de Estatística Utilizar o software BrOffice Calc: Familiarizar o aluno (a aluna) com o uso da ferramenta para automatizar tarefas de análise estatística, que seria por demais tediosas ou mesmo impossíveis de se realizar manualmente Maria das Graças Bruno Marietto [email protected] Centro de Matemática, Computação e Cognição (CMCC) Universidade Federal do ABC (UFABC) A objetivo desta aula NÃO é esgotar o assunto da análise estatística de dados 3 4 Introdução Em diversos campos do conhecimento, são comuns as situações em que uma decisão deve ser tomada com base em informações parciais: Dados obtidos a partir de um número relativamente pequeno de exemplos são usados para prever o comportamento em cenários ainda não observados Uma montadora prepara um novo modelo de automóvel. Para determinar se o modelo é seguro, são realizados ensaios de impacto (crash tests) com protótipos, em que são medidos parâmetros de deformação, aceleração, força de impacto sobre passageiro, etc Esse procedimento supõe que os protótipos iniciais são representativos do comportamento dos automóveis fabricados futuramente E, portanto, as conseqüências de um acidente podem ser corretamente avaliadas Introdução Vídeo: Chinese car crash test failure 5 Introdução 6 Introdução O que pode-se observar nos exemplos anterior é a incerteza resultante de trabalharmos com um subconjunto dos dados de interesse Este subconjunto é denominado de AMOSTRA O conjunto total é chamado de POPULACAO O objetivo de uma pesquisa eleitoral é fornecer um retrato momentâneo da intenção de voto em cada candidato Em uma pesquisa, apenas um pequeno contingente do eleitorado é entrevistado Por isso, é impossível dizer que a verdadeira intenção de voto em um candidato é igual ao percentual obtido por ele na pesquisa Os números de intenção são divulgados juntamente com a margem de erro da pesquisa, indicando um intervalo que provavelmente contém a intenção real de voto em cada candidato O processo de gerar uma amostra é aleatório Então, se gerarmos duas amostras distintas para estudar um mesmo processo, provavelmente vamos obter dois resultados diferentes Em princípio, não podemos dizer que um desses resultados é “mais verdadeiro” que o outro 7 8 Introdução Introdução A Estatística é um ramo da Matemática que estuda como se pode usar uma amostra para tirar conclusões sobre um universo maior de objetos Atualmente a Estatística: Apresenta amplas ferramentas computacionais Os softwares de baixo custo, ou mesmo gratuitos, disponibilizam métodos sofisticados de análise estatística levando em conta que sempre há variação e incerteza nas nossas medidas A Estatística está presente na base de toda a ciência experimental, pois: fornece diretrizes para a coleta de dados permite comparar diferentes hipóteses permite avaliar a precisão dos resultados obtidos experimentalmente A compreensão dos métodos estatísticos, de seus cenários de aplicação e limitações, bem como o domínio de ferramentas computacionais de análise, é fundamental para a prática da Ciência 10 9 População e Amostra Até o momento usamos os termos população e amostra para ilustrar a necessidade de métodos estatísticos Agora vamos apresentar definições mais precisas desses dois termos População: é o grupo correspondente a uma coleção completa de unidades para as quais serão feitas inferências. Representa o alvo da investigação Conceitos Básicos Amostra: é definida como subconjunto do universo ou da população por meio do qual se estabelecem, ou se estimam, as características desta população Uma amostra pode ser constituída, por exemplo: por 100 funcionários que fazem parte da população de 1.700 que trabalham em uma empresa por um determinado número de centros de saúde que compõem a rede de saúde estadual 11 População e Amostra 12 População e Amostra Para que possamos fazer inferências válidas sobre uma população é necessário que a amostra seja representativa ou seja, escolhida de maneira aleatória e contenha um número adequado de sujeitos Uma vez determinada uma amostra o passo seguinte de um estudo é a medição de certas características de interesse para cada um dos casos presentes na amostra Um processo descuidado de escolha pode resultar em uma amostra tendenciosa (“enviesada”). Por exemplo: caso selecionássemos os 100 funcionários de maior salário da empresa ou escolhêssemos todos os centros de saúde em um mesmo bairro Essas características medidas são chamadas de variáveis Em cada um desses dois casos, teríamos um retrato que não reflete as condições da população Por exemplo, em um estudo sobre habitantes de uma cidade, as variáveis podem ser: altura, sexo, cor do cabelo, cor dos olhos, idade, peso, preferência por um partido político, etc 13 Variáveis As variáveis podem ser divididas em dois tipos: Dependente: é a medida de interesse da pesquisa Deve variar em resposta a alguma outra variável manipulada (intervenção) Independente: é a variável candidata a explicar a variável dependente No experimento ela está sendo manipulada e/ou supostamente exerce uma influência sobre a variável de resposta 14 Análise Estatística Após a coleta dos dados, quando as variáveis de interesse já foram medidas para todos os casos da amostra, inicia-se a etapa de Análise Estatística A Análise Estatística se caracteriza pelo cálculo de valores a partir das variáveis: que nos permitem entender o comportamento dos dados e fazer previsões sobre casos futuros esses valores são também chamados de estatísticas uma estatística é a descrição numérica de uma característica de uma amostra Em um estudo sobre incidência de depressão em adolescentes de diversos países, a medida do estado de depressão é a variável DEPENDENTE Outras medidas como país de origem, idade, situação familiar são possíveis variáveis INDEPENDENTES para este caso 15 16 Análise Estatística Análise Estatística A Análise Estatística pode ser dividida em duas áreas, de acordo com sua finalidade: Estatística Descritiva Estatística Inferencial Estatística Inferencial: estuda métodos para generalizar um resultado obtido de uma amostra, para um grande número de sujeitos (população) Estimação da porcentagem da população que votará para um/a determinado/a candidato/a à presidência, junto com uma margem de erro (“intervalo de confiança”) Teste estatístico de tendência de queda nas populações de atum entre 2000 e 2010, a partir de observações sistemáticas Estatística Descritiva: é a área da Estatística que preocupa-se com a apresentação, organização e resumo dos dados. Por exemplo: O número de acidentes (= frequência) nas rodovias federais no estado de São Paulo antes e depois da Lei Seca Gráfico com a distribuição da idade dos ingressantes nos bacharelados interdisciplinares da UFABC Neste curso o foco será na Estatística Descritiva 18 17 Medidas de Tendência Central É conveniente dispor de medidas que informem sobre a amostra, de maneira mais resumida do que os dados brutos são capazes de fazer As medidas de tendência central cumprem este papel, dando o valor do ponto em torno do qual os dados se distribuem MEDIDAS DE TENDÊNCIA CENTRAL São medidas de tendência central: Média Mediana Moda 19 20 Medidas de Tendência Central: Média Aritmética Medidas de Tendência Central: Média Aritmética A média aritmética é definida como a soma de todos valores de uma variável em um conjunto, dividida pelo número de elementos do conjunto Exemplo: Calcular a média da classe cujas notas são dadas pela tabela. Nesse caso, a somatória das notas é 60 e o número total de sujeitos é 11 21 22 Medidas de Tendência Central: Mediana Medidas de Tendência Central: Mediana Gasto de Energia Elétrica Quantidade ímpar de valores Valor central do conjunto que divide a distribuição em duas partes iguais: mesmo número de “valores” abaixo e acima do valor Meses JAN Custo(R$) 25 Os dados devem estar ordenados FEV MAR ABR MAI 22 35 28 35 Mediana: 28 Depois de ordenados os valores, por ordem crescente ou decrescente, a mediana é: 22 25 28 35 35 O valor que ocupa a posição central, se a quantidade desses valores for ímpar A média dos dois valores centrais, se a quantidade desses valores for par 24 23 Meses JAN Custo(R$) 25 FEV MAR ABR MAI JUN 22 35 28 35 33 Mediana: 30,5 22 25 28 33 35 28 + 33 = 61 61/2=30,5 35 A moda é o valor mais freqüente de um conjunto de dados A moda pode não existir ou pode não ser única Exemplos: 1,1,3,3,5,7,7,7,11,13 Moda 7 3,5,8,11,13,18 Não tem moda 3,5,5,5,6,6,7,7,7,11,12 Tem duas modas: 5,7 (bimodal) Distribuição Unimodal Distribuição Bimodal 4 3 2 1 0 Freqüência Gasto de Energia Elétrica Quantidade par de valores Medidas de Tendência Central: Moda Freqüência Medidas de Tendência Central: Mediana 2 3 4 5 6 Nota 7 8 9 4 3 2 1 0 2 3 4 5 Nota 7 8 9 25 26 Medidas de Tendência Central Em quais tipos de variável aplicar as medidas de tendência central: Media Mediana Moda Categórico/Qualitativo - Nominal Não Não Sim Categórico/Qualitativo - Ordinal Não Sim Sim Numérico/Quantitativo - Contínuo Sim Sim Sim Numérico/Quantitativo - Discreto Sim Sim Sim MEDIDAS DE DISPERSÃO 27 Medidas de Dispersão O processo de trabalhar com amostras introduz uma variabilidade dos resultados obtidos, pois cada amostra vai ter características ligeiramente diferentes Essa variabilidade afeta nosso grau de confiança nos resultados Por isso, as medidas de variabilidade (ou dispersão) têm papel central na Estatística Dentre as medidas de dispersão tem-se: Variância Desvio-padrão 28 Medidas de Dispersão: Desvio 29 30 Medidas de Dispersão: Desvio Medidas de Dispersão: Desvio Porque a soma dos desvios, em relação à média, sempre resulta em zero? Podemos calcular o desvio, que é a diferença de cada nota em relação à média A média está posicionada de forma equilibrada entre os valores da amostra. Assim, os valores se distribuem ao redor da média alguns pontos estão acima da média enquanto outros estão abaixo dela logo algumas diferenças são positivas enquanto outras são negativas Como posso calcular o desvio médio? Somando todos os desvios e dividindo por cinco Quando somadas, diferenças de sinais diferentes compensam umas às outras e o resultado final é nulo 3,8 + 1,8 - 0,2 - 2,2 - 3,2 = ZERO!!! Qualquer que seja o conjunto de dados, a soma dos desvios é sempre zero por que os valores positivos e negativos se anulam 31 32 Medidas de Dispersão: Variância Para resolver o problema anterior do somatório dos desvios sendo igual à zero Basta elevar cada desvio ao quadrado A variância é uma forma de se medir a dispersão dos dados. Indica o quanto os dados dispersam-se em torno de um valor (média) A variância é a média dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto VAR ∑ (x − X ) = N −1 2 Medidas de Dispersão: Variância VAR = ∑ (x − X )2 Porque dividir por N-1?? N −1 A princípio, pensaríamos em dividir a soma dos quadrados dos desvios pelo número N de casos na amostra Uma discussão da natureza do problema está além do escopo do presente texto Mas para o propósito do cálculo da média dos desvios, o grau de liberdade funciona como se fosse o tamanho efetivo da amostra 33 Medidas de Dispersão: Variância Os graus de liberdade indicam os espaços entre os dados 34 Medidas de Dispersão: Variância Percebe-se que dividir pelo número de graus de liberdade significa dividir pelo número de espaços entre os dados, e não pelo número de dados e são iguais a (n-1) porque os espaços entre eles estão sempre uma unidade abaixo do número dos próprios dados A razão de se fazer isso em Estatística é que os estudiosos da Ciência Estatística descobriram que essa operação conduzia a resultados mais coerentes do que a divisão por n, pura e simplesmente Para comprovar essa afirmativa, basta contar os dedos de uma das mãos e depois contar os espaços existentes entre eles O mesmo ocorre em qualquer conjunto de dados amostrais 35 Medidas de Dispersão: Variância 36 Medidas de Dispersão: Variância ∑ (x − X )2 32 , 8 = = 8,2 N −1 4 A variância é uma medida da nossa desconfiança com relação aos resultados VAR = Quanto maior a variância, maior a variabilidade dos dados e menor a nossa confiança no resultado obtido A variância tem a desvantagem, por causa do efeito de elevar ao quadrado VAR = ∑ ( x − X )2 N −1 32,8 = = 8,2 4 de não estar na mesma escala de unidades que a variável medida Por exemplo, se estudamos variabilidade da altura em uma amostra, a variável é avaliada em m (metro) enquanto a variância é avaliada em m2 (metro ao quadrado) 37 38 Medidas de Dispersão: Desvio Padrão O que fazer? Calcular a raiz quadrada Devio padrão é a raiz quadrada da variância Parte Prática ∑(x−X) 2 N−1 = 8,2 =2,86 39 Parte Prática: Calc do LibreOffice O software Calc do LibreOffice é utilizado para a construção de gráficos em programas de planilhas O pacote LibreOffice pode ser baixado para uso livre em casa do endereço http://www.libreoffice.org/download Abre (botão início): LibreOffice.org → LibreOffice Calc 40 Exercício 01 Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psicólogo como sendo: 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente Determine o tempo médio de reação do indivíduo a esses estímulos 41 Exercício 01 42 Clicar na célula onde se deseja colocar a medida calculada Vá na opção Inserir do Menu Principal Entrar com os dados em uma nova planilha, tendo a primeira linha como título e cada valor em uma linha Deixar uma coluna livre antes dos dados para poder colocar os nomes das medidas calculadas e em seguida na opção Função Clicar na barra de rolamento de Categoria e clicar em Estatísticas A lista de funções é filtrada para mostrar apenas as funções estatísticas Agora, basta clicar na função desejada Clicar em MÉDIA 43 Para inserir as células contendo os valores basta clicar na flecha verde em frente ao número 1 e depois selecionar os valores com o mouse observe que as referências dos dados aparecerão na barra do Assistente de Funções, no exemplo, B2:B9 44 Repita os passos para o cálculo da moda, mediana, desvio padrão, máximo e mínimo. Para tanto, utilize as seguintes funções estatísticas Função Estatística Comando no LibreOffice Calc Média Aritmética MEDIA() Mediana MED() Moda MODO() Variância VAR() Desvio Padrão DESVPAD() Máximo MAXIMO Mínimo MINIMO 45 46 Gráficos 47 Visualização de Dados Amostrais Estudar em casa: Visualização de dados amostrais 48 Noções de Estatística