BC-0005 0005 Bases Computacionais da Ciência Aula 05 Noções de Estatística Gráficos 2010 Roteiro da Aula PARTE I – Noções de estatística Usos da estatística (descritiva / indutiva) Tipos de variáveis Medidas estatísticas Distribuição de frequência e distribuição normal Gráficos PARTE II –Exercícios Planilhas e referências Medidas estatísticas em planilhas Criação de gráficos Estatística • Conjunto de técnicas que permite de forma sistemática as seguintes operações sobre dados: 1. Organizar 2. Descrever 3. Analisar 4. Interpretar • Dois tipos: • Estatística descritiva • Estatística indutiva = inferencial Estatística descritiva Voltada a apresentação, organização e resumo numérico dos dados - Pode incluir a construção de gráficos, gráficos tabelas e computação de várias medidas, tais como, medidas de tendência central (ex. a média), de dispersão (ex. a variância), de freq equência (ex. percentagem) e outras. - O propósito deste tipo de estatística é de fazer com que os dados coletados sejam compreendidos mais facilmente seja em forma gráfica ou numérica (tabelas). - Cuidado: “estatística” é o termo pa para o conjunto de procedimentos que conhecemos como “a estatística” mas também o termo geral para medidas descritivas deste tipo – p.ex., a média é “uma estatística” Estatística indutiva / inferencial Voltada a realizar estimativas a partir de uma amostra ou testar idéias teóricas (hipóteses)) com dados experimentais • Se uma amostra é representativa de uma população, conclusões importantes sobre a população podem ser inferidas de sua análise. população amostra n=5 Exemplos: • Estatística descritiva: – O número de acidentes (= fre frequência) nas rodovias federais no estado de São Paulo antes e depois da “Lei Seca”; – Gráfico com a distribuição da idade dos ingressantes nos bacharelados interdisciplinares da UFABC. • Estatística indutiva: – Estimação da porcentagem da população que votará para um/a determinado/a candidato/a à presidência, junto com uma margem de erro (‘intervalo de confiânça’); – Teste estatístico de tendênci ncia de queda nas populações de atum-rabilho rabilho entre 2000 e 2010 a partir de observações sistemáticas Tipos de variáveis Independente: – Valores manipulados ou selecionados pelo pesquisador (meio, idade, mês). – Podem ser ou não a “causa” da variável dependente. Dependente: – Valores observados, contados, medidos, … que não estejam sob controle direto do pesquisador (velocidade, taxa de câmbio). – Podem ser “causadas” ou não pela variável independente. Tipos de variáveis Quando não há relação causal óbvia entre duas ou mais variáveis, qual é ‘independente ‘ ou ‘dependente’ é uma questão de rótulo. A variável ‘dependente’ é esta que analisamos em função dos valores de uma outra variável. Taxa de câmbio R$/US$ Mês Variável dependente Variável independente Variáveis Discretas e Contínuas Variáveis quantitativas:: expressadas em valores numéricos (↔ ( qualitativas) Discretas: Conjunto enumerável de valores Nominais = categóricas:: sem ordem natural de valores {presente, ausente}, {homem, mulher}, estado de origem (UF), base DNA A/C/T/G. Ordinais: com ordem natural de valores Classe sócio-econômica (A-E E ou “baixa”, “média”, “alta”), avaliação em escala Likert (nota 1-5), 5), {PP, P, M, G, GG}, número de acidentes. Contínuas: Conjunto não-enumerável, enumerável, valores reais, não discretizados Grandezas físicas ou químicas: velocidade, força, probabilidade, concentração, acidez, taxa de câmbio. Medidas de tendência central Valor ‘médio’ ou ‘típico’ de um conjunto de dados. Média (aritmética) Mediana Moda Média aritmética É o ‘centro de gravidade’ dos dados soma de um conjunto de escores dividida pelo número de escores do conjunto : Alunos (i) Notas (x) 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Total 53 Média 5,3 N ∑X X= i i =1 N N Xi é o número total de observações é um valor do conjunto Função no Excel ou BrOffice: MÉDIA X = (3, 0 + 5, 0 + ... + 2, 0 + 5, 0) /10 = 5,3 1 2 3 4 5 5,3 6 7 8 9 Mediana: Valor central do conjunto que divide a distribuição em duas partes iguais (mesmo número de escores abaixo e acima do valor). Os dados devem estar ordenados Posição da mediana => N +1 i= 2 Notas (x) 3,0 3;5;6;4;5;8;9;6;2;7;5 5,0 6,0 4,0 5,0 1) Escores ordenados: 2;3;4;5;5;5;6;6;7; 8; 9 Posição: 1;2;3;4;5;6;7;8;9;10;11 2) 8,0 Procedimento “manual”: 1) ordenar valores 2) procurar valor “no meio” 9,0 i= (11 + 1)/2 = 6 6,0 Meio = Sexta posição 2,0 Nota 5 7,0 Função no Excel ou BrOffice: MED 5,0 2;3;4;5;5; 5 ;6;6;7;8;9 i= (11 + 1)/2 = 6 Posição 6 Xi=X6=Nota 5 1 2 3 4 5 6 7 8 9 Me Notas Frequência Simples Frequência Acumulada 2 1 1 3 1 2 4 1 3 5 3 6 6 2 8 7 1 9 8 1 10 9 1 11 No caso de um número par de sujeitos a mediana é a média entre os dois valores centrais. 1 2 3 4 5 6 { Ex. Dadas as alturas: 62 54 82 49 75 64 Ordene: 49 54 62 64 75 82 iMe=(6+1)/2=3,5? – terceira e quarta posição → Med = (62+64)/2= 63 5,5 7 8 9 Moda É a categoria que ocorre com maior frequência. ex. Sujeitos Notas 2 1 3 1 4 1 5 3 6 2 7 1 8 1 9 1 1 2 3 Função no Excel ou BrOffice: MODO 4 5 6 7 8 9 Distribuição Unimodal 4 3 2 1 0 2 3 4 5 6 Nota 7 Sujeitos Notas 2 1 3 3 4 1 5 1 7 3 8 1 9 1 Distribuição Bimodal Frequência A moda pode não existir OU pode não ser única. Exemplos: 1,1,3,3,5,7,7,7,11,13 moda 7 3,5,8,11,13,18 não tem moda 3,5,5,5,6,6,7,7,7,11,12 tem duas modas: 5,7 (bimodal). Frequência 8 9 4 3 2 1 0 2 3 4 5 Nota 7 8 9 Características das medidas de tendência central Média influenciada pelas extremidades; Mediana e Moda ignoram extremidades Moda 160000 140000 120000 Frequência 100000 Mediana Média 80000 60000 40000 20000 0 100 Abaixo de 100 500 300 900 700 3000 1000 Renda Média Mens al (R$) acima de 5000 5000 (cuidado: escala com intervalos desiguais) Medidas de dispersão Variabilidade dos números em uma amostra ou população. Variância Desvio-padrão Erro padrão (da média) Medidas de dispersão (=variabilidade): Variância:: ‘Média’ dos quadrados dos desvios, onde desvio é a diferença entre cada dado e a média do conjunto. Função no Excel ou BrOffice: VAR s2 = 2 − ( X X ) ∑ N −1 = 40 / 4 = 10 Dados Desvios Quadrados dos Desvios (X ) (X − X ) (X − X )2 0 4 6 8 7 -5 -1 1 3 2 25 1 1 9 4 X =5 ∑ (X − X ) = 0 ∑ (X − X ) 2 = 40 Desvio padrão: raiz quadrada da variância s = s² = 2 ( X − X ) ∑ N −1 = 10 = 3,16 Função no Excel ou BrOffice: DESVPAD Erro padrão da média - EPM Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. primeira Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais, quando todas as possíveis amostras são retiradas de uma população. O erro padrão expressa a variabilidade de uma média Alunos Notas 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 Quanto maior o número de observações, menor o erro 10 padrão da média. Fórmula para EPM em amostra de Total população ‘infinita’: Média s σˆ X = n 5,0 53 5,3 DVP 2,11 EPM 0,6675 Erro padrão da média - EPM Não existe uma função no Excel ou BrOffice para cálculo do EPM. Portanto, calcula-se a partir do desvio padrão Alunos Turma A Turma B 1 5 8 2 5 9 3 5 7 4 5 7 5 5 2 6 6 5 7 7 4 2 6 8 6 0 5 9 5 2 4 10 5 10 3 Total 51 52 2 Média 5,1 5,2 DVP 0,57 3,49 EPM 0,18 1,1 EPM = DESVPAD(…)/ RAIZ (CONT.NÚM(…)) s s² σˆ X = = n n 10 9 8 1 0 Turma A Turma B Distribuição Exemplo Para obter uma estimativa da altura média do brasileiro adulto: • amostragem com 5000 pessoas (n=5000) • estratificação adequada, que reflita os dados de toda a população do país À direita: resultados (interval) de altura. por faixa Nota: ‘discretizamos’ uma variável continua (altura) em faixas para poder visualizar a distribuição. Frequência relativa (em %) = freq. absoluta / freq. total * 100% (= proporção em ) Distribuição normal (=Gaussiana) Proporção (em %) Média: 1,653 Desvio Padrão: 0,173 Faixa de altura (em m) Características da distribuição Normal determinada por dois parâmetros: - Média da população → Posição central - Desvio padrão da população → Largura Distribuição é simétrica e unimodal Por causa da simetria, valores de média, moda e mediana são iguais. menor desviopadrão maior desviopadrão Área total sob a curva é igual a 100%, com exatos 50% distribuídos à esquerda da média e 50% à sua direita Diferentes valores de desvio padrão Áreas sob a curva normal A área sob a curva de uma distribuição normal corresponde a 100% dos dados. Uma área de 34,13 % da totalidade dos dados é delimitada entre a média e um desvio padrão acima ou abaixo da média. A proporção da população entre a média e dois desvios-padrão acima da média é de 47,87%. Quando é três a área aumenta para 49,87%. Estas proporções são constantes em uma distribuição normal; sabendo a média e o desvio-padrão, dá para fazer estimativas da % em um intervalo. Tipos de distribuição Distribuição unimodal e simétrica: Média, mediana e moda são iguais o ponto de freqüência máxima (moda) é também o mais central (mediana) e o centro de gravidade (média). Muitas vezes, em uma distribuição assimétrica: A moda está sempre no “pico” (por def.) A média está mais próxima da “cauda” (sofre influência dos valores extremos) Mediana está entre a moda e média Medida de tendência central mais usada: Distribuição simétrica média Distribuição assimétrica mediana ou moda Distribuição bimodal modas mediana “cauda” moda média Tipos de Distribuição e medidas de tendência central Distribuição Assim étrica 5 Freqüência 4 M oda 3 M ediana 2 1 M édia 0 2 3 4 7 N ota 8 9 10 Apresentação gráfica – Estrutura de um gráfico Ordenada (eixo-Y) var dependente 4 Título (opcional) Série Série 1 3 Escala 2 Série 2 1 Origem Legenda (se aplicável) Abscissa (eixo-X) (eixo var independente Tipos de gráficos Tipo apropriado de gráfico depende dos tipos das variáveis independentes e dependentes: categórica → contínua: gráfico de colunas ordinal ou contínua discretizada → contínua: gráfico de colunas ou de linhas ordinal ou contínuo discretizado → contagem (distribuição): histograma contínua → contínua: gráfico de dispersão Gráfico de colunas Número de revivências traumáticas (“flashback”) (média/semana) +/- erro-padrão da média média var. dependente: Condição Depois de experimental Sem jogar Tetris var. independente: categórica jogar Tetris Holmes EA, James EL, Coode-Bate Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up Build of Flashbacks for Trauma? A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153 Gráfico de colunas Área de Plantação (ópio) dependente: contínua Ano independente: ordinal Gráfico de linhas 0,8 0,6 (Cº) dependente: contínua variação (°C) Variação em temperatura relativa a uma referência0,4 0,2 0 1880 -0,2 1900 1920 1940 1960 1980 2000 -0,4 -0,6 ano Ano Compare: Gráfico de linhas destaca evolução Gráfico de colunas destaca níveis absolutos independente: ordinal Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/ Histograma Frequência em % dependente: contagem (frequência, porcentagem ou proporção) Diâmetro (nm) de nanotubo de carbono independente: contínua discretizada ordinal Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various Va Sizes. The Journal of Physical Chemistry B, 105, 11424-11431 Gráfico de dispersão Índice de sucesso financeiro dependente: contínua Pontos de dados Linha de tendência: opcional Razão indicador/anular independente: contínua John M. Coates, Mark Gurnell, and Aldo Rustichini frequency financial traders Second-to-fourth digit ratio predicts success among high-frequency PNAS 2009 106:623-628; 628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106 Parte prática Cálculos e gráficos em programas de planilhas Todos os procedimentos apresentados aqui podem ser realizados em qualquer programa de planilha. O pacote BrOffice pode ser baixado para uso livre em casa do endereço http://broffice.org/. Abre (botão início) → programas → BrOffice.org → BrOffice.org Calc Planilhas Planilha Linhas Colunas Célula (A1) Acesso a outras planilhas Cálculo de funções estatísticas em uma planilha 2) Digite ite ‘=‘ para identificar o conteúdo da célula como fórmula e não texto ou número. Ó que for digitado aparece cerá na linha de entrada e na célula selecionada. 1) Clique onde quer calcular a fórmula 3) Clique no ‘assistente de funções’ (fx) para encontrar uma função específica. 4) Procure ‘média’ na lista, selecione 5) Clique em ‘Próximo’ 6) Clicar em uma outra célula na entrada de uma função gerará uma referência simples. Para dar um conjunto de células adjacentes como argumento, clique na primeira célula com botão esquerdo do mouse, segure o botão enquanto arrastando o cursor até a última célula. Solte o botão. (Também é possível digitar o alcance da função no campo de texto.) 7) Clique em “OK” para calcular a função e voltar para a planilha. Representação ção gráfica da turma por gênero Menu / “Arquivo”: salvar, abrir etc. Botão “Salvar” Botão “Assistente de gráfico” Dados (p. ex. nº de homens e mulheres em uma turma) (1) Selecione os dados (2) Clique botão “Gráfico” Menu e barras específicas Gráfico Assistente de gráfico Clique em “Concluir” Assistente de gráfico Passo 1: Escolher tipo (Coluna / Linha / Dispersão) e subtipo do gráfico Passo 2: Especificar características da organização dos dados (p. ex. em linhas/colunas) Passo 3: Adicionar/mudar séries dados para visualizar Passo 4: Editar títulos, rótulos para eixos, etc. Dados Histograma (frequência em %) altura (cm) <150 0 150-160 10 160-170 20 170-180 30 180-190 20 190-200 10 >200 0 Nota: Em princípio, histograma não possui espaços entre colunas. Referências e funções (1) Preencha com os dados (2) Selecione célula B9 (3) Digite “=” para indicar que segue uma 'fórmula' Digite “SOMA(“ (4) Selecione B2:B8 (mouse) (5) Digite Enter para 'fechar' a fórmula Porcentagem = Frequência / Total x 100 (1) Clique em C2, digite “=” e a fórmula (2) Certifique-se que a referência para o total é B$9 (mude se necessário) (3) Aperte “Enter”, selecione C2, e “arraste” sobre C2:C8 Referências relativas Referências absolutas Referência B$9 Referência B9 Ao copiar uma fórmula, programas de pla planilha presumem que as referências são relativas – que referem sempre para a mesma posição relativa (x células acima/abaixo e y células esquerda/direita) de uma célula-alvo. célula Para deixar claro que uma linha ou coluna é constante (não relativa), use $ antes da referência. (1) Os números em C são porcentagens (2) Selecione A1:A8 e C1:C8 (segure Ctrl para áreas separadas) (3) Aperte botão “Assistente de gráfico” Passo 2 Passo 3 Mude as referências para excluir linha 2 e linha 8, com freqüência 0 Várias séries podem ser incluídas. Passo 4 35 30 25 % 20 15 10 5 0 150-160 160-170 170-180 altura (cm) 180-190 190-200 Exercício 1 em aula Alunos (i) Notas (x) 1 3,0 2 5,0 3 6,0 4 4,0 5 5,0 6 8,0 7 9,0 8 6,0 9 2,0 10 5,0 Copie estes dados para uma planilha e determine: • Total das notas • Média • Mediana • Moda • Variância • Desvio padrão • Erro padrão da média usando fórmul ulas e funções na planilha. Use a célula do lado de cada estatística para por o rótulo correspondente. Crie um gráfico de colunas com uma coluna para a média, junto com a barra com ±1 erro padrão da média. Exercício 2 em aula Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o declínio de memória decorrente do processo de envelhecimento. Além do resultado do teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de escolaridade. Construa uma planilha no BrOffice utilizando os dados destas amostras. Há duas séries; para incluir várias séries de dados em um gráfico, selecione várias colunas de dados ao dar o conjunto de células a ser usado para criar o gráfico. a) Desempenho de cada sujeito: (varia de 0 a 20) Idosos: 16/17/19/19/15/17/18/20/20/16 Jovens: 20/20/19/19/20/20/17/19/20/18 b) Calcule as médias, os desvios padrão e erros padrão da média do desempenho para idosos e jovens. c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título Teste de Memória. d) Inclua as barras de erro com o erro padrão da média (cf. próximo slide). Para inserir o erro padrão no BrOffice 1) Selecione o gráfico na planilha. Em seguida, clique em “Inserir” -> “Barras de erro Y” 2) Selecionar os valores de erro calculados na planilha Exercício para casa Procure em revistas, jornais, publicações acadêmicas, websites, experimento, sondagem própria ou outra fonte da sua escolha ou um conjunto ou subconjunto de dados para visualizar. Mencione na planilha a fonte dos seus dados e descreva o contexto resumidamente. Descreva quais variáveis você considera independentes e dependentes e de qual tipo são (quantitativa, qualitativa, ordinal, etc...). Determine a) pelo menos uma estatística de tendência central b) pelo menos uma estatística de dispersão. Crie um gráfico apropriado que tenha pelo menos duas séries (que precise de legenda para ser interpretado). Entregue o arquivo BrOffice Calc ou Excel no sistema Tidia.