cadeira Modelaç Modelação dos Sistemas Bioló Biológicos, Licenciatura em Biologia, Departamento de Biologia, Universidade da Madeira cadeira Modelação dos Sistemas Biológicos Parte 1 - Biometria Análise Estatística Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Análise Exploratória vs. Confirmatória Técnicas estatísticas servem dois objectivos diferentes: análise exploratória: estatística descritiva análise confirmatória: o testar de hipóteses análise exploratória (EDA) processo de extrair, juntar, sumariar, e apresentar resultados serve também para formular novas hipóteses a partir dos dados análise gráfica uma das melhores: muitas vezes: scatterplot histograma sempre graficar 1º resultados (melhor que tabelas complexas) adicionalmente calcular estatísticas descritivas análise confirmatória estatística de inferência ou o testar de hipóteses = o cálculo da probabilidade de que um resultado seja consistente com a hipótese de nulidade (e.g. existe diferença entre os valores dos dois grupos) normalmente análise em computador: mas! 1º tentar conhecer os dados (EDA) e familiarizar-se com os mesmos problema computador (black-box): faz tudo, mesmo quando os dados ou a hipótese não estão correctos Análise de dados não é um processo puramente mecânico: existe mais do que uma maneira e à medida que se vão descobrindo resultados e comparando com hipóteses, outras vão surgindo. É um processo criativo e requer imaginação e inteligência além de conhecimentos. Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Probabilidade e significância Alguns termos estatísticos: Hipótese de nulidade e alternativa H0: é a hipótese base contra a qual o resultado obtido é comparado: Normalmente prevê a inexistência de efeitos (não existe diferença, não existe relação entre varáveis) HA: é a hipótese alternativa que se supõe ser verdadeira no caso de não se aceitar H0. Esta hipótese não pode ser testada, o que se testa é H0. Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Nível de significância Em geral a estatística serve para saber se um efeito observado é real, ou é devido a factores aleatórios como erros de medição. Específicamente: A pergunta a que um teste estatístico responde é: Qual a probabilidade, no caso de H0 ser verdadeira, de obtermos, por mera casualidade, o resultado que observado? Se a probabilidade for baixa, isso significa, que o nosso resultado não resulta de mera casualidade, mas que sim, se trata de um efeito real. A probabilidade de obter esse resultado observado é denominada de nível de significância Por convenção, determinamos que resultados cuja probabilidade seja inferior a 5% (p<0.05) sejam considerados significativos (rejeita-se H0), ou seja não aconteceram por mear casualidade. Níveis de significância utilizados normalmente são: p<a5%1%0.5%0.1%0.050.010.0050.001****** Programas estatísticos dão probabilidades exactas: Num texto pode-se dar um valor como p=0.045 (mas lembre-se de arredondar p/3 dígitos: não p=0.044758) Atenção: em termos coloquiais diz-se altamente significante, mas realmente, isso significa que a probabilidade é mais baixa (o valor numérico é inferior!!) Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Tabelas de contingência 1 x k Teste de “goodness of fit” do χ2 χ ( f − fˆ ) =∑ 2 k 2 Dados (inventados) i fˆi i =1 f i =e=frequência experada fˆi =o=frequência observada χ2 = ∑ •var1:(direcção) i (o − e ) 2 •cat1: mesma direcção •cat2: direcção contrária •observado •10 •30 •esperado 20 20 e Resultado: Vacas pretas mostram uma tendência significativa em virar na direcção oposta à da viragem forçada (χ2=10, g.l.=1, N=40, p<0.005). •H0: não existe preferência direccional •HA: existe preferência direccional χ2 =∑ = (o − e )2 = (10 − 20)2 + (30 − 20)2 e 20 20 100 100 + = 5 + 5 = 10 20 20 •da tabela: χ20.05,1=3.841 e χ20.005,1=7.879 •⇒ 0.005<P<0.001 •⇒ rejeitar H0 Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Teste de “goodness of fit” do χ2 Dados em programa de estatística • • • var1:(direcção) • frequência mesma direcção: 1 • 10.00 direcção contrária: 2 • 30.00 VAR1 mesma direcção direcção contrária Total Test Statistics Observed N Expected N Residual 10 20.0 -10.0 30 20.0 10.0 40 Chi-Squarea df Asymp. Sig. VAR1 10.000 1 .002 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 20.0. Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Erros do tipo I e II Ter um nível de significância inferior a 0.05 não significa que o resultado seja realmente verdade. Significa, que a probabilidade é baixa de obter um resultados desses por mera casualidade. Isto implica que podemos cometer erros: Existem 2 tipos de erros: TIPO I: H0 é realmente verdade, mas rejeitamo-la: prob. = a = nível de significância TIPO II: H0 é realmente falsa, mas aceitamo-la: prob. = b Poder ou força de um teste estatístico A força de um teste é a sua sensibilidade em detectar efeitos reais: =A probabilidade de rejeitar H0 quando é mesmo falsa = (1-b) quanto maior a força de um teste, maior a prob. de detectar efeitos reais a está fixado (e.g. 5%) ⇒podemos aumentar o poder do teste através de aumentar o tamanho da amostra melhorar o design experimental (reduzir erros de medição, etc. ...) Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Testes uni- e bilaterais Podemos fazer previsões sobre a direcção de um efeito: e.g. a barata limpa-se +vezes após ser suja com giz ⇒unilateral Alternativamente, podemos não fazer previsão nenhuma e.g. a barata comporta-se de forma diferente (limpa-se + ou -vezes) após ser suja com giz ⇒bilateral Fazer previsão antes do teste (antes da experiência melhor) nível de significância altera-se (dobro no bilateral⇒ uni: a=0.05, bi: a=0.10) normalmente utilizar sempre testes bilaterais! (trabalhar contra o próprio) só utilizar unilateral se houver razões fortes à priori Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Magnitude do efeito vs. significância estatística Magnitude de um efeito (diferença entre valores de duas amostras, tamanho da correlação, etc.). Significância estatística (probabilidade do efeito observado ter sido causado por razões aleatórias) alta significância ≠ magnitude elevada Efeito altamente significativo, mas sem relevância biológica por magnitude pequena: Tamanho médio entre europeus centrais e do sul: só poucos milímetros, mas altamente significante) ⇒ Dar sempre, em conjunto com significância, alguma estimativa da magnitude Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira Processo de inferência estatística Em geral a estatística serve para saber se um efeito observado é real, ou é devido a factores aleatórios como erros de medição. Os seguintes passos devem ser dados: Especificar Hipótese de Nulidade e.g. H0: não existe diferença entre dois grupos especificar se o teste deve ser uni- ou bilateral Seleccionar teste apropriado Depende da questão: os mais simples usados em etologia são Xi2, sinal, teste de U, de t, de Wilcoxon, correlação de Pearson ou Spearman Seleccionar nível de significância já falado Calcular valor da estatística escolher algoritmos de um livro e calcular (no início melhor que utilizar computador) Determinar valor crítico Verificar tabelas estatísticas. Ter em conta se uni- ou bilateral Modelação dos Sistemas Biológicos, Licenciatura em Biologia Departamento de Biologia, Universidade da Madeira