cadeira Modelaç
Modelação dos Sistemas Bioló
Biológicos,
Licenciatura em Biologia, Departamento de Biologia, Universidade da Madeira
cadeira
Modelação dos Sistemas
Biológicos
Parte 1 - Biometria
Análise Estatística
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Análise Exploratória vs.
Confirmatória
Técnicas estatísticas servem dois objectivos diferentes:
análise exploratória: estatística descritiva
análise confirmatória: o testar de hipóteses
análise exploratória (EDA)
processo de extrair, juntar, sumariar, e apresentar resultados
serve também para formular novas hipóteses a partir dos dados
análise gráfica uma das melhores:
muitas vezes:
scatterplot
histograma
sempre graficar 1º resultados (melhor que tabelas complexas)
adicionalmente calcular estatísticas descritivas
análise confirmatória
estatística de inferência ou o testar de hipóteses
= o cálculo da probabilidade de que um resultado seja consistente com a hipótese de nulidade
(e.g. existe diferença entre os valores dos dois grupos)
normalmente análise em computador: mas! 1º tentar conhecer os dados (EDA) e familiarizar-se
com os mesmos
problema computador (black-box): faz tudo, mesmo quando os dados ou a hipótese não estão
correctos
Análise de dados não é um processo puramente mecânico: existe mais do que uma maneira e à
medida que se vão descobrindo resultados e comparando com hipóteses, outras vão surgindo.
É um processo criativo e requer imaginação e inteligência além de conhecimentos.
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Probabilidade e significância
Alguns termos estatísticos:
Hipótese de nulidade e alternativa
H0: é a hipótese base contra a qual o resultado
obtido é comparado:
Normalmente prevê a inexistência de efeitos (não
existe diferença, não existe relação entre
varáveis)
HA: é a hipótese alternativa que se supõe ser
verdadeira no caso de não se aceitar H0.
Esta hipótese não pode ser testada, o que se
testa é H0.
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Nível de significância
Em geral a estatística serve para saber se um efeito observado é real, ou é devido a
factores aleatórios como erros de medição.
Específicamente:
A pergunta a que um teste estatístico responde é:
Qual a probabilidade, no caso de H0 ser verdadeira, de obtermos, por mera
casualidade, o resultado que observado?
Se a probabilidade for baixa, isso significa, que o nosso resultado não resulta de mera
casualidade, mas que sim, se trata de um efeito real.
A probabilidade de obter esse resultado observado é denominada de nível de
significância
Por convenção, determinamos que resultados cuja probabilidade seja inferior a 5%
(p<0.05) sejam considerados significativos (rejeita-se H0), ou seja não
aconteceram por mear casualidade.
Níveis de significância utilizados normalmente são:
p<a5%1%0.5%0.1%0.050.010.0050.001******
Programas estatísticos dão probabilidades exactas: Num texto pode-se dar um valor
como p=0.045
(mas lembre-se de arredondar p/3 dígitos: não p=0.044758)
Atenção: em termos coloquiais diz-se altamente significante,
mas realmente, isso significa que a probabilidade é mais baixa (o valor
numérico é inferior!!)
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Tabelas de contingência 1 x k
Teste de “goodness of fit” do χ2
χ
(
f − fˆ )
=∑
2
k
2
Dados (inventados)
i
fˆi
i =1
f i =e=frequência experada
fˆi =o=frequência observada
χ2 = ∑
•var1:(direcção)
i
(o − e )
2
•cat1:
mesma direcção
•cat2:
direcção contrária
•observado
•10
•30
•esperado
20
20
e
Resultado:
Vacas pretas mostram
uma tendência
significativa em virar na
direcção oposta à da
viragem forçada
(χ2=10, g.l.=1, N=40,
p<0.005).
•H0: não existe preferência direccional
•HA: existe preferência direccional
χ2 =∑
=
(o − e )2 = (10 − 20)2 + (30 − 20)2
e
20
20
100 100
+
= 5 + 5 = 10
20
20
•da tabela: χ20.05,1=3.841 e χ20.005,1=7.879
•⇒ 0.005<P<0.001
•⇒ rejeitar H0
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Teste de “goodness of fit” do χ2
Dados em programa de estatística
•
•
•
var1:(direcção)
•
frequência
mesma direcção: 1
•
10.00
direcção contrária: 2
•
30.00
VAR1
mesma
direcção
direcção
contrária
Total
Test Statistics
Observed
N
Expected
N
Residual
10
20.0
-10.0
30
20.0
10.0
40
Chi-Squarea
df
Asymp. Sig.
VAR1
10.000
1
.002
a. 0 cells (.0%) have
expected
frequencies
less than 5. The
minimum
expected cell
frequency is 20.0.
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Erros do tipo I e II
Ter um nível de significância inferior a 0.05 não significa que o resultado
seja realmente verdade.
Significa, que a probabilidade é baixa de obter um resultados desses por
mera casualidade.
Isto implica que podemos cometer erros:
Existem 2 tipos de erros:
TIPO I: H0 é realmente verdade, mas rejeitamo-la: prob. = a = nível de
significância
TIPO II: H0 é realmente falsa, mas aceitamo-la: prob. = b
Poder ou força de um teste estatístico
A força de um teste é a sua sensibilidade em detectar efeitos reais:
=A probabilidade de rejeitar H0 quando é mesmo falsa = (1-b)
quanto maior a força de um teste, maior a prob. de detectar efeitos reais
a está fixado (e.g. 5%)
⇒podemos aumentar o poder do teste através de
aumentar o tamanho da amostra
melhorar o design experimental (reduzir erros de medição, etc. ...)
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Testes uni- e bilaterais
Podemos fazer previsões sobre a direcção de um efeito:
e.g. a barata limpa-se +vezes após ser suja com giz
⇒unilateral
Alternativamente, podemos não fazer previsão nenhuma
e.g. a barata comporta-se de forma diferente (limpa-se + ou
-vezes) após ser suja com giz
⇒bilateral
Fazer previsão antes do teste (antes da experiência melhor)
nível de significância altera-se (dobro no bilateral⇒ uni:
a=0.05, bi: a=0.10)
normalmente utilizar sempre testes bilaterais! (trabalhar
contra o próprio)
só utilizar unilateral se houver razões fortes à priori
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Magnitude do efeito vs.
significância estatística
Magnitude de um efeito (diferença entre valores de duas
amostras, tamanho da correlação, etc.).
Significância estatística (probabilidade do efeito
observado ter sido causado por razões aleatórias)
alta significância ≠ magnitude elevada
Efeito altamente significativo, mas sem relevância biológica
por magnitude pequena:
Tamanho médio entre europeus centrais e do sul: só poucos
milímetros, mas altamente significante)
⇒ Dar sempre, em conjunto com significância, alguma
estimativa da magnitude
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Processo de inferência
estatística
Em geral a estatística serve para saber se um efeito observado é real, ou é
devido a factores aleatórios como erros de medição.
Os seguintes passos devem ser dados:
Especificar Hipótese de Nulidade
e.g. H0: não existe diferença entre dois grupos
especificar se o teste deve ser uni- ou bilateral
Seleccionar teste apropriado
Depende da questão: os mais simples usados em etologia são Xi2, sinal,
teste de U, de t, de Wilcoxon, correlação de Pearson ou Spearman
Seleccionar nível de significância
já falado
Calcular valor da estatística
escolher algoritmos de um livro e calcular (no início melhor que utilizar
computador)
Determinar valor crítico
Verificar tabelas estatísticas. Ter em conta se uni- ou bilateral
Modelação dos Sistemas Biológicos, Licenciatura em Biologia
Departamento de Biologia, Universidade da Madeira
Download

3 - Universidade da Madeira