Modelos Mistos
Lineares e Não-Lineares
Dalton Francisco de Andrade
([email protected])
Prof. Voluntário PPGEP/UFSC
LCE/ESALQ/USP: Piracicaba, 8-9/03/12
Modelos Mistos Lineares e Não-Lineares
Objetivo: Ensinar técnicas de análise de dados, usando modelos
mistos.
Programa:
 Introdução aos modelos mistos: idéias básicas e exemplos em
diferentes áreas.
 Os modelos mistos lineares: formulação, métodos de
estimação/predição, testes de hipóteses e de ajuste dos modelos.
Aplicações a dados reais contínuos e discretos.
 O enfoque dos modelos lineares hierárquicos(multiniveis). As
diferentes estruturas de covariância induzidas por estes modelos.
 Os modelos mistos não lineares: formulação, métodos de
estimação/predição, testes de hipóteses e de ajuste dos modelos.
Aplicações a dados reais.
 Dados longitudinais e modelos da teoria da resposta ao item.
Recursos computacionais: R, SPSS, SAS, HLM
Introdução
Exemplo 1:
SARESP – Sistema de Avaliação do Rendimento Escolar do Estado de São
Paulo (http://saresp.fde.sp.gov.br/2011)
Dados: Exemplos1e4.xls
Yij : proficiência do aluno i do 5º ano da escola j em Língua Portuguesa
Yij = μ + εij , com εij ~ NID(0,σ2)
Variáveis de aluno: Sexo, Idade, NSE etc ...
Variáveis de escola: Dependência administrativa(pública,privada),
Localização(urbana, rural), Área(Região da Capital,Interior), Capacitação da
equipe pedagógica, Infraestrutura etc ...
Independência entre proficiências de alunos de uma mesma escola
Mesma variância dentro de escola
Introdução - Exemplo 1: (cont.)
Inclusão de variáveis/efeitos de aluno:
Efeito fixo
Yij = β0 + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2)
Interpretação dos parâmetros/efeitos
Y: escala (250,50), escala SAEB
Sexo: 1=Feminino, 0=Masculino
NSE: variável continua (0,1)
Métodos de estimação: Mínimos quadrados (MQ)
Máxima verossimilhança(MV)
Outros
Introdução - Exemplo 1: (cont.)
Métodos de estimação: Mínimos quadrados (MQ)
Encontrar os valores dos parâmetros β’s que minimizam
Os parâmetros de dispersão são estimados a parte.
Na forma matricial:
Y = X
β + ε
(n x 1)
(n x p) (p x 1)
(n x 1)
Introdução - Exemplo 1: (cont.)
Métodos de estimação: Máxima verossimilhança(MV)
Encontrar os valores dos parâmetros β’s e σ que maximizam
Mesmo dos MQ com n-p substituído por n no estimador da variância,
fornecendo um estimador viciado.
Resultados iniciais:
Introdução - Exemplo 1: (cont.)
Inclusão de variáveis/efeitos de escola:
Efeito fixo
Yij = β0 + β1NSEij + β2Sexoij + β3t ESC + εij , com εij ~ NID(0,σ2)
ESC : matriz C x (C-1), sendo C o número de escolas, cujas colunas são
variáveis indicadoras das escolas.
O modelo induz um intercepto para cada escola,
Yij = β0j + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2) e
β0j = β0 + β3j , β3C = 0
Obs: poderíamos incluir interações entre variáveis de alunos e entre
variáveis de alunos e escolas, e também as variáveis específicas de
escola
Introdução - Exemplo 1: (cont.)
Inclusão de variáveis/efeitos de escola:
C em geral é muito grande. O interesse não seria em cada escola e
sim na “variabilidade” entre escolas!!??
Efeito fixo e efeito aleatório (modelo misto)
Yij = β0 + β1NSEij + β2Sexoij + escj + εij , com εij ~ NID(0,σ2),
escj ~ NID(0,σ2esc) e independentes entre si.
Logo, Yij = β0j + β1NSEij + β2Sexoij + εij , com β0j = β0 + escj ,
Yij| escj ~ Normal (distribuição condicional)
Yij ~ Distribuição marginal
Introdução - Exemplo 1: (cont.)
Inclusão de variáveis/efeitos de escola:
Var(Yij) = σ2 + σ2esc , Cov(Yij, Yi’j) = σ2esc e Cov(Yij, Yi’j’) = 0, estrutura
uniforme dentro de escola e independencia entre escolas.
A quantidade σ2esc / (σ2 + σ2esc) é a correlação intra-classe.
Mais resultados:
Voltaremos ao exemplo mais tarde!
Modelos Mistos Lineares e Não-Lineares: Introdução
Exemplo 2: Trinta e dois frangos de corte da linhagem Hubbard (13
fêmeas e 19 machos) foram alojados em dois boxes, separados por
sexo e alimentados com a mesma ração comercial. As aves foram
identificadas por um anel de alumínio numerado colocado em sua
asa direita. Cada ave foi pesada semanalmente, durante um período
de sete semanas, sendo as avaliações feitas sempre nos mesmos
horários e dias da semana.
O objetivo da pesquisa foi comparar os perfis médios de peso dos
dois grupos.
Fonte: Lima, C.G. Análise de curvas de crescimento de aves - um
enfoque multivariado. Piracicaba, [Dissertação de mestrado] 1988.
Dados: Exemplo2.xls
Introdução – Exemplo 2: (cont.)
Modelagem inicial:
Yikt: peso do frango i do sexo k=1(F) e 2(M) na semana t=1,2,...,7
Distribuição: Normal
E(Yikt) = μkt , Var(Yikt) = σ2kt e Cov(Yikt , Yikt’) = σtt’
1. Um modelo linear de efeito fixo para cada sexo
Fêmea:
Macho:
yiFt = β0F + β1FSit + εiFt , com εiFt ~ NID(0, σF2)
yiMt = β0M + β1MSit + εiMt , com εiMt ~ NID(0, σM2)
μkt = β0k + β1kSit,
σ2kt = σk2 e σtt’ = 0
Introdução – Exemplo 2: (cont.)
Modelagem inicial:
2. Um único modelo linear de efeito fixo para ambos os sexos
Modelo anterior com σ2kt = σ2.
3. Comentários/Discussão sobre os modelos propostos
Resultados: Exemplo2.xls
Independência ??? Medida repetida ao longo das semanas !!!
Introdução - Exemplo 2: (cont.)
Modelagem inicial:
com
Diferentes estruturas podem ser assumidas/utilizadas para esta
matriz. A mais simples, e utilizada na análise anterior,
σ2 diag(1,1,...,1)
Introdução - Exemplo 2: (cont.)
Modelagem inicial:
Estimativas das correlações e das variâncias e covariâncias
S1
S2
S3
S4
S5
S6
S7
Fêmea
Pearson Correlation
Covariance
Pearson Correlation
Covariance
Pearson Correlation
Covariance
Pearson Correlation
Covariance
Pearson Correlation
Covariance
Pearson Correlation
Covariance
Pearson Correlation
Covariance
S1
1
102,06
S2
0,828
189,62
1
513,59
S3
0,419
234,86
0,675
848,95
1
3077,58
S4
0,373
267,65
0,647
1041,78
0,822
3238,88
1
5040,44
S5
0,163
88,14
0,552
670,73
0,516
1536,90
0,739
2813,67
1
2879,47
S6
0,066
50,25
0,443
756,75
0,419
1748,67
0,514
2746,83
0,783
3163,75
1
5670,0
S7
0,013
10,83
0,267
500,00
0,181
830,83
0,178
1044,17
0,511
2268,33
0,876
5460,0
1
6850,00
Introdução - Exemplo 2: (cont.)
Modelagem inicial:
Estimativas das correlações e das variâncias e covariâncias
S1
Macho
Pearson Correlation
Covariance
S1
1
222,37
S2
,872
359,74
S3
,770
472,39
S4
,668
654,04
S5
,484
851,40
S6
,367
731,35
S7
,406
992,57
1
765,09
,882
1003,11
,681
1237,27
,441
1437,62
,359
1326,81
,367
1666,29
1
1690,84
,813
2194,93
,618
2995,74
,578
3175,77
,523
3528,30
1
4309,81
,797
6168,96
,748
6559,96
,681
7334,50
S2
Pearson Correlation
Covariance
S3
Pearson Correlation
Covariance
S4
Pearson Correlation
Covariance
S5
Pearson Correlation
Covariance
1
,923
,875
13916,92 14555,32 16928,27
S6
Pearson Correlation
Covariance
1
,950
17867,93 20816,87
S7
Pearson Correlation
Covariance
1
26876,02
Introdução - Exemplo 2: (cont.)
Modelagem inicial:
Ao não considerarmos dependência e/ou heterocedasticidade,
podemos:
1 ter problemas nas estimativas dos parâmetros e, em particular, nas
estimativas dos seus erros padrões;
2. ter problemas nas comparações/testes de hipóteses. Por exemplo,
O ajuste de modelos introduzindo “diretamente” diferentes
estruturas para a matriz de covariância pode exigir mais
recursos/conhecimentos
Introdução - Exemplo 2: (cont.)
Modelagem inicial:
Modelos Fixo e Misto
Fixo: yikt = β0k + β1kTikt + β2kT2ikt + εikt , com εikt ~ NID(0, σ2)
Misto: yikt = β0ik + β1kTikt + β2kT2ikt + εikt , com εikt ~ NID(0, σ2) e
β0ik = β0k + u0k , com u0k ~ NID(0, σ20) e independente de εikt ,
induzindo uma medida de dependência entre as observações de um
mesmo frango ao longo do tempo.
Voltaremos ao exemplo mais tarde!
Modelos Mistos Lineares e Não-Lineares: Introdução
Exemplo 3: Estudo para avaliar o crescimento de árvores de
eucalipto, medido pelo volume sólido com casca(m3/ha). As medidas
de volume foram feitas aos 3, 4, 5 e 9 anos de idade das árvores. O
estudo foi planejado segundo um experimento em quatro blocos
completos com quatro tratamentos (duas espécies e dois
espaçamentos).
Fonte: Ogliari, P. J. and Andrade, D. F. (2001). Analysing longitudinal
data via nonlinear models in randomized block designs.
Computational Statistics & Data Analysis 36, 319- 332.
Dados: Exemplo3.xls
Introdução – Exemplo 3: (cont.)
Modelagem inicial:
Yikjt: volume(m3/ha) da unidade experimental i do tratamento k no
bloco j no tempo t
Yikjt = f(tratamento, tempo, bloco) + εikjt , com εikt ~ NID(0, σ2)
Uma única curva de crescimento Gompertz sem efeito de bloco,
Inclusão do efeito de blocos: fixo/aleatório, aditivo/multiplicativo
Dependência entre observações ao longo do tempo
Alguns resultados
Voltaremos ao exemplo mais tarde!
Introdução
Exemplo 4:
SARESP – Sistema de Avaliação do Rendimento Escolar do Estado de
São Paulo (http://saresp.fde.sp.gov.br/2011)
Dados: Exemplos1e4.xls
Yij : Nível de proficiência do aluno i do 5º ano da escola j em Língua
Portuguesa
Yij = 1 se proficij ≥ 200
0 se proficij < 200
Yij ~ Bernoulli(πij)
E(Yij) = πij e Var(Yij) = πij (1 - πij)
Introdução - Exemplo 4: (cont.)
Na prática são considerados até quatro níveis:
Abaixo do básico:
Profic < 150
Básico:
150 ≤ Profic < 200
Adequado:
200 ≤ Profic < 250
Superior:
Profic ≥ 250
Como modelar ??
Yij = β0 + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2)
Logito: Função de ligação
Introdução - Exemplo 4: (cont.)
Logito: Função de ligação
Fazendo com que
Interpretação dos parâmetros
Introdução - Exemplo 4: (cont.)
Inclusão de variáveis/efeitos de escola:
Efeito fixo e efeito aleatório (modelo misto)
com uj ~ NID(0 , σ2esc), fazendo com que
Yij | πij ~ Bernoulli(πij)
E(Yij | πij) = πij e Var(Yij | πij ) = πij (1 - πij)
Logito(πij) ~ Normal e πij ~ logistica-normal
Alguns resultados
Voltaremos ao exemplo mais tarde!
Introdução
Exemplo 5:
Estudo, em condições de laboratório, do efeito do milho transgênico
MON810 nos parasitóides Trichogramma pretiosum Riley, 1879 e T.
galloi Zucchi, 1988 em ovos de S. frugiperda provenientes de insetos
sobreviventes das plantas modificadas.
O interesse principal é determinar se existe diferença entre os
parasitóides Trichogramma pretiosum, quando a praga Spodopera
frugiperda foi alimentada com o milho convencional, milho
transgênico e com os dois tipos de milho conjuntamente, em relação
a porcentagem de ovos parasitados, porcentagem de ovos que
apresentaram sinais de emergência, número de parasitóides adultos,
a proporção de fêmeas dos parasitóides adultos e a longevidade.
Introdução - Exemplo 5: (cont.)
O estudo realizado é proveniente do delineamento inteiramente
casualizado, sendo que cada tipo de milho (tratamento) tem 40
repetições, em cada repetição contém 40 ovos da praga Spodopera
frugiperda.
No primeiro projeto foram realizados 5 bioensaios, o primeiro
contendo apenas dois tratamentos (milho transgênico e milho
convencional) e os demais bioensaios contendo três tratamentos
(milho transgênico, milho convencional e a mistura entre os dois
milhos); no segundo projeto os ovos da praga Spodopera frugiperda
foram submetidos aos tratamentos (milho transgênico, convencional
e a mistura entre os dois tipos de milho) e analisados no quinto
bioensaio.
Fonte: Borgatto, A. F. Relatório de Análise Estatística. UFSC.
Introdução - Exemplo 5: (cont.)
Dados: Exemplo5.xls
Yikj : Número de ovos com sinal de emergência na repetição i,
tratamento k e bioensaio j
Yikj ~ Bin(πikj)
E(Yikj) = n ikj π ikj e
Var(Yij) = n ikj π ikj (1 - π ikj )
Alguns resultados
Voltaremos ao exemplo mais tarde!
Introdução
Exemplo 6:
Estudo em blocos casualizados com quatro blocos, realizado no
periodo de julho de 1997 a outubro de 1998 no Departamento de
Fitotecnia da Esalq.
O objetivo foi o de avaliar substratos que pudessem ser utilizados na
substituição de xaxim no cultivo de bromélias (aechma fasciata) em
vaso.
Uma variável avaliada foi o número de folhas de oito plantas de
Bromélias, em seis instantes no tempo que correspondem a 5, 173,
229, 285, 341 e 435 dias após o plantio.
Os 15 substratos usados eram combinações de algum material,
sempre na companhia de turfa e perlita, em diferentes proporções.
Nesta análise serão considerados somente cinco substratos, a saber:
Introdução - Exemplo 6: (cont.)
Trat1: Substrato 1 – Casca de Pinus + turfa + perlita
Trat2: Substrato 2 – Casca de Eucaliptos + turfa + perlita
Trat3: Substrato 3 – Coxim + turfa + perlita
Trat4: Substrato 4 – Fibra de coco + turfa + perlita
Trat5: Substrato 5 – Xaxim + turfa + perlita
Fonte: Araujo, A. M. S. (2006). Modelos não lineares para dados de
contagem longitudinais. Tese de Doutorado. ESALQ/USP.
Introdução - Exemplo 6: (cont.)
Dados: Exemplo6.xls
Yikjt : número de folhas de oito plantas de Bromélias no vaso i,
tratamento k, bloco j e tempo t.
Yikjt ~ Poisson(λkjt)
E(Yikjt ) = Var(Yikjt ) = λkjt
Voltaremos ao exemplo mais tarde!
Download

Modelos Mistos Lineares e Não-Lineares