Modelos Mistos Lineares e Não-Lineares Dalton Francisco de Andrade ([email protected]) Prof. Voluntário PPGEP/UFSC LCE/ESALQ/USP: Piracicaba, 8-9/03/12 Modelos Mistos Lineares e Não-Lineares Objetivo: Ensinar técnicas de análise de dados, usando modelos mistos. Programa: Introdução aos modelos mistos: idéias básicas e exemplos em diferentes áreas. Os modelos mistos lineares: formulação, métodos de estimação/predição, testes de hipóteses e de ajuste dos modelos. Aplicações a dados reais contínuos e discretos. O enfoque dos modelos lineares hierárquicos(multiniveis). As diferentes estruturas de covariância induzidas por estes modelos. Os modelos mistos não lineares: formulação, métodos de estimação/predição, testes de hipóteses e de ajuste dos modelos. Aplicações a dados reais. Dados longitudinais e modelos da teoria da resposta ao item. Recursos computacionais: R, SPSS, SAS, HLM Introdução Exemplo 1: SARESP – Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo (http://saresp.fde.sp.gov.br/2011) Dados: Exemplos1e4.xls Yij : proficiência do aluno i do 5º ano da escola j em Língua Portuguesa Yij = μ + εij , com εij ~ NID(0,σ2) Variáveis de aluno: Sexo, Idade, NSE etc ... Variáveis de escola: Dependência administrativa(pública,privada), Localização(urbana, rural), Área(Região da Capital,Interior), Capacitação da equipe pedagógica, Infraestrutura etc ... Independência entre proficiências de alunos de uma mesma escola Mesma variância dentro de escola Introdução - Exemplo 1: (cont.) Inclusão de variáveis/efeitos de aluno: Efeito fixo Yij = β0 + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2) Interpretação dos parâmetros/efeitos Y: escala (250,50), escala SAEB Sexo: 1=Feminino, 0=Masculino NSE: variável continua (0,1) Métodos de estimação: Mínimos quadrados (MQ) Máxima verossimilhança(MV) Outros Introdução - Exemplo 1: (cont.) Métodos de estimação: Mínimos quadrados (MQ) Encontrar os valores dos parâmetros β’s que minimizam Os parâmetros de dispersão são estimados a parte. Na forma matricial: Y = X β + ε (n x 1) (n x p) (p x 1) (n x 1) Introdução - Exemplo 1: (cont.) Métodos de estimação: Máxima verossimilhança(MV) Encontrar os valores dos parâmetros β’s e σ que maximizam Mesmo dos MQ com n-p substituído por n no estimador da variância, fornecendo um estimador viciado. Resultados iniciais: Introdução - Exemplo 1: (cont.) Inclusão de variáveis/efeitos de escola: Efeito fixo Yij = β0 + β1NSEij + β2Sexoij + β3t ESC + εij , com εij ~ NID(0,σ2) ESC : matriz C x (C-1), sendo C o número de escolas, cujas colunas são variáveis indicadoras das escolas. O modelo induz um intercepto para cada escola, Yij = β0j + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2) e β0j = β0 + β3j , β3C = 0 Obs: poderíamos incluir interações entre variáveis de alunos e entre variáveis de alunos e escolas, e também as variáveis específicas de escola Introdução - Exemplo 1: (cont.) Inclusão de variáveis/efeitos de escola: C em geral é muito grande. O interesse não seria em cada escola e sim na “variabilidade” entre escolas!!?? Efeito fixo e efeito aleatório (modelo misto) Yij = β0 + β1NSEij + β2Sexoij + escj + εij , com εij ~ NID(0,σ2), escj ~ NID(0,σ2esc) e independentes entre si. Logo, Yij = β0j + β1NSEij + β2Sexoij + εij , com β0j = β0 + escj , Yij| escj ~ Normal (distribuição condicional) Yij ~ Distribuição marginal Introdução - Exemplo 1: (cont.) Inclusão de variáveis/efeitos de escola: Var(Yij) = σ2 + σ2esc , Cov(Yij, Yi’j) = σ2esc e Cov(Yij, Yi’j’) = 0, estrutura uniforme dentro de escola e independencia entre escolas. A quantidade σ2esc / (σ2 + σ2esc) é a correlação intra-classe. Mais resultados: Voltaremos ao exemplo mais tarde! Modelos Mistos Lineares e Não-Lineares: Introdução Exemplo 2: Trinta e dois frangos de corte da linhagem Hubbard (13 fêmeas e 19 machos) foram alojados em dois boxes, separados por sexo e alimentados com a mesma ração comercial. As aves foram identificadas por um anel de alumínio numerado colocado em sua asa direita. Cada ave foi pesada semanalmente, durante um período de sete semanas, sendo as avaliações feitas sempre nos mesmos horários e dias da semana. O objetivo da pesquisa foi comparar os perfis médios de peso dos dois grupos. Fonte: Lima, C.G. Análise de curvas de crescimento de aves - um enfoque multivariado. Piracicaba, [Dissertação de mestrado] 1988. Dados: Exemplo2.xls Introdução – Exemplo 2: (cont.) Modelagem inicial: Yikt: peso do frango i do sexo k=1(F) e 2(M) na semana t=1,2,...,7 Distribuição: Normal E(Yikt) = μkt , Var(Yikt) = σ2kt e Cov(Yikt , Yikt’) = σtt’ 1. Um modelo linear de efeito fixo para cada sexo Fêmea: Macho: yiFt = β0F + β1FSit + εiFt , com εiFt ~ NID(0, σF2) yiMt = β0M + β1MSit + εiMt , com εiMt ~ NID(0, σM2) μkt = β0k + β1kSit, σ2kt = σk2 e σtt’ = 0 Introdução – Exemplo 2: (cont.) Modelagem inicial: 2. Um único modelo linear de efeito fixo para ambos os sexos Modelo anterior com σ2kt = σ2. 3. Comentários/Discussão sobre os modelos propostos Resultados: Exemplo2.xls Independência ??? Medida repetida ao longo das semanas !!! Introdução - Exemplo 2: (cont.) Modelagem inicial: com Diferentes estruturas podem ser assumidas/utilizadas para esta matriz. A mais simples, e utilizada na análise anterior, σ2 diag(1,1,...,1) Introdução - Exemplo 2: (cont.) Modelagem inicial: Estimativas das correlações e das variâncias e covariâncias S1 S2 S3 S4 S5 S6 S7 Fêmea Pearson Correlation Covariance Pearson Correlation Covariance Pearson Correlation Covariance Pearson Correlation Covariance Pearson Correlation Covariance Pearson Correlation Covariance Pearson Correlation Covariance S1 1 102,06 S2 0,828 189,62 1 513,59 S3 0,419 234,86 0,675 848,95 1 3077,58 S4 0,373 267,65 0,647 1041,78 0,822 3238,88 1 5040,44 S5 0,163 88,14 0,552 670,73 0,516 1536,90 0,739 2813,67 1 2879,47 S6 0,066 50,25 0,443 756,75 0,419 1748,67 0,514 2746,83 0,783 3163,75 1 5670,0 S7 0,013 10,83 0,267 500,00 0,181 830,83 0,178 1044,17 0,511 2268,33 0,876 5460,0 1 6850,00 Introdução - Exemplo 2: (cont.) Modelagem inicial: Estimativas das correlações e das variâncias e covariâncias S1 Macho Pearson Correlation Covariance S1 1 222,37 S2 ,872 359,74 S3 ,770 472,39 S4 ,668 654,04 S5 ,484 851,40 S6 ,367 731,35 S7 ,406 992,57 1 765,09 ,882 1003,11 ,681 1237,27 ,441 1437,62 ,359 1326,81 ,367 1666,29 1 1690,84 ,813 2194,93 ,618 2995,74 ,578 3175,77 ,523 3528,30 1 4309,81 ,797 6168,96 ,748 6559,96 ,681 7334,50 S2 Pearson Correlation Covariance S3 Pearson Correlation Covariance S4 Pearson Correlation Covariance S5 Pearson Correlation Covariance 1 ,923 ,875 13916,92 14555,32 16928,27 S6 Pearson Correlation Covariance 1 ,950 17867,93 20816,87 S7 Pearson Correlation Covariance 1 26876,02 Introdução - Exemplo 2: (cont.) Modelagem inicial: Ao não considerarmos dependência e/ou heterocedasticidade, podemos: 1 ter problemas nas estimativas dos parâmetros e, em particular, nas estimativas dos seus erros padrões; 2. ter problemas nas comparações/testes de hipóteses. Por exemplo, O ajuste de modelos introduzindo “diretamente” diferentes estruturas para a matriz de covariância pode exigir mais recursos/conhecimentos Introdução - Exemplo 2: (cont.) Modelagem inicial: Modelos Fixo e Misto Fixo: yikt = β0k + β1kTikt + β2kT2ikt + εikt , com εikt ~ NID(0, σ2) Misto: yikt = β0ik + β1kTikt + β2kT2ikt + εikt , com εikt ~ NID(0, σ2) e β0ik = β0k + u0k , com u0k ~ NID(0, σ20) e independente de εikt , induzindo uma medida de dependência entre as observações de um mesmo frango ao longo do tempo. Voltaremos ao exemplo mais tarde! Modelos Mistos Lineares e Não-Lineares: Introdução Exemplo 3: Estudo para avaliar o crescimento de árvores de eucalipto, medido pelo volume sólido com casca(m3/ha). As medidas de volume foram feitas aos 3, 4, 5 e 9 anos de idade das árvores. O estudo foi planejado segundo um experimento em quatro blocos completos com quatro tratamentos (duas espécies e dois espaçamentos). Fonte: Ogliari, P. J. and Andrade, D. F. (2001). Analysing longitudinal data via nonlinear models in randomized block designs. Computational Statistics & Data Analysis 36, 319- 332. Dados: Exemplo3.xls Introdução – Exemplo 3: (cont.) Modelagem inicial: Yikjt: volume(m3/ha) da unidade experimental i do tratamento k no bloco j no tempo t Yikjt = f(tratamento, tempo, bloco) + εikjt , com εikt ~ NID(0, σ2) Uma única curva de crescimento Gompertz sem efeito de bloco, Inclusão do efeito de blocos: fixo/aleatório, aditivo/multiplicativo Dependência entre observações ao longo do tempo Alguns resultados Voltaremos ao exemplo mais tarde! Introdução Exemplo 4: SARESP – Sistema de Avaliação do Rendimento Escolar do Estado de São Paulo (http://saresp.fde.sp.gov.br/2011) Dados: Exemplos1e4.xls Yij : Nível de proficiência do aluno i do 5º ano da escola j em Língua Portuguesa Yij = 1 se proficij ≥ 200 0 se proficij < 200 Yij ~ Bernoulli(πij) E(Yij) = πij e Var(Yij) = πij (1 - πij) Introdução - Exemplo 4: (cont.) Na prática são considerados até quatro níveis: Abaixo do básico: Profic < 150 Básico: 150 ≤ Profic < 200 Adequado: 200 ≤ Profic < 250 Superior: Profic ≥ 250 Como modelar ?? Yij = β0 + β1NSEij + β2Sexoij + εij , com εij ~ NID(0,σ2) Logito: Função de ligação Introdução - Exemplo 4: (cont.) Logito: Função de ligação Fazendo com que Interpretação dos parâmetros Introdução - Exemplo 4: (cont.) Inclusão de variáveis/efeitos de escola: Efeito fixo e efeito aleatório (modelo misto) com uj ~ NID(0 , σ2esc), fazendo com que Yij | πij ~ Bernoulli(πij) E(Yij | πij) = πij e Var(Yij | πij ) = πij (1 - πij) Logito(πij) ~ Normal e πij ~ logistica-normal Alguns resultados Voltaremos ao exemplo mais tarde! Introdução Exemplo 5: Estudo, em condições de laboratório, do efeito do milho transgênico MON810 nos parasitóides Trichogramma pretiosum Riley, 1879 e T. galloi Zucchi, 1988 em ovos de S. frugiperda provenientes de insetos sobreviventes das plantas modificadas. O interesse principal é determinar se existe diferença entre os parasitóides Trichogramma pretiosum, quando a praga Spodopera frugiperda foi alimentada com o milho convencional, milho transgênico e com os dois tipos de milho conjuntamente, em relação a porcentagem de ovos parasitados, porcentagem de ovos que apresentaram sinais de emergência, número de parasitóides adultos, a proporção de fêmeas dos parasitóides adultos e a longevidade. Introdução - Exemplo 5: (cont.) O estudo realizado é proveniente do delineamento inteiramente casualizado, sendo que cada tipo de milho (tratamento) tem 40 repetições, em cada repetição contém 40 ovos da praga Spodopera frugiperda. No primeiro projeto foram realizados 5 bioensaios, o primeiro contendo apenas dois tratamentos (milho transgênico e milho convencional) e os demais bioensaios contendo três tratamentos (milho transgênico, milho convencional e a mistura entre os dois milhos); no segundo projeto os ovos da praga Spodopera frugiperda foram submetidos aos tratamentos (milho transgênico, convencional e a mistura entre os dois tipos de milho) e analisados no quinto bioensaio. Fonte: Borgatto, A. F. Relatório de Análise Estatística. UFSC. Introdução - Exemplo 5: (cont.) Dados: Exemplo5.xls Yikj : Número de ovos com sinal de emergência na repetição i, tratamento k e bioensaio j Yikj ~ Bin(πikj) E(Yikj) = n ikj π ikj e Var(Yij) = n ikj π ikj (1 - π ikj ) Alguns resultados Voltaremos ao exemplo mais tarde! Introdução Exemplo 6: Estudo em blocos casualizados com quatro blocos, realizado no periodo de julho de 1997 a outubro de 1998 no Departamento de Fitotecnia da Esalq. O objetivo foi o de avaliar substratos que pudessem ser utilizados na substituição de xaxim no cultivo de bromélias (aechma fasciata) em vaso. Uma variável avaliada foi o número de folhas de oito plantas de Bromélias, em seis instantes no tempo que correspondem a 5, 173, 229, 285, 341 e 435 dias após o plantio. Os 15 substratos usados eram combinações de algum material, sempre na companhia de turfa e perlita, em diferentes proporções. Nesta análise serão considerados somente cinco substratos, a saber: Introdução - Exemplo 6: (cont.) Trat1: Substrato 1 – Casca de Pinus + turfa + perlita Trat2: Substrato 2 – Casca de Eucaliptos + turfa + perlita Trat3: Substrato 3 – Coxim + turfa + perlita Trat4: Substrato 4 – Fibra de coco + turfa + perlita Trat5: Substrato 5 – Xaxim + turfa + perlita Fonte: Araujo, A. M. S. (2006). Modelos não lineares para dados de contagem longitudinais. Tese de Doutorado. ESALQ/USP. Introdução - Exemplo 6: (cont.) Dados: Exemplo6.xls Yikjt : número de folhas de oito plantas de Bromélias no vaso i, tratamento k, bloco j e tempo t. Yikjt ~ Poisson(λkjt) E(Yikjt ) = Var(Yikjt ) = λkjt Voltaremos ao exemplo mais tarde!