1/39 Modelagem Estatística Associação e Correlação 2/39 Dados Categorizados Sexo: Masculino, Feminino Estação: Verão, Outono, Inverno, Primavera Calvície: Calvo, Não calvo Personalidade: Pessimista, Otimista Humor: Sorridente, Sério 3/39 Associação Um dos objetivos mais comuns em pesquisas com dados categorizados é verificar se duas ou mais variáveis apresentam-se associadas. A associação entre duas ou mais variáveis implica que o conhecimento de uma altera a probabilidade de algum resultado da outra. 4/39 Associação Por exemplo, se uma pessoa é calva, sabemos que, provavelmente, esta pessoa é um homem. Assim, as variáveis sexo e calvície encontram-se associadas. 5/39 Mulheres Sorriem Mais “Esta é a conclusão de um trabalho acadêmico de uma psicóloga de São Paulo. A constatação saiu da comparação de 623 fotografias coletadas junto a amigos e familiares da pesquisadora. Nas fotos, mulheres de diferentes faixas de idade apareciam sorrindo mais do que os homens...” Super Interessante, setembro de 1994. 6/39 Pessimismo Deixa Careca “Uma empresa japonesa de cosméticos constatou que homens pessimistas têm cabelos mais fracos e tendem a ficar carecas. Foram entrevistados 733 homens entre 15 e 59 anos de idade em Tóquio. Resultado: 51% dos que se consideravam pessimistas disseram que seus cabelos estavam ficando fracos, enquanto 47% dos otimistas percebiam algum sinal de calvície. Super Interessante, setembro de 1994. Associação e Relação Causal 7/39 O fato de duas variáveis estarem associadas não implica que uma delas seja a causa da outra. Pode existir outra(s) variável(is) influenciando as duas. 8/39 Teste Qui-quadrado Testa a significância da associação entre duas variáveis categorizadas. Exemplo: Personalidade X tendência à calvície. 9/39 Teste Qui-quadrado Hipóteses H o: Personalidade e calvície são variáveis independentes na população em estudo. H1: Existe associação entre as variáveis personalidade e calvície, na população em estudo. 10/39 Teste Qui-quadrado Dados: PersonaCalvície lidade Careca Cabeludo 155 175 Otimista 47% 53% 197 Pessimista 206 51% 49% 361 372 Total 49% 51% Total 330 100% 403 100% 733 100% 11/39 Teste Qui-quadrado Estatística do Teste: (Oij - Eij = Eij 2 i j )2 O - valores observados. E - valores esperados sob a hi- pótese de independência entre as variáveis. (total da linha i) (total da coluna j) Eij = (total geral) 12/39 Exemplo Valores esperados: PersonaCalvície lidade Careca Cabeludo 167,5 Otimista 162,5 49% 51% 204,5 Pessimista 198,5 49% 51% 361 372 Total 49% 51% Total 330 100% 403 100% 733 100% 13/39 Exemplo Contribuições do 2: PersonaCalvície lidade Careca Cabeludo 0,34 Otimista 0,35 0,28 Pessimista 0,28 2 = 0,35 + 0,34 + 0,28 + 0,28 = 1,25 14/39 Distribuição de Referência Distribuição qui-quadrado, com (l-1).(c-1) graus de liberdade, onde l é o número de linhas e c é o número de colunas. No exemplo, (2-1).(2-1) = 1 grau de liberdade. 15/39 Observações Teste válido se os valores esperados das caselas forem grandes (todos acima de 10). Coeficiente de Contingência de Pearson C = k.2 (k - 1).(n + 2) 16/39 k - menor valor entre o número de linhas (l) e o número de colunas (c) 0<C<1 Variáveis independentes Variáveis perfeitamente associadas 17/39 Exemplo Com os dados do exemplo apresentado: C = (2).( = 0,058 (1).(733 + ) 18/39 Correlação Análise do grau de relacionamento entre duas variáveis quantitativas. 19/39 Correlação: Exemplos Renda e consumo. Salário e produtividade de funcionários. Risco e rentabilidade de ações. Renda familiar e número de filhos. 20/39 Correlação: Exemplos Peso e altura de pessoas. Volume de produção e custos. Gastos com prevenção de defeitos e falhas nos produtos. 21/39 Exemplo Dados de 12 municípios de SC. Exemplo Variáveis observadas: – – – – – População do município, em 1000 habitantes. População urbana, em 1000 habitantes. % de população urbana. taxa de crescimento demográfico, em %. taxa de mortalidade infantil: coeficiente de mortalidade por 1000 nascidos vivos. – taxa de alfabetização, em %. 22/39 23/39 Exemplo m u n i- p o p u - p o p u l. % p o p . t a x a d e t a x a m o r t . t a x a d e c íp io la ç ã o u r b a n a u r b a n a c r e s c im . in f a n t il a lf a b e t . 1 2 3 4 5 6 7 8 9 10 11 12 101 193 42 304 42 152 55 105 68 219 129 42 94 181 39 292 32 126 36 77 25 186 116 33 93 94 94 96 76 83 66 73 37 85 90 78 3 ,1 9 4 ,6 0 2 ,7 8 6 ,4 6 1 ,9 9 1 ,8 9 2 ,9 2 5 ,3 2 2 ,7 1 3 ,1 1 3 ,1 1 1 ,2 1 37 27 38 25 67 63 41 13 28 17 32 32 85 90 85 87 75 78 81 75 84 87 85 77 24/39 Diagrama de Dispersão população urbana (x 1000) população residente x população urbana 300 200 100 0 0 100 200 300 população residente (x 1000) 400 25/39 Diagrama de Dispersão taxa de crescimento demográfico população residente x taxa de crescimento 8 6 4 2 0 0 100 200 300 400 população residente (x 1000) 26/39 Diagrama de Dispersão taxa de crescimento x taxa mortalidade infantil taxa de mortalidade infantil 80 60 40 20 0 0 2 4 6 8 taxa de crescimento demográfico 27/39 Diagrama de Dispersão taxa de mortalidade infantil % de pop. urbana x taxa de mortalidade infantil 80 60 40 20 0 30 50 70 90 % de população urbana 110 28/39 Diagrama de Dispersão taxa de alfabetização % de população urbana x taxa de alfabetização 90 85 80 75 70 30 40 50 60 70 80 % de população urbana 90 100 29/39 Correlação não Linear Y X Coeficiente de Correlação de Pearson 30/39 Descrição da correlação linear entre 2 variáveis quantitativas. Para a construção do coeficiente, primeiramente deve-se padronizar as duas variáveis (X e Y). 31/39 Coeficiente de Correlação de Pearson xX x' Sx yY y' Sy Com isso, a origem dos eixos é deslocada para o ponto médio (X, Y) e as unidades de medida são desconsideradas. 32/39 Coeficiente de Correlação de Pearson Y Y’ Y X’ X X 33/39 Coeficiente de Correlação de Pearson Sinal do produto (x’ y’) + Y’ + - X’ 34/39 Correlação Linear Positiva (x’ y’) > 0 Y’ X’ 35/39 Correlação Linear Negativa (x’ y’) < 0 Y’ X’ 36/39 Falta de Correlação Linear (x’ y’) = 0 Y’ X’ 37/39 Coeficiente de Correlação de Pearson r= (x’.y’) n-1 ou n.x.y) - (x).(y) r= n.x2) - (x)2 n.y2) - (y)2 38/39 Coeficiente de Correlação de Pearson -1 < r < 1 -1 correlação negativa perfeita 0 não existe correlação linear 1 correlação positiva perfeita 39/39 Teste de Significância sobre r Ho: As variáveis X e Y não são correlacionadas H1: As variáveis X e Y são correlacionadas Estatística do teste: r n 2 t 2 1 r Distribuição de referência: distribuição t de Student com (n - 2) graus de liberdade.