AULA: 13-16 Análise Bidimensional Prof. Víctor Hugo Lachos Dávila Introdução • Freqüentemente estamos interessados em analisar duas variáveis conjuntamente • P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros. • Quando consideramos duas variáveis, podemos ter 3 situações e as técnicas de análise são diferentes. a) as duas qualitativas (tabela de contingência) b) as duas quantitativas (gráficos de dispersão) c) uma qualitativa e outra quantitativa (tabela de contingência) • É possível quantificar a relação entre as variáveis em estudo 2 Variáveis Qualitativas • Analisamos o comportamento conjunto de X: grau de instrução e Y: região de procedência. Tabela 1:Tabela de freqüências absolutas das variáveis X e Y Y\X Capital Interior Outra Total Ensino Fundamental 4 3 5 12 Ensino Médio 5 7 6 18 Superior Total 2 11 2 12 2 13 6 36 Tabela de dupla entrada • Podemos construir tabelas de freqüências relativas. • Existe varias possibilidades de construção e depende do objetivo do problema. 3 Relativa ao total geral Tabela 1:Tabela de freqüências relativas ao total geral das variáveis X e Y Ensino Fundamental Ensino Médio Superior Total Capital 11% 14% 6% 31% Interior 8% 19% 6% 33% Outra 14% 17% 6% 36% Total 33% 50% 17% 100% Y\X • 11% dos empregados vêm da capital e tem ensino fundamental. • 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões. • 33% tem ensino fundamental. 4 Relativa ao total de colunas Tabela 1:Tabela de freqüências relativas ao total de coluna das variáveis X e Y Ensino Fundamental Ensino Médio Superior Total Capital 33% 28% 33% 31% Interior 25% 39% 33% 33% Outra 42% 33% 33% 36% Total 100% 100% 100% 100% Y\X • Entre os empregados com instrução até o ensino fundamental, 33% vêm da capital. • Entre os empregados com ensino médio, 28% vêm da capital. • Comparamos a distribuição da procedência conforme o grau de instrução. • De modo análogo, podemos construir a distribuição do grau de instrução conforme a procedência.!!! 5 Gráfico 1:Distribuição da região de procedência por grau de instrução 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Outra Interior Capital Ensino Fundamental Ensino Médio Superior Total 6 Associação entre variáveis qualitativas Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de economia e administração Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y) Y\X Economia Administração Total Masculino 85 (61%) 55 (39%) 140 (100%) Feminino 35 (58%) 25 (42%) 60 (100%) Total 120 (60%) 80 (40%) 200 (100%) • Independente do sexo 60% preferem economia e 40% preferem administração. • No sexo masculino essas proporções são 61% e 39% e no feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais) • Forte indicio de não haver dependência entre as variáveis sexo e curso (não associadas) 7 Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de Física e Ciências Sociais Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y) Y\X Física Ciências Sociais Total Masculino 100 (71%) 40 (29%) 140 (100%) Feminino 20 (33%) 40 (67%) 60 (100%) Total 120 (60%) 80 (40%) 200 (100%) • Independente do sexo 60% preferem economia e 40% preferem administração. • No sexo masculino essas proporções são 71% e 29% e no feminino 33 e 67%. Disparidade bem acentuada nas proporções •Forte indicio de haver dependência entre as variáveis sexo e curso (associadas) 8 Exemplo: Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Tabela 6:Cooperativas autorizadas a funcional por tipo e estado Estado São Paulo Paraná Rio G. do Sul Total Consumidor 214 (33%) 51(17%) 111 (18%) 376(24%) Tipo de Cooperativa Produtor Escola 237(37%) 78 (12%) 102(34%) 126(42%) 304(51%) 139(23%) 643 (42%) 343 (22%) Outras 119 (18%) 22 (7%) 48(8%) 189 (12%) Total 648(100%) 301(100%) 602(100%) 1551(100%) • Notamos que existe certa associação entre as variáveis. • Caso não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de escolas e 12% de outros tipos. • Assim, o número esperado de cooperativas de consumidores no estado de São Paulo seria 648*0.24=156 e no Paraná 301*0.24=72.... 9 Tabela 7:Valores esperados assumindo independência entre as variáveis tipo de cooperativa e fator regional Estado São Paulo Paraná Rio G. do Sul Total Consumidor 156 (24%) 72(24%) 144 (24%) 376(24%) Tipo de Cooperativa Produtor Escola 272(42%) 142 (22%) 127(42%) 66(22%) 254(42%) 132(22%) 643 (42%) 343 (22%) Outras 78 (12%) 36 (12%) 72(12%) 189 (12%) Total 648(100%) 301(100%) 602(100%) 1551(100%) • Notamos fortes discrepâncias entre os valores observados (O), e esperados (E) assumindo que as variáveis não fossem associadas. 2 • Uma medida de afastamento global pode ser dada pela soma de todas essas medidas. (Qui-quadrado de Pearson) 2 X2 . Um valor grande de exemplo acima temos: Colunas Filas (O i 1 j 1 ij Eij ) / Eij 2 indica associação entre as variáveis. No (214156) / 156 ... (48 72) / 72 173,24 2 2 2 10 Associação entre variáveis quantitativas • Quando as duas variáveis são quantitativas podemos usar o mesmo tipo de análise para variáveis qualitativas. (transformando as variáveis) • Uma ferramenta bastante útil é o gráfico de dispersão. • Exemplo: Tabela 8: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros Anos de Serviço (X) Número de Clientes (Y) 2 48 3 50 4 56 5 52 4 43 6 60 7 62 8 58 8 64 10 72 • Notamos que à medida que aumenta o tempo de serviço, aumenta o número de clientes, logo parece haver uma associação entre essas variáveis 11 Gráfico 2: Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes 80 Número de Cleintes 70 60 50 40 30 20 10 0 0 2 4 6 8 10 12 Anos de Serviço Gráfico 3: Tipos de associações entre duas variáveis 25 20 15 10 5 0 0 2 4 6 8 10 12 10 8 6 4 2 0 -2 0 -4 -6 -8 -10 -12 2 4 6 8 10 12 12 Coeficiente de correlação Nun conjunto de dados com n pares de valores para as variáveis Xe Y o coeficiente de correlação (r) que mede a dependência linear entre elas é calculado como: n rXY n ( x x )( y y ) i 1 i i n i i n [ ( xi xi ) ][ ( yi yi ) ] 2 i 1 2 i 1 ( x y nx y ) i 1 n i i i n [ xi nxi ][ ( y 2 i 1 i i 1 2 i nyi ] Propriedades • é sempre um número entre -1 e 1 • Correlação igual a zero não indica independência entre as variaveis • |r| próximo a 1, indica alta associação entre as variáveis • |r| próximo a 0, indica não associação entre as variáveis •|r| próximo a 0.5, indica associação moderada 13