SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO SUMÁRIO 1. INTRODUÇÃO................................................................................................................................................ 1 1.1. O QUE É A ANÁLISE MULTIVARIADA? ................................................................................................................ 1 1.2. FERRAMENTAS COMPUTACIONAIS ...................................................................................................................... 1 1.3. DEFINIÇÃO DE ANÁLISE MULTIVARIADA ............................................................................................................ 1 2. CONCEITOS BÁSICOS.................................................................................................................................. 2 2.1. COMBINAÇÃO LINEAR DE VARIÁVEIS (VARIATE) .................................................................................................. 2 2.2. ESCALAS DE MEDIDA......................................................................................................................................... 3 2.2.1. Escalas qualitativas.................................................................................................................................. 3 2.2.2. Escalas quantitativas................................................................................................................................ 4 2.3. ERROS DE MEDIDA E MEDIDA MULTIVARIADA .................................................................................................... 5 2.4. SIGNIFICÂNCIA ESTATÍSTICA VERSUS PODER ESTATÍSTICO .................................................................................. 6 3. TIPOS DE TÉCNICAS MULTIVARIADAS .................................................................................................. 8 3.1. TÉCNICAS DO TIPO REGRESSÃO .......................................................................................................................... 8 3.1.1. Regressão Múltipla................................................................................................................................... 8 3.1.2. Análise discriminante ............................................................................................................................... 8 3.1.3. Análise de variância multivariada............................................................................................................. 9 3.1.4. Correlação canônica ................................................................................................................................ 9 3.1.5. Modelos lineares de probabilidade (logit)................................................................................................. 9 3.1.6. Análise conjunta......................................................................................................................................10 3.1.7. Modelagem por equações estruturais .......................................................................................................10 3.2. TÉCNICAS DO TIPO CORRELAÇÃO ......................................................................................................................11 3.2.1. Análise de fatores ....................................................................................................................................11 3.2.2. Análise de conglomerados .......................................................................................................................12 3.2.3. Escalonamento multidimensional.............................................................................................................12 3.2.4. Análise de correspondência .....................................................................................................................12 4. CLASSIFICAÇÃO DAS TÉCNICAS MULTIVARIADAS...........................................................................13 4.1. TÉCNICAS DEPENDENTES ..................................................................................................................................14 4.2. TÉCNICAS INTERDEPENDENTES .........................................................................................................................17 5. ANÁLISE MULTIVARIADA: INTERPRETAÇÃO .....................................................................................17 5.1. ESTABELECER SIGNIFICÂNCIA PRÁTICA E ESTATÍSTICA ......................................................................................17 5.2 O TAMANHO DA AMOSTRA AFETA TODOS OS RESULTADOS ..................................................................................17 5.3. CONHEÇA OS DADOS ........................................................................................................................................18 5.4. MANTENHA UM MODELO SIMPLES.....................................................................................................................18 5.5. TOME CUIDADO COM OS ERROS.........................................................................................................................18 6. CONCLUSÃO.................................................................................................................................................19 7. REFERÊNCIAS..............................................................................................................................................20 Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 1 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 1. INTRODUÇÃO 1.1. O QUE É A ANÁLISE MULTIVARIADA? Técnicas analíticas multivariadas estão sendo largamente aplicadas hoje na indústria, no governo e nos centros de pesquisas das universidades. Hoje já não faz mais sentido seguir o que a pouco tempo ainda era comum, considerar os consumidores como um grupo homogêneo e caracterizado por um pequeno grupo de variáveis demográficas. Ao contrário, é necessário desenvolver estratégias que atinjam grupos variados de consumidores com características demográficas e psicográficas em um mercado com múltiplas restrições (legais, econômicas, competitivas, tecnológicas, etc.). É somente através de técnicas multivariadas que as múltiplas relações destes tipos podem ser adequadamente examinadas para se obter um entendimento completo e realista da tomada de decisão. 1.2. FERRAMENTAS COMPUTACIONAIS Todas as técnicas multivariadas foram desenvolvidas antes do aparecimento dos computadores. No entanto, foi só após a utilização dos computadores que estas técnicas começaram a ser conhecidas e usadas por não especialistas. Hoje existe uma quantidade razoável de programas computacionais que permitem a utilização de técnicas multivariadas. Os antigos programas desenvolvidos para mainframes (grandes computadores), agora com versões em micros, como o SPSS, SAS e BMDP e os novos programas especializados. Por exemplo, para a redução multidimensional tem-se o ASCAL, INDSCAL, KYST e PREFMAP. Para equações estruturais ou simultâneas o LISREL e o EQS e para análise conjunta o ACA, o CVA e CBC. 1.3. DEFINIÇÃO DE ANÁLISE MULTIVARIADA A análise multivariada de uma forma bem geral refere-se a todos os métodos estatísticos que analisam simultaneamente múltiplas medidas em cada indivíduo ou objeto sob investigação. Qualquer análise simultânea de mais de duas variáveis pode ser, de certo modo, considerado como análise multivariada. Muitas técnicas multivariadas são simplesmente extensões de análises univariadas (análise da distribuição de uma única variável) e análise bivariada (classificação cruzada, correlação, análise de variância e regressão simples). Por exemplo, a regressão simples (com uma variável preditiva) é estendida para o caso multivariado para incluir várias variáveis preditivas. Da mesma Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 1 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO forma, a única variável dependente encontrada na análise de variância é estendida para incluir múltiplas variáveis dependentes na análise de variância multivariada. Em muitos casos, como poderá ser visto, a análise multivariada é um meio de realizar em uma única análise aquilo que exigiria múltiplas análises no caso univariado. Outras técnicas multivariadas, no entanto, foram projetadas para lidar somente com casos multivariados, tal como a análise de fatores, que visa identificar a estrutura subjacente de um grupo de variáveis ou a análise discriminante, para diferenciar entre grupos baseados em um conjunto de variáveis. Uma das razões para a dificuldade de se definir a análise multivariada é que o termo multivariado não é utilizado de forma consistente na literatura. Para alguns pesquisadores, multivariado significa simplesmente examinar o relacionamento entre duas ou mais variáveis. Outros usam o termo somente para problemas onde todas as variáveis assumem por hipótese uma distribuição multivariada. Para ser considerado verdadeiramente multivariada, no entanto, todas as variáveis devem ser aleatórias e interrelacionadas de tal forma que seus diferentes efeitos não podem ser interpretados de maneira significativa separadamente. Outros autores declaram que o propósito da análise multivariada é medir, explicar e predizer o grau de relacionamento entre variates (combinação linear de variáveis). Desta forma, a característica multivariada repousa nas múltiplas combinações de variáveis (variates) e não somente sobre o número de variáveis ou observações. 2 . CONCE ITOS B ÁSICOS 2.1. COMBINAÇÃO LINEAR DE VARIÁVEIS (VARIATE) A análise multivariada tem suas raízes na análise univariada e bivariada e a extensão para o domínio multivariado introduz conceitos adicionais e questões que são particularmente relevantes. Estes conceitos vão desde o entendimento conceitual do bloco estrutural básico da análise multivariada - as variates - até questões específicas que lidam com o tipo de escala de medida utilizada e as questões estatísticas da significância dos testes e intervalos. Cada conceito desempenha um papel importante na aplicação bem sucedida de qualquer técnica multivariada. A variate Como já mencionado, o bloco básico da construção da análise multivariada é a combinação linear de variáveis com pesos empiricamente determinados, ou simplesmente denominada de variate. As variáveis são especificadas pelo pesquisador ou analista enquanto que os pesos são determinados pelo objetivo específico das técnicas multivariadas. Uma variate de n variáveis ponderadas (X1 até Xn) pode ser escrita da seguinte forma: Valor da variate = w1X1 + w2X2 + ... + wnXn, Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 2 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO onde Xi é a variável observada e wi é o peso obtido pela técnica multivariada. O resultado é um único valor representando a combinação de todo o conjunto de variáveis que melhor atinge o objetivo da técnica multivariada específica. Na regressão múltipla, o resultado (variate) é determinado de forma que melhor se correlacione com a variável sendo prevista (predicted). Na análise discriminante o resultado (variate) é formado de forma a criar escores para cada variável que produzam a máxima diferença entre grupos de observações. E na análise de fatores o resultado (variate) é formado para melhor representar a estrutura subjacente ou dimensionalidade das variáveis como as representadas pelas suas intercorrelações. Em cada instância, o resultado (variate) captura o caráter multivariado da análise. Assim , na discussão de cada técnica, o resultado (variate) é o ponto central da análise em muitos aspectos. Nós devemos entender não apenas o impacto coletivo em satisfazer os objetivos da técnica mas também a contribuição de cada variável sobre o efeito global no resultado (variate). 2.2. ESCALAS DE MEDIDA A análise de dados envolve a partição, identificação e medição das variações em um conjunto de variáveis, tanto entre elas ou entre a variável dependente e uma ou mais variáveis independentes. A palavra chave é medição, porque o pesquisador não pode identificar uma variação a menos que ela seja capaz de ser medida. A medida é importante para representar de forma acurada o conceito de interesse e seu instrumental na seleção do método de análise multivariada apropriado. Existem dois tipos básicos de dados: qualitativos (não-métricos) e quantitativos (métricos). Dados qualitativos são atributos, características ou categorias que identificam ou descrevem um conteúdo. Eles descrevem a diferença entre tipos e elementos indicando a presença ou ausência de uma característica ou propriedade. Muitas propriedades são discretas no sentido de que se algo tem uma determinada característica então todas as outras estão excluídas. Por exemplo, se alguém é homem então não pode ser mulher. Não existe quantidade de gênero, mas apenas o estado de ser homem ou mulher. Em contraste as escalas métricas são feitas de modo que os conteúdos podem ser identificados como diferindo em quantidade ou grau. Variáveis medidas metricamente refletem quantidades relativas de grau ou distância. Onde se puder fazer declarações de quantidade ou magnitude, tal como o nível de satisfação ou comprometimento com um trabalho, medidas métricas são apropriadas. 2.2.1. ESCALAS QUALITATIVAS Medidas não-métricas podem ser feitas tanto com uma escala nominal quanto com uma ordinal. Uma medida com escala nominal atribui valores com o objetivo de rotular ou identificar os Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 3 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO objetos. Escalas nominais, também conhecidas como escalas categóricas, fornecem o número de ocorrências (freqüências) em cada classe ou categoria da variável sendo estudada. Os símbolos ou números atribuídos a cada categoria não tem um significado quantitativo além o de indicar a presença ou ausência do atributo ou característica sob investigação. Exemplos de escalas nominais são: sexo, religião, preferência política, estado civil, etc. A escala ordinal é o nível seguinte das escalas de medidas. Variáveis podem ser ordenadas através de escalas ordinais com respeito a quantidade do atributo que possuem. Cada subcategoria pode ser comparada com outra em termos das relações "maior que" ou "menos que". Por exemplo níveis diferentes de satisfação do consumidor com alguns produtos novos podem ser ilustrados por uma escala ordinal. Produto A Produto B Produto C Muito satisfeito Não satisfeito Os números utilizados na escala ordinal são não quantitativos, porque eles indicam somente a sua posição relativa numa série ordenada. Não existe uma medida de quanta satisfação o consumidor recebe em termos absolutos e nem o pesquisador sabe a diferença exata entre dois pontos na escala de satisfação. Muitas escalas nas ciências humanas estão enquadradas neste grupo. 2.2.2. ESCALAS QUANTITATIVAS As escalas métricas incluem a de intervalo e a de razão. Estas escalas permitem uma medida real do atributo sendo mensurado e praticamente todas as operações matemáticas podem ser aplicadas. Estas escalas possuem unidades constantes de medida de modo que as diferenças entre duas categorias são idênticas. A única diferença real entre uma escala de intervalo e uma escala de razão é que as de intervalo possuem um zero arbitrário enquanto que as de razão possuem um ponto zero absoluto. As escalas de intervalo mais conhecidas são as que medem a temperatura como a Celsius e a Fahrenheit. Ambas possuem um ponto zero arbitrário, isto é, não significando uma quantidade zero de temperatura ou ausência completa de temperatura. Da mesma forma não é possível afirmar que um certo valor num escala de intervalo é múltiplo de algum outro na escala. Por exemplo, uma temperatura de 80F numa escala diferente não é o dobro da temperatura de 40F porque 80F na escala Celsius é 26,7C. Do mesmo modo o valor 40F na escala Celsius é 4,4C. Embora 80 seja o dobro de 40, não se pode afirmar que o calor de 80F é o dobro do calor de 40F, porque usando uma escala diferente o calor medido não é o dobro, isto é, 2. 4,4C ≠ 8,8C. Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 4 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO A escala de razão é o mais alto nível de medida possível, porque ela apresenta as vantagens das demais escalas mais um zero absoluto. Todas as operações matemáticas são permitidas com este tipo de escala. O peso, por exemplo, é medido por uma escala deste tipo. Quando se diz que alguma coisa pesa 10 kg, isto significa exatamente o dobro de algo que pesa 5kg, não importando se for expresso em kg ou outra unidade qualquer. Aqui um peso zero significa ausência total da característica, isto é, peso. Entender os diferentes tipos de escala de medida é importante por duas razões. Primeiro é necessário identificar a escala de medida usada para cada variável para que dados métricos não sejam usados incorretamente como se fossem não-métricos e vice-versa. Segundo, a escala de medida é um fator crítico na determinação do tipo de técnica multivariada que será mais apropriada para os dados levando em consideração as variáveis dependentes e independentes. 2.3. ERROS DE MEDIDA E MEDIDA MULTIVARIADA O uso de múltiplas variáveis e a confiança na sua combinação (a variate) em técnicas multivariadas também chama a atenção para um assunto complementar: o erro de medida. O erro de medida é o grau com que a o valor observado não é representativo dos valores verdadeiros. Erros de medida podem vir de várias fontes, variando de digitação errada (erro nos dados de entrada) até a imprecisão da medida em si. Por exemplo, utilizar uma escala de 7 níveis para medir a satisfação do consumidor quando os mesmos só podem responder com precisão a apenas três. A renda familiar pode ser razoavelmente medida mas raramente é totalmente precisa. Desta forma toda variável utilizada em técnicas multivariadas deve ser assumida como possuindo algum grau de erro de medida. O impacto do erro de medida é adicionar "ruído" às variáveis observadas ou medidas. Desta forma, o valor observado representa tanto o "verdadeiro" valor quanto o "ruído". Quando usado para calcular correlações ou médias, o "verdadeiro" efeito é parcialmente mascarado pelo erro de medida, fazendo com que a correlação seja mais fraca e a média menos precisa. O objetivo de reduzir o erro de medida pode ser alcançado de várias formas. Ao tratar o grau de erro de medida presente em qualquer medida o analista pode tanto tratar da validade quanto da confiabilidade. A validade é o grau com que a medida acuradamente representa aquilo que ela se propõe a representar. Assegurar a validade começa com o entendimento correto do que deve ser medido e então com a determinação da medida tão corretamente e acuradamente quanto possível. No entanto acurácia não assegura validade. Supondo que a medida é válida, isto é, representa aquilo que se propõe a medir, existem ainda considerações sobre a confiabilidade da medida. Confiabilidade é o grau com o qual a variável Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 5 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO considerada mede o verdadeiro valor e está livre de erros. Se a mesma medida, por exemplo, é feita várias vezes, medidas confiáveis mostrarão uma consistência mais alta do que medidas menos confiáveis. Um outro procedimento a ser seguido é desenvolver medidas multivariadas, também conhecidas como escalas somadas, onde várias variáveis são agrupadas para representar uma variável composta (por exemplo, escalas de personalidade de itens múltiplos ou classe de um produto). O objetivo é evitar o uso de uma única variável para representar um conceito e ao invés usa-se várias variáveis como indicadores, todas representando diferentes facetas do conceito para obter uma perspectiva mais global. O uso de múltiplos indicadores permite ao pesquisador especificar mais precisamente as respostas desejadas e não colocar total confiança em uma única resposta mas ao invés numa resposta média ou típica de um conjunto relacionado de respostas. A idéia é que respostas múltiplas refletem de forma mais acurada a verdadeira resposta do que uma única. O impacto de erros de medida e uma confiabilidade pobre não podem ser vistos diretamente pois eles estão embutidos nas variáveis observadas. Resultados ruins nem sempre são devidos a erros de medida, mas a presença de erros de medida seguramente distorcerá o relacionamento observado e tornará a técnica multivariada menos poderosa. 2.4. SIGNIFICÂNCIA ESTATÍSTICA VERSUS PODER ESTATÍSTICO Todas as técnicas multivariadas exceto a análise de conglomerados e a redução multidimensional (multidimensional scaling) são baseadas em inferências de valores populacionais ou no relacionamento entre variáveis de uma amostra extraídas ao acaso de uma população. Se fosse feito o censo então a inferência seria desnecessária, porque qualquer diferença ou relacionamento, mesmo que pequeno, é verdadeiro e existe. Mas o censo é raramente feito, então, normalmente se é obrigado a trabalhar com amostras. Interpretar inferências estatísticas requer que o pesquisador especifique os níveis aceitáveis de erro. A abordagem mais comum é especificar o Erro do Tipo I, cuja probabilidade é representada por α (alfa). O erro do Tipo I consiste em rejeitar a hipótese nula quando ela é verdadeira, isto é, quando ela não deveria ser rejeitada. Em outras palavras ele consiste em afirmarmos que os resultados são significativos, no caso, estatisticamente significativos quando, de fato, eles não são. O erro do tipo I é apenas um dos dois tipos de erros possíveis. O erro do tipo I pode ser cometido quando rejeitamos a hipótese nula. No entanto, rejeitar a hipótese é apenas uma das duas decisões possíveis. Se a hipótese nula for aceita então é possível se cometer o Erro do Tipo II, isto é, aceitar a hipótese quando ela não Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 6 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO deveria ser aceita. A probabilidade de se cometer o erro do tipo II é representada por β (beta). No entanto, uma probabilidade mais interessante é 1- β, que é a probabilidade de tomar uma decisão correta, isto é, é a probabilidade de se rejeitar a hipótese nula quando ela é falsa. Esta probabilidade é denominada de poder do teste. Os erros do tipo I e II variam inversamente, isto é, quando a probabilidade de se cometer erro do tipo I é diminuída a probabilidade de se cometer erro do tipo II é aumentada. Reduzir o erro do tipo I, reduz também o poder do teste estatístico. Desta forma é necessário fazer um balanço entre o nível de significância (α) e o poder resultante. O poder não é apenas uma função de α, ele é, na realidade, uma resultante de três fatores: 1. Tamanho do efeito. A probabilidade de se obter significância estatística é baseada não somente em considerações estatísticas, mas também na real magnitude do efeito de interesse sendo estudado (por exemplo, a diferença de médias entre dois grupos ou a correlação entre variáveis) na população, denominado de tamanho do efeito. Como seria esperado, um efeito grande é mais provável de ser detectado do que um pequeno e deste forma influenciam no poder do teste. Para avaliar o poder de qualquer teste estatístico o pesquisador deve primeiramente entender o efeito sendo estudado. O tamanho do efeito é definido em termos de desvios padrões para facilitar comparações. Diferenças de médias são estabelecidas em termos de desvios padrões, de modo que um efeito de 0,50 indica que a diferença média é de meio desvio padrão. Para correlações o tamanho do efeito é baseado na correlação real entre as variáveis. 2. Alfa. Como já foi discutido à medida que a probabilidade de se cometer erro do tipo I (alfa) diminui o poder do teste também decresce. Isto significa que se o analista reduz a chance de encontrar um efeito incorreto significativo, a probabilidade de encontrar corretamente o efeito também diminui. Normalmente os níveis utilizados para a significância ficam em 5% e 1%, mas o analista deve considerar o impacto desta decisão no poder do teste antes de tomar uma decisão definitiva. 3. Tamanho da amostra. A um dado nível alfa, aumentar o tamanho da amostra sempre produz aumento no poder do teste. Mas aumentar o tamanho da amostra pode também produzir "muito poder". Isto quer dizer que aumentando o tamanho da amostra efeitos cada vez menores serão detectados como estatisticamente significativos até que para uma amostra muito grande quase todo efeito será significativo. O analista deve estar sempre ciente que o tamanho da amostra pode afetar o teste estatístico tanto tornando-o insensível (para pequenos tamanhos de amostra) ou então extremamente sensível (para amostras realmente grandes). Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 7 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 3 . T I P O S D E T É C N I C A S M U LT I VA R I A D A S A análise multivariada é um conjunto de técnicas de análise de dados sempre em expansão. A seguir estão tabeladas as mais bem estabelecidas. Elas foram divididas em duas categorias: as do tipo regressão e as do tipo correlação. 3.1. TÉCNICAS DO TIPO REGRESSÃO As técnicas do tipo regressão envolvem a separação das variáveis em dois subgrupos. As variáveis dependentes ou explicadas e as variáveis independentes ou explicativas. 3.1.1. REGRESSÃO MÚLTIPLA A regressão múltipla é o método de análise apropriado quando o problema envolve uma única variável (métrica) dependente que se presume estar relacionada com uma ou mais (também métricas) variáveis independentes. O objetivo da análise de regressão é prever as mudanças na variável dependente em resposta às mudanças que ocorrem nas várias variáveis independentes. Este objetivo é quase sempre alcançado através do método dos mínimos quadrados. Sempre que um analista estiver interessado em prever a quantidade ou magnitude da variável dependente a regressão múltipla será útil. Por exemplo: despesas mensais com jantares fora de casa podem ser previstas com informações obtidas das variáveis renda familiar, tamanho da família e a idade do líder da família. Da mesma forma é possível prever as vendas mensais de uma companhia com base nas informações de gastos com propaganda, o número de vendedores e o número de pontos de venda de seus produtos. 3.1.2. ANÁLISE DISCRIMINANTE Se a única variável dependente for dicotômica (por exemplo: homem-mulher) ou categórica (por exemplo: alto, médio, baixo) e desta forma qualitativa, a técnica multivariada apropriada é a análise discriminante. Assim como na regressão múltipla as variáveis independentes são por hipótese quantitativas. A análise discriminante é útil em situações onde a amostra total pode ser dividida em grupos baseados na variável dependente caracterizando várias classes conhecidas. O principal objetivo da análise discriminante é entender diferenças entre grupos e prever a probabilidade de que uma entidade (indivíduo ou objeto) pertença a uma classe em particular ou grupo baseado nas várias variáveis independentes. Por exemplo, a análise discriminante pode ser usada para diferenciar inovadores de não-inovadores de acordo com seus perfis demográficos e psicográficos. Uma outra aplicação inclui distinguir grande consumidores de pequenos consumidores de um determinado Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 8 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO produto, homens de mulheres e créditos bons de créditos ruins, etc. Até a receita federal americana utiliza a análise discriminante para comparar o pagamento de impostos de renda de locais selecionados com um contribuinte hipotético e para identificar os retornos mais promissores e as áreas de auditoria. 3.1.3. ANÁLISE DE VARIÂNCIA MULTIVARIADA Análise de variância multivariada ou MANOVA (Multivariate Analysis of Variance) é uma técnica estatística que pode ser utilizada para explorar simultaneamente o relacionamento entre várias variáveis categóricas independentes (normalmente referenciadas como tratamentos) e duas ou mais variáveis dependentes métricas. Como tal ela representa uma extensão da análise de variância univariada ou ANOVA (Analysis of Variance). A análise multivariada de covariância ou MANCOVA (Multivariate Analysis of Covariance) também pode ser usada em conjunto com a MANOVA para remover, após o experimento, o efeito de qualquer variável independente não controlável sobre as variáveis dependentes. O procedimento é semelhante ao usado na avaliação do coeficiente de correlação parcial bivariado. A MANOVA é útil quando o pesquisador projeta uma situação experimental (manipulação de várias variáveis não-métricas ou tratamentos) para testar hipóteses com respeito a variância em grupos de resposta em duas ou mais variáveis dependentes métricas. 3.1.4. CORRELAÇÃO CANÔNICA Análise canônica de correlação pode ser vista como uma extensão lógica da análise de regressão múltipla. Lembre-se que análise de regressão múltipla envolve uma única variável dependente métrica e várias variáveis independentes também métricas. Na correlação canônica o objetivo é correlacionar simultaneamente várias variáveis dependentes métricas com várias variáveis independentes também métricas. Enquanto a regressão múltipla envolve uma única variável dependente, a correlação canônica envolve múltiplas variáveis dependentes. O princípio subjacente é desenvolver uma combinação linear de cada conjunto de variáveis (tanto dependentes quanto independentes) para maximizar a correlação entre os dois conjuntos. Em outras palavras, o procedimento envolve obter um conjunto de pesos para as variáveis dependentes e independentes que forneçam a correlação simples máxima entre o conjunto das variáveis dependentes e as independentes. 3.1.5. MODELOS LINEARES DE PROBABILIDADE (LOGIT) A técnica do modelo linear de probabilidade também conhecida como análise de logit é uma combinação de regressão múltipla e análise discriminante múltipla. Ela é semelhante a análise de regressão múltipla no sentido de que uma ou mais variáveis independentes são utilizadas para prever Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 9 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO uma única variável dependente. O que distingue o modelo linear de probabilidade da regressão múltipla é que a variável dependente é não-métrica como na análise discriminante. A escala nãométrica da variável dependente requer uma abordagem diferenciada na estimação e nas hipóteses sobre a distribuição subjacente, mas em muitas outras características é semelhante à regressão múltipla. Desta forma, uma vez que a variável dependente seja corretamente especificada e a técnica de estimação apropriada seja empregada, os fatores básicos considerados na regressão múltipla serão utilizadas aqui da mesma forma. O modelo linear de probabilidade se diferencia da análise discriminante primeiramente porque ele acomoda qualquer tipo de variável independente (tanto métricas quanto não-métricas) e não necessita da hipótese de normalidade multivariada. No entanto, em muitas situações, particularmente com mais de dois níveis na variável dependente a análise discriminante é uma técnica mais apropriada. 3.1.6. ANÁLISE CONJUNTA A análise conjunta é uma técnica dependente emergente que criou novas formas de avaliação de objetos, tanto se forem produtos quanto se forem serviços ou idéias. A aplicação mais direta é no desenvolvimento de novos produtos e serviços, permitindo a avaliação de produtos complexos enquanto mantém um contexto realístico de decisão para o respondente. O analista de marketing é capaz de avaliar a importância dos atributos bem como dos níveis de cada atributo enquanto que os consumidores avaliam somente uns poucos perfis de produtos, que são combinações de níveis de produtos. Por exemplo, suponha um conceito de produto com três atributos (preço, qualidade e cor), cada um com três possíveis níveis (por exemplo, vermelho, amarelo e azul). Ao invés de precisar avaliar todas as 27 (3.3.3) possíveis combinações, um subconjunto (9 ou mais) pode ser avaliado pela sua atratividade para o consumidor e o analista sabe, não somente quão importante é cada atributo, mas também a importância de cada nível (a atração do vermelho versus amarelo versus azul). Além disso, quando a avaliação do consumidor é completada, os resultados da análise conjunta podem também ser usados em simuladores de projetos de produtos, que mostram a aceitação do consumidor para qualquer número de produtos formulados e ajudam no projeto do produto ótimo. 3.1.7. MODELAGEM POR EQUAÇÕES ESTRUTURAIS A modelagem por equações estruturais muitas vezes denominada LISREL (que é o nome de um dos pacotes de software mais populares), é uma técnica que permite separar relacionamentos para cada um dos conjuntos de variáveis dependentes. Em termos simples, a técnica fornece um método de Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 10 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO estimação apropriado e eficiente para uma série de equações de regressões múltiplas separadas serem estimadas simultaneamente. Ela é caracterizada por duas componentes básicas: (1) O modelo estrutural e (2) O modelo de medida. O modelo estrutural é o caminho que relaciona as variáveis dependentes e independentes. Em tais situações, teoria, experiência prévia e outros indicativos permitem que o analista distingue que variável independente estima que variável dependente. Os modelos vistos anteriormente que acomodam múltiplas variáveis dependentes (análise de variância multivariada e correlação canônica) não são apropriados nesta situação porque eles permitem uma única relação entre as variáveis dependentes e independentes. O modelo de medida permite que o analista uso várias variáveis (indicadores) para uma única variável dependente ou independente. Por exemplo, a variável dependente poderá ser um conceito representado por uma escala agregada tal como auto-estima. No modelo de medida o analista pode avaliar a contribuição de cada item da escala bem como incorporar quão bem a escala mede o conceito (confiabilidade) na estimação do relacionamento entre as variáveis dependentes e independentes. Este procedimento é semelhante a executar a análise de fatores dos itens da escala e usar os escores dos fatores na regressão. 3.2. TÉCNICAS DO TIPO CORRELAÇÃO As técnicas discutidas acima estão centradas em métodos multivariados aplicados a dados que contém tanto variáveis dependentes quanto independentes. No entanto, se o pesquisador esta investigando as interpelações e desta forma a interdependência entre todas as variáveis, sem se preocupar se as variáveis são dependentes ou independentes então, várias outras técnicas multivariadas são apropriadas. Estas técnicas incluem: análise de fatores, de conglomerados, escalonamento multidimensional e análise de correspondência. 3.2.1. ANÁLISE DE FATORES Análise de fatores, incluindo as variações tais como a análise de componentes e a análise de fatores comuns é uma abordagem estatística que pode ser utilizada para analisar interpelações entre um grande grupo de variáveis e para explicar estas variáveis em termos de fatores subjacentes comuns. O objetivo é encontrar uma forma de condensar a informação contida em um determinado número de variáveis originais em um conjunto menor de variates (fatores) com perda mínima de informação. Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 11 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 3.2.2. ANÁLISE DE CONGLOMERADOS A análise de conglomerados é uma técnica analítica para encontrar subgrupos significativos de indivíduos ou objetos. Especificamente, o objetivo é classificar uma amostra de entidades (indivíduos ou objetos) em um número pequeno de grupos mutuamente exclusivos. Na análise de conglomerados, diferentemente da análise discriminante, os grupos não são pré-definidos. Ao invés a técnica é usada para identificar os grupos. A análise de conglomerados normalmente envolve dois passos. O primeiro é a medida de alguma forma de semelhança ou associação entre as entidades para determinar quantos grupos existem, realmente, na amostra. O segundo passo é traçar o perfil das pessoas ou variáveis de modo a determinar sua composição. Este passo pode ser acompanhado da aplicação da análise discriminante aos grupos identificados pela técnica de conglomerados. 3.2.3. ESCALONAMENTO MULTIDIMENSIONAL Na redução multidimensional o objetivo é transformar julgamentos de semelhança ou preferência (por exemplo, preferência por lojas ou marcas) em distâncias representadas no espaço multidimensional. Se objetos A e B são julgados por respondentes como sendo os mais semelhantes comparados com todos os demais pares de objetos, a técnica posicionará os objetos A e B de forma que a distância entre eles no espaço multidimensional seja menor do que a distância entre quaisquer outros pares de objetos. O mapa perceptivo resultante mostra a posição relativa de todos os objetos, mas análises adicionais serão necessárias para descobrir que atributos foram usados para estabelecer a posição de cada objeto. 3.2.4. ANÁLISE DE CORRESPONDÊNCIA A análise de correspondência é uma técnica interdependente recentemente desenvolvida para facilitar tanto a redução dimensional da posição em uma escala (por exemplo, produtos, pessoas, etc.) em um conjunto de atributos quanto o mapa perceptível destes objetos relativos a estes atributos. Os analistas estão constantemente enfrentando o problema de "quantificar" os dados qualitativos encontrados em variáveis nominais. A análise de correspondência difere de outras técnicas interdependentes discutidas anteriormente na habilidade para acomodar tanto dados não-métricos quanto relacionamentos não-lineares. Em sua forma básica a análise de correspondência emprega uma tabela de contingência, que é a tabulação cruzada de duas variáveis categóricas. Ela então transforma os dados não-métricos a um nível métrico e executa a redução dimensional (semelhante a análise de fatores) e o mapa perceptível Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 12 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO (semelhante a análise multidimensional). Como um exemplo, a preferência de consumidores por marcas pode ser posta em cruzamento com variáveis demográficas (raça, renda, ocupação) pela indicação de quantas pessoas preferindo cada marca podem ser classificadas em cada categoria na variável demográfica. Através da análise de correspondência, a associação ou "correspondência" de marcas e as características distinguindo os que preferem cada marca são mostradas em um mapa de duas ou três dimensões tanto das marcas quanto das características dos respondentes. Marcas percebidas como semelhantes são colocadas próximas umas das outras. Da mesma forma, a principal característica dos respondentes na preferência de cada marca é dada pela proximidade da categoria da variável demográfica da posição da marca. A análise de correspondência fornece uma representação multivariada da interdependência para dados não-métricos que não seria possível com outras técnicas. 4 . C L A S S I F I C A Ç Ã O D A S T É C N I C A S M U LT I VA R I A D A S Para poder se familiarizar com as técnicas multivariadas específicas é apresentado na figura 4.1 uma classificação dos métodos multivariados. Esta classificação é baseado em três julgamentos que se deve fazer sobre os objetivos da análise e a natureza dos dados: (1) As variáveis podem ser classificadas em independentes e dependentes de acordo com algum critério? (2) Se sim, quantas são tratadas como dependentes em uma única análise? (3) Qual a escala de medida utilizada para avaliar as variáveis? A técnica multivariada selecionada depende das respostas a estas 3 questões. Quando uma técnica multivariada for considerada, a primeira pergunta a ser formulada é: os dados podem ser divididos em classificações dependentes e independentes? A resposta a esta questão indica se uma técnica dependente ou interdependente deve ser utilizada. Observe que na figura 4.1 as técnicas dependentes estão de um lado e as independentes de outro. Uma técnica dependente pode ser definida como aquela em que uma variável ou um conjunto de variáveis são identificadas como variáveis dependentes para serem previstas ou explicadas por outra ou outro conjunto de variáveis conhecidas como independentes. Um exemplo de uma destas técnicas é a análise múltipla de regressão. Em contraste, uma técnica interdependente é aquela em que uma única variável ou um grupo de variáveis são definidas como sendo dependentes ou independentes. Além disso, o procedimento envolve a análise de todas as variáveis no conjunto simultaneamente. A análise de fatores é uma técnica de interdependência. Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 13 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 4.1. TÉCNICAS DEPENDENTES Os diferentes métodos que constituem a análise de dependência podem ser categorizadas por duas coisas: (1) o número de variáveis dependentes e (2) o tipo de escala de medida empregado para medir as variáveis. Com respeito ao número de variáveis dependentes estas técnicas podem ser classificadas como tendo uma única variável dependente, várias variáveis dependentes ou mesmo várias relações de dependência ou independência. As técnicas dependentes podem, ainda, ser classificadas como apresentando variáveis métricas (quantitativa/numérica) ou não-métricas (qualitativas/categóricas) dependentes. Se a análise envolve uma única variável dependente que é métrica, a técnica apropriada é tanto análise múltipla de regressão quanto análise conjunta. A análise conjunta é um caso especial. É um procedimento dependente que pode tratar a variável dependente tanto como métrica ou nãométrica, dependendo das circunstâncias. Por outro lado, se a única variável dependente é categórica então a técnica apropriada é a análise discriminante ou modelos lineares de probabilidade. Em contraste, quando o problema envolve várias variáveis dependentes, quatro outras técnicas de análise são apropriadas. Se as várias variáveis dependentes são métricas deve-se então olhar para as variáveis independentes. Se as variáveis independentes são não-métricas a técnica de análise multivariada de variância deve ser selecionada. Se elas forem métricas então análise canônica de correlação é a técnica a ser empregada. Se as várias variáveis dependentes são não-métricas, elas podem ser transformadas através de variáveis dummy codificadas como 0 ou 1 e então a análise canônica pode novamente ser empregada. Finalmente se um conjunto relacionamentos de variáveis dependentes/independentes pode ser assumido então a modelagem por equações estruturais pode ser empregado. Existe uma relação estreita entre os vários procedimentos dependentes e elas podem ser vistas como uma família de técnicas. A tabela 4.1 define as várias técnicas dependentes multivariadas em termos da natureza e do número das variáveis dependentes e independentes. Como pode ser visto, a correlação canônica pode ser considerada como um modelo geral sobre o qual muitas outras técnicas multivariadas estão baseadas, porque ela coloca as mais baixas restrições tanto no tipo quanto no número de variáveis em ambas as variates dependente e independente. As restrições são colocadas nas variates, conclusões mais precisas podem ser alcançadas baseadas na escala específica de medida dos dados. Desta forma, as técnicas multivariadas abrangem desde o método geral de análise canônica até o mais especializado representado pela modelagem de equações. Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ 14 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO Figura 4.1 - Classificação das técnicas multivariadas Tipo de relação sendo examinada Dependência: Interdependência: Quantas variáveis estão sendo explicadas? A estrutura do relacionamento é entre? Relações múltiplas de variáveis dependentes e independentes? Várias variáveis em uma única relação Uma variável dependente em uma única relação Variáveis Casos/Respondentes Objetos Modelagem por equações estruturais Qual é o tipo de varável dependente? Qual é o tipo de escala da variável dependente? Análise de Fatores Análise de Conglomerados Como os atributos são mensurados? Métrica Não-métrica Qual é a escala de medida da variável explicativa? Métrica Análise canônica correlação com variáveis dummy Métrica Não-métrica Análise canônica correlação Análise de variância multivariada Não-métrica Regressão Múltipla Pr of. L or í Via li , Dr . Análise Conjunta − Análise Discriminante via li@pu crs.br − Modelos Lineares de Probabilidade http://w ww.ma t.pu cr s.br/~via li/ Métrica Não-métrica Redução Multidimensional Análise de correspondência 15 SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO Tabela 4.1 - As relações entre os métodos dependentes multivariados Correlação canônica Y1 + Y2 + Y3 + .. + Yn = X1 + X2 + X3 + ... + Xn (Qualitativas, Quantitativas ) (Qualitativas, Quantitativas ) Análise multivariada de variância Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn (Quantitativas ) (Qualitativas) Análise de variância Y = X1 + X2 + X3 + ... + Xn (Quantitativas ) (Qualitativas) Análise discriminante múltipla Y = X1 + X2 + X3 + ... + Xn (Qualitativa) (Quantitativas ) Análise de regressão múltipla Y = X1 + X2 + X3 + ... + Xn (Quantitativa) (Quantitativas, Qualitativas) Análise conjunta Y = X1 + X2 + X3 + ... + Xn (Quantitativa, Qualitativa) (Qualitativas) Modelagem por equações estruturais Y1 = X11 + X12 + X13 + ... + X1n Y2 = X21 + X22 + X23 + ... + X2n ................................................ Ym = Xm1 + Xm2 + Xm3 + ... + Xmn Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 4.2. TÉCNICAS INTERDEPENDENTES As técnicas interdependentes são mostradas no lado direito da figura 4.1. Deve-se lembrar que neste tipo de técnica as variáveis não são classificadas como dependentes ou independentes. Ao invés, todas as variáveis são analisadas simultaneamente em um esforço para encontrar uma estrutura subjacente para todo o conjunto de variáveis ou elementos. Se a estrutura das variáveis é para ser analisada, então análise de fatores é a técnica apropriada. Se casos ou respondentes devem ser agrupados para representar a estrutura, então a análise de conglomerados é a técnica selecionada. Finalmente, se o interesse reside na estrutura dos objetos, então a técnica da redução multidimensional deve ser aplicada. Assim como nas técnicas dependentes, as propriedades das medidas das técnicas devem ser consideradas. No entanto, dados não-métricos podem ser transformados através de variáveis dummy para uso com análise de fatores e de conglomerados. A abordagem métrica e não-métrica foi desenvolvida para a redução multidimensional. Se a interdependência dos objetos medidos por dados não-métricos deve ser analisada, a análise de correspondência é também uma técnica apropriada. 5 . A N Á L I S E M U LT I VA R I A D A : I N T E R P R E TA Ç Ã O A análise multivariada, mesmo quando aplicada corretamente, pelas restrições de se acomodar múltiplas variáveis, cria resultados complexos que podem ser difíceis de se interpretar. As orientações gerais seguintes podem ajudar nesta interpretação. A lista não é uma coleção exaustiva de considerações, mas uma espécie de "filosofia da análise multivariada". 5.1. ESTABELECER SIGNIFICÂNCIA PRÁTICA E ESTATÍSTICA O analista deve considerar a significância estatística dos resultados, é claro, mas também seu significado prático. A significância prática é obtida respondendo a questão "E agora?". Para qualquer aplicação gerencial, os resultados devem ter um efeito demonstrável que justifique a ação. 5.2 O TAMANHO DA AMOSTRA AFETA TODOS OS RESULTADOS Para pequenas amostras, a sofisticação e complexidade das técnicas de análise multivariada podem facilmente resultar em (1) pouco poder estatístico para o teste para identificar resultados significativos de forma realista; (2) facilmente oferecer um ajustamento adequado dos dados tais que os resultados serão artificialmente bons porque se ajustam muito bem, embora não tenha generalidade. Um impacto semelhante também ocorre para grandes tamanhos de amostras, tornando o teste muito sensível. Toda vez que a amostra exceder a 200 ou 300 unidades, o analista deve examinar todos os Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO resultados significativos para se assegurar que eles possuem significância prática, devido ao crescimento do poder estatístico em virtude do tamanho da amostra. O tamanho da amostra afeta também os resultados quando a análise envolve grupos de resposta tal como na análise discriminante e MANOVA. Tamanhos desiguais entre grupos influenciam os resultados e requerem interpretações adicionais e/ou análises. 5.3. CONHEÇA OS DADOS A análise multivariada requer um exame preliminar dos dados em virtude da influência de outliers (valores estranhos ao conjunto), violação das hipóteses e a falta de dados (missing data). Para aproveitar todos os benefícios da análise multivariada o analista deve saber "onde olhar", com formulações alternativas do modelo original, tal como relacionamentos não-lineares ou interativos. 5.4. MANTENHA UM MODELO SIMPLES As técnicas multivariadas são projetadas para acomodar múltiplas variáveis na análise. Esta característica, no entanto, não deve substituir o desenvolvimento de um modelo conceitual antes da aplicação da técnica. Enquanto é sempre mais importante evitar a omissão de uma variável preditiva crítica, denominado de erro de especificação, por várias razões o analista também deve evitar o oposto, isto é, inserir variáveis indiscriminadamente e deixar a técnica multivariada tentar identificar as relevantes. Primeiro, porque variáveis irrelevantes normalmente aumentam a habilidade de aderência dos dados ao modelo tornando os resultados menos generalizáveis para a população. Segundo, variáveis irrelevantes não necessariamente distorcem os resultados das relevantes, mas elas podem mascarar os verdadeiros efeitos devidos a multicolinearidade. A multicolinearidade representa o grau com que qualquer variável pode ser prevista pelas outras variáveis na análise. Com o aumento da multicolinearidade diminui a habilidade de detectar o efeito de outras variáveis. Desta forma, incluir variáveis que não são conceitualmente relevantes pode ter efeitos potenciais danosos, mesmo se elas não distorcem diretamente os resultados do modelo. 5.5. TOME CUIDADO COM OS ERROS Mesmo com as técnicas multivariadas, raramente se obtém as melhores previsões na primeira análise. O analista enfrenta então a questão: "o que fazer agora?" A melhor resposta é olhar os erros nas previsões, se eles são residuais da análise de regressão, de má classificação na análise discriminante ou por outliers na análise de conglomerados. Neste caso, o analista deve usar os erros na previsão não como uma medida de falha ou meramente algo a ser eliminado, mas como um ponto de Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO partida para o diagnóstico da validade dos resultados obtidos e um indicação de relações remanescentes não explicadas. 6. CONCLUSÃO Nesta introdução às técnicas multivariadas o assunto não foi absolutamente esgotado. O que se apresentou aqui de forma introdutória foi o elenco das técnicas já sedimentadas. Técnicas ainda pouco conhecidas ou recém desenvolvidas não foram analisadas. O que se pretendeu foi apresentar um panorama amplo das principais técnicas, suas interelações e um guia para a escolha e a aplicação das mesmas. Novas técnicas que estão rapidamente ganhando importância, com aplicações em quase todas as áreas são as redes neurais (neuronais) e a mineração de dados (data mining). Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/ SÉRIE: Estatística Multivariada Texto i: INTRODUÇÃO 7. REFERÊNCIAS AAKER, David A., DAY, George S. Marketing Research (3e). New York: John Wiley & Sons, 1986. CHURCHILL, A, Jr. Marketing Research:Methodological Foundations (sixth edition). Orlando, FL: Hartcourt Brace & Company, 1995, 1117 pp. DILLON, William R., MADDEN, Thomas J., FIRTLE, Neil H. Marketing Research in a Marketing Environment (Third edition). Boston, Massachusetts: IRWIN, 1987, 760 pp. HAIR, Joseph F., Jr.. ANDERSON, Rolph E., TATHAM, Ronald L., BLACK William C. Multivariate Data Analyis: with readings (fourth edition). Upper Saddle River, New Jersey: Prentice Hall, 1995. 745 pp. KACHIGAN, Sam Kash. Statistical Analysis: An Interdisciplinary Introduction to Univariate & Multivariate Methods. New York: Radius Press, 1986, 589 p. MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to Managerial Decision Making. New York: John Wiley & Sons, 1987. 827p. MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And Economics. IRWIN, Boston, 1990. NORUŠIS, Marija J., SPSS Inc. SPSS® for Windows™ Professional Statistics™, Release 5. Chicago, IL: SPSS Inc., 1992. STEVENS, James. Applied Multivariate Statistics For The Social Sciences. Mahwah, New Jersey: LEA − Lawrence Erbaum Associates, Publishers. 1996. Pr of. L or í Via li , Dr . − via li@pu crs.br − http://w ww.ma t.pu cr s.br/~via li/