Desenvolvendo o pensamento estatístico com a ESALQ. Prof.Dra.Regina Célia de Carvalho Pinto Moran [email protected] - Fone/Fax: 3289-7959 Bacharel e Mestre em Estatística pela Unicamp Doutora pela Universidade de Oxford Inglaterra Sumário do Encontro Apresentação: O antes , o durante e o depois da Análise Multivariada: necessária uma articulação mais abrangente... Que o mero estatisquês! Estrutura dos dados: Sobre a Coleta de dados. Geral _ Técnicas: táticas sobre técnicas Multivariadas . Pirâmide do Conhecimento Visão de um Sistema Psicologia Cognitiva Linguagem do seu problema Psicologia Entendendo Variabilidade Aprofundando o conhecimento Onde estamos? Como melhorar ? • estatística • Qual o estado da arte das quatro correntes? Sujeito Estatística Sistema/conhecimento/p sicologia/entendimento da variabilidade Os dados e sua coleta. A ciência Estatística articula o processo de coleta dos dados. Técnicas específicas: na tradução da busca de padrões e estruturas presentes nos dados. Estudos observacionais. Planejamento de experimentos. Estudo observacional comparativo •visa conhecer as diferenças através do comportamento de variáveis-resposta. •levando em conta uma ou mais variáveis explanatórias (variáveis de background). •direcionando a atenção a componentes que hipoteticamente possam responder por diferenças/semelhanças entre os indivíduos. Três tipos de estudos comparativos • Experimentais:atribuição aleatória dos sujeitos •Quase-experimentais:a formação dos grupos não é completamente determinada por procedimentos aleatórios. •Observacionais:as diferenças entre os indivíduos é mais fundamental e o ‘ rationale’ não é a explicação causal. Estudo enumerativo e analítico Que diferença faz para a ação o fato de podermos ou não fazer um nexo causal? •estudo enumerativo: estimação, ação no universo : Censo, inventários, planos de aceitação, pesquisas eleitorais. •estudo analítico: predição, a ação será tomada em um sistema de causas para melhorar o desempenho de um produto, processo ou sistema no futuro: manuseio de plantio, tratamento de leitegada, etc. A articulação na coleta de dados Aspectos do estudo Tipo de estudo Enumerativo Analítico Objetivo Estimação Predição Maior fonte de incerteza Erro amostral Extrapolação para o futuro Maior fonte de incerteza Sim Não é quantificável? Ambiente do estudo estático dinâmico Papel da estatística Acessar a Dar apoio ao importância dos especialista efeitos. Papel do conhecimento Definir o universo, Identificar variáveis, específico da agronomia aprovar a níveis, acessar população alvo. condições no futuro, acessar o grau de confiança. Figura 1. Aspectos importantes de estudos analíticos e enumerativos. Na Linguagem Estatística Que saber nomeia o tipo de variável? •variáveis aleatórias:características que podem tomar mais de um valor entre os sujeitos, indivíduos estudados, seja na população ou amostra . •Variáveis resposta (ou variáveis dependentes) :estão livres para variar. • variáveis explanatórias(independentes ou preditoras):variáveis de background ou relacionadas , são derivadas de forma intencional, estabelecidas para controlar tendências e variabilidade Note que: • a distribuição da variável que assume a função de resposta é de interesse, em resposta às variáveis chamadas explanatórias • a distribuição da variável que assume a função de explanatória não entra em consideração. “É parte estrutural da nossa linguagem o mal entendido; a arte está em ver onde está o mal entendido”. Aqui vai um roteiro para você avaliar seu estudo antes de iniciá-lo: 1. Como estão enunciados os objetivos de seu trabalho? Focalize com os critérios de clareza, objetividade, simplicidade; 2. Definição de termos. Leve sempre em conta sua audiência e os novos colegas, clientes, fornecedores. Focalize com os critérios de clareza, objetividade e simplicidade; 3. Enuncie suas hipóteses, se for este o caso. Focalize com os critérios de clareza, objetividade e simplicidade; Roteiro para coleta de dados 4.Avalie a adequação do enunciado do problema aos conhecimentos disponíveis e os dados ; 5.Avalie a adequação dos enunciados das hipóteses aos conhecimentos e dados disponíveis; 6.Avalie a adequação do plano do estudo (só pode ser gerado a partir dos itens anteriores) às relações buscadas; 7.Avalie a adequação do controle de variáveis adotado; 8.Avalie a adequação dos critérios de constituição da amostra; Só após ter claros estes itens : 9.Avalie a adequação da amostra e do tratamento dos dados com o objetivo do estudo; 10.Avalie a adequação potencial de análise. Outros elementos essenciais A população é um conjunto bem definido que tem certas propriedades específicas, por exemplo: propriedades rurais do Estado de Minas Gerais com multicultura, sem inadimplência no crédito rural, com mais de seis meses de assistência . Critérios de elegibilidade que podem ser vistos como delimitações restringem a população a um grupo de unidades de estudo: propriedades dos segmentos geográficos 48,51,52,54, 60,63,65,66 e 69. População alvo é o conjunto de todas as propriedades rurais do Estado de Minas Gerais com multicultura, sem inadimplência no crédito rural, com mais de seis meses de assistência , propriedades dos segmentos geográficos 48,51,52,54, 60,63,65,66 e 69. População amostrada ou acessível é a população que atende aos critérios da população alvo e esta disponível: A amostra é um conjunto de elementos da população. Uma unidade de amostragem é o elemento ou conjunto de elementos utilizado para selecionar a amostra. Há como garantir amostra representativa? O termo amostra representativa refere-se a amostras nas quais as características-chave aproximam-se de perto daquelas da população. Logo, não há como garantir uma amostra representativa sem conhecer as características-chave na população. Especificadores da população alvo e seus delimitadores constituem as características- chave. A unidade observacional , que pode ou não coincidir com a unidade de amostragem ,é a unidade mais básica sobre as quais as informações são coletadas. Tipos de explanatórias Variáveis explanatórias principais: vão definir os grupos que devem ser comparados, elas podem ser qualitativas ou quantitativas. Variáveis explanatórias secundárias: são as que influenciam a resposta sem ser de interesse primário. Variáveis explanatórias perturbadoras: são as variáveis que não podem ser conhecidas no estudo, mas que influenciam as diferenças observadas. Variáveis explanatórias estáveis: são as que o analista decide manter constante durante a execução do estudo. Níveis de medida Estes níveis também delimitam as escolhas de metodologia estatística. Formas de comparar observações pelo nível de medida da variável: As unidades são diferentes? Propriedade da variável nominal. Qual possui a maior magnitude? Propriedade da variável ordinal. Qual a distância entre os indivíduos? Propriedade da variável intervalar. Níveis de medida Uma escala nominal de medida é um conjunto de categorias que varia em alguma qualidade, mas não em magnitude. Uma escala ordinal é um conjunto de categorias naturalmente ordenadas nas quais os valores podem ser comparados em magnitude, com diferentes valores associados a diferentes quantidades. Uma escala intervalar, além de incorporar a noção de ordem ,tem a propriedade de que há uma distância numérica específica entre cada par de valores Níveis de medida Variáveis nominais são também chamadas qualitativas e as ordinais e intervalares quantitativas. As variáveis intervalares são reconhecidas como discretas (número de grãos) ou contínuas( tempo de maturação), conforme assumam valores em um conjunto enumerável ou em um contínuo respectivamente. Esta nomeação das variáveis simboliza diferenças que implicam na escolha de metodologia estatística. Somos humanos “A mente humana suprime a incerteza. Nós não estamos apenas convencidos de que sabemos mais acerca de nossa política, nossos negócios, e nossos esposos do que na verdade sabemos, mas também de que o que não sabemos não deve ser importante”. Amostragem não Probabilística Quando a amostragem por métodos não aleatórios é parte do planejamento amostral. Amostragem não probabilística tem três métodos principais: por conveniência, intencional e por quota. Amostragem não probabilística por conveniência é o uso de pessoas ou objetos, pelo critério da disponibilidade. Desta forma os sujeitos são convenientes e acessíveis à participação no estudo. Amostragem não probabilística intencional é uma estratégia que utiliza os saberes sobre a população alvo e as especificidades do estudo na seleção dos sujeitos a serem incluídos na amostra Amostragem não Probabilística Amostragem não probabilística por quota é o recrutamento de sujeitos com algum grau de conhecimento da população alvo incorporado ao plano. O conhecimento incorporado pode incorporar representatividade à amostra. Esta é a metodologia das pesquisas de opinião pública, nas quais a seleção dos sujeitos fica por conta dos entrevistadores preencherem, segundo critérios de elegibilidade pré-determinados, quotas de sujeitos a serem recrutados por entrevista, em geral em logradouros públicos. Amostragem Probabilística Na amostra probabilística ou aleatória, cada unidade da população- alvo tem uma probabilidade não nula e calculável de ser selecionada por métodos que independam do julgamento humano. Na amostragem probabilística fatores que causarão erros sistemáticos, não se compensam e não podem ser eliminados por aumento do tamanho de amostra. Amostra probabilística não é garantia! Se a mostra é retirada de forma inadequada da lista, não há santo que elimine o vício ainda que infinitas amostras sejam retiradas, ou métodos como bootstrapping e jacknife ( métodos de estimação por amostragem intensiva) sejam aplicados. Há que encaminhar os vícios por limitação do frame e por não respostas, não os esquecendo nas limitações da análise. Planejar bem! Pensar antes! Importante é controle de variáveis dependentes, explanatórias, estratificadoras. Rejeitar uma amostra, e, insistir no mesmo procedimento para obtenção de outra, é uma fraqueza, um procedimento fraudulento, porque: introduz um elemento de julgamento na seleção, e porque retira desta amostra(e de quantas outras possíveis e também indesejáveis) sua probabilidade de ser selecionada. Frisemos que a falta de representatividade de uma amostra não lança dúvida sobre o método. O processo só pode ser avaliado pelo estudo de repetição de resultados(ainda que você vá usar só um!), não pela aparência de uma amostra. Planejar bem! Pensar antes! Se não é possível atribuir a cada elemento da população uma probabilidade de seleção calculável, a teoria de precisão dos estimadores clássica não é aplicável. Note que o mecanismo de aleatoriedade relaciona-se à seleção, não à amostra específica resultante. Eventualmente ela pode parecer péssima, não aleatória, não representativa! Planejar bem! Pensar antes! Incorporar ao delineamento amostral este saber através do uso das segmentações : como input do delineamento amostral, como explanatória principal, como variável controlada. Estamos falando de amostra aleatória estratificada. Na linguagem estatística cada segmentação é um fator de estratificação, e a dupla, múltipla, estratificação deve ser empregada. De fato maior precisão é usualmente obtida pela introdução de novos fatores, mais do que pelo refinamento de grupos de um fator. A orientação nesta escolha é tomar aqueles fatores mais relacionados às respostas em estudo e apenas levemente relacionados entre si. Amostra casual simples: quando? Amostra casual simples ou amostra aleatória simples é a mais elementar das técnicas de amostragem probabilística: cada unidade amostral é incluída independentemente de qualquer outra e tem chance igual de ser incluída na amostra. Este é o método disponível na maioria dos softwares para retirada de amostras a partir de bases de dados. Note que aqui não existe nenhuma garantia de que a amostra será representativa da população. Amostra estratificada! Quando? Amostra aleatória estratificada é aquela que incorpora variáveis que têm uma base lógica para controlar potenciais diferenças na tendência, variabilidade e inter-relações entre as variáveis -resposta do estudo. Este conhecimento prévio sobre a população é entrada da metodologia de amostragem aleatória estratificada, e reflete um esforço na direção de aumentar a verossimilhança da representatividade. Critérios específicos de seleção garantem que certas características estejam presentes em todas as unidades, a partir de seu conhecimento na população. Escolha a lente em função do que quer ver! Alguns fatos são norteadores: o tamanho da amostra, a medida que aumenta, aumenta também as chances de revelar diferenças, tendências, padrões. Se estiverem presentes terão mais chance de aparecer com o aumento do tamanho da amostra. Se estiverem ausentes, não aparecerão! O número mínimo de observações por segmento deve ser maior que o número de respostas e maior que 20, número mágico! O número de observações não deve ser tão grande a ponto de revelar diferenças sem importância prática.. Enfim! Nos casos mais simples em que você quer o tamanho de uma amostra para conhecer o efeito de uma ação, vamos precisar de: Que tamanho de efeito interessa sob a hipótese que haja diferença nos parâmetros estudados. Na prática precisamos estimar a diferença usando valores amostrais. Estudos anteriores são valiosos em conhecer o estado de arte e saber que valor de diferença esperar. Muitas vezes são necessários estudos pilotos para conhecer primeiras informações sobre os estimadores. Algumas vezes fazemos suposições na ausência de estudos anteriores ou impossibilidade de estudo piloto; uma diferença é postulada como de interesse e os erros fixados levando então ao cálculo do tamanho da amostra. Um conjunto de ferramentas:Técnicas de análise multivariada propriamente dita. Então o que são essas técnicas? • visam solução de problemas • são estratégias de soluções • problema um estado inicial e um estado alvo (final) e entre os dois temos obstáculos! Método e representação • dedução, parte-se das hipóteses para a observação e ao confrontá-las chega-se à conclusão • a indução vai das observações para as hipóteses. • primeiro faz-se sua representação mental • opera-se sobre essa representação de tal forma a alcançar a solução. A matriz de dados •Os esquemas de representação são próprias das áreas de origem do problema. •Cada profissional segue,um esquema de representação, próprio de sua área. • Para enfoque via Análise Multivariada: tradução na matriz de dados A matriz de dados N indivíduos em p-dimensões. p variáveis em N-dimensões XNxp x11 x 21 . . xN1 x12 x 22 . . xN2 x1p x 2p ..... . . ..... . . ..... . xNp Nxp ..... . ..... . Elementos de um estudo:base de definição da matriz de dados. Conhecer o plano: 1) o plano de coleta de dados; 2) a coleta propriamente dita, que pode ser manutenção de arquivos, observação, amostragem, experimentação; 3) organização de bancos de dados de forma adequada ao seu processamento e consistência, de tal forma que a coleta assegure a qualidade dos dados; 4) a análise estatística propriamente dita, que sempre passa por uma fase descritiva e, quando apropriado, passa também pela fase inferêncial; 5) o relatório estatístico, que alinhavo das conclusões? Elementos sob a leitura estatística •Qual o tipo do estudo? •Que variáveis estão envolvidas? •Em quais funções? •De que tipo são? •As possíveis respostas estão na teoria sobre coleta de dados. •A partir daí a matriz de dados pode ser delineada. A maior redução de complexidade: matriz de dados elementar •A célula mais simples de representação multivariada acontece quando se mede p variáveis sob n unidades amostrais. •Conservada a correspondência entre indivíduos e variáveis. •Tratadas simultaneamente sobre cada unidade: das inter-relações entre essas variáveis •Comparação entre as unidades representadas pelas medidas das p variáveis. A Matriz de dados: sobre-estruturação da matriz elementar •Articula fontes de variação controlada: experimental ou observacional. • Agrupam os indivíduos em sub-populações. • Distingue função em variáveis :explanatórias, tanto secundária quanto primária e em variáveis respostas. • Distingue agrupamento sobre o conjunto de variáveis. A representação dos dados articula-se com a escolha das técnicas. Componentes Principais. Análise de Correspondências Análise Fatorial. Análise de Variância Multivariada(MANOVA). Análise Discriminante. Análise Canônica. Análise de Agrupamentos. Análise de Componentes Principais: matriz de dados elementar Essa técnica permite: •A obtenção de direções preferenciais para a visualização dos n indivíduos observados levando em conta medidas simultâneas de p variáveis. •Em subespaços que serão propriamente determinados segundo critério a ser definidos de tal forma que se possa ver o padrão de dispersão desses indivíduos nas suas direções mais favoráveis. • Usualmente aplicada na presença de mais de três variáveis: uma visualização das nuvens de pontos sobre as observações originais. • A interpretação das direções suporte da visualização da nuvem: nomear as novas variáveis. Análise de Correspondências: Dados Categóricos Essa técnica permite: •A obtenção de direções preferenciais para a visualização dos n indivíduos observados levando em conta medidas simultâneas de p variáveis categóricas. •Em subespaços que serão propriamente determinados segundo critério a ser definidos de tal forma que se possa ver o padrão de dispersão desses indivíduos nas suas direções mais favoráveis. • Usualmente aplicada na presença de mais de três variáveis: uma visualização das nuvens de pontos sobre as observações originais. • A interpretação das direções suporte da visualização da nuvem. Análise fatorial: matriz de dados elementar+informação nas variáveis • interesse da análise fatorial é determinar o menor número de variáveis, construtos ou variáveis latentes. •novas variáveis que mimetizando o sistema reproduzem as inter-relações entre as variáveis originais • passa pela construção de modelos, ou seja, a explicação do vetor de variáveis originais através de um vetor de variáveis que não são observáveis. Análise de Correlações Canonicas: matriz de dados elementar + sobre estrutura nas variáveis •as operações são realizadas levando-se em conta que as variáveis tem um agrupamento natural em dois conjuntos de variáveis que tem o mesmo tipo de função no problema. •nesse sentido ela é uma generalização da análise de regressão multivariada. • pressupõe um agrupamento, uma sobreestruturação, sobre as colunas da matriz de dados •o que se busca é entender as inter-relações entre esses dois conjuntos. MANOVA:sobre-estrutura por explanatórias. • diferenciação da matriz de dados devido ao agrupamento dos indivíduos •controles experimental ou observacional. • a generalização da ANOVA. •Sobre estruturação vai gerar um conjunto de subpopulações multivariadas que é caracterizado por vetores de médias hipoteticamente distintos. • As matrizes de variâncias e covariâncias devem ser iguais nos grupos • hipótese da MANOVA...raramente se cumpre! Análise Discriminante: complementa a Manova • o objetivo é o estudo de padrão de diferenciação de distintos grupos • também tem como objetivo de classificação. •o entendimento das funções lineares de separações desses grupos favorece o entendimento da formação desses grupos em função das variáveis originais. •trabalha na suposição de igualdade de matrizes de variância e covariância no caso mais simples e há desenvolvimento nos casos de distintas matrizes de variância-covariância. Análise de agrupamento: revelando sobre-estrutura da matriz de dados • na língua inglesa por Clusters Analysis •matriz entra como elementar •hipótese de que existe grupos naturais, inerentes aos indivíduos que compõe a amostra. •geração de variável de classificação, candidata a explanatória. • o que a técnica faz é descobrir esses agrupamentos, consistência da determinação desses grupos em geral é checada através de outras técnicas. • portanto essas técnicas não são aplicadas isoladamente, existe uma malha de inter-relações e uma ajuda a consolidar ou consistir o resultado da outra. Para finalizarmos! Falamos sobre coleta e as técnicas! Vamos às questões? Ou a um exemplo? Neste o objetivo é mostrar a simultaneidade de representação das variáveis secundárias, primárias, observações e pontos suplementares. Conceito de pontos e variáveis suplementares é importante. Análise Componentes Principais USO DE COMPONENTES PRINCIPAIS NO CONTROLE ESTATÍSTICO DE PROCESSO ME 672 Relatório Final Luiz Fernando Molinari Zerbinatti R.A.: 002064 Orientadora: Prof. Dra. Regina Célia de Carvalho P. Moran 02/12/2002 Capacidade de processo: não ao retângulo! Uma distribuição bi variada: cortes de probabilidade elípticos. Elipses de controle Elipses nas Componentes Oito dimensões de carrocerias. TABELA 1 Variáveis medidas e seus respectivos significados VARIÁVEL DIREÇÃO POSIÇÃO LADO XFD XFE XTD XTE YFD YFE YTD YTE Transversal Transversal Transversal Transversal Longitudinal Longitudinal Longitudinal Longitudinal Frente Frente Traseira Traseira Frente Frente Traseira Traseira Direito Esquerdo Direito Esquerdo Direito Esquerdo Direito Esquerdo Gráficos uni variados: variáveis em mesma unidade de medida. A Matriz de Correlações XFD XFE XTD XTE YFD YFE YTD YTE XFD XFE XTD XTE YFD YFE YTD YTE 1.000 0.915 -.957 -.892 -.228 0.183 -.143 -.154 0.915 1.000 -.943 -.997 -.302 0.270 -.259 -.006 -.957 -.943 1.000 0.929 0.246 -.205 0.283 0.088 -.892 -.997 0.929 1.000 0.320 -.289 0.285 -.026 -.228 -.302 0.246 0.320 1.000 -.988 0.828 -.787 0.183 0.270 -.205 -.289 -.988 1.000 -.808 0.834 -.143 -.259 0.283 0.285 0.828 -.808 1.000 -.664 -.154 -.006 0.088 -.026 -.787 0.834 -.664 1.000 Representação gráfica da matriz de correlações Leitura da matriz de correlações •Sugere que medidas transversais incorrelatas com medidas longitudinais. são • Entretanto, nota-se que as medidas longitudinais são fortemente correlacionadas entre si, ocorrendo o mesmo para medidas transversais. Matriz de variâncias e covariâncias XFD XFE XTD XTE YFD YFE YTD YTE XFD XFE XTD XTE YFD YFE YTD YTE 3.265 2.383 -2.787 -2.289 -0.191 0.154 -0.122 -0.166 2.383 2.077 -2.189 -2.040 -0.202 0.182 -0.176 -0.005 -2.788 -2.190 2.597 2.126 0.184 -0.154 0.215 0.084 -2.289 -2.040 2.126 2.018 0.211 -0.192 0.191 -0.021 -0.192 -0.202 0.184 0.211 0.217 -0.216 0.182 -0.220 0.155 0.182 -0.154 -0.192 -0.216 0.220 -0.179 0.234 -0.123 -0.176 0.215 0.191 0.182 -0.179 0.224 -0.188 -0.166 -0.005 0.084 -0.021 -0.220 0.234 -0.188 0.359 Informação da ACP. TABELA 3 Autovalores da matriz de covariância dos dados CP Autovalor Diferença Proporção Proporção Acumulada 1 2 3 4 5 6 7 8 9.53141004 0.90866942 0.31805216 0.14229847 0.06242540 0.01142613 0.00333277 0.00165472 8.62274062 0.59061726 0.17575369 0.07987307 0.05099927 0.00809336 0.00167805 --- 0.8681 0.0828 0.0290 0.0130 0.0057 0.0010 0.0003 0.0002 0.8681 0.9509 0.9799 0.9928 0.9985 0.9995 0.9998 1.0000 As Componentes Principais TABELA 4 7Autovetores associados aos autovalores da matriz de covariância dos dados XFD XFE XTD XTE YFD YFE YTD YTE CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 0.568634 0.457662 -.513232 -.445949 -.043378 0.037654 -.038631 -.011479 0.231703 -.101541 -.056151 0.155367 0.435397 -.450229 0.408104 -.591512 0.578218 -.457217 -.205015 0.552495 -.214226 0.193532 -.148864 0.061863 0.432439 0.134663 0.665523 -.095285 -.149595 0.178097 0.511347 0.165195 -.044721 -.084639 -.302806 0.098582 0.345057 -.213393 0.406121 0.748259 0.312706 -.046746 0.390406 -.122717 0.335785 -.448117 -.604006 0.232744 -.025854 0.737090 0.053233 0.661322 0.061629 -.031956 -.099755 0.032854 0.03429 -.02007 0.03932 -.02316 0.71039 0.69234 -.09280 -.06103 As componentes, as variáveis originais e as unidades amostrais Retirando valores na periferia da nuvem da matriz de covariância dos dados sem as observações 10, 11, 12, 14 e 33 CP Autovalor Diferença Proporção Proporção Acumulada 1 2 3 4 5 6 7 8 8,59448762 0,42863664 0,33070720 0,14906796 0,04069699 0,01086946 0,00322407 0,00145431 8.16585098 0.09792944 0.18163924 0.10837097 0.02982754 0.00764539 0.00176975 0,8991 0,0448 0,0346 0,0156 0,0043 0,0011 0,0003 0,0002 0,8991 0,9439 0,9785 0,9941 0,9984 0,9995 0,9998 1,0000 Com a retirada dos pontos fora de controle. Novas componentes, maior visibilidade Observações finais. •Note que as Componentes dependem das unidades amostrais. •A interpretação das componentes não é uma verdade universal! •A escolha da matriz ser de correlação ou variâncias e covariâncias depende do problema. Existem problemas uni variados? A potencialidade das técnicas multivariadas pode ser explorada nas suas articulações como no antigo novo conceito de mineração de dados, e suas limitações precisam ser estudadas em cada caso.