Glossário De Análise Multivariada Fernando Portela Câmara Prof. Associado, UFRJ Algoritmo Procedimento computacional aplicado à solução de um problema numérico. Seqüência de passos de uma operação que leva à solução de uma equação discreta. Anamorfose Transformação de um conjunto de dados para reduzi-los à uma função linear (equação da reta). Usa-se freqüentemente as transformações log y/x, y/log x, e log y/log x. Canônico Termo usado em estatística para implicar algo que foi reduzido à sua forma mais simples. Classificação Arranjo sistemático de objetos de qualquer tipo em grupos ou categorias de acordo com um conjunto de critérios preestabelecidos. Coeficiente de determinação, R2 (Quadrado do coeficiente de correlação) Proporção da variação total na variável dependente y que é explicada por descrita pela variação na variável independente x. Pode ser expressa como fração da unidade ou como percentagem (quadrado do coeficiente de correlação multiplicado por 100). Coeficiente de regressão (Inclinação) É o gradiente de uma linha, i.e., a variação na variável dependente ou variável resposta (y) por unidade de variação na variável independente ou preditora (x). Combinação linear A soma de duas ou mais variáveis, p. ex., Y = b0 + b1*X1 + b2*X2 + ... + bk*Xk. se qualquer das variáveis estiverem ligadas por um operador diferente de + ou -, a combinação não será mais linear. Constante de regressão (Intercessão) Ponto onde a linha de regressão intercepta o eixo y quando x = 0. A constante (a or b0) de uma equação de regressão. Correlação Índice do grau de covariação entre medidas pareadas (x e y) em um modo linear. É expresso como um coeficiente (r), com valores entre -1 e +1. Coeficientes de correlação não dão informação sobre relação causa efeito, e só podem ser confiáveis se a relação entre x e y for linear. Covariância Similar do coeficiente de correlação, uma vez que mede a relação entre um par de variáveis, porém, ao contrário deste, ele não é padronizado (como coeficiente de correlação, a covariância é dividida pelo desvio padrão de x e y). Por ser a covariância não padronizada, não há limite para os valores, sendo então difícil compara-las. Dendrograma Diagrama em forma de árvore que sumariza um processo de agrupamento de objetos em classes hierárquicas (Análise de Cluster). Os casos semelhantes são unidos em grupos cujas posições no dendograma são determinadas pelo nível de (dis)similaridade entre eles Distância Medida de distância entre dois objetos (intervalo). Em AMV, não se trata necessariamente de medidas usando réguas ou algo equivalente. Medidas de distância aqui estão relacionadas a dissimilaridade entre objetos. Distribuição normal Também conhecida como distribuição Gaussiana, tem a forma de um sino, e se caracteriza pela média e desvio padrão da distribuição. Esta curva surge quando os dados são afetados por muitas variáveis independentes em que nenhuma delas seja mais importante que as outras (p. ex., o peso, que é função de muitos processos, tais como genética e ambiente). Muitos testes estatísticos partem da suposição de que os dados estão normalmente distribuídos (Estatística Paramétrica). Eigenvalor Eigenvalor é o conjunto de valores ao longo de uma fileira ou coluna de uma matriz quadrada simétrica. Há tantos eigenvalores quantas são as fileiras (ou colunas) em uma matriz. Uma descrição realística de um eigenvalor demanda um bom conhecimento de álgebra linear. Entretanto, eles podem ser conceitualmente considerados como uma medida de força (comprimento relativo) de um eixo (derivado da matriz quadrada simétrica). Eigenvalores são também conhecidos como variáveis latentes. Eigenvetor (ou factor loading) Cada eigenvalor tem um eigenvetor associado. Se um eigenvalor é o comprimento de um eixo, o eigenvetor é o que determina a orientação espacial deste eixo. Os valores em um eigenvetor não são únicos porque qualquer coordenada que descreva a mesma orientação seria aceitável. Normalmente elas são padronizadas de algum modo, i. e., seus valores quadrados somam 1. Os eigenvetores são normalmente usados para auxiliar na interpretação de uma análise multivariada (Análise dos Componentes Principais). Hierarquia Sistema de organização de objetos em uma ordem ascendente ou descendente, representada por uma série de agrupamentos ordenados tais como aqueles usados para classificação de plantas ou animais (ex., classes, ordens, famílias). Homoscedascidade Condição em que a variável resposta (y) tem distribuição normal dentro de cada classe de x, e sua variância dentro de cada classe de x não está associada aos de x. Esta é uma condição necessária para a análise de regressão e análise de variância. Independência Dois eventos ou variáveis são independentes se o conhecimento de um não dá informação sobre o valor do outro, ou seja, as probabilidades de um não são afetadas pelas do outro, e vice-versa. Interação Ocorre interação quando os efeitos de duas ou mais variáveis (em uma análise de regressão) ou dois ou mais fatores (em uma análise de variância) não são independentes de cada outra. Matriz Representação tabular de um conjunto de dados caracterizada uma dimensionalidade medida pelo número de fileiras e colunas. Se ambas são iguais, a matriz será chamada de quadrada, e se o triângulo superior é igual em valores ao triângulo inferior, a matriz será chamada de simétrica. Se for empregado métodos algébricos a matriz será simbolizada por uma letra capital. Não-supervisionado Usa-se em análise de cluster quando o analista não impõe qualquer estrutura à classificação, deixando simplesmente ela emergir dos dados. Somente depois é que investigamos a classificação para verificar se ela fecha com outros critérios de agrupamento (ex., sexo ou espécie). Ordenação Classe de técnicas multivariadas aplicadas a dados ecológicos. Via de regra, são métodos geométricos que buscam reduzir dados multivariados a poucas dimensões. Padronização É a uniformização de dados brutos usualmente apresentados em diferentes escalas para uma única escala. Isto inclui conversão para escores normalizados (normalmente distribuídos e com média em 0 e desvio padrão de 1) ou reescalando em um intervalo para dar 0 como valor mínimo e 1 como valor máximo. Relação linear Relação entre duas variáveis descrita por uma linha reta. Relações não–lineares podem ser freqüentemente linearizadas pela aplicação de uma transformação (v. anamorfose). Residual Diferença entre um valor esperado ou previsto e um valor observado. Similaridade Medida do grau de semelhança entre dois objetos. O inverso é a dissimilaridade, que se relaciona ao conceito de distância. Taxonomia Disciplina biológica que trata da classificação dos organismos em grupo baseados no compartilhamento de características comuns. Teste de significância Teste que nos permite determinar a probabilidade de obter o valor de um teste estatístico (ex., t, r, F, Quiquadrado) considerando que a hipótese nula é verdadeira. Variabilidade Muitas variáveis apresentam algum grau de variação em suas medidas, ou seja, seus valores não são constantes entre ou dentro das unidades de experimentação. Variância Também conhecida como média quadrática é a média dos quadrados das diferenças entre as observações e a média geral. Ela nos dá uma estimativa da quantidade de variação em um conjunto de dados. RJ, 29/08/2004 Fernando Portela Câmara Setor de Epidemiologia – IMPPG - UFRJ