Glossário De Análise Multivariada
Fernando Portela Câmara
Prof. Associado, UFRJ
Algoritmo
Procedimento computacional aplicado à solução de um problema numérico. Seqüência de passos de uma
operação que leva à solução de uma equação discreta.
Anamorfose
Transformação de um conjunto de dados para reduzi-los à uma função linear (equação da reta). Usa-se
freqüentemente as transformações log y/x, y/log x, e log y/log x.
Canônico
Termo usado em estatística para implicar algo que foi reduzido à sua forma mais simples.
Classificação
Arranjo sistemático de objetos de qualquer tipo em grupos ou categorias de acordo com um conjunto de
critérios preestabelecidos.
Coeficiente de determinação, R2
(Quadrado do coeficiente de correlação) Proporção da variação total na variável dependente y que é
explicada por descrita pela variação na variável independente x. Pode ser expressa como fração da
unidade ou como percentagem (quadrado do coeficiente de correlação multiplicado por 100).
Coeficiente de regressão (Inclinação)
É o gradiente de uma linha, i.e., a variação na variável dependente ou variável resposta (y) por unidade de
variação na variável independente ou preditora (x).
Combinação linear
A soma de duas ou mais variáveis, p. ex., Y = b0 + b1*X1 + b2*X2 + ... + bk*Xk. se qualquer das variáveis
estiverem ligadas por um operador diferente de + ou -, a combinação não será mais linear.
Constante de regressão (Intercessão)
Ponto onde a linha de regressão intercepta o eixo y quando x = 0. A constante (a or b0) de uma equação de
regressão.
Correlação
Índice do grau de covariação entre medidas pareadas (x e y) em um modo linear. É expresso como um
coeficiente (r), com valores entre -1 e +1. Coeficientes de correlação não dão informação sobre relação
causa efeito, e só podem ser confiáveis se a relação entre x e y for linear.
Covariância
Similar do coeficiente de correlação, uma vez que mede a relação entre um par de variáveis, porém, ao
contrário deste, ele não é padronizado (como coeficiente de correlação, a covariância é dividida pelo
desvio padrão de x e y). Por ser a covariância não padronizada, não há limite para os valores, sendo então
difícil compara-las.
Dendrograma
Diagrama em forma de árvore que sumariza um processo de agrupamento de objetos em classes
hierárquicas (Análise de Cluster). Os casos semelhantes são unidos em grupos cujas posições no
dendograma são determinadas pelo nível de (dis)similaridade entre eles
Distância
Medida de distância entre dois objetos (intervalo). Em AMV, não se trata necessariamente de medidas
usando réguas ou algo equivalente. Medidas de distância aqui estão relacionadas a dissimilaridade entre
objetos.
Distribuição normal
Também conhecida como distribuição Gaussiana, tem a forma de um sino, e se caracteriza pela média e
desvio padrão da distribuição. Esta curva surge quando os dados são afetados por muitas variáveis
independentes em que nenhuma delas seja mais importante que as outras (p. ex., o peso, que é função de
muitos processos, tais como genética e ambiente). Muitos testes estatísticos partem da suposição de que
os dados estão normalmente distribuídos (Estatística Paramétrica).
Eigenvalor
Eigenvalor é o conjunto de valores ao longo de uma fileira ou coluna de uma matriz quadrada simétrica.
Há tantos eigenvalores quantas são as fileiras (ou colunas) em uma matriz. Uma descrição realística de
um eigenvalor demanda um bom conhecimento de álgebra linear. Entretanto, eles podem ser
conceitualmente considerados como uma medida de força (comprimento relativo) de um eixo (derivado
da matriz quadrada simétrica). Eigenvalores são também conhecidos como variáveis latentes.
Eigenvetor (ou factor loading)
Cada eigenvalor tem um eigenvetor associado. Se um eigenvalor é o comprimento de um eixo, o
eigenvetor é o que determina a orientação espacial deste eixo. Os valores em um eigenvetor não são
únicos porque qualquer coordenada que descreva a mesma orientação seria aceitável. Normalmente elas
são padronizadas de algum modo, i. e., seus valores quadrados somam 1. Os eigenvetores são
normalmente usados para auxiliar na interpretação de uma análise multivariada (Análise dos
Componentes Principais).
Hierarquia
Sistema de organização de objetos em uma ordem ascendente ou descendente, representada por uma série
de agrupamentos ordenados tais como aqueles usados para classificação de plantas ou animais (ex.,
classes, ordens, famílias).
Homoscedascidade
Condição em que a variável resposta (y) tem distribuição normal dentro de cada classe de x, e sua
variância dentro de cada classe de x não está associada aos de x. Esta é uma condição necessária para a
análise de regressão e análise de variância.
Independência
Dois eventos ou variáveis são independentes se o conhecimento de um não dá informação sobre o valor
do outro, ou seja, as probabilidades de um não são afetadas pelas do outro, e vice-versa.
Interação
Ocorre interação quando os efeitos de duas ou mais variáveis (em uma análise de regressão) ou dois ou
mais fatores (em uma análise de variância) não são independentes de cada outra.
Matriz
Representação tabular de um conjunto de dados caracterizada uma dimensionalidade medida pelo número
de fileiras e colunas. Se ambas são iguais, a matriz será chamada de quadrada, e se o triângulo superior é
igual em valores ao triângulo inferior, a matriz será chamada de simétrica. Se for empregado métodos
algébricos a matriz será simbolizada por uma letra capital.
Não-supervisionado
Usa-se em análise de cluster quando o analista não impõe qualquer estrutura à classificação, deixando
simplesmente ela emergir dos dados. Somente depois é que investigamos a classificação para verificar se
ela fecha com outros critérios de agrupamento (ex., sexo ou espécie).
Ordenação
Classe de técnicas multivariadas aplicadas a dados ecológicos. Via de regra, são métodos geométricos que
buscam reduzir dados multivariados a poucas dimensões.
Padronização
É a uniformização de dados brutos usualmente apresentados em diferentes escalas para uma única escala.
Isto inclui conversão para escores normalizados (normalmente distribuídos e com média em 0 e desvio
padrão de 1) ou reescalando em um intervalo para dar 0 como valor mínimo e 1 como valor máximo.
Relação linear
Relação entre duas variáveis descrita por uma linha reta. Relações não–lineares podem ser
freqüentemente linearizadas pela aplicação de uma transformação (v. anamorfose).
Residual
Diferença entre um valor esperado ou previsto e um valor observado.
Similaridade
Medida do grau de semelhança entre dois objetos. O inverso é a dissimilaridade, que se relaciona ao
conceito de distância.
Taxonomia
Disciplina biológica que trata da classificação dos organismos em grupo baseados no compartilhamento
de características comuns.
Teste de significância
Teste que nos permite determinar a probabilidade de obter o valor de um teste estatístico (ex., t, r, F, Quiquadrado) considerando que a hipótese nula é verdadeira.
Variabilidade
Muitas variáveis apresentam algum grau de variação em suas medidas, ou seja, seus valores não são
constantes entre ou dentro das unidades de experimentação.
Variância
Também conhecida como média quadrática é a média dos quadrados das diferenças entre as observações
e a média geral. Ela nos dá uma estimativa da quantidade de variação em um conjunto de dados.
RJ, 29/08/2004
Fernando Portela Câmara
Setor de Epidemiologia – IMPPG - UFRJ
Download

Glossário de Análise Multivariada