INCT: Informação
Genético-Sanitária da
Pecuária Brasileira
SÉRIE TÉCNICA:
GENÉTICA
Publicado “on line’ em www.animal.unb.br em 03/11/2010
Glossário de Termos Estatísticos
Concepta McManus
1
1,2
, Luiza Seixas 1, Cristiano Barros de Melo
1,3
CNPq / INCT / Informação Genético Sanitária da Pecuária Brasileira, Universidade de Brasília (UnB) /
Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, MG.
2
Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, RS.
3
Universidade Brasília (UnB), Brasília, DF.
Estatística
•
Expressão em Latim statisticum collegium,
alguém que palestra
sobre os assuntos do Estado ou conselho de Estado;
•
•
surgiu a palavra em língua italiana statista;
•
significa "homem de estado", estadista ou político;
Palavra alemã Statistik;
o
A análise de dados sobre o Estado;
o
significando a "ciência do Estado"
o
Palavra foi proposta pela primeira vez no século XVII, em
latim, por Schmeitzel na Universidade de Lena e adotada pelo
acadêmico alemão Godofredo Achenwall;
•
Aparece como vocabulário na Enciclopédia Britânica em 1797;
•
Adquiriu um significado de coleta e classificação de dados, no início
do século 19.
1
(1 - alfa) Nível de confiança: É a probabilidade de que o Intervalo de
Confiança contenha o verdadeiro valor do parâmetro.
α (alfa): É a probabilidade de Rejeitar Ho, quando ela é verdadeira.
Neste caso, seria a probabilidade de afirmar que as atitudes em
relação à Matemática interferem na formação das atitudes em
relação à Estatística, quando na realidade não existe nenhuma
relação. Este erro é controlado pelo pesquisador, e é ele que define a
margem de erro que está disposto a correr. Existem vários fatores
que influenciam na escolha do nível de significância. Em pesquisas,
como nas ciências exatas, biológicas, agronômicas, onde as variáveis
são mais fáceis de mensurar, onde os instrumentos de medida são
confiáveis, onde o controle de fatores intervenientes é razoável, o
conhecimento da área é maior, a gravidade das conseqüências do
erro menor, entre outros, permitem um maior rigor e, portanto,
pode-se ser mais exigente, diminuindo o nível de significância.
Contudo, em pesquisas, nas ciências humanas, que lida com pessoas,
com construtos polêmicos, instrumentos ainda não testados, as
consequências do erro não são tão graves, entre outros, pode-se ser
mais flexível. Via de regra, usa-se o nível de 5%.
Alfa (alpha): É a probabilidade de se cometer Erro do Tipo I (rejeitar
a hipótese nula quando ela é verdadeira) no teste de hipóteses.
Algoritmo(algorithm): Um algoritmo é um conjunto definido de
operações e passos ou procedimentos que objetivam levar a um
particular resultado. Por exemplo, com algumas exceções, os
programas computacionais, as fórmulas matemáticas e (de forma
ideal) receitas médicas e culinárias são algoritmos.
Amostra: Uma amostra é um subconjunto de indivíduos da população
alvo. Existem dois tipos de amostras, as probabilísticas, baseadas
nas leis de probabilidades, e as amostras não inferência estatística. n
- tamanho da amostra probabilísticas, que tentam reproduzir o mais
fielmente possível a população alvo. Entretanto, somente as
amostras probabilísticas podem, por definição, originar uma
generalização estatística, apoiada no cálculo de probabilidades.
Amostra (sample): Uma parte finita e não vazia extraída de uma
população.
Amostra Amodal: é uma amostra que não tem moda.
Amostra Bimodal: é uma amostra que tem duas modas.
Amostra Imparcial: é uma amostra em que todos os elementos
2
tiveram uma igual oportunidade de fazer parte da mesma.
Amostra Multimodal: é uma amostra que tem mais do que duas
modas.
Amostra Representativa: é aquela que deve conter em proporção
todas as características qualitativas e quantitativas da população.
Amostra: envolve premissas que dizem respeito às características do
evento estudado, dos fatores que exerçam influência sobre este
evento e da análise que se pretenda fazer. Portanto, antes de definir
o tamanho da amostra, o pesquisador deverá ocupar-se das
definições de um planejamento amostral, cujas características serão
particulares para cada estudo. Em geral, o planejamento do tamanho
da amostra leva em consideração os erros do Tipo I e do Tipo II, de
forma que as estimativas de interesse tenham precisão suficiente
para serem utilizadas. Portanto, para dimensionar a amostra o
pesquisador deve fornecer o nível de significância e o poder do teste
desejado
Amostragem (sampling): É o método de retirada de amostras de uma
população.
Amostragem Aleatória (random sample): A amostragem é dita
aleatória, probabilística ou ao acaso se todos os elementos da
população tiveram probabilidade conhecida e diferente de zero de
pertencerem a amostra.
Amostragem Aleatória Simples: é aquela em que qualquer elemento
da população tem a mesma probabilidade de ser escolhido.
Amostragem aleatória simples (simple random sampling): A
amostragem é dita aleatória simples se todos os elementos da
população possuírem a mesma probabilidade de pertencerem a
amostra.
Amostragem Estratificada: é aquela em que a população está dividida
em estratos ou grupos diferenciados.
Amostragem
estratificada
(stratified
sampling):
Método
de
amostragem na qual os elementos são retirados de subpopulações
agrupadas por algum critério.
Amostragem por conglomerados (cluster sampling): Método de
amostragem onde o que é sorteado é o aglomerado e não a unidade
individual.
Amostragem Sistemática: é aquela em que os elementos são
3
escolhidos a partir de uma regra previamente estabelecida.
Amostragem sistemática (systematic sampling): Método de
amostragem na qual o primeiro elemento de uma lista da população
é selecionado ao acaso e após cada k-ésimo elemento é selecionado.
Amostragem: um campo da estatística que estuda técnicas de
planejamento de pesquisa para possibilitar inferências sobre um
universo a partir do estudo de uma pequena parte de seus
componentes, uma amostra.
Amplitude (range): É a diferença entre os extremos de um conjunto,
isto é, a distância entre o máximo e o mínimo do conjunto.
Amplitude de um Conjunto de Dados: é a diferença entre o maior
valor e o menor valor desse conjunto. Se os dados estiverem
agrupados em classes, a amplitude é a diferença entre o limite
superior da última classe e o limite inferior da primeira.
Análise de componentes principais (principal component analysis):
Transformar
um
conjunto
de
variáveis
originais,
intercorrelacionadas, num novo conjunto de variáveis não
correlacionadas, as componentes principais. O objetivo mais
imediato da ACP é verificar se existe um pequeno número das
primeiras componentes principais que seja responsável por explicar
uma proporção elevada da variação total associada ao conjunto
original
Análise de conglomerados (cluster analysis): O propósito da Análise
de Cluster é buscar uma classificação de acordo com as relações
naturais que a amostra apresenta, formando grupos de objetos
(individuos, empresas, cidades ou outra unidade experimental) por
similaridade
Análise de sobrevivência (survival analysis): é o estudo de indivíduos
(itens observados) onde um evento bem definido (falha) ocorre
depois de algum tempo (tempo de falha).
Análise discriminante (discriminant analysis): encontrar a melhor
função discriminante linear de um conjunto de variáveis que
reproduza, tanto quanto possível, um agrupamento a priori de casos
considerados
Análise multivariada (multivariate analysis): Trata-se de um
conjunto de métodos que permite a análise simultânea de medidas
múltiplas para cada indivíduo ou objecto em análise, ou seja,
qualquer método que permita a análise simultânea de duas ou mais
4
variáveis pode ser considerado como multivariado.
Análise Probit (probit analysis): Em teoria de probabilidade e
estatística, probit a função é inverso função de distribuição
cumulativa (CDF), ou função do quantile associado com o padrão
distribuição normal. Tem aplicações dentro gráficos estatísticos
exploratórios e especializado modelar da regressão de variáveis
binárias da resposta.
ANDEVA (Analise de variância): técnica estatística cujo objetivo é
testar a igualdade entre três ou mais médias. Ela permite testar se a
variabilidade dentro dos grupos é maior que a existente entre os
grupos. A técnica supõe independência e normalidade das
observações, e igualdade entre as variâncias dos grupos.
ANOVA (Analysis of Variance): Teste de hipótese que objetiva
comparar mais de duas médias. É isto mesmo, a análise de variância
é um teste para comparar médias, que é realizado através das
variâncias dentro e entre os conjuntos envolvidos. É uma extensão
do teste "t" para duas médias.
ANOVA: ver Andeva
Assimetria (skeweness): Se um conjunto de dados for dividido em
duas partes a partir da mediana e estas duas partes não forem
iguais, então ele é dito assimétrico. Outra maneira de verificar se um
conjunto é assimétrico é calcular o seu coeficiente de assimetria ou o
momento de terceira ordem. Se ele for diferente de zero então o
conjunto é dito assimétrico.
Atípico (outlier): É um valor de um conjunto de dados que se afasta
dos demais. É um valor normalmente muito grande ou muito
pequeno quando comparado com o restante do conjunto. Pode ter
sido resultado de um erro de medida ou, então, pode ser um
indicativo de um comportamento atípico do conjunto sob
determinadas condições.
Atributo (attribute): É uma denominação alternativa
possíveis valores assumidos por uma variável qualitativa.
para
os
Atributos Qualitativos: são atributos que estão relacionados com
uma qualidade e apresentam-se com várias modalidades.
Atributos Quantitativos: são atributos aos quais é possível atribuir
uma medida e apresentam-se com diferentes intensidades ou
valores.
Autocorrelação (autocorrelation): é uma medida que informa o
5
quanto o valor de uma realização de uma variável aleatória é capaz
de influenciar seus vizinhos
Bootstrapping: um método de reamostragem onde se utiliza para
aproximar distribuição na amostra de um levantamento estatístico.
Se usa frequentemente para aproximar o viés ou a variância de um
conjunto de dados estatísticos, assim como para construir intervalos
de confiança ou realizar contrastes de hipóteses sobre parâmetros de
interesse. Na maior parte dos casos não pode obter-se expressões
fechadas para as aproximações bootstrap e portanto é necessário
obter reamostragens em um ordenador para por em prática o
método. A enorme capacidade de cálculo dos computadores atuais
facilita consideravelmente a aplicabilidade deste método tão custoso
computacionalmente
Censo: é um estudo estatístico que resulta da observação de todos os
indivíduos da população relativamente a diferentes atributos prédefinidos.
Classe Mediana ( ): é a classe, para dados classificados, que contem
a Mediana (neste caso considera-se como Mediana o valor da
variável estatística que corresponde a n/2, quer n seja par, quer n
seja ímpar).
Classe Modal: é a classe, para dados classificados, que aparece com
maior frequência.
Coeficiente angular ou inclinação (da reta de regressão: Y = a + b *
X): É a variação de Y por cada variação de X.
Coeficiente de confiança: corresponde a 1- α (probabilidade de
aceitar a hipótese nula quando esta é verdadeira) e indica a
probabilidade de decisão correta baseada na hipótese nula.
Coeficiente de correlação de Pearson (Pearson correlation
coeficient): é uma medida do grau de relação linear entre duas
variáveis quantitativas. Este coeficiente varia entre os valores -1 e 1.
O valor 0 (zero) significa que não há relação linear, o valor 1 indica
uma relação linear perfeita e o valor -1 também indica uma relação
linear perfeita mas inversa, ou seja quando uma das variáveis
aumenta a outra diminui. Quanto mais próximo estiver de 1 ou -1,
mais forte é a associação linear entre as duas variáveis
Coeficiente de correlação de Spearman (Spearman rho correlation
coeficient): O coeficiente ρ de Spearman mede a intensidade da
relação entre variáveis ordinais. Usa, em vez do valor observado,
apenas a ordem das observações.
6
Deste modo, este coeficiente não é sensível a assimetrias na
distribuição, nem à presença de outliers, não exigindo portanto que
os dados provenham de duas populações normais
Coeficiente de Correlação Linear ( r ): medida estatística que permite
calcular o valor numérico correspondente ao grau de dependência
entre duas variáveis, o qual varia entre -1 e 1.
Coeficiente de correlação parcial (partial correlation coeficient): O
coeficiente de correlação parcial( rAB.C) permite conhecer o valor da
correlação entre duas variables A e B, se a variable C tinha
permanecido constante para a série de observações consideradas. O
rAB.C é o coeficiente de correlação total entre as variables A e B
quando se lhes retirou sua melhor explicação lineal em termo de C.
Coeficiente de determinação (coefficient of determination): indica
quanto da variância da variável resposta é explicada pela variância
das variáveis explicativas. Seu valor está no intervalo de 0 a 1:
Quanto maior, mais explicativo é o modelo
Coeficiente de determinação (R2): É o quadrado do coeficiente de
correlação de Pearson e expresso em porcentagem. É o percentual
explicado da variação da variável dependente pela reta de regressão
(modelo). O restante é explicado pelo erro, que pode ser devido a
ausência de outras variáveis, erros de mensuração das variáveis e ao
erro aleatório.
Coeficiente de variação (coefficient of variation): É o quociente entre
o desvio padrão e a média de um conjunto de dados. É um percentual
e portanto adequado para efetuar comparações entre diferentes
conjuntos de dados.
Coeficiente gama (gamma coeficient).
Consistência
(consistency):
Propriedade
que
descreve
o
comportamento de um estimador quando o tamanho da amostra
tende ao infinito.
Correlação: é a relação ou dependência entre as duas variáveis de
uma distribuição bidimensional.
Correlação (correlation): Um termo geral utilizado para descrever o
fato de que duas ou mais variáveis (conjuntos de dados) estão
relacionados. Galton, em 1869, foi provavelmente o primeiro a
utilizar o termo com este sentido. O termo é utilizado mais
precisamente para denominar relacionamento linear entre dois
conjuntos de dados ou variáveis.
Correlação amostral (r): Serve para estimar a correlação linear
7
populacional.
Correlação canônica (canonical correlation).
Correlação Fraca ou Nula: quando o Diagrama de Dispersão não
permite o ajustamento de nenhuma reta, o que significa que r = .
Diz-se, então, que não existe nenhuma relação entre as variáveis da
Distribuição Bidimensional.
Correlação Negativa Forte: quando a reta de regressão, obtida a
partir do Diagrama de Dispersão, tem declive negativo. A correlação
é negativa quando r varia entre -1 e 0 e será tanto mais forte quanto
r se aproxima de -1.
Correlação Negativa Perfeita ou Linear: quando a reta de regressão,
obtida a partir do Diagrama de Dispersão, tem declive negativo com r
Correlação populacional (r): É um valor que mede o grau de relação
linear entre duas variáveis quantitativas. É igual a covariância
dividida pelo desvio padrão de cada uma das variáveis.
Correlação Positiva Forte: quando a reta de regressão, obtida a partir
do Diagrama de Dispersão, tem declive positivo. A correlação é
positiva quando r varia entre 0 e 1 e será tanto mais forte quanto r
se aproxima de 1.
Correlação Positiva Perfeita ou Linear: quando a reta de regressão,
obtida a partir do Diagrama de Dispersão, tem declive positivo com r
Covariância populacional C(X,Y): É um valor que mede o grau de
dispersão simultânea de duas variáveis quantitativas em relação as
suas médias. É a soma dos produtos dos desvios das variáveis em
relação a sua média, dividido pelo número de observações: Soma[(Xi
– médiaX)*(Yi – médiaY)]/N. É o numerador do coeficiente de
correlação.
Covariável (covariate or control variable): Uma variável que
apresenta um efeito que não se tem interesse direto. A análise da
variável de interesse apresentará melhores resultados se a variação
da covariável for controlada.
8
Curtose (kurtosis): É uma medida de um conjunto de dados que
informa o quanto este conjunto se desvia do modelo (curva) normal.
É o grau de achatamento do conjunto. A curva normal teria um
coeficiente de curtose igual a três (alguns autores utilizam zero) e é
denominada de mesocúrtica. Uma medida acima de três (ou positiva)
caracterizaria o conjunto como leptocúrtico (mais afinado que a
curva normal). Se o coeficiente de curtose for menor do que três (ou
negativo) então o conjunto é denominado de platicúrtico (mais
achatado do que a curva normal). Foi proposto por Karl Pearson
antes de 1905. É representado por g2 e calculado por: g2= m4/m22,
onde m4 é o momento central de quarta ordem e m2 é a variância
Dado
Estatístico:
é
o
resultado
da
atributo/variável qualitativa ou quantitativa.
observação
de
um
Dados (data): Os números e atributos que são coletados, analisados
e interpretados.
Dados Classificados: são valores que uma dada variável pode tomar
dentro de certo intervalo. Estes dados são classificados ou agrupados
em classes.
Dados de seção transversal (cross section data): Dados coletados no
mesmo ou aproximadamente no mesmo ponto do tempo.
Dados de série histórica (data): Dados coletados em períodos de
tempo sucessivos.
Dados Simples: vão valores associados a uma dada variável e cuja
representação é feita através de uma tabela.
Definição do Problema: é a primeira fase do estudo estatístico e
consiste na definição e formulação correcta do problema a ser
estudado.
Densidade da classe (class density): É a freqüência da classe dividida
pela sua amplitude.
Descrição das variáveis: A variável constitui um primeiro nível de
operacionalização de uma construção teórica e, para cada uma, se
deve dar, em seguida, uma descrição operacional. Para algumas
variáveis a descrição é simples, porém, em outros casos, essa
definição é mais complexa. Uma variável contínua, pode ser
transformada em discreta e depois em categórica ordinal, por
exemplo idade (como diferença entre a data atual e data de
nascimento, anos completos, faixas de idade). É recomendável tomar
o valor bruto e depois categorizá-lo, isso dá mais flexibilidade ao
9
pesquisador.
Desvio (deviation): A diferença entre o valor de um conjunto (dado)
e a média deste conjunto.
Desvio Médio (d): é a média aritmética do valor absoluto da
diferença entre cada valor e a média, no caso dos dados não
classificados. No caso dos dados classificados, tem que se entrar em
conta com a frequência absoluta de cada observação.
Desvio Padrão (standard deviation): É a raiz quadrada da soma dos
quadrados dos desvios dividida pelo número de elementos, ou dito
de outra forma, é raiz quadrada da média aritmética dos quadrados
dos desvios.
Desvio Padrão (s): é a raiz quadrada positiva da variância.
Diagrama de
Frequências.
Caule-e-Folhas:
o
mesmo
que
Separador
de
Diagrama de Dispersão: é a representação num referencial
ortonormado de um conjunto de pares ordenados de valores (x , y),
onde cada par ordenado corresponde a uma observação.
Diagrama de dispersão (scattergram).
Diagrama de Extremos e Quartis: é um diagrama que representa os
valores extremos e os quartis de uma variável estatística.
Dispersão (dispersion): O quanto um conjunto de dados está
espalhado. A dispersão é normalmente avaliada em torno da média,
através da variância, do desvio padrão e do desvio médio. Mas
também pode ser definida pela amplitude que é a diferença entre o
máximo e o mínimo do conjunto ou ainda pela amplitude interquartílica, isto é, a diferença entre o terceiro e o primeiro quartil.
Distância de Mahalanobis (Mahalanobis distance): Uma medida que
fornece o quanto um ponto (dado) se afasta da média da amostra
(ou centróide) no espaço das variáveis independentes utilizadas no
ajuste de um modelo de regressão múltipla. Ela fornece uma forma
de descobrir pontos que estão mais afastados do que os demais no
espaço multidimensional.
Distribuição Bidimensional: é a representação de uma variável
bidimensional (xi , xj), com 1 £ i £ n e xi
e xj duas variáveis
unidimensionais.
Distribuição de Frequências: o mesmo que Tabela de Frequências.
10
Epsilon (epsilon): Se for desejado corrigir o teste F univariado
utiliza-se o "epsilon" de Huynh-Feldt ou de Greenhouse-Geisser.
Lembrando que F é a razão entre os quadrados médios entre grupos
e dentro dos grupos e que os graus de liberdade entre os grupos é
"k - 1", enquanto que o dentro dos grupos é "n - k - 1". Para corrigir
o valor de F, uma vez que se tenha percebido a falta de esfericidade,
deve-se multiplicar o grau de liberdade entre os grupos pelo valor de
epsilon. Para violações mais severas da esfericidade (epsilon < 0,75)
o epsilon de Greenhouse-Geisser, mais conservador, deve ser
utilizado.
Erro de estimação: É a diferença entre o verdadeiro valor do
parâmetro e o valor calculado a partir do dados de uma amostra.
Este depende diretamente do grau de dispersão (variabilidade) da
variável em estudo e inversamente ao tamanho da amostra.
Erro do tipo I (alpha error): No teste de hipóteses consiste em
rejeitar a hipótese nula quando ela é verdadeira.
Erro do tipo II (beta error): No teste de hipóteses consiste em
aceitar a hipótese nula quando ela é falsa.
Erro quadrado médio (mean square error): É a soma dos quadrados
dos desvios entre os valores do estimador (variável) e o parâmetro
que ele se propõe a estimar.
Erro Tipo-I: rejeitar a hiptótese nula quando esta é verdadeira. A
probabilidade de cometer este erro é denotada por α e recebe o
nome de nível de significância do teste.
Erro Tipo-II: aceitar a hiptótese nula quando esta é falsa. A
probabilidade de cometer este erro é denotada por β
Esfericidade (sphericity): Propriedade de que a matriz das
variâncias/covariâncias de um conjunto de dados multivariados é um
múltiplo escalar da matriz identidade.
Esfericidade: O teste de esfericidade checa se a matriz de correlação
é igual a matriz identidade, ou seja, na diagonal formados por uns e
zero fora da diagonal.
ESS (Expert Statistical System): Sistema especialista estatístico.
Estatística: é o método que ensina a recolher, classificar, apresentar
e interpretar um conjunto de dados numéricos.
Estatística (Statistics): A arte e a Ciência de coletar, analisar,
apresentar e interpretar dados.
11
Estatística (statistics): Um número ou valor. Na teoria da estimação
é utilizada também como sinômino de estimador, isto é, uma função
dos elementos da amostra. Este termo foi introduzido por Sir Ronald
A. Fisher em 1922.
Estatística Descritiva: ramo da Estatística que tem por finalidade
descrever certas propriedades relativas a um conjunto de dados.
Estatística Descritiva (descritive statistics): Parte da Estatística que
trata do resumo e da apresentação de conjuntos de dados.
Estatística Indutiva: ramo da Estatística que procura inferir
propriedades da população a partir de propriedades verificadas numa
amostra da mesma.
Estatística inferencial ou indutiva (inferential or indutive statistic): O
processo de tirar conclusões sobre a natureza ou o modelo de
populações a partir de amostras aleatórias retiradas destas
populações.
Estatística ou estimador: É uma função dos valores da amostra, ou
seja uma variável aleatória, pois seu resultado depende dos
elementos selecionados naquela amostra. São utilizados para
estimar os parâmetros populacionais, para isto é preciso conhecer
sua distribuição de probabilidades, que via de regra, pressupõe
normalidade ou amostras grandes. Por exemplo: a média amostral, a
proporção amostral, a variância amostral, etc.
Estatística robusta (statistics): conjunto de técnicas utilizadas para
atenuar o efeito de outliers e preservar a forma de uma distribuição
tão aderente quanto possível aos dados empíricos
Estatística teste (test statistic): É o valor amostral da estatística
utilizada para testar um parâmetro no teste de hipóteses.
Estatisticamente
significante:
dizer
que
um
resultado
é
estatisticamente significante significa que as diferenças encontradas
são grandes o suficiente para não serem atribuídas ao acaso. Uma
diferença " estatisticamente significante" pode não ser "
clinicamente importante"; a importância em termos biológicos não
deve ser julgada pelos estatísticos, mas sim pelos profissionais da
área em que a pesquisa está sendo feita.
Estimação (estimation): Parte da inferência estatística que trata do
processo de estimação e das propriedades dos estimadores.
Estimador (estimator): A estística (fórmula ou expressão) utilizada
para avaliar o valor de um parâmetro. Um estimador é uma variável
12
aleatória.
Estimador de máxima verossimilhança (likehood stimator): usado
para determinar valores dos livres parâmetros de um modelo
estatístico. Não é sempre desejável usar estimadores de máxima
verosimilhança, pois eles podem estar sujeitos a sobreajuste: para
evitar isso, recomenda-se usar regularização, aonde se adiciona à
função objetiva termos que penalizam grandes coeficientes,
resultando em estimadores de máxima verosimilhança penalizada. O
estimador MV da variância de uma distribuição Gaussiana é
enviezado.
Estimador de mínimos quadrados (least square stimator): uma
técnica de otimização matemática que procura encontrar o melhor
ajustamento para um conjunto de dados tentando minimizar a soma
dos quadrados das diferenças entre o valor estimado e os dados
observados (tais diferenças são chamadas resíduos).
Estimativa (estimate): É o valor particular de um estimador, isto é, é
o resultado de algum cálculo realizado sobre valores amostrais.
Estimativa (ou Estimativa pontual): É o valor que a estatística ou
estimador toma em uma amostra determinada.
Estimativa por ponto (point estimate): O valor da estatística
amostral que corresponde ao parâmetro populacional.
Estudo caso-controle: comparação entre um grupo de doentes
(casos) e um grupo de pessoas não doentes (controles). O objetivo é
verificar se os casos diferem significativamente dos controles, em
relação à exposição a um dado fator de risco.
Estudo de coorte (cohort study): Um estudo longitudinal com o
mesmo conjunto (o coorte) de pessoas ao longo de um determinado
tempo.
Estudo de coorte: comparação entre um grupo exposto a um fator de
risco e outro grupo não exposto. Visa verificar se indivíduos expostos
ao fator de risco desenvolvem a doença em questão, em maior ou
menor proporção, do que um grupo de indivíduos não expostos.
Eta quadrado (eta-square): É uma medida do efeito tamanho que é
igual ao quociente entre a soma dos quadrados dos grupos entre
pela soma dos quadrados somados para todos os efeitos principais,
de interação e de erro (os efeitos das covariáveis não são
computados). Esta medida pode ser interpretada como o percentual
da variância da variável dependente que são explicadas pelos
fatores. Quando existem relações curvilíneas entre a variável
dependente e os fatores o Eta Quadrado será maior que o
13
correspondente coeficiente de correlação múltiplo ou R2.
Fator (fator): Um fator é uma denominação alternativa, utilizada na
análise de variância, para uma variável. Assim se num determinado
experimento consiste em determinar o efeito da dosagem de um
remédio, a "dosagem do remédio" é um fator. Se neste experimento
for levado em conta não apenas a dosagem mas também o tempo em
que o remédio será tomado, então "o tempo" será um segundo fator.
Cada valor que o fator (variável) assume é denominado nível do
fator. Assim se a dosagem testado for de: 100, 110, 115 e 120 mg,
este fator terá quatro níveis. Um fator deve ter pelo menos dois
níveis.
Fenômenos Independentes: são fenómenos respeitantes à mesma
variável que não têm qualquer ligação um com o outro.
Frequência Absoluta (fi): é o número de vezes que o valor de
determinada variável é observado.
Frequência Absoluta Acumulada (Fi): é a soma das frequências
absolutas anteriores com a frequência absoluta deste valor.
Frequência absoluta acumulada de um valor da variável: é o
somatório da sua frequência absoluta com todas as anteriores (as
dos valores anteriores).
Frequência absoluta de um valor da variável: é o número de vezes
que esse valor aparece na lista de dados.
Freqüência esperada (expected frequency): Número de vezes que um
valor da variável deve se repetir se a hipótese nula for verdadeira ou
ainda número de vezes que um valor da variável deve se repetir de
acordo com um determinado modelo.
Freqüência observada (observed frequency): Número de vezes que o
valor de uma variável se repete.
Frequência Relativa ( fri ): é o quociente entre a frequência absoluta
do valor da variável e o número total de observações.
Frequência Relativa Acumulada ( Fri ): é a soma das frequências
14
relativas anteriores com a frequência relativa desse valor.
Frequência relativa acumulada de um valor da variável: é o
somatório da sua frequência relativa com todas as anteriores (as dos
valores anteriores).
Frequência relativa de um valor da variável: é o quociente entre a
sua freqüência absoluta e o número total de dados.
Função Cumulativa: função que indica para cada valor real x a
frequência absoluta (ou relativa) de observações com intensidade
menor ou igual a x. A representação gráfica desta função é em forma
de escada.
Função de distribuição (cumulative distribuition function): A função
de distribuição acumulada ou simplesmente função de distribuição
de uma variável aleatória é definida em cada valor "x" real como
sendo F(x) = P(X £ x).
Gráfico Circular: representado por um círculo que está dividido em
sectores cujas amplitudes são proporcionais à frequência que lhe
corresponde.
Gráfico de Barras: é constituído por barras, horizontais ou verticais,
de comprimento proporcional à frequência.
Graus de liberdade (degree of freedon): É a quantidade informações
(variáveis) livres que serão utilizadas para o cálculo de uma
estatística (fórmula). O número de valores independentes que serão
utilizados na estimativa de um parâmetro. Em geral, o número de
graus de liberdade de uma estimativa é igual ao número de valores
utilizados no seu cálculo menos o número de parâmetros estimados
no cálculo intermediário para a sua obtenção. Assim para calcular a
média de uma amostra de tamanho "n", são necessários as "n"
observações fazendo com que esta estatística tenha "n" graus de
liberdade. Já a estimativa da variância através de uma amostra de
tamanho "n" terá "n - 1" graus de liberdade, pois para a obtenção da
variância amostral é necessário antes o cálculo da média amostral.
Graus de liberdade: é um conceito ligado ao número de dados
disponíveis (livres) para o cálculo da estatística.
H1: As atitudes em relação à Matemática interferem na formação das
atitudes em relação à Estatística. (rxy ¹ 0)
Hipótese alternativa (alternative hipothesis): No teste de hipóteses é
a hipótese que ser provar. É geralmente uma desigualdade.
Hipótese alternativa (H1): As hipóteses de uma pesquisa devem
15
enunciar-se por propostas tão claras e específicas quanto possível,
via de regra, é o que você quer mostrar, por exemplo: “as atitudes
em relação a Matemática interferem diretamente na formação das
atitudes em relação à Estatística”
Hipótese alternativa: hipótese que será considerada como aceitável,
caso a hiptótese nula seja rejeitada.
Hipótese nula (Ho): A hipótese nula é a negação da hipótese
alternativa, por isso, via de regra, você sempre torce para que ela
seja rejeitada, como no caso seguinte: “as atitudes em relação a
Matemática não interferem na formação das atitudes em relação à
Estatística”. Está é a hipótese que esta sendo testada por qualquer
teste estatístico. A se tomar uma decisão estatística, existem duas
possibilidades de erro: o Erro de tipo I: rejeitar a hipótese nula (Ho),
quando ela é verdadeira e, o Erro de tipo II: aceitar a hipótese nula
(Ho), quando ela é falsa. Infelizmente, quando a probabilidade de
cometer um diminui, a probabilidade de cometer o outro aumenta.
Assim, os testes estatísticos foram delineados para controlar o erro
de tipo I, chamado de nível de significância.
Hipótese nula (null hipothesis): No teste de hipóteses é a hipótese
que representa o que já se conhece e é formulada com o objetivo de
ser rejeitada.
Hipótese nula: hipótese que é colocada a prova em teste de hipótese.
Em geral indica uma igualdade a ser contestada.
Hipótese: Uma hipótese é um enunciado formal das relações
esperadas entre pelo menos uma variável independente e uma
variável dependente. Nas pesquisas exploratórias, as hipóteses
podem se tornar questões de pesquisa. Estas questões pela sua
especificidade, devem dar testemunho do trabalho conceitual
efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta
interpretável.
Histograma: é um gráfico de barras em que a área destas é
proporcional à frequência, não havendo espaço entre as mesmas. Só
se utiliza em variáveis quantitativas contínuas.
Histograma (histogram): Gráfico de colunas justapostas (retângulos)
onde a base é a amplitude da classe e a altura é a densidade ou a
densidade relativa da classe. É utilizado, normalmente, para
representar uma variável contínua.
Ho: As atitudes em relação à Matemática não interferem na formação
das atitudes em relação à Estatística (rxy = 0)
16
Homocedasticidade ou igualdade de variâncias: Este pressuposto
exige que o nível de dispersão da variável dentro dos grupos seja
similar. O SPSS automaticamente testa esta hipótese: Ho: s1 = s2 =
s3 = s4, através do teste de Levene.
Independência (independence): Em teoria de probabilidade, para
dizer que dois eventos sejam independentes, significa intuitivamente
que a ocorrência de um evento o faz nem mais nem mais menos o
provável esse outro ocorre.
Inferência Estatística (inferential statistics): A utilização de
amostras de uma população com o objetivo de tomar decisões sobre
a população.
Interação (interaction): Em estatística, interação é um termo em a
modelo estatístico adicionado quando o efeito de dois ou mais
variáveis não for simplesmente aditivo. Tal termo reflete que o efeito
de uma variável depende dos valores de um ou de mais outras
variáveis.
Intercepto (da reta de regressão: Y = a + b * X): É o valor de Y,
quando X = 0. A maioria das vezes não faz sentido interpretar este
valor.
Intervalo de confiança (confidence interval): A estimativa de um
parâmetro populacional através de um intervalo de valores ao invés
de um único valor.
Intervalo de confiança: É um intervalo centrado na estimava pontual,
cuja probabilidade de conter o verdadeiro valor do parâmetro é igual
ao nível de confiança.a: É a probabilidade de erro na estimação por
intervalo.
ISS
(Intelligent
inteligente.
Statistical
Software):
Software
estatístico
Kruskall-Wallis (Kruskall-Wallis): Ver teste de Kruskall-Wallis.
Lambda de Wilks (Wilks's lambda): É um teste multivariado para
verificar diferenças de médias para os casos de múltiplas variáveis
dependentes intervalares e múltiplos grupos (mais de dois)
formados pelas variáveis independentes. O teste t, o T de Hotelling e
o teste F são casos especiais deste teste.
Logit (logit): Se U for uma variável definida no intervalo [0; 1], então
a transformação que associa a cada valor "u", neste intervalo, um
valor "v" no intervalo (-¥; +¥) é denominada de logit (ou logística) e
definida por: v = logit(u) = ln[u/(1 - u)]. A transformação inversa é
17
executada por: logit-1(v) = ev/(1 + ev).
Matriz de correlação: É uma matriz quadrada, simétrica, cuja
diagonal é formada pela unidade, pois trata-se da correlação da
variável com ela mesma, e em cada interseção linha (i) coluna (j) a
correlação das variáveis Xi e Xj.
Matriz de covariância: É uma matriz quadrada, simétrica, cuja
diagonal contém a variância da variável e em cada interseção linha
(i) coluna (j) a covariância das variáveis Xi e Xj.
Máximo(maximum): É o maior valor de um conjunto de dados.
Média amostral: (X, se lê X barra), é uma variável aleatória, função
dos valores da amostra, é definida como a soma de todos os valores
da amostra dividido pelo número de observações da amostra. Serve
para estimar a média populacional.
Média aritmética: é o valor que se obtém dividindo a soma dos
valores pelo número de dados.
Mediana: o valor que está no centro da sequência dos dados quando
ela está ordenada de forma crescente ou decrescente. Quando o
número de valores é impar, é só o valor central, e quando o número
de valores é par, somam-se os dois valores centrais e dividem-se por
dois (média aritmética).
Medida de associação (Measure of association): Um valor que
fornece uma idéia da força do relacionamento (e direção) entre duas
ou mais variáveis.
Medidas de Dispersão: é um conjunto de medidas (Amplitude,
Variância e Desvio Padrão) utilizadas no estudo da variabilidade de
uma determinada distribuição, permitindo obter uma informação
mais completa acerca da "forma" da mesma.
Medidas de Localização: é um conjunto de medidas (Média, Mediana,
Moda e Quartis) que representam de uma forma global um conjunto
de dados.
Medidas de Tendência Central: o mesmo que Medidas de Localização.
Medidas de tendência central: Moda, Mediana, Média
Melhor estimador linear não-viciado (best linear unbiased
estimator): Um estimador é dito estimador linear se ele é uma
combinação linear das observações amostrais. É dito o melhor
estimador linear não-viciado se de todas as combinações lineares da
18
amostra ele apresentar a menor variância.
Moda ( m ): observação que ocorre com maior frequência numa
amostra.
Moda: é o valor mais freqüente da variável.
Modelo ARIMA (AutoRegressive Integrated Moving Average): É um
modelo utilizado em Séries Temporais e que pode representar o
comportamento dinâmico que muitos conjuntos de dados
apresentam.
Modelo autoregressivo (autoregressive model).
Modelo log-linear (log-linear model).
Monitoramento: Observações contínuas, sem ter uma ação com base
no resultado.
Multicolinearidade: Este é um pressuposto importante na análise
regressão múltipla, pois se uma variável independente for uma
combinação linear de outras variáveis independentes, coloca em
risco toda a análise. Não adianta tentar modelar uma variável em
função de várias variáveis correlacionadas, essas não incrementam o
poder explicativo do modelo. Neste caso, use o modelo de regressão
stepwise, backward ou foreward.
Nível de confiança (confidence level): É a probabilidade de que um
intervalo de confiança contenha o valor do parâmetro que ele se
propõe a estimar.
Nível de significância (alfa): É definida como a probabilidade de
cometer o erro de tipo I, ou seja, rejeitar a hipótese nula (Ho),
quando ela é verdadeira. Por exemplo:
Nível de significância (alpha level): É a probabilidade de se cometer
erro do tipo I no teste de hipóteses, isto é, a probabilidade de se
rejeitar a hipótese nula quando ela é verdadeira.
Normal: Uma variável quantitativa segue uma distribuição normal, se
sua distribuição de frequências tem o formato similar ao de um sino,
ou seja a maioria dos valores se concentram em torno da média e, a
medida que se afasta do centro as observações são cada vez mais
raras. Essa distribuição é simétrica. Muitas variáveis têm essa
distribuição, tais como altura das pessoas adultas do sexo masculino,
coeficiente de inteligência, etc. Para examinar visualmente, você
pode fazer o histograma com a curva ajustada, o SPSS faz isso. O
teste que checa a normalidade de uma variável é o teste de Lilliefors,
que se encontra no comando EXPLORE do SPSS. A hipótese nula é
19
que a variável segue uma distribuição normal, por isso você espera
aceitar Ho, e espera que o p-valor seja maior do que o nível de
significância especificado por você.
Normalidade: dizer que há normalidade ou que os dados são
normalmente distribuídos significa que eles seguem uma distribuição
normal, isto é, valores concentrados simetricamente em torno da
média e quanto maior a distância da média, menor a freqüência das
observações.
Número aleatório (random number): Número gerado num
computador através de um algoritmo recursivo. Na realidade o
correto seria dizer número pseudo aleatório uma vez que as
seqüências geradas são reprodutíveis.
Número de repetições: é o número de unidades experimentais que
recebem o mesmo tratamento.
Nuvem de Pontos: o mesmo que Diagrama de Dispersão.
Odds ratio: chance de se observar casos expostos ao fator de risco
sobre a chance de se observar controles expostos ao fator de risco.
Se a exposição ao fator de risco for a mesma para casos e controles o
odds ratio vale 1. Também é chamado de razão de chances (odds
ratio).
Organização dos Dados: consiste em "resumir" os dados através da
sua contagem e agrupamento.
Parâmetro: É uma medida usada para descrever, de forma resumida,
uma característica da população, Por exemplo, a média populacional
(m), a proporção populacional (p), a variância populacional (s), o
coeficiente de correlação (r), etc. Os parâmetros, via de regra, são
valores desconhecidos e desejamos estimar, ou testar, a partir dos
dados de uma amostra.
Pictogramas: são gráficos onde se utilizam figuras ou símbolos
alusivos ao problema em estudo.
Planificação do Problema: consiste na determinação de um processo
para resolver o problema e, em especial, como obter informações
sobra a variável em estudo.
20
Poder do teste (power of a statistical test): Denomina-se poder de
um teste estatístico a probabilidade de aceitar a hipótese nula
quando ela é verdadeira. A probabilidade de se cometer erro do tipo
II, isto é, aceitar a hipótese nula quando ela é falsa é representada
por b, então o poder do teste será 1 - b = P(Aceitar H0 /H0 é
verdadeira), isto é o poder do teste é definido como a probabilidade
de não se cometer erro do tipo II.
Poder do teste: corresponde a 1-β
Polígono de Frequências: são gráficos com aspecto de linhas
quebradas. Constroem-se unindo por segmentos de recta os pontos
médios das bases superiores dos rectângulos de um histograma.
População: é um conjunto de seres com uma dada característica em
comum e com interesse para o estudo.
População (population): Conjunto de elementos de interesse com
pelo menos uma característica em comum.
População: Toda questão de pesquisa define um universo de objetos
aos quais os resultados do estudo deverão ser aplicados. A
população alvo, também, chamada população estudada, é composta
de elementos distintos possuindo um certo número de características
comuns (pelo menos uma). Essa característica comum deve delimitar
inequivocamente quais os elementos que pertencem à população e
quais os que não pertencem. Estes elementos, chamados de
unidades populacionais, são as unidades de análise sobre as quais
serão recolhidas informações.
Precisão absoluta: é a precisão especificada diretamente e na mesma
unidade da estimativa que se pretende calcular.
Precisão relativa: é a precisão especificada não diretamente como
precisão absoluta, mas sim proporcionalmente como porcentagem
em relação ao verdadeiro valor.
Pressuposto de independência: é chave para a maioria das
estatísticas. Isto significa que o resultado de uma observação não
interfere no resultado de outra observação. Por exemplo, a nota de
um aluno não interfere na nota de um outro aluno. Já esse
pressuposto é quebrado para amostras relacionadas como, por
exemplo, passar uma prova antes de uma intervenção e a mesma
prova (ou outra) depois da intervenção; essas duas medidas são
correlacionadas, uma vez que os sujeitos são os mesmos. Neste
caso, deve-se utilizar o teste para dados emparelhadas, ou ANOVA
com medidas repetidas. Logo, cuidado com os estudos longitudinais,
21
em que se acompanha os mesmos sujeitos em vários momentos.
Pressuposto de normalidade: é chave para toda a estatística
paramétrica, por essa razão você sempre deve checar a validade do
mesmo. Contudo, quando sua amostra for suficientemente grande (n
> 30), dependendo do formato da distribuição, o Teorema Central do
Limite garante a convergência da média amostral para a
normalidade, veja a página 197 do livro de Estatística Básica de
Moretin e Bussab.
Probit (probit): Se U for uma variável definida no intervalo [0; 1],
então a transformação que associa a cada valor "u", neste intervalo,
um valor "v" no intervalo (-¥; +¥) é denominada de probit se v = F1
(u), onde F é Função de Distribuição da Normal Padrão.
Proporção amostral: ( p se lê p barra), serve para estimar a
proporção populacional.
Proporção populacional (p): É um valor resultante do cociente entre
o número de casos favoráveis e o número de casos possíveis na
população. Por exemplo: proporção de eleitores que votarão no
candidato XYZ nas próximas eleições.
p-valor: É a probabilidade de cometer o erro de tipo I (rejeitar Ho
quando ela é verdadeira), com os dados de uma amostra específica.
Este valor é dado pelo pacote estatístico, assim o comparamos com o
nível de significância escolhido e tomamos a decisão. Se o p-valor for
menor que o nível de significância escolhido rejeitamos Ho, caso
contrário, aceitamos Ho.
P-value: corresponde ao menor nível de significância que pode ser
assumido para rejeitar a hipótese nula. Dizemos que há significância
estatística quando o p-value é menor que o nível de significância
adotado. Por exemplo, quando p=0.0001 pode-se dizer que o
resultado é bastante significativo, pois este valor é muito inferior aos
níveis de significância usuais. Por outro lado, se p=0.048 pode haver
dúvida pois, embora o valor seja inferior, ele está muito próximo ao
nível usual de 5%.
Quartil (quartil): Valores (são três) que dividem um conjunto de
dados em quatro partes iguais. ( Q1 a Q3 )
Qui-quadrado (chi-square): teste qui-quadrado
Razão de chances (odds ratio): É a chance a favor dividida pela
chance contra, ou seja é o número de casos favoráveis dividido pelo
número de casos não favoráveis.
22
Recenseamento: o mesmo que Censo.
Recolha de Dados: é a primeira etapa depois de definido o problema
em estudo.
Reta de Regressão: é a recta traçada sobre uma dada Núvem de
Pontos, sendo um modelo matemético que pretende descrever a
relação existente entre duas variáveis unidimensionais de uma
distribuição bidimensional.
Redução de categorias (bracketing, collapsing or grouping): É a
operação de combinar categorias ou intervalos de valores de uma
variável para produzir um número menor de categorias.
Região crítica ou de rejeição (critical region or region of rejection): A
área sob a distribuição amostral que é determinada de acordo com o
nível de significância do teste.
Relações Estatísticas: são relações que se podem estabelecer entre
determinadas variáveis de um problema em estudo.
Risco relativo: proporção de pessoas expostas ao fator de risco que
desenvolveram a doença sobre a proporção de pessoas não expostas
que desenvolveram a doença. Vale 1 se as pessoas expostas e não
expostas desenvolveram a doença na mesma proporção.
Separador de Frequências: é um tipo de tabela que permite ter uma
percepção imediata do aspecto global dos dados sem perda da
informação contida na colecção dos dados inicial.
Somatório ( å ): representa, de forma abreviada, uma soma.
Sondagem: é o estudo estatístico que se baseia numa parte da
população, isto é, numa amostra que deve ser representativa dessa
população.
Surveillance: Observações contínuas com um plano de ação com base
nos resultados
Survey: Observação com um objetivo/meta específica, semelhante a
um estudo epidemiológico transversal.
T quadrado de Hotteling (Hotelling's t-square): É um teste
multivariado para verificar diferenças de médias para casos onde
existam múltiplas variáveis dependentes intervalares e dois grupos
formados por variáveis independentes categóricas. Para passar do
traço de Hotelling ou traço de Lawley-Hotelling para o T quadrado
deve-se multiplicar o traço por (n - l), onde "n" é o tamanho da
amostra considerando todos os grupos e "l" é o número de
23
subgrupos.
Tabela de Frequências: são tabelas onde se apresentam os dados por
classes e as frequências respectivas.
Tamanho da Amostra: é o número de elementos que constituem uma
dada amostra.
Teste bicaudal: teste cujo objetivo é testar apenas se as médias (ou
proporções) são iguais ou diferentes e não estabelecer qual delas é
maior ou menor.
Teste bilateral (two-tailed test): Um teste é dito bilateral se a região
crítica estiver dividida meio a meio entre valores superiores e
inferiores.
Teste da soma dos postos de Wilcoxon (Wilcoxon's rank sum test):
Um nome alternativo para o teste de Mann-Whitney.
Teste de esfericidade de Bartlett (Bartlett's sphericity test): Testa a
hipótese nula de que a matriz das covariâncias das variáveis
dependentes ortonormalizadas é proporcional a uma matriz
identidade.
Teste de esfericidade de Mauchly (Mauchly sphericity test): Testa a
hipótese nula de que a matriz populacional de correlações é uma
matriz identidade. Se o valor da estatística qui-quadrado obtido é
significativo então a matriz de correlações a ser analisada é não
aleatória. Neste caso é conveniente utilizar o teste de Humphrey e
Ilgen.
Teste dos sinais de Wilcoxon (Wilcoxon's signed rank test): Um
teste não paramétrico ou de distribuição livre para testar a diferença
entre duas populações utilizando amostras emparelhadas. O teste
toma por base as diferenças absolutas dos pares de observações das
duas amostras, ordenados de acordo com o seu valor onde cada
posto (diferença) recebe o sinal da diferença original. A estatística
teste é a soma dos postos positivos.
Teste exato de Fisher (Fisher's exact test): Um teste de
independência entre duas variáveis categóricas dicotômicas. Foi
introduzido por Sir Ronald A. Fisher em 1935. O teste envolve o uso
da distribuição hipergeométrica para calcular a probabilidade de uma
determinada combinação de totais parciais (somas de linhas ou
colunas) sob a hipótese nula de independência.
Teste monocaudal: teste cuja hipótese alternativa é uma
desigualdade, ou seja, deseja-se testar se o valor observado é maior
24
ou menor ao valor crítico correspondente à hipótese nula.
Teste não paramétrico (nonparametric test): Um teste não
paramétrico testa associações, dependência/independência e
modelos ao invés de parâmetros.
Teste Q de Cochran (Cochran's Q test).
Teste qui-quadrado (chi square test).
Teste t - de Student (t test or Student t test): Teste paramétrico que
utiliza duas amostras independentes. Testa a diferença entre duas
médias populacionais quando os desvios padrões populacionais são
desconhecidos (o que ocorre na grande maioria dos casos).
Teste t: teste estatístico cujo objetivo é testar a igualdade entre duas
médias. O teste supõe independência e normalidade das
observações. As variâncias dos dois grupos podem ser iguais ou
diferentes, havendo alternativas de teste para as duas situações.
Neste serviço, consideramos apenas o caso em que as variâncias são
iguais.
Teste U de Mann-Whitney (Mann-Whitney U test).
Teste unilateral (one-tailed test): Um teste é dito unilateral quando a
região crítica ou região de rejeição está situada à direita
Teste Z: teste estatístico cujo objetivo é testar a igualdade entre uma
média conhecida (numa população ) e uma média calculada pelo
pesquisador (numa amostra). O teste supõe normalidade das
observações.
Unidade Amostral: a menor divisão do material que se mede em
separado
Unidade Estatística ou Indivíduo: é cada um dos elementos da
população.
Unidade Experimental: a menor divisão do material experimental que
poderia receber qualquer tratamento.
Validade externa: refere-se à inferência estatística, ou seja, a
generalização dos resultados para toda a população de interesse.
Validade interna: é a validação dos resultados apenas para a amostra
considerada, ou seja, é a validade das inferências para os indivíduos
que participaram do estudo. Os cálculos de tamanho de amostra
feitos aqui são baseados principalmente nas técnicas estatísticas a
serem utilizadas. Entretanto, é importante ressaltar que, o fato do
25
número de observações ser suficiente não garante a utilização da
técnica estatística. Em geral, existem algumas suposições que devem
ser satisfeitas como por exemplo, a normalidade das observações em
testes de comparação de médias.
Valor crítico (critical value): Valor da distribuição amostral que
separa a região de região da de não rejeição.
Variância ( σ2 ): é a medida que permite avaliar o grau de dispersão
dos valores da variável em relação à média.
Variância (variance): É a média do quadrado das distâncias
euclidianos que cada ponto do conjunto está da média aritmética.
Variância amostral (s2): Serve para estimar a variância populacional.
Variância populacional (s2): É um valor que mede o grau de
dispersão dos valores da variável, na população, em relação à média
populacional. Definida como a soma dos quadrados dos desvios dos
valores da variável em relação a sua média, divido pelo número de
observações: Soma[(Xi – média)2]/N
Variância relativa (relative variance): É o quociente entre a variância
e o quadrado da média.
Variáveis Contínuas: são as variáveis que podem tomar qualquer
valor de um determinado intervalo.
Variáveis Discretas: são as variáveis que podem tomar um número
finito ou uma infinidade numerável de valores.
Variáveis Qualitativas: o mesmo que Atributos Qualitativos.
Variáveis Quantitativas: o mesmo que Atributos Quantitativos.
Variável (variable): Uma característica comum a todos os dados.
Variável aleatória: É uma variável cujo valor numérico atual é
determinado por probabilidades. Por exemplo, X: pontuação na
escala de atitudes em relação à Estatística, Y: número de disciplinas
reprovadas em Estatística, etc. Observe que o resultado depende do
aluno selecionado. A variável aleatória tem uma distribuição de
probabilidades associada, o que nos permite calcular a probabilidade
de ocorrência de certos valores.
Variável contínua: variável cujos possíveis valores formam um
intervalo de números reais e que resultam, normalmente, de uma
mensuração, como por exemplo peso, altura e pressão arterial.
Variável dependente (VD): Mede o fenômeno que se estuda e que se
26
quer explicar. São aquelas cujos efeitos são esperados de acordo
com as causas. Elas se situam, habitualmente, no fim do processo
causal e são sempre definidas na hipótese ou na questão de
pesquisa. No nosso exemplo: desempenho em estatística e atitudes
em relação à Estatística.
Variável dicotômica: variável em que só existem duas respostas
possíveis, como por exemplo sim/não, doente/não doente.
Variável discreta: variável quantitativa cujos possíveis valores
formam um conjunto finito ou enumerável de números e que
geralmente resultam de uma contagem, como por exemplo o número
de filhos.
Variável independente (VI): São aquelas variáveis candidatas a
explicar a(s) variável(eis) dependente(s), cujos efeitos queremos
medir. Aqui devemos ter cuidado, pois mesmo encontrando relação
entre as variáveis isto, não necessariamente, significa relação
causal.
Variável qualitativa (ou categórica) nominal: São aquelas cujas
respostas podem ser encaixadas em categorias, sendo que cada
categoria é independente, sem nenhuma relação com as outras: sexo
(masculino, feminino), raça (branco, preto, outro), etc.
Variável qualitativa (ou categórica) ordinal: São aquelas cujas
categorias mantém uma relação de ordem com as outras, que podem
ser regulares ou não (existe uma ordem natural nas categorias):
classe social (alta, média, baixa), auto-percepção de desempenho em
Matemática (péssimo, ruim, regular, bom , ótimo), etc. A rigor, no
tratamento estatístico das variáveis categóricas, não existe diferença
se ela for nominal ou ordinal, a única observação é que quando você
está lidando com uma variável ordinal, é aconselhável manter a
ordem natural das categorias, de menor para maior, na hora da
apresentação, seja em tabela ou em gráficos.
Variável quantitativa contínua: Resultados de mensurações, podem
tomar infinitos valores: pontuação na escala de atitude, nota na
prova de matemática, pontuação no vestibular, etc.
Variável quantitativa discreta: São aquelas resultantes de contagens,
constituem um conjunto finito de valores: número de filhos, número
de reprovações em matemática, idade em anos completos, etc.
Variável: é uma característica da população. Toda questão de
pesquisa define um número de construções teóricas que o
pesquisador quer associar. O grau de operacionalização destas
construções não faz parte de um consenso. Por essa razão, a seção
27
que trata das definições das variáveis deve permitir ao leitor avaliar
a adequação dos instrumentos utilizados, as variáveis escolhidas e
as construções teóricas descritas no quadro conceitual.
Vício (bias): Conceito referente a uma estatística ou estimador. Um
estimador é dito sem vício (não-viciado), não- tendencioso ou
imparcial se a média de sua distribuição amostral coincide com o
parâmetro a ser estimado.
Wavelet
(Wavelet):
É
uma
função
matemática
útil
para
processamento de sinais e compressão de imagens, embora seu uso
com estes propósitos seja recente a teoria não é nova. Os princípios
são semelhantes ao da Análise de Fourier. Na WWW wavelets tem
sido utilizadas para a compressão de imagens com mais sucesso do
que o método familiar JPEG.
Referencias:
http://www.pucrs.br/famat/statweb/glossarios/gloesta/ge_yz.htm
http://www2.esec-miguel-torga.rcts.pt/Projectos/estatistica.pdf
http://www.educ.fc.ul.pt/icm/icm2003/icm24/dicionario.htm
http://www.unibero.edu.br/glossarios_def.asp
http://www.socio-estatistica.com.br/Edestatistica/glossario.htm
28
Download

Glossário de Termos Estatísticos