1
2
Objetivos da Aula
Bases Computacionais da Ciência (BC-0005)
Introduzir algumas ferramentas iniciais de Análise Estatística:
Permitem visualizar e compreender características de dados
experimentais e realizar formas simples de inferência
Noções de Estatística
Utilizar o software BrOffice Calc:
Familiarizar o aluno (a aluna) com o uso da ferramenta para
automatizar tarefas de análise estatística, que seria por demais
tediosas ou mesmo impossíveis de se realizar manualmente
Maria das Graças Bruno Marietto
[email protected]
Centro de Matemática, Computação e Cognição (CMCC)
Universidade Federal do ABC (UFABC)
A objetivo desta aula NÃO é esgotar o assunto da análise
estatística de dados
3
4
Introdução
Em diversos campos do conhecimento, são comuns as situações em que
uma decisão deve ser tomada com base em informações parciais:
Dados obtidos a partir de um número relativamente pequeno de
exemplos são usados para prever o comportamento em cenários ainda
não observados
Uma montadora prepara um novo modelo de
automóvel. Para determinar se o modelo é seguro,
são realizados ensaios de impacto (crash tests) com
protótipos, em que são medidos parâmetros de
deformação, aceleração, força de impacto sobre
passageiro, etc
Esse procedimento supõe que os protótipos iniciais
são representativos do comportamento dos
automóveis fabricados futuramente
E, portanto, as conseqüências de um acidente podem
ser corretamente avaliadas
Introdução
Vídeo:
Chinese car crash test failure
5
Introdução
6
Introdução
O que pode-se observar nos exemplos anterior é a incerteza
resultante de trabalharmos com um subconjunto dos dados de
interesse
Este subconjunto é denominado de AMOSTRA
O conjunto total é chamado de POPULACAO
O objetivo de uma pesquisa eleitoral é fornecer
um retrato momentâneo da intenção de voto
em cada candidato
Em uma pesquisa, apenas um pequeno
contingente do eleitorado é entrevistado
Por isso, é impossível dizer que a verdadeira
intenção de voto em um candidato é igual ao
percentual obtido por ele na pesquisa
Os números de intenção são divulgados
juntamente com a margem de erro da pesquisa,
indicando um intervalo que provavelmente
contém a intenção real de voto em cada
candidato
O processo de gerar uma amostra é aleatório
Então, se gerarmos duas amostras distintas para
estudar um mesmo processo, provavelmente vamos
obter dois resultados diferentes
Em princípio, não podemos dizer que um desses
resultados é “mais verdadeiro” que o outro
7
8
Introdução
Introdução
A Estatística é um ramo da Matemática que estuda como se
pode usar uma amostra para tirar conclusões sobre um universo
maior de objetos
Atualmente a Estatística:
Apresenta amplas ferramentas computacionais
Os softwares de baixo custo, ou mesmo gratuitos,
disponibilizam métodos sofisticados de análise estatística
levando em conta que sempre há variação e incerteza nas nossas
medidas
A Estatística está presente na base de toda a ciência
experimental, pois:
fornece diretrizes para a coleta de dados
permite comparar diferentes hipóteses
permite avaliar a precisão dos resultados obtidos
experimentalmente
A compreensão dos métodos estatísticos, de seus cenários
de aplicação e limitações, bem como o domínio de
ferramentas computacionais de análise, é fundamental
para a prática da Ciência
10
9
População e Amostra
Até o momento usamos os termos população e amostra para ilustrar a
necessidade de métodos estatísticos
Agora vamos apresentar definições mais precisas desses dois termos
População: é o grupo correspondente a uma coleção completa de unidades
para as quais serão feitas inferências. Representa o alvo da investigação
Conceitos Básicos
Amostra: é definida como subconjunto do universo ou da população
por meio do qual se estabelecem, ou se estimam, as características
desta população
Uma amostra pode ser constituída, por exemplo:
por 100 funcionários que fazem parte da população de 1.700 que trabalham em
uma empresa
por um determinado número de centros de saúde que compõem a rede de
saúde estadual
11
População e Amostra
12
População e Amostra
Para que possamos fazer inferências válidas sobre uma população
é necessário que a amostra seja representativa
ou seja, escolhida de maneira aleatória e contenha um
número adequado de sujeitos
Uma vez determinada uma amostra
o passo seguinte de um estudo é a medição de certas
características de interesse para cada um dos casos
presentes na amostra
Um processo descuidado de escolha pode resultar em uma amostra
tendenciosa (“enviesada”). Por exemplo:
caso selecionássemos os 100 funcionários de maior salário da
empresa
ou escolhêssemos todos os centros de saúde em um mesmo
bairro
Essas características medidas são chamadas de variáveis
Em cada um desses dois casos, teríamos um retrato que não reflete as
condições da população
Por exemplo, em um estudo sobre habitantes de uma cidade, as
variáveis podem ser:
altura, sexo, cor do cabelo, cor dos olhos, idade, peso,
preferência por um partido político, etc
13
Variáveis
As variáveis podem ser divididas em dois tipos:
Dependente: é a medida de interesse da pesquisa
Deve variar em resposta a alguma outra variável manipulada
(intervenção)
Independente: é a variável candidata a explicar a variável
dependente
No experimento ela está sendo manipulada e/ou
supostamente exerce uma influência sobre a variável de
resposta
14
Análise Estatística
Após a coleta dos dados, quando as variáveis de interesse já
foram medidas para todos os casos da amostra, inicia-se a
etapa de Análise Estatística
A Análise Estatística se caracteriza pelo cálculo de valores a
partir das variáveis:
que nos permitem entender o comportamento dos dados e fazer
previsões sobre casos futuros
esses valores são também chamados de estatísticas
uma estatística é a descrição numérica de uma característica
de uma amostra
Em um estudo sobre incidência de depressão em adolescentes de diversos
países, a medida do estado de depressão é a variável DEPENDENTE
Outras medidas como país de origem, idade, situação familiar são possíveis
variáveis INDEPENDENTES para este caso
15
16
Análise Estatística
Análise Estatística
A Análise Estatística pode ser dividida em duas áreas, de acordo com
sua finalidade:
Estatística Descritiva
Estatística Inferencial
Estatística Inferencial: estuda métodos para generalizar um resultado
obtido de uma amostra, para um grande número de sujeitos
(população)
Estimação da porcentagem da população que votará para
um/a determinado/a candidato/a à presidência, junto com
uma margem de erro (“intervalo de confiança”)
Teste estatístico de tendência de queda nas populações de
atum entre 2000 e 2010, a partir de observações sistemáticas
Estatística Descritiva: é a área da Estatística que preocupa-se com a
apresentação, organização e resumo dos dados. Por exemplo:
O número de acidentes (= frequência) nas rodovias federais no
estado de São Paulo antes e depois da Lei Seca
Gráfico com a distribuição da idade dos ingressantes nos
bacharelados interdisciplinares da UFABC
Neste curso o foco será na Estatística Descritiva
18
17
Medidas de Tendência Central
É conveniente dispor de medidas que informem sobre a
amostra, de maneira mais resumida do que os dados brutos são
capazes de fazer
As medidas de tendência central cumprem este papel, dando o
valor do ponto em torno do qual os dados se distribuem
MEDIDAS DE TENDÊNCIA CENTRAL
São medidas de tendência central:
Média
Mediana
Moda
19
20
Medidas de Tendência Central: Média Aritmética
Medidas de Tendência Central: Média Aritmética
A média aritmética é definida como a soma de todos valores de
uma variável em um conjunto, dividida pelo número de
elementos do conjunto
Exemplo: Calcular a média da classe cujas notas são dadas pela
tabela. Nesse caso, a somatória das notas é 60 e o número total
de sujeitos é 11
21
22
Medidas de Tendência Central: Mediana
Medidas de Tendência Central: Mediana
Gasto de Energia Elétrica
Quantidade ímpar de valores
Valor central do conjunto que divide a distribuição em duas
partes iguais:
mesmo número de “valores” abaixo e acima do valor
Meses
JAN
Custo(R$) 25
Os dados devem estar ordenados
FEV
MAR
ABR
MAI
22
35
28
35
Mediana: 28
Depois de ordenados os valores, por ordem crescente ou
decrescente, a mediana é:
22
25
28
35
35
O valor que ocupa a posição central, se a quantidade desses
valores for ímpar
A média dos dois valores centrais, se a quantidade desses
valores for par
24
23
Meses
JAN
Custo(R$) 25
FEV
MAR
ABR
MAI
JUN
22
35
28
35
33
Mediana: 30,5
22 25 28 33 35
28 + 33 = 61
61/2=30,5
35
A moda é o valor mais freqüente de um conjunto de dados
A moda pode não existir ou pode não ser única
Exemplos:
1,1,3,3,5,7,7,7,11,13
Moda 7
3,5,8,11,13,18
Não tem moda
3,5,5,5,6,6,7,7,7,11,12 Tem duas modas: 5,7 (bimodal)
Distribuição Unimodal
Distribuição Bimodal
4
3
2
1
0
Freqüência
Gasto de Energia Elétrica
Quantidade par de valores
Medidas de Tendência Central: Moda
Freqüência
Medidas de Tendência Central: Mediana
2
3
4
5
6
Nota
7
8
9
4
3
2
1
0
2
3
4
5
Nota
7
8
9
25
26
Medidas de Tendência Central
Em quais tipos de variável aplicar as medidas de tendência
central:
Media
Mediana
Moda
Categórico/Qualitativo - Nominal
Não
Não
Sim
Categórico/Qualitativo - Ordinal
Não
Sim
Sim
Numérico/Quantitativo - Contínuo
Sim
Sim
Sim
Numérico/Quantitativo - Discreto
Sim
Sim
Sim
MEDIDAS DE DISPERSÃO
27
Medidas de Dispersão
O processo de trabalhar com amostras introduz uma
variabilidade dos resultados obtidos, pois cada amostra vai ter
características ligeiramente diferentes
Essa variabilidade afeta nosso grau de confiança nos
resultados
Por isso, as medidas de variabilidade (ou dispersão) têm papel
central na Estatística
Dentre as medidas de dispersão tem-se:
Variância
Desvio-padrão
28
Medidas de Dispersão: Desvio
29
30
Medidas de Dispersão: Desvio
Medidas de Dispersão: Desvio
Porque a soma dos desvios, em relação à média, sempre resulta em
zero?
Podemos calcular o desvio, que é a diferença de cada nota em
relação à média
A média está posicionada de forma equilibrada entre os valores
da amostra. Assim, os valores se distribuem ao redor da média
alguns pontos estão acima da média enquanto outros estão abaixo
dela
logo algumas diferenças são positivas enquanto outras são
negativas
Como posso calcular o desvio médio? Somando todos os
desvios e dividindo por cinco
Quando somadas, diferenças de sinais diferentes compensam umas
às outras e o resultado final é nulo
3,8 + 1,8 - 0,2 - 2,2 - 3,2 = ZERO!!!
Qualquer que seja o conjunto de dados, a soma dos desvios é
sempre zero por que os valores positivos e negativos se anulam
31
32
Medidas de Dispersão: Variância
Para resolver o problema anterior do somatório
dos desvios sendo igual à zero
Basta elevar cada desvio ao quadrado
A variância é uma forma de se medir a dispersão dos dados.
Indica o quanto os dados dispersam-se em torno de um valor
(média)
A variância é a média dos quadrados dos desvios, onde
desvio é a diferença entre cada dado e a média do conjunto
VAR
∑ (x − X )
=
N −1
2
Medidas de Dispersão: Variância
VAR
=
∑
(x − X )2
Porque dividir por N-1??
N −1
A princípio, pensaríamos em dividir a soma dos quadrados dos
desvios pelo número N de casos na amostra
Uma discussão da natureza do problema está além do escopo
do presente texto
Mas para o propósito do cálculo da média dos desvios, o
grau de liberdade funciona como se fosse o tamanho
efetivo da amostra
33
Medidas de Dispersão: Variância
Os graus de liberdade indicam os espaços entre os dados
34
Medidas de Dispersão: Variância
Percebe-se que dividir pelo número de graus de liberdade
significa dividir pelo número de espaços entre os dados, e não
pelo número de dados
e são iguais a (n-1) porque os espaços entre eles estão
sempre uma unidade abaixo do número dos próprios
dados
A razão de se fazer isso em Estatística é que os estudiosos da
Ciência Estatística descobriram que essa operação conduzia a
resultados mais coerentes do que a divisão por n, pura e
simplesmente
Para comprovar essa afirmativa, basta contar os dedos de
uma das mãos
e depois contar os espaços existentes entre eles
O mesmo ocorre em qualquer conjunto de dados amostrais
35
Medidas de Dispersão: Variância
36
Medidas de Dispersão: Variância
∑
(x − X )2
32 , 8
=
= 8,2
N −1
4
A variância é uma medida da nossa desconfiança com relação aos
resultados
VAR
=
Quanto maior a variância, maior a variabilidade dos dados e
menor a nossa confiança no resultado obtido
A variância tem a desvantagem, por causa do efeito de elevar ao
quadrado
VAR =
∑ ( x − X )2
N −1
32,8
=
= 8,2
4
de não estar na mesma escala de unidades que a variável medida
Por exemplo, se estudamos variabilidade da altura em uma amostra,
a variável é avaliada em m (metro)
enquanto a variância é avaliada em m2 (metro ao quadrado)
37
38
Medidas de Dispersão: Desvio Padrão
O que fazer?
Calcular a raiz quadrada
Devio padrão é a raiz quadrada da variância
Parte Prática
∑(x−X)
2
N−1
= 8,2 =2,86
39
Parte Prática: Calc do LibreOffice
O software Calc do LibreOffice é utilizado para a construção de
gráficos em programas de planilhas
O pacote LibreOffice pode ser baixado para uso livre em casa
do endereço http://www.libreoffice.org/download
Abre (botão início):
LibreOffice.org → LibreOffice Calc
40
Exercício 01
Os tempos de reação de um indivíduo a determinados
estímulos foram medidos por um psicólogo como sendo:
0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos,
respectivamente
Determine o tempo médio de reação do indivíduo a esses
estímulos
41
Exercício 01
42
Clicar na célula onde se deseja
colocar a medida calculada
Vá na opção Inserir do Menu
Principal
Entrar com os dados em
uma nova planilha, tendo
a primeira linha como
título e cada valor em uma
linha
Deixar uma coluna
livre antes dos dados
para poder colocar os
nomes das medidas
calculadas
e em seguida na opção
Função
Clicar na barra de rolamento de
Categoria e clicar em
Estatísticas
A lista de funções é filtrada
para mostrar apenas as
funções estatísticas
Agora, basta clicar na função
desejada
Clicar em MÉDIA
43
Para inserir as células contendo os valores basta clicar na flecha verde
em frente ao número 1
e depois selecionar os valores com o mouse
observe que as referências dos dados aparecerão na barra do
Assistente de Funções, no exemplo, B2:B9
44
Repita os passos para o cálculo da moda, mediana, desvio
padrão, máximo e mínimo. Para tanto, utilize as seguintes
funções estatísticas
Função
Estatística
Comando no
LibreOffice Calc
Média
Aritmética
MEDIA()
Mediana
MED()
Moda
MODO()
Variância
VAR()
Desvio Padrão
DESVPAD()
Máximo
MAXIMO
Mínimo
MINIMO
45
46
Gráficos
47
Visualização de Dados Amostrais
Estudar em casa:
Visualização de dados amostrais
48
Noções de Estatística
Download

Objetivos da Aula Introdução Introdução