BC-0005
0005
Bases Computacionais da
Ciência
Aula 05
Noções de Estatística
Gráficos
2010
Roteiro da Aula
PARTE I – Noções de estatística
Usos da estatística (descritiva / indutiva)
Tipos de variáveis
Medidas estatísticas
Distribuição de frequência e distribuição normal
Gráficos
PARTE II –Exercícios
Planilhas e referências
Medidas estatísticas em planilhas
Criação de gráficos
Estatística
•
Conjunto de técnicas que permite de forma
sistemática as seguintes operações sobre dados:
1. Organizar
2. Descrever
3. Analisar
4. Interpretar
•
Dois tipos:
• Estatística descritiva
• Estatística indutiva = inferencial
Estatística descritiva
Voltada a apresentação, organização e resumo numérico dos dados
-
Pode incluir a construção de gráficos,
gráficos tabelas e computação de várias
medidas, tais como, medidas de tendência central (ex. a média), de
dispersão (ex. a variância), de freq
equência (ex. percentagem) e outras.
-
O propósito deste tipo de estatística é de fazer com que os dados
coletados sejam compreendidos mais facilmente seja em forma
gráfica ou numérica (tabelas).
-
Cuidado: “estatística” é o termo pa
para o conjunto de procedimentos que
conhecemos como “a estatística” mas também o termo geral para
medidas descritivas deste tipo – p.ex., a média é “uma estatística”
Estatística indutiva / inferencial
Voltada a realizar estimativas a partir de uma amostra ou testar idéias
teóricas (hipóteses)) com dados experimentais
• Se uma amostra é representativa de uma população, conclusões importantes
sobre a população podem ser inferidas de sua análise.
população
amostra
n=5
Exemplos:
• Estatística descritiva:
– O número de acidentes (= fre
frequência) nas rodovias federais
no estado de São Paulo antes e depois da “Lei Seca”;
– Gráfico com a distribuição da idade dos ingressantes nos
bacharelados interdisciplinares da UFABC.
• Estatística indutiva:
– Estimação da porcentagem da população que votará para
um/a determinado/a candidato/a à presidência, junto com
uma margem de erro (‘intervalo de confiânça’);
– Teste estatístico de tendênci
ncia de queda nas populações de
atum-rabilho
rabilho entre 2000 e 2010 a partir de observações
sistemáticas
Tipos de variáveis
Independente:
– Valores manipulados ou selecionados pelo
pesquisador (meio, idade, mês).
– Podem ser ou não a “causa” da variável dependente.
Dependente:
– Valores observados, contados, medidos, … que não
estejam sob controle direto do pesquisador
(velocidade, taxa de câmbio).
– Podem ser “causadas” ou não pela variável
independente.
Tipos de variáveis
Quando não há relação causal óbvia entre duas ou mais variáveis, qual é
‘independente ‘ ou ‘dependente’ é uma questão de rótulo. A variável
‘dependente’ é esta que analisamos em função dos valores de uma outra
variável.
Taxa
de
câmbio
R$/US$
Mês
Variável dependente
Variável independente
Variáveis Discretas e Contínuas
Variáveis quantitativas:: expressadas em valores numéricos (↔
( qualitativas)
Discretas: Conjunto enumerável de valores
Nominais = categóricas:: sem ordem natural de valores
{presente, ausente}, {homem, mulher}, estado de origem (UF), base
DNA A/C/T/G.
Ordinais: com ordem natural de valores
Classe sócio-econômica (A-E
E ou “baixa”, “média”, “alta”), avaliação
em escala Likert (nota 1-5),
5), {PP, P, M, G, GG}, número de acidentes.
Contínuas: Conjunto não-enumerável,
enumerável, valores reais, não discretizados
Grandezas físicas ou químicas: velocidade, força, probabilidade,
concentração, acidez, taxa de câmbio.
Medidas de tendência central
Valor
‘médio’ ou ‘típico’ de um conjunto de
dados.
Média (aritmética)
Mediana
Moda
Média aritmética
É o ‘centro de gravidade’ dos dados
soma de um conjunto de escores dividida pelo número de
escores do conjunto :
Alunos (i)
Notas (x)
1
3,0
2
5,0
3
6,0
4
4,0
5
5,0
6
8,0
7
9,0
8
6,0
9
2,0
10
5,0
Total
53
Média
5,3
N
∑X
X=
i
i =1
N
N
Xi
é o número total de observações
é um valor do conjunto
Função no Excel ou BrOffice: MÉDIA
X = (3, 0 + 5, 0 + ... + 2, 0 + 5, 0) /10 = 5,3
1
2
3
4
5
5,3
6
7
8
9
Mediana:
Valor central do conjunto
que divide a distribuição em
duas partes iguais (mesmo
número de escores abaixo e
acima do valor).
Os dados devem estar
ordenados
Posição da mediana =>
N +1
i=
2
Notas (x)
3,0
3;5;6;4;5;8;9;6;2;7;5
5,0
6,0
4,0
5,0
1)
Escores ordenados:
2;3;4;5;5;5;6;6;7; 8; 9
Posição:
1;2;3;4;5;6;7;8;9;10;11
2)
8,0
Procedimento “manual”:
1) ordenar valores
2) procurar valor “no meio”
9,0
i= (11 + 1)/2 = 6
6,0
Meio = Sexta posição
2,0
Nota 5
7,0
Função no Excel ou BrOffice: MED
5,0
2;3;4;5;5; 5 ;6;6;7;8;9
i= (11 + 1)/2 = 6 Posição 6 Xi=X6=Nota 5
1
2
3
4
5
6
7
8
9
Me
Notas
Frequência
Simples
Frequência
Acumulada
2
1
1
3
1
2
4
1
3
5
3
6
6
2
8
7
1
9
8
1
10
9
1
11
No caso de um número par de sujeitos a
mediana é a média entre os dois valores
centrais.
1
2
3
4
5
6
{
Ex.
Dadas as alturas: 62 54 82 49 75 64
Ordene: 49 54 62 64 75 82
iMe=(6+1)/2=3,5? – terceira e quarta posição
→ Med = (62+64)/2= 63
5,5
7
8
9
Moda
É a categoria que ocorre com maior frequência.
ex.
Sujeitos Notas
2
1
3
1
4
1
5
3
6
2
7
1
8
1
9
1
1
2
3
Função no Excel ou BrOffice: MODO
4
5
6
7
8
9
Distribuição Unimodal
4
3
2
1
0
2
3
4
5
6
Nota
7
Sujeitos
Notas
2
1
3
3
4
1
5
1
7
3
8
1
9
1
Distribuição Bimodal
Frequência
A moda pode não existir OU
pode não ser única.
Exemplos:
1,1,3,3,5,7,7,7,11,13 moda 7
3,5,8,11,13,18 não tem moda
3,5,5,5,6,6,7,7,7,11,12 tem
duas modas: 5,7 (bimodal).
Frequência
8
9
4
3
2
1
0
2
3
4
5
Nota
7
8
9
Características das medidas de tendência central
Média influenciada
pelas extremidades;
Mediana e Moda ignoram extremidades
Moda
160000
140000
120000
Frequência
100000
Mediana
Média
80000
60000
40000
20000
0
100
Abaixo de 100
500
300
900
700
3000
1000
Renda Média Mens al (R$)
acima de 5000
5000
(cuidado: escala com intervalos desiguais)
Medidas de dispersão
Variabilidade
dos números em uma amostra
ou população.
Variância
Desvio-padrão
Erro padrão (da média)
Medidas de dispersão (=variabilidade):
Variância:: ‘Média’ dos quadrados dos desvios, onde
desvio é a diferença entre cada dado e a média do
conjunto.
Função no Excel ou BrOffice: VAR
s2 =
2
−
(
X
X
)
∑
N −1
= 40 / 4 = 10
Dados
Desvios
Quadrados dos Desvios
(X )
(X − X )
(X − X )2
0
4
6
8
7
-5
-1
1
3
2
25
1
1
9
4
X =5
∑ (X − X ) = 0
∑ (X − X )
2
= 40
Desvio padrão: raiz quadrada da variância
s = s² =
2
(
X
−
X
)
∑
N −1
= 10 = 3,16
Função no Excel ou BrOffice: DESVPAD
Erro padrão da média - EPM
Quando se obtém uma amostra aleatória de tamanho n,
estima-se a média populacional. É bastante intuitivo supor
que se uma nova amostra aleatória for realizada a estimativa
obtida será diferente daquela primeira.
primeira Desta forma,
reconhece-se que as médias amostrais estão sujeitas à
variação e formam populações de médias amostrais, quando
todas as possíveis amostras são retiradas de uma
população.
O erro padrão expressa a variabilidade de uma média
Alunos
Notas
1
3,0
2
5,0
3
6,0
4
4,0
5
5,0
6
8,0
7
9,0
8
6,0
9
2,0
Quanto maior o número de observações, menor o erro 10
padrão da média. Fórmula para EPM em amostra de Total
população ‘infinita’:
Média
s
σˆ X =
n
5,0
53
5,3
DVP
2,11
EPM
0,6675
Erro padrão da média - EPM
Não existe uma função no Excel ou BrOffice para cálculo do EPM.
Portanto, calcula-se a partir do desvio padrão
Alunos
Turma A
Turma B
1
5
8
2
5
9
3
5
7
4
5
7
5
5
2
6
6
5
7
7
4
2
6
8
6
0
5
9
5
2
4
10
5
10
3
Total
51
52
2
Média
5,1
5,2
DVP
0,57
3,49
EPM
0,18
1,1
EPM = DESVPAD(…)/ RAIZ (CONT.NÚM(…))
s
s²
σˆ X =
=
n
n
10
9
8
1
0
Turma A
Turma B
Distribuição
Exemplo
Para obter uma estimativa da altura
média do brasileiro adulto:
• amostragem com 5000 pessoas
(n=5000)
• estratificação adequada, que reflita
os dados de toda a população do
país
À direita: resultados
(interval) de altura.
por
faixa
Nota: ‘discretizamos’ uma variável
continua (altura) em faixas para
poder visualizar a distribuição.
Frequência relativa (em %) = freq. absoluta / freq. total * 100%
(= proporção em )
Distribuição normal (=Gaussiana)
Proporção
(em %)
Média:
1,653
Desvio
Padrão:
0,173
Faixa de altura (em m)
Características da distribuição Normal
determinada por dois parâmetros:
-
Média da população
→ Posição central
-
Desvio padrão da população
→ Largura
Distribuição é simétrica e unimodal
Por causa da simetria, valores de
média, moda e mediana são iguais.
menor desviopadrão
maior desviopadrão
Área total sob a curva é igual a 100%,
com exatos 50% distribuídos à
esquerda da média e 50% à sua
direita
Diferentes valores
de desvio padrão
Áreas sob a curva normal
A área sob a curva de uma
distribuição normal corresponde
a 100% dos dados.
Uma área de 34,13 % da
totalidade dos dados é delimitada
entre a média e um desvio
padrão acima ou abaixo da
média.
A proporção da população entre
a média e dois desvios-padrão
acima da média é de 47,87%.
Quando é três a área aumenta
para 49,87%.
Estas proporções são
constantes em uma distribuição
normal; sabendo a média e o
desvio-padrão, dá para fazer
estimativas da % em um
intervalo.
Tipos de distribuição
Distribuição unimodal e simétrica: Média, mediana e moda são
iguais
o ponto de freqüência máxima (moda) é também o mais central
(mediana) e o centro de gravidade (média).
Muitas vezes, em uma distribuição assimétrica:
A moda está sempre no “pico” (por def.)
A média está mais próxima da “cauda”
(sofre influência dos valores extremos)
Mediana está entre a moda e média
Medida de tendência central mais usada:
Distribuição simétrica média
Distribuição assimétrica mediana ou moda
Distribuição bimodal modas
mediana
“cauda”
moda
média
Tipos de Distribuição e medidas de tendência
central
Distribuição Assim étrica
5
Freqüência
4
M oda
3
M ediana
2
1
M édia
0
2
3
4
7
N ota
8
9
10
Apresentação gráfica –
Estrutura de um gráfico
Ordenada (eixo-Y)
var dependente
4
Título (opcional)
Série
Série 1
3
Escala
2
Série 2
1
Origem
Legenda (se aplicável)
Abscissa (eixo-X)
(eixo
var independente
Tipos de gráficos
Tipo apropriado de gráfico depende dos tipos das
variáveis independentes e dependentes:
categórica → contínua:
gráfico de colunas
ordinal ou contínua discretizada → contínua:
gráfico de colunas ou de linhas
ordinal ou contínuo discretizado → contagem (distribuição):
histograma
contínua → contínua:
gráfico de dispersão
Gráfico de colunas
Número de
revivências
traumáticas
(“flashback”)
(média/semana)
+/- erro-padrão da
média
média
var.
dependente:
Condição
Depois de experimental Sem
jogar Tetris
var.
independente:
categórica
jogar Tetris
Holmes EA, James EL, Coode-Bate
Bate T, Deeprose C 2009 Can Playing the Computer Game “Tetris” Reduce the Build-Up
Build
of Flashbacks for Trauma?
A Proposal from Cognitive Science. PLoS ONE 4(1): e4153 doi:10.1371/journal.pone.0004153
Gráfico de colunas
Área de
Plantação
(ópio)
dependente:
contínua
Ano
independente:
ordinal
Gráfico de linhas
0,8
0,6
(Cº)
dependente:
contínua
variação
(°C)
Variação em temperatura
relativa a uma referência0,4
0,2
0
1880
-0,2
1900
1920
1940
1960
1980
2000
-0,4
-0,6
ano
Ano
Compare:
Gráfico de linhas destaca evolução
Gráfico de colunas destaca níveis absolutos
independente:
ordinal
Fonte: Goddard Institute for Space Studies - http://data.giss.nasa.gov/gistemp/
Histograma
Frequência
em %
dependente:
contagem
(frequência,
porcentagem
ou proporção)
Diâmetro (nm) de nanotubo de carbono
independente:
contínua discretizada
ordinal
Li Y, Kim W, Zhang Y, Rolandi M, Dai H 2001 Growth of Single-Walled
Walled Carbon Nanotubes from Discrete Catalytic Nanoparticles of Various
Va
Sizes.
The Journal of Physical Chemistry B, 105, 11424-11431
Gráfico de dispersão
Índice de
sucesso financeiro
dependente:
contínua
Pontos de dados
Linha de tendência:
opcional
Razão indicador/anular
independente:
contínua
John M. Coates, Mark Gurnell, and Aldo Rustichini
frequency financial traders
Second-to-fourth digit ratio predicts success among high-frequency
PNAS 2009 106:623-628;
628; published online before print January 12, 2009, doi:10.1073/pnas.0810907106
Parte prática
Cálculos e gráficos em programas de planilhas
Todos os procedimentos apresentados aqui podem ser realizados
em qualquer programa de planilha. O pacote BrOffice pode ser
baixado para uso livre em casa do endereço http://broffice.org/.
Abre (botão início)
→ programas
→ BrOffice.org
→ BrOffice.org Calc
Planilhas
Planilha
Linhas
Colunas
Célula (A1)
Acesso
a outras planilhas
Cálculo de funções estatísticas
em uma planilha
2) Digite
ite ‘=‘ para identificar o conteúdo da célula como
fórmula e não texto ou número. Ó que for digitado
aparece
cerá na linha de entrada e na célula selecionada.
1) Clique onde quer
calcular a fórmula
3) Clique no ‘assistente de funções’
(fx) para encontrar uma função específica.
4) Procure ‘média’ na lista,
selecione
5) Clique em ‘Próximo’
6) Clicar em uma outra célula na entrada de uma função gerará
uma referência simples. Para dar um conjunto de células
adjacentes como argumento, clique na primeira célula com botão
esquerdo do mouse, segure o botão enquanto arrastando o cursor
até a última célula. Solte o botão. (Também é possível digitar o
alcance da função no campo de texto.)
7) Clique em “OK” para
calcular a função e
voltar para a planilha.
Representação
ção gráfica da turma
por gênero
Menu / “Arquivo”: salvar, abrir etc.
Botão “Salvar”
Botão
“Assistente de gráfico”
Dados (p. ex. nº de homens e mulheres em uma turma)
(1) Selecione
os dados
(2) Clique botão
“Gráfico”
Menu e barras
específicas
Gráfico
Assistente de
gráfico
Clique em “Concluir”
Assistente de gráfico
Passo 1: Escolher tipo (Coluna / Linha / Dispersão) e subtipo do gráfico
Passo 2: Especificar características da organização dos dados (p. ex. em linhas/colunas)
Passo 3: Adicionar/mudar séries dados para visualizar
Passo 4: Editar títulos, rótulos para eixos, etc.
Dados
Histograma
(frequência em %)
altura (cm)
<150
0
150-160
10
160-170
20
170-180
30
180-190
20
190-200
10
>200
0
Nota: Em princípio, histograma não possui
espaços entre colunas.
Referências e funções
(1) Preencha
com os dados
(2) Selecione
célula B9
(3) Digite “=” para indicar que
segue uma 'fórmula'
Digite “SOMA(“
(4) Selecione B2:B8 (mouse)
(5) Digite Enter para 'fechar' a
fórmula
Porcentagem = Frequência / Total x 100
(1) Clique em C2, digite “=” e a
fórmula
(2) Certifique-se que a referência
para o total é B$9 (mude se
necessário)
(3) Aperte “Enter”, selecione C2, e
“arraste” sobre C2:C8
Referências relativas
Referências absolutas
Referência B$9
Referência B9
Ao copiar uma fórmula, programas de pla
planilha presumem que as referências são
relativas – que referem sempre para a mesma posição relativa (x células
acima/abaixo e y células esquerda/direita) de uma célula-alvo.
célula
Para deixar claro
que uma linha ou coluna é constante (não relativa), use $ antes da referência.
(1) Os números em C são porcentagens
(2) Selecione A1:A8 e C1:C8
(segure Ctrl para áreas separadas)
(3) Aperte botão “Assistente de gráfico”
Passo 2
Passo 3
Mude as referências para excluir linha 2
e linha 8, com freqüência 0
Várias séries podem ser incluídas.
Passo 4
35
30
25
%
20
15
10
5
0
150-160
160-170
170-180
altura (cm)
180-190
190-200
Exercício 1 em aula
Alunos (i)
Notas (x)
1
3,0
2
5,0
3
6,0
4
4,0
5
5,0
6
8,0
7
9,0
8
6,0
9
2,0
10
5,0
Copie estes dados para uma planilha e determine:
• Total das notas
• Média
• Mediana
• Moda
• Variância
• Desvio padrão
• Erro padrão da média
usando fórmul
ulas e funções na planilha. Use a célula
do lado de cada estatística para por o rótulo
correspondente.
Crie um gráfico de colunas com uma coluna para a
média, junto com a barra com ±1 erro padrão da
média.
Exercício 2 em aula
Um teste de memória foi aplicado a 10 idosos e 10 jovens com o objetivo de verificar o
declínio de memória decorrente do processo de envelhecimento. Além do resultado do
teste, foram registrados outros dados dos indivíduos, tais como: idade, sexo e anos de
escolaridade. Construa uma planilha no BrOffice utilizando os dados destas amostras. Há
duas séries; para incluir várias séries de dados em um gráfico, selecione várias colunas de
dados ao dar o conjunto de células a ser usado para criar o gráfico.
a) Desempenho de cada sujeito: (varia de 0 a 20)
Idosos: 16/17/19/19/15/17/18/20/20/16
Jovens: 20/20/19/19/20/20/17/19/20/18
b) Calcule as médias, os desvios padrão e erros padrão da média do desempenho para
idosos e jovens.
c) Faça um gráfico de colunas da média do desempenho de idosos e jovens, com o título
Teste de Memória.
d) Inclua as barras de erro com o erro padrão da média (cf. próximo slide).
Para inserir o erro padrão no BrOffice
1) Selecione o gráfico na planilha. Em seguida, clique em “Inserir” ->
“Barras de erro Y”
2)
Selecionar
os valores
de erro
calculados
na planilha
Exercício para casa
Procure em revistas, jornais, publicações acadêmicas, websites,
experimento, sondagem própria ou outra fonte da sua escolha ou um
conjunto ou subconjunto de dados para visualizar.
Mencione na planilha a fonte dos seus dados e descreva o contexto
resumidamente. Descreva quais variáveis você considera independentes e
dependentes e de qual tipo são (quantitativa, qualitativa, ordinal, etc...).
Determine
a)
pelo menos uma estatística de tendência central
b)
pelo menos uma estatística de dispersão.
Crie um gráfico apropriado que tenha pelo menos duas séries (que precise
de legenda para ser interpretado).
Entregue o arquivo BrOffice Calc ou Excel no sistema Tidia.
Download

5 - ufabc