Mestrado Profissional em Gestão
Ambiental
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco Domingues
[email protected]
Introdução à estatística
• Definição da estatística.
• ‰
Classificação de dados.
• ‰
Planejamento de experimentos.
O QUE É ESTATÍSTICA ?
• A estatística envolve técnicas para
coletar, organizar, descrever, analisar
e interpretar dados, ou provenientes
de experimentos, ou vindos de
estudos observacionais.
O QUE É ESTATÍSTICA ?
• Estudos observacionais
– Ex: acompanhar o desempenho
produtivo com a aplicação de um plano
de manejo sustentável para o solo de
uma região.
• Experimentos
– Ex: alterar as variáveis do processo de
forma proposital para verificar seus
efeitos nos resultados.
Processo iterativo das pesquisas
empíricas ?
Pesquisa
Dados
Novos
conhecimentos,
novos problemas
Informações
Como vamos estudar estatística
neste curso?
• Técnicas de amostragem e
planejamento de experimentos
– Coleta de observações ou dados
• Análise exploratória dos dados
– Extrair informações das observações
• Estudos probabilísticos
– Modelar fenômenos aleatórios
verificados nos dados observados e
explicá-los
Como vamos estudar estatística
neste curso?
• Inferências estatísticas
– Realizar generalizações da análise de
amostras para a população de onde elas
foram extraídas.
• Modelos de simulação computacional
– Criação de modelos de simulação
aplicados a problemas ambientais
Algumas definições importantes?
• Tipos de experimento
– Se tomarmos um determinado sólido,
sabemos que a uma certa temperatura
haverá a passagem para o estado
líquido: Experimento Determinístico.
– Quais as chances das vendas de uma
empresa crescerem? Existem dois
resultados possíveis: as vendas
crescem ou não crescem: Experimento
aleatório
Algumas definições importantes?
• Exemplos
– O aumento da produção industrial
automotiva eleva a percepção de
congestionamento urbano: Experimento
Determinístico.
– Estima-se que uma tartaruga marinha
bote entre 60 e 120 ovos por ninho. Qual
será a quantidade de ovos da próxima
ninhada? : Experimento aleatório
Algumas definições importantes?
• População
– conjunto de todos os resultados.
• Amostra
– subconjunto da população
• Exemplo:
– Em um levantamento perguntou-se a
3002 adultos da cidade de Recife se liam
as notícias na Internet pelo menos uma
vez por semana. 600 adultos
responderam sim.
Algumas definições importantes?
• Parâmetro
– É uma medida numérica que descreve
alguma característica de uma população.
• Estatística
– É uma medida numérica que descreve
alguma característica de uma amostra.
Algumas definições importantes?
• Exemplo - Parâmetro
– Na cidade de Recife há 534 botões que
os pedestres podem acionar nos
cruzamentos de ruas. Descobriu-se em
um levantamento que 77% deles não
funcionam. O número 77% é um
parâmetro pois se baseia na população
inteira dos 534 botões de tráfego para
pedestre.
Algumas definições importantes?
• Exemplo - Estatística
– Com base numa amostra de 877
executivos pesquisados na cidade de
São Paulo, descobriu-se que 45% deles
não contratariam alguém que cometesse
um erro tipográfico em sua solicitação de
emprego. Esse número de 45% é uma
estatística, pois se baseia em uma
amostra, não na população inteira de
todos os executivos.
Algumas definições importantes?
• Amostragem
– Processo de seleção de amostra.
• Amostra aleatória simples
– O processo de seleção de elementos é
feito por sorteio, fazendo com que todos
os elementos da população tenham a
mesma chance de ser escolhidos.
Algumas definições importantes?
• Exemplo
– Considere uma indústria processadora
de sucos de frutas. Ao receber um
carregamento de laranjas, os técnicos
fazem inspeção da qualidade nas frutas.
Examinam uma amostra de 5 caixas,
tomadas de forma aleatória dentre toda
a população de caixas do carregamento.
Algumas definições importantes?
• Algumas características (ou variáveis)
podem ser observadas nas 5 caixas:
– Classificação das laranjas como: ótima,
boa, regular, ruim ou péssima
(qualitativo ou categórico)
– Número de laranjas não aproveitáveis
por caixa (quantitativo)
– Peso de cada caixa de laranja
– Etc.
Algumas definições importantes?
• Variável aleatória
– Pode ser entendida como uma variável
quantitativa, cujo resultado depende de
fatores aleatórios
– No exemplo das laranjas, ao contarmos
o nº de laranjas não aproveitáveis em
cada uma das caixas amostradas, temos
um conjunto de 5 valores, digamos
{4,6,2,3,0} que corresponde à amostra
efetivamente observada da variável
aleatória.
Algumas definições importantes?
• Variável aleatória
– X = número de laranjas não
aproveitáveis por caixa
X  {x1 , x2 ,..., xn }
– Estimativa – valor resultante do cálculo
de uma estatística, quando usado para
se ter uma ideia do parâmetro de
interesse.
Algumas definições importantes?
• Média
– Sejam n observações de uma variável
aleatória, a média amostral é dada por
x1  x2 ,..., xn } 1
x
  xi
n
n i 1
n
Algumas definições importantes?
• Média
– Caso conheçamos todas as possíveis
observações de X, a média populacional
é dada por
x1  x2 ,..., xn } 1 N

  xi
N
N i 1
Algumas definições importantes?
• Desvios
– Em relação à média (medida de centro)
– Dados os valores das observações
xi
Xi - x
x
4
3
1
6
3
3
2
3
-1
3
3
0
0
3
-3
Algumas definições importantes?
• Desvios
– Em relação à média (medida de centro)

0
1



2
3
4

5
x1  x
x3  x
x5  x
x
x2  x
6
Algumas definições importantes?
• Graus de Liberdade dos desvios
– Os valores dos n desvios não são nulos
– Os desvios têm soma nula
– Os desvios têm (n – 1) graus de
liberdade
Algumas definições importantes?
• Variância (amostral)
– Média aritmética dos desvios
quadráticos (para eliminar os desvios
negativos)
n
1
2
s 
( xi  x )

n  1 i 1
2
Algumas definições importantes?
• Variância (populacional)
– Média aritmética dos desvios
quadráticos (para eliminar os desvios
negativos)
N
1
2
   ( xi   )
N i 1
2
Algumas definições importantes?
• Desvio padrão
– Raíz quadrada da variância e tem a
mesma unidade dos dados
n
1
2
s
( xi  x )

n  1 i 1
Algumas definições importantes?
• Estimador não enviesado ou não
viesado
– Ex: a média amostral é um estimador
não enviesado da média populacional
– Significa que a média da amostra é um
bom representante da média
populacional
Algumas definições importantes?
• Sabe-se que o chumbo tem alguns
efeitos adversos à saúde. Foram
coletadas medidas das qtde de Pb(em
microgramas por metro cúbico) no ar.
O máximo permitido é de 1,5µg/m3.
Foram coletadas amostras da qtde de
chumbo logo após a queda do WTC.
5,40; 1,10; 0,42; 0,73; 0,48; 1,10
Algumas definições importantes?
• Utilize o R para calcular a média,
mediana, moda e ponto médio
Operações estatísticas
• Média aritmética
– mean(<nome do vetor>)
• Mediana
– median(<nome do vetor>)
• Desvio padrão
– sd(<nome do vetor>)
Exemplos
• Média aritmética
– mean(peso) ou
– Media = sum (peso) / length (peso)
• Mediana
– median(<nome do vetor>) ou
– hist (peso)
• Desvio padrão
– sd(peso) ou
– mediaPeso= sum (peso) / length (peso)
– sqrt (sum((peso - mediaPeso) ^ 2)/ (length
(peso) - 1))
Operações estatísticas
• Variância
– var (<nome do vetor>)
• Covariância
– cov(<nome do vetor 1>, <nome do vetor
2>)
• Correlação
– cor(<nome do vetor 1>, <nome do vetor
2>)
• Regressão simples
– lm (y~x)
Missing values
• Algumas operações podem retornar
resultados “inexistentes”, chamados
“missing values”
– Inf: infinito positivo
– -Inf: infinito negativo
– NaN: “Not a Number”
– NA: “Not Available”
Missing values
• Existem funções para testar se algum
desses valores foi retornado
– is.finite(x)
– is.infinite(x)
– is.nan(x)
• onde x pode ser um vetor
exemplos
• is.finite (peso[5])
• is.finite (peso[5]/0)
• is.na (peso[10])
Geração de números
• Uniformes
– runif(n, min, max)
• Normais
– rnorm(n, média, desvio padrão)
• t-Student
– rt(n, graus de liberdade)
• Qui-Quadrado
– rchisq(n, graus de liberdade)
Geração de gráficos
•
•
•
•
x=c(1:9)
y=c(1:9)
plot(x,y)
plot(x,y,xlab="valores de x",
ylab="valores de y")
• plot(x,y,type="l")
Geração de gráficos
•
•
•
•
•
x=rnorm(500,0,1)
mean(x)
median(x)
sd(x)
var(x)
Lendo arquivos de dados
•
O arquivo datafile.dat é composto pelos seguintes dados:
tamanho_lote
30
20
60
80
40
50
60
30
70
60
homens_hora
73
50
128
170
87
108
135
69
148
132
Lendo arquivos de dados
• Ajustando o diretório de trabalho
– setwd("c:/tmp")
– Para ler arquivos com nomes de colunas
na primeira linha, use
– dataset <- read.table ("datafile.dat",
header=TRUE)
• Para obter os vetores
– dataset$tamanho_lote
– dataset$homens_hora
Lendo arquivos – parte II
• Ajustando o diretório de trabalho
– setwd("c:/tmp")
• Para ler arquivos sem nomes de colunas na
primeira linha, use
– dataset <- scan ("datafile2.dat", what=list
(x=0,y=0))
• Para obter os vetores
– dataset$x
– dataset$y
Lendo arquivos de dados
•
O arquivo datafile3.dat é composto por dados que representam o
nome do aluno e a natureza do ensino de nível médio
joao
publico
mario
privado
cristiano
privado
maria
publico
talita
privado
mariana
privado
adelia
publico
monique
publico
carlos
privado
bruno
privado
Lendo arquivos – parte III
• Ajustando o diretório de trabalho
– setwd(“c:/temp")
• Para ler arquivos com nomes de colunas na
primeira linha, use
– dataset <- scan ("datafile3.dat", what=list (x="",y=
""))
– trabalho = scan("datafile2.dat", what=list
(x=0,y=0))
• Para obter os vetores
– dataset$x
– dataset$y
Lendo arquivos – parte IV
• Para ler arquivos separados por vírgula
ou ponto e vírgula, use
– dados <-read.csv("dados.csv", sep=";",
dec=",",header=FALSE)
• Para obter os vetores
– dados$x
– dados$y
Entrando com dados no R
• Usando a função edit()
– dados <- edit(data.frame())
Usando pacotes
• Carregando um pacote no workspace
– library (<nome do pacote>)
• Site com pacotes de colaboradores
– http://cran.r-project.org/web/packages/
• Instalando pacotes
– options (CRAN="http://cran.r-project.org")
– Install.packages (“<nome do pacote>”)
Conselhos úteis
• Ler os manuais no site do projeto CRAN
• Usar a página wiki do projeto CRAN
– http://wiki.r-project.org/
• Usar http://www.rseek.org/ ao invés do google
• Aprender com os errros
• ?lm dá uma ajuda sobre a função lm. Ler arquivos
de help pode ajudar bastante
• Assine a lista do R
– (https://stat.ethz.ch/mailman/listinfo/r-help)
• Crie seu script personalizado de bibliotecas
Mestrado Profissional em Gestão
Ambiental
Simulações Gráficas e Numéricas
Interativas Aplicadas ao Meio Ambiente
Marco Domingues
[email protected]
Download

aula_mpga_02 - Centro de Informática da UFPE