Mestrado Profissional em Gestão Ambiental Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente Marco Domingues [email protected] Introdução à estatística • Definição da estatística. • ‰ Classificação de dados. • ‰ Planejamento de experimentos. O QUE É ESTATÍSTICA ? • A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais. O QUE É ESTATÍSTICA ? • Estudos observacionais – Ex: acompanhar o desempenho produtivo com a aplicação de um plano de manejo sustentável para o solo de uma região. • Experimentos – Ex: alterar as variáveis do processo de forma proposital para verificar seus efeitos nos resultados. Processo iterativo das pesquisas empíricas ? Pesquisa Dados Novos conhecimentos, novos problemas Informações Como vamos estudar estatística neste curso? • Técnicas de amostragem e planejamento de experimentos – Coleta de observações ou dados • Análise exploratória dos dados – Extrair informações das observações • Estudos probabilísticos – Modelar fenômenos aleatórios verificados nos dados observados e explicá-los Como vamos estudar estatística neste curso? • Inferências estatísticas – Realizar generalizações da análise de amostras para a população de onde elas foram extraídas. • Modelos de simulação computacional – Criação de modelos de simulação aplicados a problemas ambientais Algumas definições importantes? • Tipos de experimento – Se tomarmos um determinado sólido, sabemos que a uma certa temperatura haverá a passagem para o estado líquido: Experimento Determinístico. – Quais as chances das vendas de uma empresa crescerem? Existem dois resultados possíveis: as vendas crescem ou não crescem: Experimento aleatório Algumas definições importantes? • Exemplos – O aumento da produção industrial automotiva eleva a percepção de congestionamento urbano: Experimento Determinístico. – Estima-se que uma tartaruga marinha bote entre 60 e 120 ovos por ninho. Qual será a quantidade de ovos da próxima ninhada? : Experimento aleatório Algumas definições importantes? • População – conjunto de todos os resultados. • Amostra – subconjunto da população • Exemplo: – Em um levantamento perguntou-se a 3002 adultos da cidade de Recife se liam as notícias na Internet pelo menos uma vez por semana. 600 adultos responderam sim. Algumas definições importantes? • Parâmetro – É uma medida numérica que descreve alguma característica de uma população. • Estatística – É uma medida numérica que descreve alguma característica de uma amostra. Algumas definições importantes? • Exemplo - Parâmetro – Na cidade de Recife há 534 botões que os pedestres podem acionar nos cruzamentos de ruas. Descobriu-se em um levantamento que 77% deles não funcionam. O número 77% é um parâmetro pois se baseia na população inteira dos 534 botões de tráfego para pedestre. Algumas definições importantes? • Exemplo - Estatística – Com base numa amostra de 877 executivos pesquisados na cidade de São Paulo, descobriu-se que 45% deles não contratariam alguém que cometesse um erro tipográfico em sua solicitação de emprego. Esse número de 45% é uma estatística, pois se baseia em uma amostra, não na população inteira de todos os executivos. Algumas definições importantes? • Amostragem – Processo de seleção de amostra. • Amostra aleatória simples – O processo de seleção de elementos é feito por sorteio, fazendo com que todos os elementos da população tenham a mesma chance de ser escolhidos. Algumas definições importantes? • Exemplo – Considere uma indústria processadora de sucos de frutas. Ao receber um carregamento de laranjas, os técnicos fazem inspeção da qualidade nas frutas. Examinam uma amostra de 5 caixas, tomadas de forma aleatória dentre toda a população de caixas do carregamento. Algumas definições importantes? • Algumas características (ou variáveis) podem ser observadas nas 5 caixas: – Classificação das laranjas como: ótima, boa, regular, ruim ou péssima (qualitativo ou categórico) – Número de laranjas não aproveitáveis por caixa (quantitativo) – Peso de cada caixa de laranja – Etc. Algumas definições importantes? • Variável aleatória – Pode ser entendida como uma variável quantitativa, cujo resultado depende de fatores aleatórios – No exemplo das laranjas, ao contarmos o nº de laranjas não aproveitáveis em cada uma das caixas amostradas, temos um conjunto de 5 valores, digamos {4,6,2,3,0} que corresponde à amostra efetivamente observada da variável aleatória. Algumas definições importantes? • Variável aleatória – X = número de laranjas não aproveitáveis por caixa X {x1 , x2 ,..., xn } – Estimativa – valor resultante do cálculo de uma estatística, quando usado para se ter uma ideia do parâmetro de interesse. Algumas definições importantes? • Média – Sejam n observações de uma variável aleatória, a média amostral é dada por x1 x2 ,..., xn } 1 x xi n n i 1 n Algumas definições importantes? • Média – Caso conheçamos todas as possíveis observações de X, a média populacional é dada por x1 x2 ,..., xn } 1 N xi N N i 1 Algumas definições importantes? • Desvios – Em relação à média (medida de centro) – Dados os valores das observações xi Xi - x x 4 3 1 6 3 3 2 3 -1 3 3 0 0 3 -3 Algumas definições importantes? • Desvios – Em relação à média (medida de centro) 0 1 2 3 4 5 x1 x x3 x x5 x x x2 x 6 Algumas definições importantes? • Graus de Liberdade dos desvios – Os valores dos n desvios não são nulos – Os desvios têm soma nula – Os desvios têm (n – 1) graus de liberdade Algumas definições importantes? • Variância (amostral) – Média aritmética dos desvios quadráticos (para eliminar os desvios negativos) n 1 2 s ( xi x ) n 1 i 1 2 Algumas definições importantes? • Variância (populacional) – Média aritmética dos desvios quadráticos (para eliminar os desvios negativos) N 1 2 ( xi ) N i 1 2 Algumas definições importantes? • Desvio padrão – Raíz quadrada da variância e tem a mesma unidade dos dados n 1 2 s ( xi x ) n 1 i 1 Algumas definições importantes? • Estimador não enviesado ou não viesado – Ex: a média amostral é um estimador não enviesado da média populacional – Significa que a média da amostra é um bom representante da média populacional Algumas definições importantes? • Sabe-se que o chumbo tem alguns efeitos adversos à saúde. Foram coletadas medidas das qtde de Pb(em microgramas por metro cúbico) no ar. O máximo permitido é de 1,5µg/m3. Foram coletadas amostras da qtde de chumbo logo após a queda do WTC. 5,40; 1,10; 0,42; 0,73; 0,48; 1,10 Algumas definições importantes? • Utilize o R para calcular a média, mediana, moda e ponto médio Operações estatísticas • Média aritmética – mean(<nome do vetor>) • Mediana – median(<nome do vetor>) • Desvio padrão – sd(<nome do vetor>) Exemplos • Média aritmética – mean(peso) ou – Media = sum (peso) / length (peso) • Mediana – median(<nome do vetor>) ou – hist (peso) • Desvio padrão – sd(peso) ou – mediaPeso= sum (peso) / length (peso) – sqrt (sum((peso - mediaPeso) ^ 2)/ (length (peso) - 1)) Operações estatísticas • Variância – var (<nome do vetor>) • Covariância – cov(<nome do vetor 1>, <nome do vetor 2>) • Correlação – cor(<nome do vetor 1>, <nome do vetor 2>) • Regressão simples – lm (y~x) Missing values • Algumas operações podem retornar resultados “inexistentes”, chamados “missing values” – Inf: infinito positivo – -Inf: infinito negativo – NaN: “Not a Number” – NA: “Not Available” Missing values • Existem funções para testar se algum desses valores foi retornado – is.finite(x) – is.infinite(x) – is.nan(x) • onde x pode ser um vetor exemplos • is.finite (peso[5]) • is.finite (peso[5]/0) • is.na (peso[10]) Geração de números • Uniformes – runif(n, min, max) • Normais – rnorm(n, média, desvio padrão) • t-Student – rt(n, graus de liberdade) • Qui-Quadrado – rchisq(n, graus de liberdade) Geração de gráficos • • • • x=c(1:9) y=c(1:9) plot(x,y) plot(x,y,xlab="valores de x", ylab="valores de y") • plot(x,y,type="l") Geração de gráficos • • • • • x=rnorm(500,0,1) mean(x) median(x) sd(x) var(x) Lendo arquivos de dados • O arquivo datafile.dat é composto pelos seguintes dados: tamanho_lote 30 20 60 80 40 50 60 30 70 60 homens_hora 73 50 128 170 87 108 135 69 148 132 Lendo arquivos de dados • Ajustando o diretório de trabalho – setwd("c:/tmp") – Para ler arquivos com nomes de colunas na primeira linha, use – dataset <- read.table ("datafile.dat", header=TRUE) • Para obter os vetores – dataset$tamanho_lote – dataset$homens_hora Lendo arquivos – parte II • Ajustando o diretório de trabalho – setwd("c:/tmp") • Para ler arquivos sem nomes de colunas na primeira linha, use – dataset <- scan ("datafile2.dat", what=list (x=0,y=0)) • Para obter os vetores – dataset$x – dataset$y Lendo arquivos de dados • O arquivo datafile3.dat é composto por dados que representam o nome do aluno e a natureza do ensino de nível médio joao publico mario privado cristiano privado maria publico talita privado mariana privado adelia publico monique publico carlos privado bruno privado Lendo arquivos – parte III • Ajustando o diretório de trabalho – setwd(“c:/temp") • Para ler arquivos com nomes de colunas na primeira linha, use – dataset <- scan ("datafile3.dat", what=list (x="",y= "")) – trabalho = scan("datafile2.dat", what=list (x=0,y=0)) • Para obter os vetores – dataset$x – dataset$y Lendo arquivos – parte IV • Para ler arquivos separados por vírgula ou ponto e vírgula, use – dados <-read.csv("dados.csv", sep=";", dec=",",header=FALSE) • Para obter os vetores – dados$x – dados$y Entrando com dados no R • Usando a função edit() – dados <- edit(data.frame()) Usando pacotes • Carregando um pacote no workspace – library (<nome do pacote>) • Site com pacotes de colaboradores – http://cran.r-project.org/web/packages/ • Instalando pacotes – options (CRAN="http://cran.r-project.org") – Install.packages (“<nome do pacote>”) Conselhos úteis • Ler os manuais no site do projeto CRAN • Usar a página wiki do projeto CRAN – http://wiki.r-project.org/ • Usar http://www.rseek.org/ ao invés do google • Aprender com os errros • ?lm dá uma ajuda sobre a função lm. Ler arquivos de help pode ajudar bastante • Assine a lista do R – (https://stat.ethz.ch/mailman/listinfo/r-help) • Crie seu script personalizado de bibliotecas Mestrado Profissional em Gestão Ambiental Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente Marco Domingues [email protected]