[email protected] Introdução à Estatística e Estatística Descritiva [email protected] ESTATÍSTICA? Um conjunto de procedimentos e princípios para recolha, compilação, análise e interpretação de dados por forma a ajudar na tomada de decisões quando na presença de incerteza. 0 1 [email protected] [email protected] Herbert George Wells, English author, said (circa 1940 ), “Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write” Average depth 3ft (0 9144 ) (0.9144m) 2 3 [email protected] [email protected] Ex 1 - Coin Tossing Why do we need to understand statistics? • Imagine tossing a coin successively, and waiting till the first time a particular pattern appears, say HTT Reasoning with Uncertainty • For example, if the sequence of tosses was HHTHHTHHTTHHTTTHTH • from • Peter Donnelly: How juries are fooled by statistics • The Th pattern tt HTT would ld fifirstt appear after ft the th 10th toss t • http://www.ted.com/index.php/talks/view/id/67 4 Ex 1 - Coin Tossing [email protected] 5 Ex 1 - Coin Tossing • • Imagine g that half of yyou toss a coin several times,, each time till the sequence HTT occurs. [email protected] Which off the following f is true: A. The average number of tosses until HTH is larger than the average number of tosses until HTT B. The average number of tosses until HTH is the same as the average number of tosses until HTT – Record the average number of tosses till HTT occurs C. The average number of tosses until HTH is smaller than the average number of tosses until HTT • The other half of you prefer to count HTH Most people think that B is true but A is true true. The average number of tosses till HTH is 10 and the average number of tosses till HTT is 8. – Record the average number of tosses till HTH occurs 6 7 Ex 1 - Coin Tossing [email protected] • Intuitive explanation: • Imagine that you win if HTH occurs [email protected] Ex 1 - Coin Tossing It was an example l off a – If the first toss gives a H you are exited and you get even you win more exited if the second is a T. If the third is H y but if it is a T you have to start again and wait for the next H. simple question on probabilities that most • If yyou win when HTT occurs people get wrong. – For the first two tosses the experience is the same. However, if the third toss is a H you loose but you already have the first H and are 1/3 of the way to your pattern. 8 9 [email protected] [email protected] Conclusions from the examples • Randomness, uncertainty and chance are part of our life. • People make errors of logic when reasoning with uncertainty uncertainty. • Errors in statistics may have serious consequences. What is the problem here? On average g the temperature is very nice nice... It is very important to understand statistics! 10 11 [email protected] [email protected] Estatística Descritiva Na estatística descritiva procura-se sintetizar e representar t de d forma f compreensível í l a informação i f ã contida num conjunto de dados (através da construção t ã de d tabelas, t b l d gráficos de áfi ou do d cálculo ál l d de medidas) Objectivo da estatística descritiva: síntese da informação contida em dados 12 13 [email protected] [email protected] Exemplo: e p o notas otas a u uma a dete determinada ada d disciplina sc p a Média Mediana Amplitude Máximo Mínimo Quartil 25% Quartil 75% Desvio Padrão Variância Assimetria 14 10.52 10 51 10.51 16.29 17 67 17.67 1.38 9.068 12.68 3.208 10 291 10.291 -0.25 15 [email protected] [email protected] Média e Mediana Exemplo x 10 Média e Mediana Exemplo Média: x = (10 + 12 + 14 + 11 + 7 + 14 + 10 + 2 ) / 8 = 11.25 x 10 12 14 11 7 12 10 Mediana: 7 11 10 11 14 12 12 14 10 10 10 11 12 12 14 200 11 5 11.5 7 14 200 11.5 12 10 Média mais sensível a valores extremos! 12 ex. Salário médio vs. Salário mediano 16 17 [email protected] [email protected] Variância e Desvio Padrão Exemplo: Calcular o desvio padrão da seguinte amostra: - 4 , -3 , -2 , 3 , 5 Para inferir da variabilidade de uma população a partir de uma amostra usa-se a variância amostral (s2) s2 = x = (10 + 12 + 14 + 11 + 7 + 200 + 10 + 2 ) / 8 = 34.5 14 Mediana: 7 Média: N 1 2 ⋅ ( xn − x ) N − 1 n =1 O desvio d i padrão d ã amostral t l (s), ( ) raiz i quadrada da variância amostral, tem a vantagem de ser expresso nas mesmas unidades dos dados Xi X Xi − X (Xi − X ) -4 -0,2 -3,8 14,44 -3 -2,8 7,84 -2 -1,8 3,24 3 3,2 10,24 5 , 5,2 27,04 , Soma= 62.8 2 Sabemos que n = 5 e 62,8 / (5-1) = 15,7 s= N 1 2 ⋅ ( xn − x ) N − 1 n =1 A raiz quadrada de 15 15,7 7 é o desvio padrão = 3,96 3 96 18 19 [email protected] [email protected] Histograma das classificações Coeficiente de assimetria (g1) g1 = k3 s3 , COM k3 = N2 1 N ⋅ ⋅ ( xn − x ) 3 (N − 1) ⋅ (N − 2) N n =1 g1 = 0 g1 > 0 http://www.stat.tamu.edu/~west/javahtml/Histogram.html g1 < 0 20 21 [email protected] [email protected] Box-Plot: permite comparar as classificações de 3 anos de Mest 70.0 Box Plot of Home Runs per Season for 4 Great Players When They Were NY Yankees 60.0 50.0 Home e Runs percentil 75% 40.0 30.0 20.0 10.0 70.0 00 0.0 60.0 -10.0 mediana Ruth_Y Mantle_Y Gehrig_Y Maris_Y PLAYERS 50.0 Home Runs H percentil 25% Box Plot of Home Runs per Season for 4 Great Players for Their Entire Careers 40.0 30.0 20.0 10.0 0.0 -10.0 Ruth 22 Gehrig Mantle PLAYERS Maris 23 [email protected] [email protected] • Amostras bivariadas – dados quantitativos q A relação entre duas variáveis pode ser ilustrada através de um diagrama(x,y) - scatterplot A relação existente entre os dois atributos de uma amostra bivariada com dados quantitativos pode ser evidenciada por um diagrama (X (X,Y) Y) ou, de forma mais sintética, pelo cálculo do grau de ajuste de determinada relação 6000 VOLUME DE CUSTO DE PRODUÇÃO PRODUÇÃO (unidades) (contos) 1 1500 3100 2 800 1900 3 2600 4200 4 1000 2300 5 600 1200 6 2800 4900 7 1200 2800 8 900 2100 9 400 1400 10 1300 2400 11 1200 2400 12 2000 3800 Custo de produção LOTE 5000 4000 3000 2000 1000 0 0 500 1000 1500 2000 2500 3000 Volume de produção 24 25 [email protected] [email protected] matriz de scatter plots p Um scatterplot permite analisar o relacionamento geral e a existência de desvios entre duas variáveis. Por vezes interessa caracterizar a relação entre duas variáveis e medir o respectivo grau de ajuste. Vamos ver o exemplo a relação linear linear. 26 27 [email protected] [email protected] Medidas do grau de ajustamento da relação linear aos dados: x Covariância amostral (permite inferir acerca da população) c XY = y 1500 800 2600 1000 600 2800 1200 900 400 1300 1200 2000 N 1 ⋅ ( xn − x ) ⋅ ( y n − y ) N − 1 n =1 correl: cov: 0.9811009 757847.22 3100 1900 4200 2300 1200 4900 2800 2100 1400 2400 2400 3800 1000x 1500000 800000 2600000 1000000 600000 2800000 1200000 900000 400000 1300000 1200000 2000000 1000y 3100000 1900000 4200000 2300000 1200000 4900000 2800000 2100000 1400000 2400000 2400000 3800000 y 6000 5000 4000 3000 1000 0 0 0.9811009 7.578E+11 Coeficiente de correlação amostral (medida adimensional) y 2000 500 1000 1500 2000 2500 3000 1000y 6000000 5000000 rXY = N 1 ⋅ ( xn − x ) ⋅ ( y n − y ) N − 1 n =1 N N 1 1 2 2 ⋅ ( xn − x ) ⋅ ⋅ ( yn − y ) N − 1 n =1 N − 1 n =1 4000000 = c XY s X ⋅ sY (− 1 ≤ rXY ≤ 1) 3000000 Para uma determinada relação a mudança de escala altera o valor da covariância. 1000y 2000000 1000000 0 0 500000 1000000 1500000 2000000 2500000 3000000 28 29 [email protected] [email protected] http://bcs.whfreeman.com/ips4e/cat_010/applets/CorrelationRegression.html 30 31 [email protected] [email protected] The Lie Factor is simply the ratio of the difference in the proportion of the graphic elements versus the difference in the quantities they represent. The most informative graphics are those with a Lie Factor of 1. Here is an example of a badly scaled graphic, with a lie factor of 14.8: Expresso – 18 Jan. 2003 9657 = 2.8 3449 (from Tufte, E.R. (1983). The Visual Display of Quantitative Information. Cheshire, CT: Graphics Press) Classical example of how to lie with statistics. 32 33 [email protected] [email protected] An example of a graph where two-dimensional figures are used to represent p one-dimensional values. What often happens is that the size of the graphic is scaled both horizontally and vertically according to the value being graphed. However, this results in the area of the graphic varying y g with the square q of the underlying y g data,, causing g the eye to read an exaggerated effect in the graph. This graph has a lie factor of about 2.8, based on the variation between the area of each doctor graphic and the number it represents. p (from Tufte, E.R. (1983). The Visual Display of Quantitative Information. Cheshire, CT: Graphics Press) 34 35 [email protected] [email protected] One more point about graphs: be sure to include enough context to make the graph meaningful. For instance, one may be tempted to draw unwarranted conclusions based on this graph: População p ç e Amostra Designa-se g por p p população p ç ((ou universo)) o conjunto j dos dados que expressam a característica em causa para todos os objectos sobre os quais a análise incide. Uma amostra corresponde a um subconjunto de d d que pertencem dados t à população. l ã (f (from T Tufte, ft E E.R. R (1983) (1983). The Th Vi Visuall Di Display l off Q Quantitative tit ti IInformation. f ti Ch hi CT Cheshire, CT: G Graphics hi P Press)) 36 37 [email protected] [email protected] Selecção de amostras Exemplo Objectos: contas à ordem de todos os profissionais liberais clientes de um banco Característica: saldo registado g num dado momento Quando todos os elementos da população têm igual probabilidade de ser incluídos na amostra evita-se qualquer enviesamento de selecção selecção, designando designando-se se então o processo por População: conjunto dos saldos das contas à ordem de t d os profissionais todos fi i i liberais lib i clientes li t d do banco num dado momento amostragem aleatória Amostra: conjunto de 100 saldos seleccionados 38 39 [email protected] [email protected] Why the Digest went wrong: The 1936 election: the literary digest poll • Bias in selection of sample – 10,000,000 questionnaires sent out to • Magazine subscribers subscribers, car owners,telephone owners telephone owners • Candidates Candidates: Democrat FD Roosevelt and Republican Alfred Landon • Prediction: Landon to win with 57% of the vote • Bi Bias ffrom non-response – 20% bothered to reply – Presumably, P bl th those with ith strong t views i about b t th the forthcoming election • Outcome: Landon lost with only 38% of the vote • Sample Size: 2.3 2 3 million people! • Literary Digest went bankrupt soon after Large sample size cannot compensate for poor sample design!!! 40 41 [email protected] [email protected] Análise dos dados Recorre-se às técnicas de estatística descritiva para sintetizar a informação contida nos dados Na inferência estatística, estatística com base na análise de um conjunto limitado de dados (amostra), pretende-se caracterizar o todo a p partir do q qual tais dados foram obtidos (população) Estabelecimento de inferências acerca da população Com base na informação contida na amostra amostra, pretendem retirar-se conclusões relativas à população e associar-lhes um grau de credibilidade E Exemplo l A partir dos 100 saldos disponíveis, disponíveis retirar conclusões sobre a forma como se comportam os saldos das contas profissionais liberais clientes do à ordem de todos os p banco 42 43 [email protected] Eleições legislativas 2002 [email protected] Teste de Hipótese p à Diferença ç de Duas Proporções p ç Binomias . (amostras de grande dimensão - N > 20 e N p> 7) DN e TSF -> > Marktest EXPRESSO-SIC-Renascença -> Eurosondagem A hipóteses As hi ó a considerar id num teste relativo l i à dif diferença d de d duas proporções õ binomiais são: 2057 entrevistas validadas e apresenta um erro de amostra de 2,16 por cento para um grau de probabilidade de 95 por cento. 819 entrevistas e apresenta um erro de amostragem para um intervalo de confiança de 95 por cento, de mais ou menos 3,42 por cento. H 0: pA − pB = p0 H1 : pA − pB = p0 ≠ p0 , Resultados Finais JN -> Intercampus ou pA − pB = p0 < p0 Sendo a estatística do teste dada por Independente -> Instituto de Pesquisa de Opinião e Mercado (IPOM) 997 entrevistas validadas e apresenta um erro de amostragem, para um nível de confiança de 95,5 por cento, de mais ou menos 3,1 3 1 pontos t percentuais. t i pA − pB = p0 B > p0 PS: 46% (118-124 deputados) PSD: 31% (80-84) CDU: 7% (8-12) (8 12) BE: 7% (8-12) CDS-PP: 6% (6-10) Outros: 1% (0) Brancos/nulos: 2% ET = (YA N A − YB NB ) − p0 YA ⋅ (N A − YA ) N A3 + YB ⋅ (NB − YB ) NB3 → N (0 ,1) 5051 inquiridos, de 1,4 por cento com um nível de confiança de 95 por cento. PÚBLICO, RTP e Antena 1 -> Universidade Católica 1015 entrevistas, e apresenta um erro de amostragem, para um intervalo de confiança de 95 por cento, de mais ou menos 3,1 por cento. 44 45 [email protected] [email protected] Exemplo Na avaliação de um problema de classificação foram utilizados dois algoritmos algoritmos. O algoritmo A classificou correctamente 27 de 45 exemplos enquanto o algoritmo B classificou correctamente 32 de 65 exemplos. A h que se pode Acha d afirmar fi que o algoritmo l it A é significativamente i ifi ti t mais i preciso i d do que o algoritmo B? pa = ET = 27 = 0.60 45 e pb = Introdução à Estatística e Estatística Descritiva 32 = 0.49 65 27 32 − 45 65 = 1.12 27(45 − 27) 32(65 − 32) + 453 653 1.12 < 1.645 logo, a diferença não é estatisticamente significativa 46 47 Basic Statistics [email protected] [email protected] Summary Statistics h // http://www.liaad.up.pt/~ltorgo/Regression/DataSets.html li d / l / i / S h l (Excel) 48 49 [email protected] Histograms g Box Plots (SPSS) (SPSS) 50