A Estatística é um ramos da Matemática que dispõe de processos apropriados para recolher, organizar, classificar, apresentar e interpretar determinados conjuntos de dados. População é o conjunto de todos os elementos que estão a ser estudados (pessoas, instituições, animais, objectos, acontecimentos, etc…). Ao número de elementos da população, chama-se efectivo da população. Exemplos: Temperatura Pressão Atmosférica Alunos de uma escola População de um país ou de um distrito Recenseamento é um estudo estatístico que abrange todos os elementos da população. Sondagem é a observação de apenas alguns elementos da população. Os elementos observados constituem a amostra. As razões que levam à utilização de uma amostra e não da população: - a população ser demasiado grande; - economia de dinheiro; - economia de tempo; - comodidade. Amostra é o subconjunto finito da população que foi observado no estudo estatístico. A dimensão da amostra é o número de elementos da amostra. Tipos de Dados Os dados estatísticos nem sempre são da mesma natureza. É diferente estudar a cor dos olhos ou a cor do cabelo do que fazer o estudo sobre a altura ou o número de pessoas de um agregado familiar. As primeiras duas variáveis (cor dos olhos e cor do cabelo) são expressas através de uma qualidade, categoria ou característica, não susceptível de medida, mas de classificação. São chamados dados qualitativos. As outras duas variáveis (altura e número de pessoas do agregado familiar) representam informação resultante de características susceptíveis de serem medidas. São chamados dados quantitativos. Os dados quantitativos podem ser de natureza discreta ou contínua. O número de pessoas de um agregado familiar é expresso através de um número inteiro (diz-se que a variável é quantitativa Discreta), enquanto que a Altura pode admitir qualquer valor decimal (diz-se que a variável é quantitativa Continua). Tipos de Dados Quantitativa – Quando se exprime por um número (Ex: Idade, Altura, preço, Altitude) Variável Qualitativa – Quando não se exprime por um número (Ex: Nacionalidade, sexo, cor, etc.) Dado estatístico é cada um dos valores (numéricos ou qualitativos) observados em cada elemento da população. Medidas de localização central Moda é o valor da variável a que corresponde a maior frequência. Uma distribuição pode ter mais que uma moda. Média é o quociente entre a soma de todos os valores observados e o número de elementos da amostra. Medidas de localização central Exemplo: O número de pessoas de um agregado familiar é expresso através de um número inteiro, por exemplo: 1, 5, 6, 3, 3, 4, 2, 3, 6, 3, 2, 5 Moda é 3 (valor que se repete mais vezes) Média é calculada por (1 + 5 + 6 + 3 ++ 3 + 4 + 2 + 3 + 6 + 3 + 2 + 5)/12 = =3,58 Medidas de localização central A mediana (Med) é o valor que ocupa a posição central quando se ordenam os dados estatísticos. Quando o número de dados N é impar, há um dado estatístico que está exactamente a meio, ocupando a posição (N+1)/2. Quando o número de dados N é par, nenhum dado está no meio. Considera-se então os dois valores centrais, nas posições N e N + 1 sendo a mediana a média destes dois valores. - Gráfico circular - Gráfico de Barras -- Histograma Gráfico Circular Gráfico circular é representado por um círculo que está dividido em sectores (desenhados por raios) cujas amplitudes são proporcionais à frequência correspondente. O gráfico circular costuma utilizar-se quando o número de categorias para a variável é pequeno (normalmente menor ou igual a 6). Nos gráficos circulares tem de se ter em atenção que: - o gráfico deve ter um título; - A área de cada sector é proporcional à frequência; - a legenda pode ser inscrita no interior de cada sector assim como a percentagem; - Normalmente,utiliza-se uma cor para cada um dos sectores Gráfico Circular Exemplo: Clube Favorito - O ângulo de cada sector pode-se obter multiplicando a frequência relativa e 360º Clube Freq. Abs. Freq. Rel. Ângulo FCP 10 0,28 0,28x360=100º SCP 10 0,28 0,28x360=100º SLB 12 0,33 0,33x360=120º BFC 4 0,11 0,11x360=40º Totais 36 1,00 360º BFC 11% FCP 28% SLB 33% SCP 28% Gráfico de Barras - o eixo horizontal assinala os valores possíveis da Característica; - no eixo vertical as frequências absolutas; - por cima das marcas dos pontos do eixo horizontal traçam-se barras ou “linhas” verticais com altura directamente proporcional à frequência absoluta. Idade dos alunos Freq. Abs. Freq. Rel. 11 2 0,10 12 6 0,30 13 8 0,40 14 3 0,15 15 1 0,05 Totais 20 1,00 10 N.º Alunos Idade 8 6 4 2 0 11 12 13 Idade 14 15 Organização e representação de dados Dados Qualitativos Relativamente a uma amostra de 20 portugueses, com mais de 18 anos, obtiveram-se os seguintes dados relativos ao seu estado civil. Solteiro Solteiro Casado Solteiro Divorciado Solteiro Viúvo Casado Divorciado Solteiro Casado Solteiro Solteiro Casado Casado Solteiro Solteiro Casado Divorciado Solteiro Casado Casado Solteiro Solteiro Viúvo Organização e representação de dados Dados Qualitativos 1.º deve-se proceder à organização dos dados através da construção de uma tabela de frequências: Estado Cívil N.º de pessoas % de pessoas (Valores da variável estatística) (Frequência absoluta) (Frequência relativa) Solteiro 12 12/25 x 100 = 48% Casado 8 8/25 x 100 = 32% Viúvo 2 2/25 x 100 = 8 % Divorciado 3 3/25 x 100 = 12% Total 25 1 ou 100 % A soma das frequências absolutas corresponde à dimensão da amostra. A soma das frequências relativas corresponde a 1 ou a 100% (caso de traduza em percentagem) Organização e representação de dados Dados Qualitativos Como as variáveis qualitativas não tomam valores numéricos não existe a possibilidade de se determinar a média ou a mediana. No entanto, pode determinar-se a moda da distribuição. No exemplo, a moda corresponde ao estado cívil “Solteiro”, uma vez que é a característica (valor da variável qualitativa) que se repete com maior frequência. Organização e representação de dados Dados Qualitativos Estado Civil 14 12 10 8 6 4 2 0 Solteiro Casado Divorciado Viúvo As variáveis qualitativas podem ser representadas recorrendo a gráficos de barras e gráficos circulares. Organização e representação de dados Dados Quantitativos Discretos Numa escola recolheram-se as respostas de 135 alunos (amostra) quanto ao seu número de irmãos (variável quantitativa), tendo-se obtido os seguintes resultados: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5 Organização e representação de dados Dados Quantitativos Discretos A tabela de frequências : N.º de irmãos N.º de alunos % de alunos 0 60 44,5% 1 40 29,6% 2 20 14,8% 3 10 7,4% 4 3 2,2% 5 2 1,5% Total 135 100 % Ano Lectivo Matemática Organização e representação de dados Dados Quantitativos Discretos N.º de irmãos N.º de alunos % de alunos 0 60 44,5% 1 40 29,6% 2 20 14,8% 3 10 7,4% 4 3 2,2% 5 2 1,5% Total 135 100 % Neste caso, como se trata de uma variável quantitativa, é possível determinar além da moda que é 0 (o número de irmãos que mais se repete), a média e a mediana. Mediana é o valor central, ou seja, o valor que ocupa a posição 68: 1 Média: 60 x 0 + 40 x 1 + 20 x 2 + 10 x 3 + 3 x 4 + 2 x 5 135 = 132/135 = 0,98 Organização e representação de dados Dados Quantitativos Discretos Estes dados podem ser apresentados através de um gráfico de barras ou um gráfico circular: Organização e representação de dados Dados Quantitativos Contínuos Para efectuarmos um estudo sobre o peso dos alunos do 3.º ciclo da escola, escolheu-se uma amostra aleatória constituída por 30 alunos. Os dados obtidos, em Kg, foram os seguintes: 50 45,2 52,4 67,1 60 55 54 58 68 54 65 69 68 58 64,5 64 63 49,6 59,4 57 56 64 61,3 56 48,2 52 51,3 56 62,2 58 Organização e representação de dados Dados Quantitativos Contínuos Como se trata de uma variável quantitativa contínua, isto significa que os dados obtidos terão que ser organizados por classes ou intervalos de valores. Para tal deve-se proceder da seguinte forma: Valor máximo – valor mínimo = 69 – 45 = 24 (Amplitude dos valores) Determinar o número de classes de forma que não sejam poucas ou demasiadas, evitando assim, a concentração dos dados ou a dispersão excessiva. Podes considerar a equação 2k ≥ n , sendo n o número de observações (30) e k o número de classes. Assim, facilmente se verifica que para k = 5, se obtém 32 > 30. Considere-se 5 classes, sendo amplitude de cada classe dada por 24/5 5 Organização e representação de dados Dados Quantitativos Contínuos Para organizar os dados numa tabela de frequências considera-se o procedimento já realizado: Nota: Valor mínimo: 45 Amplitude do intervalo: 5 Ao limite inferior de cada classe, soma-se a amplitude 45 + 5 = 50, obtendo-se o intervalo de valores [45; 50[ da classe de modo a se 50 + 5 = 55 , obtendo-se o intervalo de valores [50; 55[ determinar o respectivo 55 + 5 = 60 , obtendo-se o intervalo de valores [55; 60[ limite superior. 60 + 5 = 65 , obtendo-se o intervalo de valores [60; 65[ 65 + 5 = 70 , obtendo-se o intervalo de valores [65; 70] O último intervalo é fechado à direita ], incluindo o último valor. Organização e representação de dados Dados Quantitativos Contínuos Tabela de frequências: Classes (Peso dos alunos) N.º de alunos % de alunos [45, 50[ 3 10% [50, 55[ 6 20% [55, 60[ 9 30% [60, 65[ 7 23,3% [65, 70] 5 16,7% Total 30 100 % Organização e representação de dados Dados Quantitativos Contínuos Classes (Peso dos alunos) N.º de alunos % de alunos [45, 50[ 3 10% [50, 55[ 6 20% [55, 60[ 9 30% [60, 65[ 7 23,3% [65, 70] 5 16,7% Total 30 100 % Pela observação da tabela, é possível verificar que existe uma classe que apresenta um valor mais elevado de alunos. Essa classe designa-se por classe modal. Neste exemplo é a classe [55; 60[. Organização e representação de dados Dados Quantitativos Contínuos Os dados desta variável, por ser contínua, devem ser representados por um gráfico que têm um aspecto diferente dos gráficos de barras das variáveis de dados discretos. Neste caso chamam-se histogramas. Repara que num histograma as barras são contíguas, ou seja, são unidas umas às outras. Esta é uma consequência dos valores serem representados no eixo horizontal como na recta real, atendendo à sua continuidade. Organização e representação de dados Dados Quantitativos Contínuos É também usual traçar-se uma linha que une os pontos médios das barras do histograma. À região limitada por essa linha chama-se polígono de frequências.