1334
INTRODUÇÃO ÀS PROBABILIDADES E ESTATÍSTICA
2003
Informações: relembra-se os alunos interessados que a realização de acções
presenciais só é possível mediante solicitação vossa, por escrito, à assistente da
cadeira. A realização da acção fica condicionada à inscrição de um número mínimo de
15 alunos.
Relatório do 1º teste formativo
1. População ou universo, é um conjunto de indivíduos ou objectos que apresentam uma ou
mais características em comum, que se pretende analisar.
A amostra é um segmento (subconjunto) da população, recolhida com o objectivo de se
obter informação sobre características desconhecidas da população.
A variável é qualquer característica (populacional) da unidade que constitui a população,
susceptível de ser expressa por meio de um número.
Considerando o seguinte exemplo:
Foi feito um inquérito a um grupo de 40 compradores de carros novos, de determinada
marca, para determinar quantas reparações ou substituições de peças foram feitas durante o
primeiro ano de utilização dos carros.
Neste caso, a população será constituída por todos os compradores de carros novos, de
determinada marca, a amostra o grupo dos 40 compradores de carros novos da mesma
marca e a variável o nº correspondente às reparações ou substituições de peças, feitas
durante o primeiro ano de utilização dos 40 carros.
2. Ao estudar uma população, usualmente o que se pretende estudar são algumas das suas
características numéricas, normalmente desconhecidas que designamos por Parâmetros.
Enquanto que o parâmetro populacional pode ser considerado um valor exacto, mas
desconhecido, a Estatística amostral é conhecida, é um número que descreve a amostra.
Calcula-se o valor de uma estatística a partir dos valores observados na
CMM-2003/2004
1/11
Rel-1º TF-1334
1334
amostra, variando o valor desta de amostra para amostra. Utiliza-se a estatística para
estimar o parâmetro desconhecido da população, também por isso muitas vezes conhecido
por Estimador.
3. Uma vez recolhida a amostra procede-se ao seu estudo. Este consiste em resumir a
informação contida na amostra em tabelas, gráficos, e calculando algumas características
amostrais – estatísticas . Este é o objectivo da Estatística descritiva.
O objectivo da Inferência Estatística é, utilizando-se técnicas estatísticas convenientes
permitir com base numa amostra tirar conclusões acerca da população. Pois num estudo
estatístico pretende-se, de uma maneira geral, conhecer o mais possível sobre a população,
estimar um parâmetro ou testar uma hipótese.
4. Ao resultado da observação da variável, chamamos dado estatístico ou simplesmente
dado. Estes podem ser de dois tipos:
?
?
? Qualitativ os
?
Dados ? ?
?
discretos
? Quantitativos??
??
?contínuos
Dados qualitativos, representam a informação que identifica alguma qualidade, categoria
ou característica, não susceptível de medida.
Dados quantitativos, representam a informação resultante de características susceptíveis
de serem medidas, apresentado-se com diferentes intensidades que podem ser de natureza
discreta, se só pode tomar um nº finito ( ou infinito numerável) de valores distintos, ou de
natureza contínua se toma valores numéricos compreendidos num determinado intervalo
de variação.
5.
A. População constituída por todos os agregados familiares da cidade em estudo;
Amostra de dimensão 20, constituída por alguns (20) dos agregados familiares da
referida cidade;
Variável, nº de pessoas de cada agregado familiar, quantitativa discreta.
B. População constituída por todos os países da comunidade;
Amostra de dimensão 3, constituída por alguns (3) dos países da comunidade;
Variável, nº de pessoas de cada país, quantitativa discreta.
C. População constituída por todos os funcionários da fábrica;
CMM-2003/2004
2/11
Rel-1º TF-1334
1334
Amostra constituída por todos os funcionários da fábrica;
Variável, tempo de percurso entre a casa e a fábrica, quantitativa contínua.
D. População constituída por todos os carros que passam na Ponte Vasco da Gama;
Amostra constituída pelos carros observados durante uma hora;
Variável, característica dos carros: pequeno, médio, grande, qualitativa.
E. População constituída por todas as famílias Portuguesas;
Amostra de dimensão 1024, constituída por algumas (1024) das famílias Portuguesas;
Variável, valor pago mensalmente por cada família, quantitativa continua.
F. População constituída por todos os Estudantes da Universidade, 3500;
Amostra de dimensão 1280, constituída por alguns (1280) dos estudantes da
Universidade inquiridos;
Variável, qualitativa, dicotómica (porque só assume dois valores possíveis);
6. A seguinte tabela apresenta as respostas de 38 alunos de uma Escola, a um inquérito, em
que se pedia que indicassem: Sexo, Idade, Nº de irmãos, se tinham ou não Cartão de
crédito, Altura (cm), Peso (kg) e Desporto preferido:
a) Sexo: variável qualitativa; dicotómica.
Idade: variável quantitativa contínua;
Nº de irmãos: variável quantitativa discreta;
Cartão de crédito: variável qualitativa; dicotómica.
Altura: variável quantitativa contínua;
Peso: variável quantitativa contínua;
Desporto preferido: variável qualitativa.
b) Variável Sexo
Sexo
Freq. abs.
Freq. relat.
F
22
0.579
M
16
0.421
M
F
Da análise do diagrama circular, verifica-se que nos alunos seleccionados existem mais
raparigas que rapazes.
Variável Idade
CMM-2003/2004
3/11
Rel-1º TF-1334
1334
Esta variável é de tipo quantitativo e contínuo, uma vez que a idade pode assumir qualquer
valor de um intervalo, passando-se de um valor a outro continuamente, embora seja usual
apresentá-la de forma discreta. Vamos construir uma tabela de frequências, para
posteriormente construir o histograma, considerando 4 classes de amplitude 1:
Classes
Freq. abs.
Freq. relat.
[14, 15[
10
0.263
[15, 16[
17
0.447
[16, 17[
10
0.263
[17, 18[
1
0.026
Freq. rel.
0.447
0.263
0.026
14
15
16
17
18
Da análise do histograma, verifica-se que a distribuição das idades é aproximadamente
simétrica (apresentando um ligeiro enviesamento para a direita) em torno de um valor que
anda à volta dos 15 anos e meio.
Obs: Na construção do histograma tivemos em consideração a Nota 1 da página 58 do
manual.
Variável Número de irmãos
Sendo uma variável de tipo quantitativo discreto, para construir a tabela de frequências,
consideramos como classes os diferentes valores que surgem na amostra:
Freq.abs.
Freq. rel.
7
12
12
4
2
0
1
0.184
0.316
0.316
0.105
0.053
0.000
0.026
Freq. relativa
30%
Nº de
irmãos
0
1
2
3
4
5
6
20%
10%
0%
0
1
2
3
4
5
6
nº irmãos
CMM-2003/2004
4/11
Rel-1º TF-1334
idade
1334
Do diagrama anterior verifica-se que os alunos seleccionados têm entre 0 e 6 irmãos,
predominando os alunos com 1 ou 2 irmãos. Há ainda a destacar o facto de nenhum dos 38
alunos ter 5 irmãos.
Variável Cartão
Freq. rel.
Ter Cartão
Freq. abs.
Freq. rel.
Sim
19
0.5
Não
19
0.5
0.5
Sim
Não
De entre os alunos seleccionados a percentagem dos que dispõem ou não de cartão é
idêntica.
Variável Altura
Para construir a tabela de frequências, considerámos a amplitude da amostra 165–150=15,
que foi dividida por 6, que é o número de classes sugerido pela regra empírica utilizada
nestas circunstância s (pag. 56 manual). O quociente de 15/6 é 2.5, pelo que pareceria
lógico considerarmos para amplitude de classe este valor. No entanto, se procedessemos
deste modo, ao construir as classes utilizando sempre a mesma metodologia, que no nosso
caso é considerar intervalos fechados à esquerda e abertos à direita, iríamos obter as
classes [150, 152.5[, [152.5, 155.0[, [155.0, 157.5[, 157.5, 160.0[, [160.0, 162.5[, [162.5,
165.0[. Então haveria um valor da amostra, o 165, que não pertenceria a nenhuma das
classes, pelo que temos efectivamente de considerar para amplitude de classe um valor
aproximado por excesso do quociente amplitude da amostra número de classe . Este
facto levou-nos a considerar, por exemplo, para amplitude de classe o valor 2.6:
Classes
Freq. abs.
Freq. rel.
[150, 152.6[
1
0.026
[152.6, 155.2[
6
0.158
0.289
[155.2, 157.8[
7
0.184
[157.8, 160.4[
11
0.289
0.211
0.184
0.158
0.132
[160.4, 163.0[
8
0.211
0.026
[163.0, 165.6[
5
0.132
Freq. rel.
CMM-2003/2004
150
5/11
152.6 155.2 157.8 160.4 163.0 165.6
Rel-1º TF-1334
altura
1334
Da análise do histograma verificamos que a distribuição de frequências é
aproximadamente simétrica, com um ligeiro enviesamento para a esquerda.
Obs: Na construção do histograma tivemos em consideração a Nota 1 da página 58 do
manual.
Variável Peso
Para a construção da tabela de frequências procedemos de forma análoga à descrita para a
variável altura, considerando para amplitude de classe o valor 3.7, que é um valor
aproximado por excesso, do quociente
Classes
Freq. abs.
Freq. rel.
[43, 46.7[
5
0.132
[46.7, 50.4[
13
0.342
[50.4, 54.1[
7
0.184
[54.1, 57.8[
3
0.79
[57.8, 61.5[
6
0.158
[61.5, 65.2[
4
0.105
65 ? 43
? 3.666 ? .
6
Freq. rel.
0.342
0.079
43
46.7
50.4
54.1
57.8
61.5
O histograma anterior apresenta uma forma que sugere a existência de uma mistura de
duas populações, uma distribuindo-se à volta do valor 48.5, aproximadamente, e outra à
volta do valor 59.5, aproximadamente. Tendo em conta os dados que estamos a analisar
não nos surpreende os resultados obtidos, pois estamos perante observações resultantes das
Populações constituídas pelos pesos dos rapazes e a constituída pelos pesos das raparigas,
que de um modo geral são inferiores.
Variável Desporto
Do mesmo modo que as variáveis Sexo e Cartão, também esta variável é de tipo
qualitativo, pelo que para proceder ao agrupamento dos dados consideramos as diferentes
categorias que a variável assume:
Basket V ólei
Desporto
Vólei
Natação
Futebol
Andebol
Ginástica
Ténis
Basket
Freq. abs.
3
7
8
3
5
9
3
Freq. rel.
0.079
0.184
0.211
0.079
0.132
0.237
0.079
Natação
Ténis
Ginástica
Futebol
Andebol
CMM-2003/2004
6/11
Rel-1º TF-1334
65.2
peso
1334
Da análise do diagrama anterior sobressaem algumas modalidades como as preferidas dos
alunos, nomeadamente o Futebol, o Ténis e a Natação.
c) Para comparar os pesos dos rapazes e das raparigas, podemos utilizar diagramas em
caule e folhas ou diagramas de extremos e quartis. Vamos utilizar os dois tipos de
representação:
Para construir a representação gráfica
Rapazes
Raparigas
3
4
anterior consideramos para cada caule 4, 5 e
999887665
4 679
422110000
5 012
as folhas 0, 1, 2, 3 e 4 e no outro as folhas 5,
7
5 678
6, 7, 8 e 9 (página 68 do manual).
6 111233
Como se verifica, os pesos das raparigas são,
6 5
de um modo geral, inferiores aos dos rapazes.
00
6, dois sub-caules e pendurámos num deles
Para construir as representações
raparigas
anteriores
tivemos
de
calcular
algumas medidas, tanto para os pesos
das raparigas, como para os pesos dos
rapazes
rapazes, que exemplificámos ao lado
40
45
50
raparigas
55
60
65
manual).
rapazes
mínimo
43
46
máximo
60
65
mediana
50
57.5
1º quartil
48
50.5
3º quartil
52
61.5
(consultar páginas 74 e 75 do
Esta representação realça o que já
havia sido observado com os caules e
folhas e podemos ainda observar a
maior
variabilidade
pesos
referentes
existente nos
aos
rapazes,
relativamente aos pesos das raparigas
Chamamos a atenção para que as características observadas nas representações gráficas
anteriores, já haviam sido sugeridas pelo histograma da variável Peso, obtido na alínea b).
7.
a) Substituindo o F por um 0 e o M por um 1, obtemos 22 zeros e 16 uns. Como a variável
sexo é de tipo qualitativo, podemos usar qualquer etiqueta para representar as
categorias. Então, uma vez que temos um conjunto de números vamos calcular a sua
média:
CMM-2003/2004
7/11
Rel-1º TF-1334
1334
média =
um
22 ? 0 ? 16 ? 1
? 0.42 . Substituindo agora o F por 1 e o M por 2, obteremos
38
conjunto
média =
de
números
de
que
vamos
também
calcular
a
média:
22 ? 1 ? 16 ? 2
? 1.42 . Não podemos dizer que os valores obtidos sejam a
38
média da variável sexo, pois sendo uma variável de tipo qualitativo, não tem sentido
calcular a média . Como acabámos de ver, conforme as etiquetas utilizadas para
representar as classes, assim obteríamos uma média diferente!
b) Média dos pesos dos 16 rapazes = 56.4
Média dos pesos das 22 raparigas = 50.3
Média dos pesos dos alunos =
16 ? 56.4 ? 22 ? 50 .3
? 52.9
38
Consegue-se obter o total dos de pesos e a média global dos pesos dos 38 alunos.
c) A mediana das idades dos alunos é 15 e a média é 15.05. Estes valores são
aproximadamente iguais, o que era aliás sugerido pelo histograma – aproximadamente
simétrico- obtido para a variável Idade, num exercício anterior.
d) O histograma apresentado não é simétrico e apresenta um enviesamento para a direita,
o que sugere que a média dos pesos deva ser superior à mediana. O cálculo destas
características confirma esta suposição, já que se obtém para a média o valor
aproximado de 52.9, enquanto que a mediana é 51 (consultar páginas 90 e 91 do
manual).
e) Desvio padrão dos pesos dos 16 rapazes = 6.3
Desvio padrão dos pesos das 22 raparigas = 4.4
Os pesos dos rapazes apresentam maior variabilidade que os pesos das raparigas. Esta
característica já havia sido realçada, quando apresentámos anteriormente, os diagramas
de extremos e quartis, para comparar as distribuições dos pesos dos rapazes e das
raparigas.
f) A média obtida para os pesos dos alunos é aproximadamente 52.9, e o desvio padrão é
aproximadamente 6.0. Então, se os dados tivessem uma distribuição aproximadamente
normal, o que já vimos não ser verdade, esperaríamos obter no intervalo [46.9, 58.9],
aproximadamente 2/3 dos dados, ou seja aproximadamente 25 ou 26 (consultar página
99 do manual).
g) A moda é o Futebol, pois é a categoria predominante. Não se podem calcular outras
características amostrais.
CMM-2003/2004
8/11
Rel-1º TF-1334
1334
8.
a)
Nº do sapato
Freq. Absoluta
Freq. Relativa
F. A. Acumulada
F. R. Acumulada
Xi
ni
fi
Ni
Fi
28
2
0,05
2
0,05
29
5
0,125
7
0,175
31
16
0,4
23
0,575
32
14
0,35
37
0,925
33
3
0,075
40
1
ni ? frequência absoluta da i - ésima observação
N i ? frequência absoluta acumulada
n
f i ? i ? frequência relativa
n
f
Fi ? i ? frequência relativa acumulada
n
n?
k
?
ni ? nº de observaçõe s da amostra
i? 1
5
b)
x?
1
? f i xi ?
n i? 1
k
? ni x i
i? 1
n
?
n1 x1 ? ? ? n5 x5 2 ? 28 ? ? ? 3 ? 33
?
? 31,1
n
40
Moda é o valor com maior frequência absoluta, neste caso será 31.
x?n ? ? x? n
Como n é par ( n =40) Me ?
?
? ? 1?
?2 ?
? ?
? 2?
2
=
x ?20 ? ? x ?21?
2
? 31
Comparando a média, a moda e a mediana podemos concluir que a
distribuição é simétrica.
c)
2 8899999
3 1...
? 122 ...
? 22333
14?
10?
9.
CMM-2003/2004
9/11
Rel-1º TF-1334
1334
a) População é um conjunto de indivíduos ou objectos que apresentam uma ou mais
características em comum, que se pretende analisar, neste caso, constituída por todas as
crianças da escola primária em estudo;
Amostra, é um subconjunto da população, recolhida com o objectivo de se obter
informação sobre características desconhecidas da população, neste caso, de dimensão
60, constituída pelo número animais domésticos de algumas (60) crianças da referida
escola primária.
b) Variável, nº de animais domésticos de cada criança que respondeu ao inquérito,
quantitativa (característica susceptível de ser medida) discreta (só pode tomar um nº
finito ( ou infinito numerável) de valores distintos).
c)
d)
c)
d)
g)
Xi
ni
fi
Ni
Fi
ni X i
1
20
0.333
20
0.33
20
2
20
0.333
40
0.67
40
3
15
0.250
55
0.92
45
4
5
0.083
60
1
20
125
e) n 2 ? n3 ? n 4 ? 40 , 40 crianças.
f) F2 ? 0.67 , 67% das crianças têm menos de 3 animais em casa.
4
g)
1
x?
n
4
?
i ?1
fi x i ?
?
i? 1
ni x i
n
?
n1 x1 ? ? ? n4 x4 125
?
? 2.08
n
60
Moda é o valor com maior frequência absoluta, neste caso temos dois valores
para a moda, 1 e 2, diz-se que é bimodal.
x?n ? ? x?n
Como n é par ( n =60) Me ?
?
? ? 1?
?2 ?
? ?
? 2?
2
=
x?30? ? x ?31?
2
?2
Comparando a média e a mediana podemos concluir que a distribuição é
aproximadamente simétrica.
CMM-2003/2004
10/11
Rel-1º TF-1334
1334
h) Mínimo da amostra X ?1? ? 1
Máximo da amostra X ?60? ? 4
AI ? Q3 ? Q1 ? 3 ? 1 ? 2, amplitude inter - quartil
Q1 =
Q3 =
x?15? ? x ?16?
2
x?45? ? x ?46?
2
?
1? 1
?1
2
?
3?3
?3
2
10.
a) Como os dados nos são fornecidos agrupados, para calcular as médias, vamos escolher
como elementos representativos das classes os seus pontos médios:
média da Turma 1 =
2 ? 5 ? 3 ? 7 ? 5 ? 9 ? 7 ? 11 ? 6 ? 13 ? 4 ? 15 ? 2 ? 17
? 11.2
29
média da Turma 2 =
0 ? 5 ? 3 ? 7 ? 5 ? 9 ? 6 ? 11 ? 5 ? 13 ? 4 ? 15 ? 0 ? 17
? 11.2
23
b) O facto de termos obtido os mesmos valores para a média não nos permite afirmar que
as turmas tenham tido comportamento semelhante. Para caracterizar um conjunto de
dados é necessário utilizar medidas de localização e dispersão. Vejamos o que se passa
com os desvios padrão dos dois conjuntos de dados:
Desvio padrão Turma 1 =
(5 - 11.2) 2 ? 2 ? (7 - 11.2) 2 ? 3 ? (9 - 11.2) 2 ? 5 ? (11 - 11.2) 2 ? 7 ? ? ? (17 - 11.2) 2 ? 2
=
29 ? 1
10.67 =3.27
Desvio padrão Turma 2 =
(5 - 11.2) 2 ? 0 ? (7 - 11.2) 2 ? 3 ? (9 - 11.2) 2 ? 5 ? (11 - 11.2) 2 ? 6 ? ? ? (17 - 11.2) 2 ? 0
= 6.88
23 ? 1
CMM-2003/2004
11/11
Rel-1º TF-1334
1334
Como vemos, a dispersão foi muito maior na turma 1 do que na turma 2, o que significa
que os alunos desta turma são mais homogéneos: não há tendência para haver alunos
muito maus nem muito bons.
CMM-2003/2004
12/11
Rel-1º TF-1334
Download

1º teste formativo - Universidade Aberta