Descrevendo e condensando um
conjunto de dados:
tabelas de distribuição de
frequência, histogramas,
distribuição de Gauss, média e
desvios padrão dos dados e da
média
Prof. Fernando Lang da Silveira - IF-UFRGS
Uma forma de descrever um conjunto de dados é apresentar uma TABELA DE DISTRIBUIÇÃO
DE FREQUÊNCIAS para as medidas efetuadas. A seguir apresentamos uma dessas tabelas,
sintetizando 396 medidas da aceleração de queda livre em um experimento pouco confiável.
Uma forma de representar graficamente uma TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS é
através de um HISTOGRAMA, isto é, um gráfico de barras onde no eixo das abscissas estão as
medidas efetivadas e no eixo das ordenadas as frequências correspondentes.
Uma importante distribuição teórica de frequências é a DISTRIBUIÇÃO NORMAL OU GAUSSIANA.
Tal distribuição tende a ocorrer de maneira aproximada em conjuntos reais de dados, daí a sua
relevância.
Para a distribuição
gaussiana cerca de 68% das
medidas realizadas se
situam dentro do intervalo
que começa em um desvio
padrão abaixo da média e se
estende até um desvio
padrão acima da média.
Para a distribuição
gaussiana cerca de 95% das
medidas realizadas se
situam dentro do intervalo
que começa em dois desvio
s padrão abaixo da média e
se estende até dois desvios
padrão acima da média.
Distribuições reais de dados
usualmente se aproximam
da distribuição de Gauss.
As duas distribuições acima
são aproximadamente
gaussianas
O desvio padrão é uma medida de dispersão dos dados: quanto
maior o desvio padrão, tanto mais disperso os dados estão em
relação à média.
Se admitirmos que uma distribuição de dados ou medidas é
aproximadamente gaussiana ou normal então podemos
conferir um significado mais forte ainda ao desvio padrão dos
dados:
Cerca de 68% dos dados estão no intervalo que vai de 1 desvio
padrão abaixo da média a 1 desvio padrão acima da média.
A quase totalidade dos dados (95%) se dispersam por não mais
de 2 desvios padrão em torno da média.
Existe um argumento mais forte que confere ao desvio
padrão o caráter de medida universal de dispersão,
independentemente da forma da distribuição dos dados.
Este argumento tem por base a Primeira Desigualdade
de Chebycheff que implica que em qualquer distribuição
no mínimo 75% das observações se situam no intervalo
compreendido entre a média menos dois desvios
padrão e a média mais dois desvios padrão.
O histograma da direita foi construído a partir de amostras de 10
medidas retiradas do conjunto de 396 medidas representadas no
histograma da esquerda. Em cada amostra foi calculada uma
média e depois de ser ter muitas amostras de 10 medidas com a
sua respectiva média, construiu-se o histograma da direita.
Observa-se que o histograma da direita, além de mais estreito
que o da esquerda, se aproxima muito mais de ser uma
distribuição de Gauss.
Conforme aumenta o número de
medidas o desvio padrão da média
diminui, implicando que a incerteza
na média se torne cada vez menor.
Conclusão
O desvio padrão em um conjunto de dados experimentais informa a incerteza
de cada dado.
O desvio padrão da média informa qual é a incerteza na média.
Por exemplo, em uma amostra de 10 medidas de g se obteve uma média de
9,88 m/s2 e desvio padrão de 2,01 m/s2.
Calculamos então o desvio padrão da média dividindo 2,01 por raiz quadrada
de 10, expressando-o com APENAS UM ALGARISMO SIGNITICATIVO,
portanto 0,6 m/s2.
Daí decidimos que a média de g em 10 medidas é 9,9 m/s2, sendo que esta
média tem uma incerteza de 0,6 m/s2.
Caso utilizemos as 396 medidas concluiremos
que a média de g é 10,0 m/s2, sendo que esta
média tem uma incerteza de 0,1 m/s2.
Nota-se que o valor padrão de g, 9,8 m/s2, está
compreendido dentro de um INTERVALO DE
CONFIANÇA DE 95% construído a partir dos
resultados das 396 medidas, intervalo este que
se estende por dois desvios padrão da média em
torno da média, portanto de 9,8 m/s2 a 10,2 m/s2.
Download

Descrevendo e condensando um conjunto de dados