Descrevendo e condensando um conjunto de dados: tabelas de distribuição de frequência, histogramas, distribuição de Gauss, média e desvios padrão dos dados e da média Prof. Fernando Lang da Silveira - IF-UFRGS Uma forma de descrever um conjunto de dados é apresentar uma TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS para as medidas efetuadas. A seguir apresentamos uma dessas tabelas, sintetizando 396 medidas da aceleração de queda livre em um experimento pouco confiável. Uma forma de representar graficamente uma TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS é através de um HISTOGRAMA, isto é, um gráfico de barras onde no eixo das abscissas estão as medidas efetivadas e no eixo das ordenadas as frequências correspondentes. Uma importante distribuição teórica de frequências é a DISTRIBUIÇÃO NORMAL OU GAUSSIANA. Tal distribuição tende a ocorrer de maneira aproximada em conjuntos reais de dados, daí a sua relevância. Para a distribuição gaussiana cerca de 68% das medidas realizadas se situam dentro do intervalo que começa em um desvio padrão abaixo da média e se estende até um desvio padrão acima da média. Para a distribuição gaussiana cerca de 95% das medidas realizadas se situam dentro do intervalo que começa em dois desvio s padrão abaixo da média e se estende até dois desvios padrão acima da média. Distribuições reais de dados usualmente se aproximam da distribuição de Gauss. As duas distribuições acima são aproximadamente gaussianas O desvio padrão é uma medida de dispersão dos dados: quanto maior o desvio padrão, tanto mais disperso os dados estão em relação à média. Se admitirmos que uma distribuição de dados ou medidas é aproximadamente gaussiana ou normal então podemos conferir um significado mais forte ainda ao desvio padrão dos dados: Cerca de 68% dos dados estão no intervalo que vai de 1 desvio padrão abaixo da média a 1 desvio padrão acima da média. A quase totalidade dos dados (95%) se dispersam por não mais de 2 desvios padrão em torno da média. Existe um argumento mais forte que confere ao desvio padrão o caráter de medida universal de dispersão, independentemente da forma da distribuição dos dados. Este argumento tem por base a Primeira Desigualdade de Chebycheff que implica que em qualquer distribuição no mínimo 75% das observações se situam no intervalo compreendido entre a média menos dois desvios padrão e a média mais dois desvios padrão. O histograma da direita foi construído a partir de amostras de 10 medidas retiradas do conjunto de 396 medidas representadas no histograma da esquerda. Em cada amostra foi calculada uma média e depois de ser ter muitas amostras de 10 medidas com a sua respectiva média, construiu-se o histograma da direita. Observa-se que o histograma da direita, além de mais estreito que o da esquerda, se aproxima muito mais de ser uma distribuição de Gauss. Conforme aumenta o número de medidas o desvio padrão da média diminui, implicando que a incerteza na média se torne cada vez menor. Conclusão O desvio padrão em um conjunto de dados experimentais informa a incerteza de cada dado. O desvio padrão da média informa qual é a incerteza na média. Por exemplo, em uma amostra de 10 medidas de g se obteve uma média de 9,88 m/s2 e desvio padrão de 2,01 m/s2. Calculamos então o desvio padrão da média dividindo 2,01 por raiz quadrada de 10, expressando-o com APENAS UM ALGARISMO SIGNITICATIVO, portanto 0,6 m/s2. Daí decidimos que a média de g em 10 medidas é 9,9 m/s2, sendo que esta média tem uma incerteza de 0,6 m/s2. Caso utilizemos as 396 medidas concluiremos que a média de g é 10,0 m/s2, sendo que esta média tem uma incerteza de 0,1 m/s2. Nota-se que o valor padrão de g, 9,8 m/s2, está compreendido dentro de um INTERVALO DE CONFIANÇA DE 95% construído a partir dos resultados das 396 medidas, intervalo este que se estende por dois desvios padrão da média em torno da média, portanto de 9,8 m/s2 a 10,2 m/s2.