Biologia
Bioestatística
Lilian Giotto Zaros
Henrique Rocha de Medeiros
Bioestatística
Lilian Giotto Zaros
Henrique Rocha de Medeiros
Biologia
2ª Edição
Bioestatística
Natal – RN, 2011
Governo Federal
Presidenta da República
Dilma Vana Rousseff
Vice-Presidente da República
Michel Miguel Elias Temer Lulia
Ministro da Educação
Fernando Haddad
Universidade Federal do Rio Grande do Norte – UFRN
Reitora
Ângela Maria Paiva Cruz
Vice-Reitora
Maria de Fátima Freire Melo Ximenes
Secretaria de Educação a Distância (SEDIS)
Secretária de Educação a Distância
Maria Carmem Freire Diógenes Rêgo
Secretária Adjunta de Educação a Distância
Eugênia Maria Dantas
FICHA TÉCNICA
EDITORAÇÃO DE MATERIAIS
Criação e edição de imagens
Adauto Harley
Anderson Gomes do Nascimento
Carolina Costa de Oliveira
Dickson de Oliveira Tavares
Leonardo dos Santos Feitoza
Roberto Luiz Batista de Lima
Rommel Figueiredo
COORDENAÇÃO DE PRODUÇÃO DE MATERIAIS DIDÁTICOS
Marcos Aurélio Felipe
GESTÃO DE PRODUÇÃO DE MATERIAIS
Luciana Melo de Lacerda
Rosilene Alves de Paiva
PROJETO GRÁFICO
Ivana Lima
Diagramação
Ana Paula Resende
Carolina Aires Mayer
Davi Jose di Giacomo Koshiyama
Elizabeth da Silva Ferreira
Ivana Lima
José Antonio Bezerra Junior
Rafael Marques Garcia
REVISÃO DE MATERIAIS
Revisão de Estrutura e Linguagem
Eugenio Tavares Borges
Janio Gustavo Barbosa
Jeremias Alves de Araújo
José Correia Torres Neto
Kaline Sampaio de Araújo
Luciane Almeida Mascarenhas de Andrade
Thalyta Mabel Nobre Barbosa
Módulo matemático
Joacy Guilherme de A. F. Filho
Revisão de Língua Portuguesa
Camila Maria Gomes
Cristinara Ferreira dos Santos
Emanuelle Pereira de Lima Diniz
Janaina Tomaz Capistrano
Priscila Xavier de Macedo
Rhena Raize Peixoto de Lima
IMAGENS UTILIZADAS
Acervo da UFRN
www.depositphotos.com
www.morguefile.com
www.sxc.hu
Encyclopædia Britannica, Inc.
Revisão das Normas da ABNT
Verônica Pinheiro da Silva
Catalogação da publicação na fonte. Bibliotecária Verônica Pinheiro da Silva.
Zaros, Lilian Giotto.
Bioestatística / Lilian Giotto Zaros e Henrique Rocha de Medeiros. – Natal: EDUFRN, 2011.
214 p.: il.
ISBN 978-85-7273-833-0
Conteúdo: Aula 1 – O que é bioestatística. Aula 2 – Como transformar dados em informações.
Aula 3 - Descrevendo Sistemas. Aula 4 – Elaborando hipóteses. Aula 5 – Testando hipóteses. Aula 6
– Análise de variância. Aula 7 – Correlacionando informações. Aula 8 – Análise de regressão. Aula 9 –
Entendendo os números índices e suas aplicações. Aula 10 – Probabilidade: conceitos e aplicações.
Disciplina ofertada ao curso de Biologia a distância da UFRN.
1. Bioestatística. 2. Hipóteses. 3. Probabilidade. I. Medeiros, Henrique Rocha de. II. Título.
CDU 311
Z38b
© Copyright 2005. Todos os direitos reservados a Editora da Universidade Federal do Rio Grande do Norte – EDUFRN.
Nenhuma parte deste material pode ser utilizada ou reproduzida sem a autorização expressa do Ministério da Educacão – MEC
Sumário
Apresentação Institucional
5
Aula 1 O que é Bioestatística
7
Aula 2 Como transformar dados em informações
25
Aula 3 Descrevendo Sistemas
43
Aula 4 Elaborando hipóteses
65
Aula 5 Testando hipóteses
83
Aula 6 Análise de variância
101
Aula 7 Correlacionando informações
129
Aula 8 Análise de regressão
147
Aula 9 Entendendo os números índices e suas aplicações
173
Aula 10 Probabilidade:conceitos e aplicações
193
Apresentação Institucional
A
Secretaria de Educação a Distância – SEDIS da Universidade Federal do Rio Grande
do Norte – UFRN, desde 2005, vem atuando como fomentadora, no âmbito local, das
Políticas Nacionais de Educação a Distância em parceira com a Secretaria de Educação
a Distância – SEED, o Ministério da Educação – MEC e a Universidade Aberta do Brasil –
UAB/CAPES. Duas linhas de atuação têm caracterizado o esforço em EaD desta instituição: a
primeira está voltada para a Formação Continuada de Professores do Ensino Básico, sendo
implementados cursos de licenciatura e pós-graduação lato e stricto sensu; a segunda volta-se
para a Formação de Gestores Públicos, através da oferta de bacharelados e especializações
em Administração Pública e Administração Pública Municipal.
Para dar suporte à oferta dos cursos de EaD, a Sedis tem disponibilizado um conjunto de
meios didáticos e pedagógicos, dentre os quais se destacam os materiais impressos que são
elaborados por disciplinas, utilizando linguagem e projeto gráfico para atender às necessidades
de um aluno que aprende a distância. O conteúdo é elaborado por profissionais qualificados e
que têm experiência relevante na área, com o apoio de uma equipe multidisciplinar. O material
impresso é a referência primária para o aluno, sendo indicadas outras mídias, como videoaulas,
livros, textos, filmes, videoconferências, materiais digitais e interativos e webconferências, que
possibilitam ampliar os conteúdos e a interação entre os sujeitos do processo de aprendizagem.
Assim, a UFRN através da SEDIS se integra o grupo de instituições que assumiram o
desafio de contribuir com a formação desse “capital” humano e incorporou a EaD como modalidade capaz de superar as barreiras espaciais e políticas que tornaram cada vez mais seleto o
acesso à graduação e à pós-graduação no Brasil. No Rio Grande do Norte, a UFRN está presente
em polos presenciais de apoio localizados nas mais diferentes regiões, ofertando cursos de
graduação, aperfeiçoamento, especialização e mestrado, interiorizando e tornando o Ensino
Superior uma realidade que contribui para diminuir as diferenças regionais e o conhecimento
uma possibilidade concreta para o desenvolvimento local.
Nesse sentido, este material que você recebe é resultado de um investimento intelectual
e econômico assumido por diversas instituições que se comprometeram com a Educação e
com a reversão da seletividade do espaço quanto ao acesso e ao consumo do saber E REFLETE O COMPROMISSO DA SEDIS/UFRN COM A EDUCAÇÃO A DISTÂNCIA como modalidade
estratégica para a melhoria dos indicadores educacionais no RN e no Brasil.
SECRETARIA DE EDUCAÇÃO A DISTÂNCIA
SEDIS/UFRN
5
O que é Bioestatística
Aula
1
Apresentação
N
esta primeira aula, apresentaremos um breve histórico da Estatística, suas subdivisões
e como podemos utilizá-la no ramo das Ciências Biológicas. Num segundo momento,
abordaremos o conceito de Bioestatística e suas aplicações, partindo para a retomada de
alguns conceitos vistos na disciplina de Matemática e Realidade. Essa retomada é essencial não
somente para a compreensão das aulas seguintes, mas também da disciplina como um todo.
Para compreender os assuntos que serão abordados nesta aula, é necessário que você
leia atentamente os conceitos, que sempre serão acompanhados de exemplos aplicados às
Ciências Biológicas.
Ao final de cada tópico principal haverá uma série de exercícios propostos para você
resolver, além de exercícios já resolvidos. No final da aula, haverá uma autoavaliação para que
você avalie a sua aprendizagem. Tenha sempre seu caderno em mãos para que você anote
suas dúvidas e as encaminhe para nós o mais rápido possível.
Objetivos
1
2
3
4
5
Conhecer a história da Estatística e identificar as situações
onde ela pode ser aplicada.
Conhecer e distinguir as diversas fases do método
estatístico.
Definir o que é Bioestatística.
Compreender os conceitos fundamentais para
o entendimento e aplicação da Bioestatística.
Distinguir as técnicas de amostragem para a escolha de
elementos que irão compor uma amostra.
Aula 1
Bioestatística
9
O que é Estatística?
Para alguns, responder a essa pergunta é muito fácil, mas para outros, que nunca ouviram
falar em estatística, pode parecer algo impossível de entendimento. Mas, mesmo sem saber,
você já deve ter utilizado a estatística no seu cotidiano. Vamos conferir?
Com a chegada da Copa do Mundo de 2010, muitas lojas irão fazer promoções de
televisores. Você, consumidor, quer comprar uma TV e para saber qual delas tem o melhor
preço, inicia sua pesquisa de loja em loja, anotando os valores. Depois, em casa, compara os
preços, seleciona aquele mais em conta e se dirige até a loja para efetuar a sua compra. Nessa
situação, a estatística esteve presente quando você coletou os dados, extraiu as informações
a partir da sua pesquisa e tomou as decisões baseadas na sua coleta de dados.
Mas, além do cotidiano, a Estatística pode estar presente em qualquer disciplina de
qualquer curso, inclusive do curso de Ciências Biológicas.
Mas você deve estar se perguntando:
“Em quais disciplinas e como?”
B
em, se o professor da disciplina de Biodiversidade pedir para que você faça um
levantamento de quais as espécies animais habitantes da caatinga estão ameaçadas de
extinção, você estará utilizando um dos princípios da Estatística, ou melhor, do método
estatístico (que veremos a seguir), que é o da coleta de dados. Mas se ele for mais além, e pedir
para que você ordene quais os animais mais ameaçados de extinção, aí você terá que fazer
um levantamento mais aprofundado, checar outras fontes, organizar e interpretar os dados e
apresentar os resultados ao professor. Nesse momento você ainda estará utilizando a estatística.
Percebeu como a Estatística toma parte do nosso cotidiano e das disciplinas do Curso
de Ciências Biológicas, por exemplo?
A Estatística tem se mostrado um instrumento extremamente útil na organização
e interpretação dos dados, auxiliando na tomada de decisões, além de proporcionar uma
avaliação adequada de uma determinada situação, seja ela de origem biológica ou não.
10
Aula 1
Bioestatística
O papel da Estatística quando estabelecida como ciência
Pois bem, inicialmente a Estatística se preocupava em enumerar coisas e pessoas para
a avaliação das riquezas e cadastramento das propriedades de uma determinada cidade. Isso
aconteceu há milhares de anos atrás e atualmente acontece no Brasil a cada 10 anos.
Você já deve ter recebido em sua casa um funcionário do Instituto Brasileiro de Geografia
e Estatística (IBGE), munido de um questionário para avaliar sua condição de vida. Pois é esse
questionário, chamado de CENSO, que nos permite adquirir informações sobre cada família
brasileira, e já era realizado em civilizações muito antigas como a do Império Romano, da China
e do antigo Egito em 1000 a.C.
Fonte: <http://matematiques.sites.uol.com.br/pereirafreitas/1.1.2metodoestati
stico.htm>. Acesso em: 25 fev. 2010.
Hoje, com o passar dos anos, podemos constatar que o papel da Estatística vai além de
organizar e descrever fatos e/ou gerar informações analisando um conjunto de dados coletados,
mas também auxiliar no:
1)
Planejamento, auxiliando na escolha das situações experimentais e na determinação da
quantidade de indivíduos a serem examinados.
2)
Na análise dos dados, indicando técnicas para resumir e apresentar as informações, bem
como para comparar as situações experimentais ou não.
3)
Na elaboração das conclusões, utilizando os vários métodos estatísticos que permitem
generalizar a partir dos resultados obtidos.
Estatística é a ciência que tem como objetivo orientar a coleta, o resumo, a
apresentação, a análise e a interpretação dos dados coletados. E para isso, ela
se apóia na utilização do método estatístico. O método estatístico é um processo
para se obter, apresentar e analisar características ou valores numéricos para uma
melhor tomada de decisão em situações de incerteza.
Aula 1
Bioestatística
11
O método estatístico apresenta as seguintes fases:
Definição do problema: Podemos ilustrar essa primeira fase do método estatístico com a
pergunta: O que pesquisar? Nessa etapa você deve conhecer o problema a ser pesquisado,
fazer as perguntas às quais quer que sejam respondidas com a sua pesquisa. Por exemplo:
A altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
Planejamento da pesquisa: Essa segunda etapa pode ser traduzida com a pergunta: Como
pesquisar? Assim, é essencial que você tenha clareza de como a pesquisa será feita. Deve-se
também definir se você utilizará a população ou apenas uma amostra dessa população, que
estudaremos logo a seguir. Utilizando o nosso exemplo acima, devemos planejar se vamos
estudar a altura de todos os alunos do Curso de Ciências Biológicas ou somente dos alunos
do primeiro semestre, ou somente a altura dos homens.
Coleta dos dados: Podemos perguntar: O que coletar? Nessa etapa você deve obter as
informações de acordo com o que foi planejado na etapa anterior. Se o objetivo é saber a altura
dos alunos de cada semestre do Curso de Ciências Biológicas, você deve iniciar as medições de
cada um dos alunos, anotando os valores obtidos, como exemplificados na tabela 1.
Tabela 1 – Altura, em metros, dos alunos do 1º, 2º e 3º semestres do Curso de Ciências Biológicas
12
Aula 1
Bioestatística
Altura dos alunos
do semestre 1 (m)
Altura dos alunos
do semestre 2 (m)
Altura dos alunos
do semestre 3 (m)
1,54
1,67
1,65
1,74
1,87
1,54
1,82
1,88
1,64
1,9
1,89
1,56
1,54
1,78
1,75
3,54
1,89
1,56
1,75
1,9
1,6
1,87
1,76
1,64
1,96
1,94
1,65
1,72
1,95
1,6
Crítica dos dados: Essa fase é essencial para saber como anda a sua pesquisa. Pode-se lançar
a seguinte pergunta: Os dados estão coerentes? Você deve observar criticamente os dados
coletados, para que, se detectado algum erro, este não seja repetido nas coletas futuras.
Se você está medindo as alturas dos alunos de cada semestre do Curso de Ciências Biológicas
e encontra uma medida de 3,54 m, conforme apresentado em destaque na Tabela 1, pode ter
certeza que nessa hora, você cometeu algum erro.
Apresentação: Nessa etapa você deverá apresentar os dados coletados após eles serem
organizados. Uma vez os dados coletados, eles devem ser apresentados, seja através de
tabelas ou gráficos, conforme apresentado no Gráfico 1, ou por meio de um texto escrito.
Altura média (m)
2
1,9
1,8
1,7
1,6
1,5
1,4
Alunos do
semestre 1
Alunos do
semestre 2
Alunos do
semestre 3
Gráfico 1 – Altura média (m) dos alunos do primeiro, segundo e terceiro semestre do Curso de Ciências Biológicas
Análise e interpretação dos dados: Essa é a etapa final do método estatístico, mas nem por
isso, a menos importante. Nessa fase você deve descrever e analisar os dados pesquisados, e
chegar a uma conclusão, ou seja, responder a sua pergunta inicial. No caso do nosso exemplo,
constatar qual a altura média dos alunos de cada semestre do Curso de Ciências Biológicas.
As fases do método estatístico, que incluem desde a definição do problema até
a apresentação dos dados, denominam-se Estatística Descritiva, e a análise e
interpretação dos dados constitui a Estatística Inferencial, que ajuda a concluir
sobre um conjunto maior de dados (populações) quando apenas parte desse
conjunto (as amostras) foi estudada.
Aula 1
Bioestatística
13
Atividade 1
Com base no que você viu até agora sobre o método estatístico, faça uma pesquisa
na sua casa ou comunidade sobre algo que você gostaria de saber (número de
pessoas da comunidade, número de pessoas com olhos claros, tipo de árvore da
sua região, dentre outros) e, à medida que você for organizando sua pesquisa,
explicite quais as fases do método estatístico que você utilizou.
14
Aula 1
Bioestatística
Mas você deve estar se
perguntando: “E a Bioestatística?”
Agora que você já sabe o que é Estatística, você se arriscaria a elaborar uma definição para
Bioestatística? É simples! Considera-se Bioestatística a aplicação dos métodos estatísticos
para solucionar problemas biológicos.
Pode parecer difícil para um aluno que não tem gosto pela Matemática aprender
Bioestatística. Mas ele deve adquirir algum conhecimento sobre essa disciplina, pois só assim
poderá ter um ponto de vista objetivo sobre as técnicas do método científico empregado nas suas
pesquisas e saberá avaliar o grau de importância da informação fornecida por essas técnicas.
Aprender Bioestatística também pode proporcionar que você se familiarize com alguns
conceitos mais utilizados na área. Alguns termos do vocabulário comum têm significado técnico
e específico quando usados em Bioestatística. E é importante conhecê-los.
Enfim, sem despender muito tempo com cálculos e demonstrações, pretendemos que
você adquira os conhecimentos suficientes para tornar-se um usuário competente das técnicas
estatísticas mais comuns que podem ser aplicadas nas Ciências Biológicas.
Atividade 2
1
2
Com base no que foi apresentado até aqui, escreva o que você entendeu sobre o que
é Bioestatística e qual a sua importância.
Procure, no seu cotidiano, duas utilizações da Estatística.
Aula 1
Bioestatística
15
Retomando alguns
conceitos fundamentais
Alguns conceitos fundamentais para o entendimento e aplicação da Bioestatística você
já viu na disciplina de Matemática e Realidade (Aula 2 – A Estatística: do senso comum ao
conhecimento científico. Vamos retomá-los?
Unidade experimental ou Unidade de observação
É a menor unidade a fornecer uma informação. Podem ser pessoas, animais, plantas,
objetos. São aqueles indivíduos submetidos a uma situação de experimento controlado, como
por exemplo, ratos de laboratório colocados em um labirinto para estudar o comportamento
antes e após a administração de uma droga.
População
É o conjunto de “todos” os elementos (pessoas, animais, plantas, objetos) que
apresentam, pelo menos, uma característica comum e que pode ser observada, como por
exemplo, a população de árvores de mandacaru do sertão do Rio Grande do Norte.
Amostra
É qualquer parte retirada de uma população estatística, ou seja, é qualquer subconjunto
de uma população. Árvores de mandacaru do município de Currais Novos (RN).
Dados
São as informações numéricas ou não obtidas de uma unidade experimental ou de observação.
Quando se afirma que as árvores de mandacaru têm 21 espinhos, os dados são “21 espinhos”.
Variável
É alguma característica que pode ser observada (contada ou medida) em uma população
ou em uma amostra. O número de espinhos do mandacaru, a idade de uma pessoa e seus
16
Aula 1
Bioestatística
hábitos quanto ao fumo, a estatura de um jogador de basquete, a cor da pelagem dos animais,
o tipo de folha de uma planta constituem exemplos de variáveis.
Entretanto, as variáveis podem ser classificadas em quantitativas e qualitativas:
1)
Variáveis quantitativas: são aquelas cujos dados são valores numéricos, como por exemplo,
a estatura das pessoas, o número de sementes de uma vagem, o nível de colesterol no
sangue, o número de espinhos do mandacaru. As variáveis quantitativas podem ainda ser:
a)
Variáveis quantitativas discretas: são aquelas em que os dados podem apresentar
somente determinados valores, no geral, números inteiros, como por exemplo, o número
de filhos de um casal, o número de patas de um cavalo e o número de pétalas das flores.
É impossível dizer que um casal tem 2,3 filhos.
b)
Variáveis quantitativas contínuas: são aquelas em que os dados podem apresentar
qualquer valor dentro de um intervalo de variação possível, como por exemplo, o peso de
uma pessoa (56,3 kg) e a altura de uma árvore (1,5 m).
2)
Variáveis qualitativas: são aquelas que fornecem dados de natureza não numérica, ou
seja, fornecem qualidade à variável, como por exemplo, a cor da semente das ervilhas, a
raça ou o sexo do animal. As variáveis qualitativas podem ser:
a)
Variáveis qualitativas nominais: os níveis de respostas não admitem nenhuma ordem,
diferenciando uma categoria da outra, apenas pelo nome, por exemplo, o sexo dos animais,
ou é fêmea ou macho.
b)
Variáveis qualitativas ordinais: os níveis de respostas admitem ordem. Não é só
possível identificar diferentes categorias, mas também reconhecer graus de intensidade
entre elas, possibilitando a sua ordenação. A cor da flor do mandacaru, que pode ser
de branca à vermelha; o nível de intensidade de dor, que pode ser fraca, média, forte e
muito forte.
Atividade 3
1
a)
Explique com suas palavras o que você entendeu por:
População:
Aula 1
Bioestatística
17
b)
Amostra:
c)
Variável:
2
18
Aula 1
Classifique as variáveis abaixo:
a)
Cor do cabelo:
b)
Número de patas de um coelho:
c)
Número de células brancas no sangue:
d)
Tipo sanguíneo A, B, AB e O:
e)
Tipo de folha de uma árvore:
f)
Número de colônias de E. coli existente na água mineral:
Bioestatística
Utilizando as
amostras de uma população
O
s experimentos são realizados com amostras de uma população e não com toda
a população e podemos apresentar duas razões para isso: A primeira, porque as
populações finitas só podem ser estudadas através de amostras, como por exemplo,
um conjunto de alunos de uma escola em determinando ano, e a segunda, porque essas
populações são muito grandes. Imagine sabermos o tipo sanguíneo mais frequente dos
brasileiros? Levaríamos muito tempo e teríamos muito trabalho para realizarmos esses testes.
Fonte: <martabolshaw.blogspot.com/2008_03_01_archive.html>. Acesso em: 25 fev. 2010.
E se pegássemos apenas uma amostra dessa população? O estudo cuidadoso de uma
amostra tem mais valor científico do que o estudo de toda a população. Por exemplo, para
estudar o efeito do flúor sobre a prevenção da cárie em crianças, é melhor submeter uma
amostra de crianças a exames periódicos minuciosos, do que examinar rapidamente todas as
crianças antes e determinado tempo após o uso do flúor. Dessa maneira não seria mais fácil,
e ao mesmo tempo constituiria de uma metodologia correta?
Aula 1
Bioestatística
19
Como fazer para
escolher a amostra correta?
Quando trabalhamos com uma amostra da população, utilizamos as técnicas de
amostragem, isto é, escolhemos o procedimento que vamos adotar para escolher os elementos
que irão compor a amostra.
Amostra casual simples
É composta por elementos retirados ao acaso da população. Todo elemento da população
tem igual probabilidade de ser escolhido para compor a amostra. Vamos ver como?
Vamos supor que você esteja no laboratório de biologia vegetal e quer realizar um
experimento para avaliar os efeitos de diferentes quantidades de cálcio (1mg, 3 mg e 5 mg)
no crescimento da planta. Para a realização desse experimento temos 15 vasos de plantas,
nas mesmas condições de umidade, luz, temperatura, altura da planta e estado nutricional.
A pergunta é: Quais vasos escolher para receber 1mg, 3 mg e 5mg de cálcio?
Nesse caso, fazemos um sorteio dos vasos, para que todos tenham a mesma chance de serem
escolhidos para receber diferentes quantidades de cálcio.
20
Aula 1
Bioestatística
Amostra sistemática
Os elementos são escolhidos por um sistema. Se no exemplo acima, você escolhesse
somente os vasos listrados de preto, estaria organizando uma amostragem sistemática.
Amostra estratificada
É composta por todos os elementos originados de todos os estratos da população.
Por exemplo: A população de Natal (RN) é composta por crianças, jovens, adultos e idosos.
Uma amostra estratificada tem que ter uma representação na mesma proporção das quatro
categorias acima citadas, ou seja, 10 crianças, 10 jovens, 10 adultos e 10 idosos.
Amostra de conveniência
É formada por elementos que o pesquisador reuniu somente porque dispunha deles.
Se você utilizar todos os vasos de plantas citados no primeiro exemplo, independente de um
critério, esta amostra constituirá numa amostra de conveniência. Entretanto, você deve ter
muito cuidado ao utilizar esse tipo de amostra, pois os dados podem ser tendenciosos, não
revelando a realidade da situação.
Atividade 4
Responda às questões abaixo de acordo com o que você entendeu sobre amostras e
seus tipos.
1
2
Um pesquisador tem dez gaiolas. Cada uma delas contém seis ratos. Como esse
pesquisador pode selecionar dez ratos para compor sua amostra?
Dada uma população de quarenta cajueiros, descreva uma forma de obter uma
amostra casual simples composta por seis cajueiros.
Aula 1
Bioestatística
21
3
Organize uma lista com dez nomes de pessoas em ordem alfabética. Depois descreva
uma forma de obter uma amostra sistemática de cinco nomes.
Resumo
Nesta primeira aula, você viu um breve histórico da Estatística e como podemos
aplicá-la nas Ciências Biológicas. Estudou que, com o passar dos anos, o papel
da Estatística se modificou, indo além de organizar e descrever fatos e/ou
gerar informações. Você pode perceber que ela vem auxiliando na escolha das
situações experimentais, na determinação da quantidade de indivíduos a serem
examinados, na análise dos dados, indicando técnicas para resumir e apresentar
as informações e na elaboração das conclusões. Você aprendeu a definição
de método estatístico e todas as suas fases, desde a definição do problema,
passando pelo planejamento, coleta e crítica dos dados, até a apresentação,
análise e interpretação dos dados. Estudou também a Bioestatística, ou seja,
a aplicação da Estatística nas Ciências Biológicas, e retomou alguns conceitos
essenciais para o seu entendimento e aplicação, como a definição de população,
amostra e variável. Por fim, viu que as técnicas de amostragem constituem um
conjunto de procedimentos que vamos adotar para escolher os elementos que
irão compor a amostra que queremos analisar.
Autoavaliação
Nesta aula, você deve ter percebido a importância da Estatística e da aplicação dos
métodos estatísticos para solucionar problemas biológicos. Feito isto, verifique se você
consegue responder, de maneira resumida, às seguintes perguntas:
22
Aula 1
Bioestatística
1
Qual a finalidade e as fases do método estatístico?
2
Conceitue população e amostra, exemplificando.
Se você conseguiu respondê-las, suas respostas certamente contêm os elementos
básicos que você deverá ter apreendido deste conteúdo. Caso contrário, retome os textos e
resolva as questões até que tais conceitos se estabeleçam para você como um conhecimento
bem estruturado.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE. Disponível em: <www.ibge.
gov.br>. Acesso em: 25 fev. 2010.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Campus, 1980.
Aula 1
Bioestatística
23
Anotações
24
Aula 1
Bioestatística
Como transformar
dados em informações
Aula
2
Apresentação
Nesta aula, estudaremos o conceito de dados e banco de dados. Veremos como criar
um banco de dados e, posteriormente, a transformar os dados em informações. Inicialmente
faremos uma retomada dos principais conceitos vistos na Aula 1 – O que é Bioestatística – para
depois iniciarmos a apresentação dos novos conceitos sobre os dados.
Conceituado dados e banco de dados, estudaremos as diferenças entre dados e
informações e aprenderemos a planejar uma coleta de dados. Por fim, analisaremos os dados
coletados para que eles sejam apresentados em forma de tabelas, figuras ou gráficos, de
acordo com o objetivo da pesquisa.
Tenha em mãos o seu material da Disciplina de Matemática e Realidade, pois faremos a
revisão utilizando as Aulas 3 (A natureza dos dados estatísticos e sua organização) e 4 (Gráficos
estatísticos: uma síntese dos dados).
Bom estudo!
Objetivos
1
Conceituar dados e banco de dados.
2
Distinguir a diferença entre dados e informações.
3
Estabelecer critérios para fazer uma coleta de dados.
4
Analisar os dados coletados.
Aula 2
Bioestatística
27
Retomando alguns
conceitos da Aula 1
Unidade Experimetal
É a menor unidade a
fornecer uma informação.
Podem ser pessoas,
animais, plantas, objetos.
Variável
É alguma característica
que pode ser observada
(contada ou medida) em
uma população ou em
uma amostra.
Antes de iniciarmos a nossa aula, é conveniente você relembrar o que é uma unidade
experimental, uma variável e como esta pode ser classificada (Aula 1– O que é Bioestatística).
Vamos definir o que são os dados?
Dados são definidos como informações numéricas (contínuas ou discretas) ou qualitativas,
obtidas de uma unidade experimental ou de observação.
Classificação
das variáveis
No exemplo da Aula 1, quando se afirma que as árvores de mandacaru têm 21 espinhos,
os dados são “21 espinhos”. Podemos também citar o exemplo do consumidor que vai a várias
lojas para fazer uma pesquisa de preço dos televisores. Nesse caso, os dados são os preços
das TVs que ele pesquisou.
Quantitativa (discreta ou
contínua) e qualitativa
(nominal ou ordinal).
Se compararmos os exemplos acima, podemos verificar que os dados podem ainda ser
classificados em:
Dados isolados, como é o caso dos 21 espinhos de mandacaru, obtidos somente de
uma planta.
Conjunto de dados, como é o caso dos diversos valores pesquisados pelo consumidor
antes de comprar a televisão. Nesse caso, para que esses dados transmitam alguma informação,
eles devem ser organizados.
Como organizar os dados?
Organizar o dado “21 espinhos de mandacaru” é relativamente fácil, sendo possível até
anotar em um papel e guardar. Pronto, simples assim; desde que eu só queira estudar uma planta.
Mas, qual a relevância deste dado (21 espinhos), se o objetivo do meu trabalho é
determinar o número médio de espinhos nos mandacarus em um jardim que tem 20 plantas?
Observe que, nesse caso, teremos que traçar uma estratégia de planejamento e
organização de trabalho, de modo que se possa ao final:
1)
28
Aula 2
Bioestatística
Ter contado ou estimado o número médio de espinhos de todas as plantas.
2)
Conseguir lembrar ou guardar esses números, a fim de que, se outro indivíduo precisar
recomeçar ou continuar o trabalho, possa repetir o mesmo e chegar a resultados semelhantes.
Nesse momento, quando nos deparamos com uma quantidade maior de dados a serem
coletados para posterior análise, precisamos organizá-los em um banco de dados.
Atividade 1
1
2
Diferencie dados e banco de dados.
Cite alguns exemplos de dados quantitativos e qualitativos que fazem parte do
seu cotidiano.
Aula 2
Bioestatística
29
Banco de dados
Forma sistemática
Forma organizada de
dispor os dados, seguindo
algum critério. Por
exemplo: ao arrumar suas
camisetas no armário você
as ordena pela cor.
Um banco de dados é um conjunto de registros (de números ou variáveis qualitativas)
com uma estrutura regular que permite a reorganização e inserção desses registros de
forma sistemática, com a finalidade de se gerar informações.
Pode ser a agenda do seu telefone celular, a lista telefônica, o seu caderno de anotações
e até um conjunto de dados organizados em uma planilha de Excel.
Sim, isso mesmo! Mas desde que esses dados sejam organizados de forma sistemática.
Veja o exemplo a seguir:
Situação problema 1: Como posso fazer a identificação das principais espécies
vegetais de uma área de caatinga na reserva florestal do meu município?
Para resolver esse problema, devemos primeiro deixar bem claro:
1)
Qual o objetivo da pesquisa?
Identificar as principais espécies vegetais numa determinada área de reserva
florestal do município onde moro.
2)
O que fazer para alcançar esse objetivo?
Identificar e contar o número de individuos presentes em cada uma das áreas
de caatinga do município. Note que no objetivo estão “espécies vegetais”, isto
inclui árvores, arbustos, cactáceas, gramíneas e leguminosas, independente de
seu tamanho.
Feito isso, você pode partir para o próximo passo:
3)
Identificar e classificar as variáveis a serem estudadas:
As variáveis são as espécies vegetais. Neste exemplo, trata-se de uma variável
numérica e discreta, pois serão dados de contagem (Caso haja dúvidas, volte para
a Aula 1 – O que é Bioestatística – e leia a definição de variáveis e seus tipos).
Agora, como posso definir o método de amostragem já que é impossível contar
todas as espécies vegetais da área? Para isso devemos fazer a seguinte pergunta:
4)
Quantas amostras eu vou precisar colher, para fazer essa determinação?
Existem vários métodos para fazer essa determinação, neste caso o mais
recomendado é fazer uma revisão de literatura e procurar identificar o método
mais adequado. Para este caso específico do exemplo, podemos definir que
30
Aula 2
Bioestatística
serão avaliados 12 locais diferentes (L1, L2, L3, L4, L5, ... ,L12) e em cada um
destes locais serão coletadas amostras de parcelas de 4m 2 (Figura 1). Em cada
parcela, todas as plantas encontradas serão identificadas pelo nome comum e
o científico e contadas.
L1
L2
L3
L4
L5
L6
L7
L8
L9
L 10
L 11
L 12
Parcela de 4m 2
contendo todas as
plantas a serem
contadas
Figura 1 – Área experimental e respectiva parcela de 4m 2
Na Figura 1, em cada subunidade será reservada uma parcela com 4m 2 de área
para identificação e contagem do número de plantas de caatinga.
Depois de coletados os dados, veja, na tabela a seguir, como ficou a sua organização.
Tabela 1 – Levantamento fitossociológico de uma área de caatinga
Ordem
1
Nome Popular
Angico
Espécie
Piptadenia macrocarpa
2
Bambural
Hyptis suaveolans (L.) Poit
3
Carrapicho Agulha
Bidens sp
Número de indivíduos
4
1375
37
4
Catingueira
Caesalpinia pyramidalis Tul
2
5
Jitirana
Merremia aegyptia L.
4
6
Malva
Sida cordifolia L.
135
7
Manda Pulão
Croton sp.
249
8
Marmeleiro
Croton hemiargyreus
9
Mata Pasto
Senna obtusifolia
13
8
10
Melosa
Ruellia asperula
54
11
Milhã
Brachiaria plantaginea
90
12
Mofumbo
Combretum leprosum Mart.
13
13
Mororó
Bauhinia cheilantha
2
14
Pau Branco
Auxemma oncocalyx
4
15
Sabiá
Mimosa caesalpiniifolia
1
16
Tiririca
Cyperus sp
3
17
Urtiga
Fleurya aestuans L.
11
Viu como é fácil? Agora, que tal extrair uma informação desse conjunto de
dados? Identifique a espécie vegetal que apresenta o maior número de indivíduos
(plantas) na área amostrada.
Aula 2
Bioestatística
31
Atividade 2
Biometria
Estudo das características
biológicas quantitativas de
uma população.
Vamos tomar algumas medidas de biometria com seus conhecidos? Selecione um grupo
de 25 indivíduos (podem ser pessoas da sua família, amigos, alunos, colegas de trabalho, da
igreja e/ou de prática de esportes) e organize uma tabela com os seguintes dados: primeiro
nome, idade, sexo, altura e peso de cada um deles, utilizando a tabela a seguir.
Primeiro nome
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
32
Aula 2
Bioestatística
Idade
Sexo
Altura
Peso
Diferenciando os conceitos:
dados x informações
Para discutir o conceito de informações, vamos partir da seguinte situação:
Uma lista telefônica (seja de celular ou papel) é um conjunto de dados, organizados em
função de alguma variável como, por exemplo, o nome e/ou endereço. Quando você precisa
ligar para uma pessoa, cujo telefone não se lembra, o que você faz? Certamente, uma pesquisa/
análise no conjunto de dados da lista a fim de obter a informação desejada: o telefone da pessoa.
Analisando essa situação, podemos definir informação como: o conhecimento obtido
através da interpretação do significado dos dados (HOUAISS; VILLAR; FRANCO, 2001).
Aliás, um dicionário da língua portuguesa nada mais é que um conjunto de dados, organizados
de forma sistemática (normalmente em ordem alfabética), no qual podemos obter informações
sobre a ortografia correta, significados, sinônimos e antônimos de palavras.
Uma curiosidade...
Se, na minha lista telefônica, eu não encontrar o número de telefone da pessoa
que procuro ou se ele não for o correto, ainda assim isso é uma informação?
Sim, só que nesse caso o seu banco de dados (agenda do telefone) não serviu
para responder o seu questionamento. Por esse motivo, a informação obtida foi:
‘você não tem o número do telefone da pessoa’.
Neste caso, se realmente desejar falar com ela, você vai precisar conseguir a
informação correta em outra fonte de dados, que pode ser a lista telefônica, um
colega, etc.
Nessa situação é importante para lembrar que nem sempre o nosso conjunto
de dados vai permitir obter a informação necessária e/ou correta. São vários os
fatores que podem resultar nesse problema, dentre eles podemos citar problemas
na amostragem (número insuficiente e/ou amostras tendenciosas que conduzem
a conclusões inverídicas) e erros na coleta e/ou no processamento dos dados.
Aula 2
Bioestatística
33
Atividade 3
Na tabela construída na Atividade 2, conte o número de pessoas do sexo masculino e do
feminino que tem mais de 1,55m de altura e pesa mais que 68kg.
Planejando a coleta de dados
Lembra que agora a pouco vimos que há vários fatores que podem resultar no fato de
um dado não fornecer nenhuma informação ou fornecer informações erradas? Esse fato foi
exemplificado pelo caso de não acharmos o telefone procurado ou acharmos o telefone e este
estar errado.
Para que isso não ocorra, é importante planejar e traçar uma estratégia para realizar
a coleta de dados. Essa estratégia de planejamento da Coleta de Dados é composta por:
Observação dos ítens do método estatístico (mencionada na Aula 1): Nessa primeira
fase você deve seguir as etapas do método estatístico, que são: (1) Identificação do problema
e (2) Formulação de hipóteses. Conhecendo esses dois ítens, entre outras coisas, é possível:

Identificar e classificar as variáveis adequadas e necessárias para a pesquisa. Isso é
importante para que você possa organizar as tabelas em função do tipo de resposta
esperada (ex.: sim ou não; presente ou ausente; espaço para número ou texto) para cada
variável estudada.

Traçar uma estratégia de ação que permita coletar, organizar e processar os dados de
forma precisa e correta. Assim, pode-se evitar desperdício de tempo anotanto informações
que não serão úteis e adequando as condições para coletar os dados e a necessidade do
trabalho. Desse modo, pode-se evitar erros na anotação ou processamento dos dados.
Um exemplo disso pôde ser observado na realização do censo agropecuário 2006, no
qual os entrevistadores utilizaram “palmtops” para coletar os dados. Assim, diminui a chance
de ocorrer erros durante o processamento dos questionários, por erros de leitura. Entretanto,
os erros de coleta de dados podem acontecer na hora da anotação dos questionários por
resposta imprecisa do entrevistado.
34
Aula 2
Bioestatística
Além disto, é importante antes de sair para coletar os dados, verificar:

Quantas pessoas serão necessárias para realizar o trabalho.

Se existe material de coleta disponível (por exemplo: lápis e papel, frascos para armazenar
amostras etc.) para todo o trabalho.

Se é necessário realizar treinamento antes de iniciar o trabalho.

Como as amostras coletadas podem ser armazenadas e transportadas.

Se a amostra utilizada é representativa da população.

Como será realizado o trabalho de coleta.
Tendo como exemplo a Tabela 1, para fazer a coleta de dados de quais as espécies vegetais
e o número de plantas em cada parcela, precisamos de: fita métrica para demarcar o perímetro
da área amostral; lápis e papel para fazer anotar o nome comum (popular), o científico e
a quantidade de indivíduos de cada espécie. Além disso, para esse trabalho específico é
importante levar na equipe uma pessoa que conheça a flora regional e saiba identidicar as
plantas. Em caso de dúvidas, é interessante também ter recipientes adequados para coletar
amostras e levar para o biotério, a fim de fazer identificação correta da espécie.
A Figura 2 reúne as principais etapas do planejamento da coleta de dados.
PLANEJAMENTO DA COLETA DE DADOS
Observação das fases do método estatístico
Identificação do
problema
Formulação de
hipóteses
ETAPA OPERACIONAL
• Determinar o número de pessoas da equipe
• Realizar treinamento para a coleta dos dados
• Providenciar material necessário
• Organizar o trabaho no local da coleta
• Verificar o modo de armazenamento e
transporte do material coletado
Figura 2 – Principais etapas do planejamento da coleta de dados
Fonte: Henrique Rocha de Medeiros
Aula 2
Bioestatística
35
Atividade 4
Elabore um plano para a coleta de dados idade, peso e altura de todas as pessoas da
cidade onde você mora.
36
Aula 2
Bioestatística
Análise gráfica de conjunto de dados
Como dito anteriormente, um conjunto de dados só poderá ser transformado em
informação se, com ele, for possível realizar alguma análise e interpretação dos seus resultados.
Assim, podemos estabelecer alguns mecanismos de classificação para o conjunto de dados.
Uma das ferramentas que possibilitam essa organização sistematizada são as planilhas
(Figura 3), isto é, um conjunto de dados organizados em linhas e colunas, que podem ser
preenchidas manualmente ou em computadores (planilhas eletrônicas).
Figura 3 – Exemplo da planilha com linhas e colunas feita em computador. Os dados apresentados são referentes
ao exemplo utilizado na aula
Fonte: Henrique Rocha de Medeiros
A opção de organizar os dados em linhas ou colunas vai depender da preferência definida
antes de iniciar o trabalho de coleta. Todavia, esta deve sempre possibilitar a soma ou contagem
de dados correspondentes à mesma variável seguindo uma única sequência de linhas ou colunas.
Além disso, a sistematização das informações em planilhas facilita ainda a elaboração
de tabelas (ver Tabela 1 – Levantamento fitossociológico de uma área de caatinga) e gráficos
para análise dos dados.
Há vários tipos de gráficos, e a escolha de qual utilizar vai depender do tipo de dados
existentes, da necessidade e familiaridade com as informações. Utilizando os dados do nosso
exemplo, escolhemos apresentá-los em forma de gráfico de barras, mais adequado para o
tipo de dados que temos (Figura 4).
Aula 2
Bioestatística
37
Levantamento fitossociológico de espécies encontradas numa área de Caatinga
1600
Número de indivíduos de cada espécie
1400
Bambural
1200
1000
Número de
indivíduos
800
600
400
Manda
Pulão
200
0
Carrapicho
Agulha
Angico
Malva
Jitirana
Catingueira
Mata Melosa
Pasto
Milhã
Marmeleiro
Pau
Mororó Branco Sabiá Tiririca Urtiga
Mofumbo
Espécies encontradas
Figura 4 – Identificação e quantificação das espécies vegetais encontradas numa área de caatinga na Região Nordeste do Brasil
Fonte: Henrique Rocha de Medeiros
Não existe um tipo mais correto de gráfico, todavia é importante que eles permitam
a interpretação rápida e o entendimento dos resultados e, além disso, que respeitem as
normas para a elaboração de gráficos e tabelas, como visto nas Aulas 3 e 4 da disciplina
Matemática e Realidade.
Exercício resolvido 1
Utilizando as informações da Tabela 1 (Levantamento fitossociológico de uma área de caatinga),
indique quantas espécies foram identificadas e qual o total de plantas contadas.
Resolução
Nessa tabela, os dados referentes a cada espécie (observe que os nomes
científicos não se repetem) estão organizados em linhas. Assim, observando-se
a tabela pode-se aferir que foram identificadas 17 espécies. O número total de
plantas contadas pode ser obtido somando-se o número de indivíduos de cada
espécie (4 + 1375+ 37+...+1+3+11 = 2005).
38
Aula 2
Bioestatística
Exercício resolvido 2
Ainda utilizando as informações da Tabela 1, identifique as três espécies que tem mais
indivíduos na amostra estudada. Nesse caso, a mesma resposta pode ser obtida analisando a
tabela ou construindo gráficos como pôde ser observado.
Resolução
Observando-se os resultados da tabela pode-se identificar que o bamburral, o
manda pulão e a malva, com respectivamente 1.375, 249 e 135 indivíduos cada,
são as espécies vegetais que têm o maior número de plantas na área estudada.
Essa mesma resposta pode ser obtida, analisando-se a Figura 4: Identificação
e quantificação das espécies vegetais encontradas numa área de caatinda na
Região Nordeste do Brasil.
Nesse caso, a opção pela tabela ou pelo gráfico se dará em função da necessidade de
informação. Se o objetivo for apenas identificar as espécies com maior número de indivíduos,
possivelmente o gráfico será a melhor alternativa. Entretanto, se a quantificação é necessária,
a organização da tabela em função do número de indivíduos poderá facilitar o trabalho.
Resumo
Você estudou o conceito de dados e banco de dados e aprendeu como criar
um banco de dados para, posteriormente, transformá-lo em informações. Você
retomou os principais conceitos vistos na Aula 1 – O que é Bioestatística – tais
como, unidade experimental, variável e classificação de variáveis. Você estudou
as diferenças entre dados e informações e aprendeu que, para que dados sejam
transformados em informações, precisa planejar sua coleta de forma a evitar
erros. Para isso, utilizou-se as duas primeiras etapas do método estatístico:
(1) Identificação do problema e (2) Formulação de hipóteses. Você estudou
também algumas ações que fazem parte do planejamento da coleta de
dados, como conhecer o local da coleta, formar uma equipe de coleta, levar
material necessário, dentre outros. Aprendeu que os dados coletados podem
ser organizados em planilhas eletrônicas feitas em computador, o que facilita
posterior análise e interpretação. Por fim, relembrou as formas de apresentação
dos dados, como por exemplo, em tabelas e gráficos.
Aula 2
Bioestatística
39
Autoavaliação
A dengue é uma doença grave, que está disseminada em todo o território nacional.
Então, que tal por em prática os conceitos da aula de hoje, transformando os dados sobre
essa epidemia em informação?
Para isto analise os dados que foram retirados de um texto extraído da página da Secretaria
de Saúde Pública (SESAP/RN) na internet.
<http://www.rn.gov.br/contentproducao/aplicacao/govrn/imprensa/enviados/noticia_detalhe.
asp?nImprensa=0&nCodigoNoticia=17319>:
A Secretaria Estadual de Saúde Pública, por meio do Programa de Controle da Dengue,
divulgou nesta segunda-feira (14/12/2009) o boletim de acompanhamento epidemiológico da
dengue. Desde janeiro deste ano foram notificados 3.577 casos da doença no Rio Grande do
Norte. Destes, 17 foram de Febre Hemorrágica de Dengue (FHD), além de três óbitos ocorridos.
Em relação ao mesmo período do ano anterior (2008) quando foram notificados 43.552, houve
uma redução nos casos. Na região metropolitana da Capital (que inclui os municípios de Natal,
Macaíba, São Gonçalo e Extremoz) foram notificados 1.724 casos de dengue. Em Natal, foram
notificados 1.235 casos de dengue, dos quais 13 de FHD. Já em Mossoró, 370 pessoas foram
acometidas por esta enfermidade (dengue) e 07 apresentaram FHD.
Agora, utilizando os dados acima e:
1
40
Aula 2
Bioestatística
Construa uma tabela com o número de casos notificados da doença no ano de 2009
em todo o estado do Rio Grande do Norte, na Região Metropolitana da capital, em
Natal e em Mossoró.
2
3
Calcule a porcentagem de casos ocorridos no município de Natal em relação ao
restante do estado, analisando os dados da tabela elaborada na questão 1.
Analise os dados e calcule a redução do número de casos notificados de dengue em
2009 em relação ao ano anterior (2008), quando foram notificados 43.552 casos
dessa enfermidade.
Se você conseguiu resolver o exercício acima, parabéns! Caso contrário, entre em contato
com o seu professor, retorne ao texto da aula, reveja os principais conceitos, volte à atividade
de autoavaliação e tente quantas vezes forem necessárias.
Referências
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing
Company, 1990.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: FEP MVZ Editora, 1997.
Aula 2
Bioestatística
41
Anotações
42
Aula 2
Bioestatística
Descrevendo Sistemas
Aula
3
Apresentação
N
esta aula, estudaremos as aplicações da estatística descritiva nas Ciências Biológicas.
Para isto, utilizaremos dados de sistemas biológicos para calcular a média, variância,
desvio padrão, moda e mediana e veremos como obter informações com este tipo
de análise estatística. Desse modo, será importante que você tenha uma boa compreensão
dos conceitos vistos na Aula 1 – O que é Bioestatística – e Aula 2 – Como transformar
dados em informações. As análises que aqui serão realizadas terão como base os conceitos
apreendidos nessas aulas.
Objetivos
1
2
3
Distinguir os conceitos de estatística descritiva e suas
aplicações em Ciências Biológicas.
Aplicar a estatística descritiva para realizar análises de
conjuntos de dados.
Avaliar os resultados da análise dos dados, de modo
a poder caracterizar corretamente a amostra e poder fazer
inferências sobre a população.
Aula 3
Bioestatística
45
Medidas de tendência central
As medidas de tendência central indicam um ponto, em torno do qual, se distribuem
ou concentram os números do conjunto de dados. Este tende a estar localizado no centro
da distribuição dos dados. As principais medidas de tendência central são a média, a moda e
a mediana, que estudaremos a seguir.
Média
A média de um conjunto de números pode ser definida como um valor que representa
o total desse conjunto, sem alterar as suas características. Esta medida (média) é um valor
de “equilíbrio” do conjunto de dados.
Se o conjunto de dados é obtido de uma população, utiliza-se a letra grega “µ”
(pronuncia-se mi) para representar a média. Quando o conjunto de dados é obtido de uma
_
amostra da população, utiliza-se o símbolo “x ” (pronuncia-se x barra).
Calculando médias e suas aplicações
_
A média aritmética (x ) de um conjunto de dados é calculada pela soma de todos os dados
dividida pelo número deles. A representação matemática do cálculo da média é a seguinte:
x
x=
n
onde:
∑x = somatório de todos os valores de x
n = a quantidade de valores
Exercício resolvido 1
Um aluno tirou as notas: 0, 2, 4, 6 e 10, em cinco provas. Calcule a média das notas
desse aluno.
46
Aula 3
Bioestatística
Resolução
1)
Primeiro devemos somar (∑x) todos os valores da cada prova: 0 + 2 + 4 +
6 + 10. O resultado é 22.
2)
Depois identificamos o n, ou seja, como são 5 notas, temos n = 5.
3)
Por fim, divide-se a soma 22 por 5 (22/5) e obtém-se a média 4,4.
4)
Conclui-se que o aluno teve média 4,4.
Exercício resolvido 2
Calcule a média geral das notas da turma de 25 alunos, de acordo com os dados
apresentados na Tabela 1.
Tabela 1 – Resultado da avaliação (nota) de uma turma com 25 alunos
Número de alunos
Nota
5
5
8
7
9
8
3
10
Resolução
Neste caso, você pode resolver a questão (e encontrar a média geral da turma)
de duas maneiras:
1)
Somando todas as notas (∑x) obtidas pelos alunos (5 + 5 + 5 + 5 + 5
+7+7+7+7+7+7+7+7+8+8+8+8+8+8+8+
8 + 8 + 10 + 10 + 10) que dá ∑x = 183 e dividir o valor encontrado pelo
número (n) de alunos que é n = 25. Assim, o cálculo da média da turma é
obtido pela divisão 183/25, cujo resultado é 7,32.
(5*5) + (8*7) + (9*8)
2)
3*10)
+ (3*1
O mesmo resultado de média (7,32) pode ser obtido se você multiplicar a nota
pelo número de alunos que tiraram a respectiva nota e fizer o somatório de
todos os resultados, da seguinte maneira: (5*5) + (8*7) + (9*8) + (3*10) = 183.
Assim, se dividirmos 183 por 25 obteremos o mesmo resultado para o cálculo
da média geral da turma, ou seja, 7,32.
5*5 = 5+5+5+5+5;
8*7 =
7+7+7+7+7+7+7+7;
9*8 =
8+8+8+8+8+8+8+8+8
e 3*10 =10+10+10
Aula 3
Bioestatística
47
Atividade 1
Calcule a média para os seguintes conjuntos de dados:
48
Aula 3
Bioestatística
a)
A altura (em cm) de plantas submetidas a tratamento com hormônio de
crescimento: 12,5cm; 12,6cm; 12,9cm; 13,5cm; 13,7cm; 12,7cm; 13,6cm.
b)
Número de movimentos respiratórios por minuto (mpm) de cobaias de
laboratório após a administração de um anestésico intravenoso: 12 mpm;
14 mpm; 13 mpm; 14 mpm; 15 mpm; 16 mpm; 16 mpm; 15 mpm; 13 mpm.
c)
Número de salários mínimos recebidos pelos trabalhadores de um
laboratório de análises clínicas: 5 salários míninos; 4 salários míninos;
4,5 salários míninos; 6 salários míninos; 5,5 salários míninos; 8 salários míninos;
6 salários míninos; 6,5 salários míninos.
Mediana e moda
A
análise da média deve refletir o conjunto de dados. Todavia, este cálculo pode ser
afetado por medidas muito discrepantes (muito altas ou muito baixas em relação ao
valor médio). Quando isto acontece, a média calculada não representa adequadamente o
que acontece no conjunto de dados. Para estas situações o cálculo da mediana e/ou da moda
pode ser uma alternativa adequada para descrever o conjunto de dados.
A mediana (cujo símbolo é md) é o valor que ocupa a posição central; esta medida divide
o conjunto de dados em duas metades iguais. Para calcular a mediana, organize o seu conjunto
de dados em ordem crescente e encontre o valor que está no centro da série.
Quando o número de dados for ímpar a mediana será o valor que está no centro da
série. Quando o número de dados for par, a mediana será a média dos valores que estão no
centro da série.
Exercício resolvido 3
Vamos descobrir a mediana do conjunto de dados utilizado para o cálculo das médias
do Exercício resolvido 2?
Para isso devemos:
1)
Organizar o conjunto de dados em ordem crescente. Assim procedendo, obtemos:
Valor
5
5
5
5
5
7
7
7
7
Posição 1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
2)
7
7
7
7
8
8
8
8
8
8
8
8
8
10 10 10
Note que temos 25 números. Esse valor é ímpar, e desse modo, a mediana será o valor
que divide esse conjunto. Neste caso, a mediana corresponderá ao número que está na
posição 13 (número 7), pois este dividirá o conjunto de dados em duas metades iguais,
com 12 dados (números) cada um, como se pode observar abaixo:
Conjunto 1 com os 12 primeiros valores (anteriores a mediana)
Valor
Posição
5
1
5
2
5
3
5
4
5
5
7
6
7
7
7
8
7
9
7
10
7
11
7
12
Mediana
Valor
7
Posição 13
Conjunto 2 com os 12 últimos valores (posteriores a mediana)
Valor
Posição
8
14
8
15
8
16
8
17
8
18
8
19
8
20
8
21
8
22
10
23
10
24
10
25
Aula 3
Bioestatística
49
É interessante utilizar essa medida quando se estuda um grande conjunto de dados,
onde existe muita discrepância entre eles. Neste caso, a mediana pode ser uma medida mais
representativa que a média.
Já a moda (cujo símbolo é mo) representa o valor que ocorre com maior frequência no
conjunto de dados.
Analisando-se o conjunto de dados do Exercício resolvido 2, observa-se que a nota que
mais aparece é 8. Neste caso, a moda ou o valor modal é 8.
Neste exercício, a média, a mediana e a moda apresentam valores bem próximos entre si.
E, dependendo do conjunto de dados estas três medidas podem até ter o mesmo valor.
Entretanto, dependendo da variação existente no conjunto de dados, você deverá escolher
qual dessas medidas de tendência central (média, mediana ou moda) é a mais representativa
e adequada para ser utilizada.
Atividade 2
1
2
a)
50
Aula 3
Bioestatística
Calcule a média, a moda e a mediana para o conjunto de dados de uma classe com
seis alunos, cujas notas foram:
Aluno
A
Nota
2,0 5,0 8,0 5,0 7,5 3,5
B
C
D
E
F
Analisando o conjunto de dados abaixo, responda:
Aluno
A
Nota
2,0 5,0 7,0 10,0 5,0 6,0 3,0 8,0
B
C
D
E
F
G
Quantos alunos têm nota superior à média geral da turma?
H
b)
Calcule a média, a moda e a mediana desta turma.
c)
Qual destas três medidas de tendência central, você acha mais adequada para descrever
o conjunto de dados? Justifique a sua resposta.
Medidas de dispersão
As medidas de dispersão indicam ou permitem ter noção do quanto estão distantes os
dados entre si. Ou seja, como eles variam em relação à média.
Neste sentido, a descrição de um conjunto de dados sempre se faz com uma medida de
tendência central (geralmente a média) e uma de dispersão associadas.
Mas, como medir esta variação em relação à média?
Para isto, devemos analisar a amplitude e os desvios em relação à média.
Amplitude
A amplitude corresponde à diferença entre o maior e o menor valor no conjunto de dados.
Esta medida nos fornece uma noção da dispersão dos dados.
Para explicar este conceito, vamos utilizar dois conjuntos de dados A e B, que representam
a nota obtida pelos alunos de uma determinada disciplina:
Conjunto de dados A: 4; 6; 4; 6; 5; 5
Conjunto de dados B: 9; 1; 5; 5; 1; 9
Aula 3
Bioestatística
51
Para calcular a amplitude destes dois conjuntos de dados, identifique, respectivamente,
o maior e o menor valor em cada um deles.
No conjunto A o maior valor encontrado é 6 e o menor 4. Assim, a amplitude é 6 – 4 = 2.
Para o conjunto de dados B o maior e o menor valor, são respectivamente 9 e 1, portanto
a amplitude é 9 – 1 = 8.
Observe que esta medida permite inferir que a variabilidade do conjunto de dados B é
maior que o do A.
Quando se trabalha com algumas variáveis de grande instabilidade como, por exemplo,
contagem de ovos por grama de fezes (OPG) utilizado para diagnóstico de verminose, onde
se podem determinar valores de amplitude superior a 10000 OPG, esta medida é bastante
interessante para demonstrar a variabilidade e a dispersão existente.
Estas características podem ser comprovadas nos dados da tabela a seguir (Tabela 2),
onde temos zero como o menor valor de OPG e 5100 como o maior valor.
Tabela 2 – Contagem de OPG (ovos/g) de um rebanho de ovinos mestiços (½ sangue Somalis × ½ sem raça definida)
mantidos em pastagem nativa naturalmente contaminada por larvas de nematódeos gastrintestinais
Animal
Contagem de OPG
1
100
2
0
3
200
4
300
5
0
6
100
7
400
8
100
9
1100
10
1400
11
5100
12
400
13
700
14
300
15
500
16
0
17
700
18
1300
19
200
20
800
21
300
22
2300
Fonte: Zaros et al (2009).
52
Aula 3
Bioestatística
Desvio em relação à media
O desvio em relação à média permite estimar o quanto um determinado valor se afasta
da média do conjunto. O cálculo do desvio em relação à média é dado pela diferença entre
o valor medido (observado) e a média do conjunto de dados (calculado previamente). Este é
representado matematicamente pela fórmula:
_
Desvio em relação a média = x – x .
Onde:
x = valor medido
_
x = valor da média calculada
Para determinar os desvios, precisamos inicialmente calcular as médias de cada conjunto
de dados. Ainda utilizando os conjuntos A (4; 6; 4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9), vemos que
a média para ambos é 5. Assim, os desvios em relação à média do conjunto de dados A são:
Valor medido (x)
_
Média (x )
4
5
6
5
1
4
5
–1
6
5
1
5
5
0
5
5
0
_
x–x
–1
Total = 0
Os desvios em relação à média para o conjunto B são:
Valor medido (x)
_
Média (x )
_
x–x
9
5
4
1
5
–4
5
5
0
5
5
0
1
5
–4
9
5
4
Total = 0
Observe que, apesar dos conjuntos de dados A e B possuírem as mesmas médias,
eles apresentam desvios bem diferentes. No conjunto A, os desvios vão de – 1 a + 1 e no B,
de – 4 a + 4.
Você notou que, apesar dos valores diferentes, a soma dos desvios é zero nos dois
conjuntos? Vamos ver o porquê?
Você pode está se perguntando: Se a soma dos desvios em relação à média é sempre
zero para qualquer conjunto de dados, como poderei utilizar esta medida?
Aula 3
Bioestatística
53
_
Neste caso, podemos utilizar um artifício matemático que é elevar o valor de (x – x )
_
ao quadrado, transformando-o em (x – x )2, e assim ter sempre um valor positivo para esta
operação. Assim, sempre que você calcular a soma dos desvios elevada a potência 2, obterá
um valor positivo e diferente de zero.
Vamos conferir?
Exercício resolvido 4
Calcule a soma dos desvios elevada à potência 2 para os conjuntos de dados A (4; 6;
4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9).
Resolução
1)
2)
3)
54
Aula 3
Bioestatística
Para o conjunto de dados A:
Valor medido (x)
_
Média (x )
_
x–x
4
5
–1
1
6
5
1
1
4
5
–1
1
6
5
1
1
5
5
0
0
5
5
_
(x – x ) 2
0
0
Total = 0
Total = 4
Para o conjunto de dados B:
Valor medido (x)
_
Média ( x )
9
1
_
x–x
_
(x – x ) 2
5
4
16
5
–4
16
5
5
0
0
5
5
0
0
1
5
–4
16
9
5
4
16
Total = 0
Total = 64
Calculados os desvios e elevando-os à potência de 2, eles só terão valor zero,
_
se todos os valores x – x do conjunto forem iguais a 0. Neste caso, não existe
dispersão e/ou diferença em relação a média.
Atividade 3
Retome os principais conceitos vistos nesta aula e defina:
a)
Média:
b)
Mediana:
c)
Moda:
d)
Amplitude:
e)
Desvio em relação à média:
Aula 3
Bioestatística
55
Variância de uma amostra
Depois de calcular os desvios em relação à média, agora, você já pode calcular a variância
(s ) de uma amostra. Esta medida de dispersão permite ter noção de quanto variam os dados
em relação a média e principalmente calcular o desvio padrão de uma média.
2
A variância de uma amostra é estimada pela fórmula:
2
S =
(x − x)2
n−1
Onde:
x = valor medido ou observado na amostra
_
x = Média calculada para amostra
n = número de dados da amostra
Vamos fazer uma aplicação da variância utilizando os dados do exercício resolvido 4?
Neste caso, para os dois conjuntos de dados, A e B, foram utilizados 6 valores, então
o valor de n é igual a 6 e, consequentemente, n – 1 = 5.
Utilizando estes conceitos, a variância para o conjunto A é calculada dividindo-se o valor
_
de (x – x )2, que é igual a 4, por n – 1, que é igual a 5. Assim, a variância de A é 4/5 ou 0,8.
_
Da mesma forma, a variância de B é calculada por 64, resultado de (x – x )2, dividido
por 5, resultado de n – 1. Ou seja, 64/5 que resulta em 12,8.
Observe que a variância é uma medida adimensional.
Agora, conhecendo a variância de um conjunto de dados, eu posso estimar o seu
desvio padrão.
Desvio padrão
C
omo a variância é uma medida que estima os quadrados dos desvios em relação
a média, esta tem pouca aplicação prática. Visto que as unidades de medida dos dados
utilizados no cáculo da variância também são elevadas ao quadrado, o que dificulta a
interpretação das respostas. Tome-se por exemplo uma medida calculada em: kg ou cm ou m 2.
Neste caso, a variância será expressa em respectivamente: kg 2 ou cm 2 ou m 4; dificultando
a interpretação dos resultados.
56
Aula 3
Bioestatística
Uma forma de resolver este problema é extrair a raiz quadrada da variância, obtendo
assim o desvio padrão (s).
O desvio padrão (s) de um conjunto de dados é obtido calculando-se a raiz quadrada da
variância, utilizando a fórmula:
√
2
s = ( S2)
Onde:
S 2 = variância da amostra
Utilizando este conceito nos mesmos conjuntos de dados A e B, obtemos os seguintes
valores:
Para o conjunto A: S 2 = 0,8 então, s = 2 0, 8 s = 0,894
Para o conjunto B: S 2 = 12,8 então, s = 2 12, 8 s = 3,577
Agora, já que conhecemos a média e o desvio padrão do conjunto de dados e a amplitude,
podemos utilizar estas informações para descrever os dados analisados neste exemplo.
1)
Conjunto A = 5 ± 0,894; menor valor 4; maior valor 6; n = 5.
2)
Conjunto B = 5 ± 3,577; menor valor 1; maior valor 9; n = 5.
Você pode, utilizando essas informações, escolher o conjunto de dados A, se preferir
o que tiver menor desvio em relação à média ou o conjunto de dados B se a opção for pela
maior amplitude.
Coeficiente de variação
Agora, o que representa o desvio em relação à média?
O desvio em relação à média permite avaliar a instabilidade do conjunto de dados.
Esta medida de dispersão é chamada de coeficiente de variação (CV).
O CV é calculado dividindo-se o desvio padrão pela média do conjunto de dados.
_
CV = s/x
Onde:
s = Desvio Padrão
_
x = Média aritimética calculada para o conjunto de dados.
Aula 3
Bioestatística
57
Utilizando os dados do Exercício resolvido 4, teremos os seguintes coeficientes de variação.
1)
Conjunto de dados A: 0,894/5 = 0,1788 ou 17,88%
2)
Conjunto de dados B: 3,577/5 = 0,7154 ou 71,54%
Este resultado indica que o conjunto de dados A é mais homogêneo e menos instável
que o B.
Atenção
Não estamos afirmando que “A” é melhor do que “B” ou vice-versa, mas sim,
homogêneo. Isto é importante, para se avaliar a representatividade da média em
relação ao conjunto de dados.
Lembra quando falamos da média de dados de contagem de OPG e que nestes casos, se
pode ter amplitude superior a 10000?
Este é um caso de variável muito instável, onde a média não tem muita representatividade.
Nestas situações, trabalhar com a moda ou a mediana é mais interessante que com a média.
A noção de instabilidade de uma variável e a escolha entre utilizar a média, a moda
ou a mediana para descrever o conjunto de dados, é uma opção individual do pesquisador.
Para isto, recomenda-se o bom senso e observar/ler como se publicam estas informações nos
meios científicos, jornais e revistas.
Atividade 4
Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8
pontos de um afluente medidos uma hora antes e uma hora depois de um acidente ambiental:
Tabela 3 – Concentração (em ppm) de um determinado poluente nas águas de um rio antes e depois de um
acidente ambiental
Concentração antes
4,67
4,97
5,11
5,17
5,33
6.22
6,50
7,0
Concentração depois
5,44
6,11
6,49
6,61
6,67
6,67
6,78
7,89
Fonte: <http://leg.ufpr.br/~paulojus/CE003/ce003/node2.html>. Acesso em: 12 abr. 2010.
58
Aula 3
Bioestatística
Utilizando o conjunto de dados da Tabela 3, calcule a média, a mediana, a moda, o
desvio padrão e o coeficiente de variação da concentração de poluentes antes e depois do
acidente ambiental.
Leitura complementar
PROJETO de ensino. Aprendendo a fazer estatística. Disponível em: <http://www.des.uem.
br/projetos/Estatistica_Descritiva.pdf>. Acesso em: 12 abr. 2010.
Este texto refere-se aos principais conceitos da Estatística Descritiva vistos na aula de
hoje. Além disto, sua leitura possibilitará conhecer outros exemplos de aplicações da Estatística
Descritiva, principalmente para você utilizar em situações de sala de aula tendo como exemplo
as situações do cotidiano.
Aula 3
Bioestatística
59
Resumo
Nesta aula, você estudou as aplicações da estatística descritiva nas Ciências
Biológicas. Para isto, você teve como exemplo dados de sistemas biológicos para
calcular a média, variância, desvio padrão, moda e mediana. Você compreendeu
como obter informações com este tipo de análise estatística e aprendeu a
realizar uma análise de um conjunto de dados utilizando a estatística descritiva.
Por fim, você pôde interpretar os resultados da análise dos dados, de modo a poder
caracterizar corretamente a amostra e poder fazer inferências sobre a população.
Autoavaliação
Um fazendeiro foi avaliar a produção de leite dos seus animais. Ele anotou os
dados na tabela a seguir (Tabela 4). Entretanto, ficou sem saber analisar, fazer
uma estatística descritiva dos resultados.
Tabela 4 – Produção de leite (Kg/animal/dia)
Produção de leite (kg/animal/dia)
Identificação do animal
Dia 1
Dia 2
Dia 3
Dia 4
A296
7,4
4
7,2
6,6
A369
6
5,4
8
4,8
A001
8
2,8
3,4
9,4
L061
7,4
9,8
11,2
7
L212
4,6
9
10,2
4
L344
2,8
5
6,2
4
Analise os dados da Tabela 4 e calcule a média, o desvio padrão, a moda, a mediana e
o coeficiente de variação da produção de leite do rebanho.
60
Aula 3
Bioestatística
Se você conseguiu resolver o exercício acima, parabéns. Caso contrário, entre em contato
com o seu professor. Retome o texto da aula, reveja os principais conceitos, volte à atividade
de Autoavaliação e tente quantas vezes forem necessárias.
Referências
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. São Paulo:
IME-USP, 2000.
OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing
Company, 1990.
PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de bioestatística. 2. ed. São Paulo:
Pioneira Thomson Learning, 2004.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: FEP MVZ Editora, 1997.
ZAROS, L. G. et al. Desempenho de ovinos Somalis resistentes e susceptíveis a nematódeos
gastrintestinais. In: ZOOTEC, 2009, Águas de Lindóia. Anais... Águas de Lindóia, 2009.
Aula 3
Bioestatística
61
Anotações
62
Aula 3
Bioestatística
Anotações
Aula 3
Bioestatística
63
Anotações
64
Aula 3
Bioestatística
Elaborando hipóteses
Aula
4
Apresentação
N
esta aula, apresentaremos o conceito de hipótese, exemplificando com situações
que fazem parte do seu cotidiano. Num segundo momento, veremos quais os tipos
de hipótese e como utilizá-los. Entenderemos o conceito de população amostral e
referência, os quais serão parte essencial na construção da hipótese. Estudaremos quais os
tipos de erros existentes ao se aceitar ou rejeitar uma hipótese verdadeira.
Nesta aula, temos exercícios resolvidos que servirão de guia para que você faça as
atividades propostas após cada assunto abordado.
Lembre-se: para que você compreenda os conceitos desta aula, é necessário que você
leia atentamente o texto, fazendo sempre anotações sobre suas dúvidas e questionamentos.
Objetivos
Definir hipótese.
1
Diferenciar os tipos de hipóteses.
2
Definir erro tipo I e tipo II.
3
Aula 4
Bioestatística
67
Uma provável teoria...
Figura 1 – Céu nublado
Segundo o Dicionário On Line de Português, a palavra hipótese refere-se a uma
suposição que se faz acerca de uma coisa possível ou não, a qual se tira uma
consequência; teoria provável, admissível, embora ainda não demonstrada.
Na ilustração anterior, nossa hipótese é que vai chover. Chegamos a essa
afirmação, constatando o céu cinzento e carregado de nuvens.
Mas, será que podemos comprovar essa hipótese? Será que essa hipótese pode
ser rejeitada? Que elementos temos para aceitar ou rejeitar essa hipótese?
Essas e outras questões serão respondidas no decorrer desta aula.
Se voltarmos um pouco no tempo e relembrarmos algumas disciplinas que você já
estudou, como Biodiversidade, podemos destacar teorias que foram formuladas a partir de
uma, duas ou mais hipóteses.
Um exemplo foi a teoria da evolução dos seres vivos. Essa teoria teve várias hipóteses,
dentre elas a sustentada pelo cientista francês Jean-Baptiste Lamarck, que afirmava que os
seres vivos tinham de se transformar para melhor se adaptarem ao ambiente, ou seja, as girafas
teriam adquirido o pescoço longo ao se esforçarem para ter acesso à comida. Essa hipótese
não foi aceita pela ciência e foi substituída pelas hipóteses de Darwim, que originaram a Teoria
da Seleção Natural.
68
Aula 4
Bioestatística
Fonte: <http://noticiasro.nafoto.net/images/photo20081004014824.jpg>.
Acesso em: 25 mar. 2010.
Observe a figura abaixo e responda a seguinte pergunta: Será que
vai chover?
Esse é apenas um exemplo de hipóteses que, quando aceitas, tornaram-se fatos, teorias.
Figura 2 – Girafas que teriam adquirido pescoço longo ao
se esforçarem para ter acesso à comida - Hipótese de Lamarck
Atividade 1
Baseado nos conhecimentos que você adquiriu durante o curso de Ciências
Biológicas, pesquise e descreva outras hipóteses que foram confirmadas ou
rejeitadas na história da Biologia.
Aula 4
Bioestatística
69
Um exemplo nos dias de hoje
Nas Ciências Biológicas, os trabalhos científicos são realizados com objetivos bem
estabelecidos, expressos por meio de afirmações – as hipóteses – que os pesquisadores
desejam verificar.
Veja esta situação: suponha que o pesquisador queira verificar se o medicamento X,
utilizado no tratamento do câncer de pele apresenta, como efeito colateral, um aumento na
pressão sanguínea. Nesse caso, o pesquisador elabora duas afirmações, ou seja, duas hipóteses
que devem ter sentido contrário uma da outra (igualdade x diferença). Assim, obrigatoriamente,
ao aceitar uma hipótese, a outra deve ser rejeitada. Isso pode ser visto no exemplo a seguir.
Hipótese 1 (H1): o medicamento X, utilizado no tratamento do câncer de pele, não apresenta
efeito colateral.
Hipótese 2 (H2): o medicamento X, utilizado no tratamento do câncer de pele, apresenta pelo
menos um efeito colateral.
Entretanto, para saber quais das hipóteses são verdadeiras, o pesquisador deverá testá-las,
ou seja, inicia-se uma pesquisa para responder às suas perguntas.
No caso do exemplo acima, ele deve selecionar indivíduos, utilizar a medicação X e avaliar
se ocorre algum efeito colateral nos pacientes.
Dependendo dos resultados obtidos, o pesquisador aceita ou não a sua hipótese: se ele
verificar que os indivíduos apresentaram algum efeito colateral, como, por exemplo, alteração
na pressão arterial após a administração do medicamento, ele aceitará a hipótese 2; caso
contrário, deverá aceitar a hipótese 1.
Fonte: <http://frasesilustradas.files.wordpress.com/2009/04/hipotese.jpg>.
Acesso em: 25 mar. 2010.
70
Aula 4
Bioestatística
Atividade 2
Com base no que você leu até aqui, defina hipótese e construa duas hipóteses
sobre como será a disciplina de Bioestatística.
Hipóteses e seus tipos
Até o momento, vimos o conceito de hipótese. Agora, vamos conhecer seus tipos?
Há dois tipos principais de hipóteses. Uma que chamamos de Hipótese Científica e a
outra que denominamos de Hipótese Estatística.
A hipótese científica é aquela que não menciona o valor do parâmetro. É o caso da nossa
situação acima, em que as hipóteses formuladas não exprimem valor, ou seja, não se referem
à média da pressão sanguínea dos indivíduos analisados.
Valor do parâmetro
Valor do parâmetro:
é um número, um valor
que quantifica a variável.
Já a hipótese estatística menciona o valor do parâmetro. Seria o caso se, no exemplo
acima, o pesquisador apresentasse o valor médio da pressão sanguínea dos indivíduos
analisados, como, por exemplo, 128mmHg (milímetros de mercúrio).
O esquema a seguir resume os dois principais tipos de hipóteses com seus respectivos
exemplos e nos apresenta outros dois subtipos da hipótese estatística, a Hipótese Nula ou de
Nulidade (H0) e a Hipótese Alternativa (Ha).
Aula 4
Bioestatística
71
HIPÓTESE
Hipótese Científica
O medicamento
apresenta efeito
colateral
Hipótese Estatística
O medicamento
apresenta efeito
colateral sobre a
média de pressão
sanguínea
Parâmetro
com valor
Parâmetro
sem valor
Hipótese
Nula Ho
A média da pressão
sanguínea é igual para os
indivíduos que receberam
o medicamento e para os
que não receberam
Hipótese
Alternativa Ha
A média da pressão
sanguínea é diferente para
os indivíduos que receberam
o medicamento e para os
que não receberam
Figura 3 – Tipos e subtipos de hipóteses e seus respectivos exemplos
Fonte: Lilian Giotto Zaros.
População
amostrada (μ1)
é a amostra que constitui
o seu estudo. No caso
do nosso exemplo, os 60
indivíduos que tomaram o
medicamento constituem
a população amostral ou,
simplesmente, a amostra.
População tomada
como referência (μ2)
é aquele que serve como
base ou referência para
o estudo. No caso do
exemplo, é a população
de pessoas que não
receberam o medicamento.
O pesquisador não precisa,
necessariamente, medir
a pressão de todas as
pessoas. Ele simplesmente
pode ter como base
estudos já realizados que
constataram que a média
da pressão arterial
é de 128mmHg.
72
Aula 4
Vamos nos aprofundar nas hipóteses estatísticas?
As hipóteses estatísticas sempre comparam dois ou mais parâmetros, afirmando que
são iguais ou não, como você pôde ver no esquema acima. Essas hipóteses ainda podem ser:
Hipótese Nula ou de Nulidade (H0), que estabelece a ausência de diferenças entre os
parâmetros. É sempre a primeira a ser formulada.
Ainda utilizando o exemplo anterior, a hipótese de nulidade pode ser:
H0, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados
com o medicamento X, não difere da média da população tomada como referência (μ2), ou
abreviadamente:
H0 : μ1 = μ2
Se essa hipótese for aceita, a conclusão é de que o medicamento não altera a pressão
sanguínea.
Bioestatística
Hipótese alternativa
Hipótese Alternativa (Ha ou H1): é a hipótese contrária à hipótese nula. Estabelece a presença
de diferenças entre os parâmetros. Geralmente, é a que o pesquisador quer ver confirmada.
A hipótese alternativa do exemplo acima é:
Ha, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados com
o medicamento X, difere média da população tomada como referência (μ2), ou abreviadamente:
Ha : μ1 ≠ μ2
Se essa hipótese for aceita, a conclusão é de que o medicamento altera a pressão sanguínea.
Exercício resolvido
Formule as hipóteses de nulidade e alternativa para a situação descrita a seguir.
Um pesquisador da Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) tem se
dedicado aos estudos de caprinos, tentando identificar alguns genes que sejam relacionados
à resistência à verminose. Num dado momento da sua pesquisa, ele notou que vários genes
aparecem em diferentes proporções nos animais mais resistentes do que nos animais mais
susceptíveis e outros genes aparecem nas mesmas proporções em ambos os animais.
Diante dessa observação, o pesquisador precisa formular suas hipóteses para posteriormente
testá-las. Descreva quais as hipóteses esse pesquisador deve testar.
Resolução
Em primeiro lugar, você deve identificar qual a população a ser testada. No
exemplo acima, queremos comparar se os animais resistentes apresentam os
mesmos genes que os animais susceptíveis. Nesse caso, como iremos testar os
dois grupos de animais, podemos denominar os animais resistentes de população
1 (μ1) e os animais susceptíveis de população 2 (μ2), já que ambos serão testados.
Uma vez definida a população a ser testada, você pode elaborar as hipóteses.

Hipótese de nulidade (H0): a média de expressão gênica dos animais
resistentes não difere da dos animais susceptíveis. H0 : μ1 = μ2

Hipótese alternativa (H a): a média de expressão gênica dos animais
resistentes difere da dos animais susceptíveis. Ha : μ1 ≠ μ2
Entendido? Agora faça o mesmo nas situações abaixo.
Aula 4
Bioestatística
73
Atividade 3
1
2
74
Aula 4
Bioestatística
Um pesquisador da Fundação Oswaldo Cruz, no Rio de Janeiro, recebeu
uma demanda do Governo Federal para testar um novo inseticida contra
o mosquito Aedes aegipty, transmissor da dengue e da febre amarela
urbana. Alguns estudos preliminares foram realizados e comprovaram
que o inseticida tem efeito na diminuição da população desse inseto.
Entretanto, o que o governo ainda não sabe é se ele atua inibindo a
eclosão dos ovos, inibindo o desenvolvimento da larva em adulto, ou
tornando os adultos estéreis. Com base nessas informações, escolha
uma das três alternativas para o mecanismo de ação do inseticida e
elabore as hipóteses (H0 e Ha) que devem ser testadas para responder
ao questionamento do Governo Federal.
Antigamente, se pensava que o câncer de mama era uma doença rara
em mulheres abaixo dos 35 anos. Pesquisas recentes têm mostrado
que essa incidência não é um evento tão raro como se pensava
anteriormente. Desse modo, pesquisadores de institutos de saúde vêm
se questionando se as causas desse tipo de câncer são as mesmas
em mulheres abaixo de 35 anos, quando comparadas àquelas de 45
anos ou mais. Suponha que você é um desses pesquisadores que irá
realizar a pesquisa e elabore as hipóteses (H0 e Ha) a serem testadas.
Cometendo erros
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha), você irá ver que
podemos cometer erros ao aceitar ou não uma hipótese. O aceitar ou rejeitar uma hipótese é
dado pelos testes de hipóteses, os quais estudaremos na Aula 5 – Testando hipóteses.
A verificação das hipóteses estatísticas somente se dará com certeza se você estudar toda
a população, e não somente uma amostra dessa população, como somente alguns indivíduos
utilizados para avaliar o efeito do medicamento na pressão arterial.
Entretanto, como não podemos avaliar toda a população, por diversas razões, avaliamos
somente uma amostra dela (por exemplo, 60 indivíduos) e extrapolamos, ou seja, aplicamos
os resultados obtidos com essa amostra para todos os indivíduos da população.
Mas, quando fazemos isso, corremos o risco de cometer erros, afirmando que há uma
diferença, quando ela efetivamente não existe, ou o inverso.
Testes de hipóteses
procedimento estatístico
pelo qual se rejeita ou não
uma hipótese, associando
à conclusão um risco
máximo de erro.
Extrapolar
generalizar; estender a
validade de uma afirmação
ou conclusão além dos
limites em que ela é
comprovável.
E como podem ser esses erros?
Os erros cometidos ao se extrapolar as informações de uma amostra para toda a
população podem ser visualizados no esquema apresentado a seguir.
ERRO
Tipo I - erro α
Tipo II - erro β
Rejeita H0 quando
ela é verdadeira
Aceita H0 quando
ela é falsa
Afirma-se uma diferença
quando ela efetivamente
não existe
Afirma-se uma igualdade
quando o correto seria
afirmar uma diferença
Figura 4 – Tipos de erros que podem ser cometidos ao se testar hipóteses
Fonte: Lilian Giotto Zaros.
Aula 4
Bioestatística
75
Mas, como é possível rejeitar
uma hipótese que é verdadeira?
O teste que realizamos para aceitar ou rejeitar uma hipótese baseia-se numa situação
experimental (amostra), sujeita a flutuações amostrais. Devido a essas flutuações, você pode
ter uma amostra que não represente bem a população, levando a uma conclusão que não
corresponde à realidade.
O PESQUISADOR
Se a Hipótese Nula (H0 ) é
VERDADEIRA
FALSA
ACEITA
H0
DECISÃO
CORRETA
COMETE O
ERRO TIPO II (β)
REJEITA
H0
COMETE O
ERRO TIPO I (α)
DECISÃO
CORRETA
Fonte: <http://www.editoraferreira.com.br/publique/media/
pedro_toq14_teste-hipoteses.pdf>. Acesso em: 25 mar. 2010.
No quadro a seguir você pode verificar os erros cometidos de acordo com a decisão
tomada pelo pesquisador de aceitar ou não uma hipótese.
Figura 5 – Tipos de erros cometidos ao aceitar ou rejeitar uma hipótese de nulidade ou alternativa
Se o pesquisador aceita H0 e ela é realmente verdadeira, ele tomou a decisão correta,
e, consequentemente, não cometeu erro algum. Entretanto, se ele aceita H0 e ela é falsa, ele
cometeu um erro, chamado de erro tipo II, representado pela letra grega beta (β).
Mas, se o pesquisador rejeita H0 e ela é verdadeira, ele comete o erro tipo I, representado
pela letra grega alfa (α). Já, se ele rejeita H0 e ela é falsa, ele tomou a decisão correta e não
cometeu erro algum.
E como evitar esses tipos de erros?
Esses erros podem ser evitados através dos testes de hipóteses (Aula 5) que os
tornem menores possíveis. Entretanto, não é possível minimizar ambos os erros
ao mesmo tempo.
Os testes de hipóteses são montados de forma que, fixado o Erro Tipo I que se
está disposto a cometer, o Erro Tipo II seja o menor possível.
76
Aula 4
Bioestatística
Atividade 4
1
2
Pesquise o conceito de erro e, com base nos seus conhecimentos adquiridos nesta
aula, defina os tipos de erros estatísticos e suas consequências.
O texto abaixo foi escrito por Doris S. M. Fontes (2007, extraído da Internet), graduada
em Estatística, aborda a importância do erro estatístico. Leia e reflita sobre ele.
Será que os erros médicos são mais graves que os erros estatísticos?
[...] Muitas vezes, conclui-se que os erros estatísticos não devem ser encarados
com tanto rigor legal como aqueles causados por médicos, advogados ou
engenheiros. Eu realmente não compartilho muito dessa opinião. Erros estatísticos
podem ser muito graves, trazendo consequências realmente nefastas para milhões
de pessoas. Enquanto um médico mata um, dois ou dez pacientes por imperícia,
um resultado estatístico aceito por uma empresa ou governo pode trazer prejuízo/
danos ou mortes para muitas pessoas, ou milhões, simultâneamente, dependendo
do caso [...] O remédio genérico que foi aprovado mais tarde é verificado que
não funciona. E quantas vítimas já terá feito? Um produto lançado a partir de
resultados estatísticos duvidosos, quantos terão morrido?
Aula 4
Bioestatística
77
Resumo
Nesta aula, você aprendeu o conceito de hipótese e também que há hipóteses
científicas e estatísticas. Você estudou os tipos de hipóteses estatísticas
denominadas hipótese de nulidade (H0 ) e hipótese alternativa (Ha ) e as identificou
em vários exemplos utilizados ao longo da aula. Entendeu o conceito de população
amostral e referência, que são parte essencial na construção de hipóteses.
Aprendeu também a formular hipóteses utilizando alguns exemplos da Biologia
e a reconhecer a importância de uma hipótese bem formulada. Você conheceu que
podemos aceitar ou rejeitar hipóteses e verificamos que, ao rejeitar ou aceitar uma
hipótese, podemos cometer algum tipo de erro. Estudou os conceitos de erros
apresentados em erro tipo I, representado pela letra grega alfa (α) e o erro tipo
II, representado pela letra grega beta (β). Por fim, você pôde perceber e refletir
sobre a sua importância quando extrapolamos uma conclusão retirada de um
estudo de uma amostra para toda a população.
78
Aula 4
Bioestatística
Autoavaliação
Vamos aplicar o que aprendemos? Para isso, resolva o exercício abaixo.
Suponha que antropólogos da Alemanha costumam classificar os tipos de
populações antigas com base no comprimento dos seus crânios: população 1 (P1),
com valores médios de 190mm e população 2 (P2), com valores médios de
196mm. Recentemente, descobriram em outra localidade 12 crânios com
comprimento médio de 194mm e desejam saber à qual tipo de população
(P1 ou P2) pertenceram esses crânios. Assim, transforme o problema acima em
uma hipótese estatística.
Se você conseguiu resolver a autoavaliação, parabéns. Caso contrário, entre em contato
com o seu professor, reveja os principais conceitos, volte à atividade e tente quantas vezes
forem necessárias.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre:
Artmed, 2003.
DEPARTAMENTO DE PATOLOGIA – FMUSP. Biometria: aula II: inferência estatística. Disponível
em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010.
Aula 4
Bioestatística
79
DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso
em: 24 fev. 2010.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso
Editores, 1999.
Anotações
80
Aula 4
Bioestatística
Anotações
Aula 4
Bioestatística
81
Anotações
82
Aula 4
Bioestatística
Testando hipóteses
Aula
5
Apresentação
Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar,
em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha),(Aula 4- Elaborando
hipóteses) você irá conhecer os testes pelos quais podemos verificar se as hipóteses que
construímos são ou não verdadeiras. Esses testes são chamados de testes de hipóteses.
Também nesta aula você vai estudar o conceito de nível de significância do teste, onde
você utilizará o conceito de erro tipo I e tipo II visto na aula anterior (Aula 4- Elaborando
hipóteses) para compreender o que é o nível de significância de um teste e sua importância.
Em seguida, você vai aprender a classificar os tipos de testes de hipóteses e verá em quais
situações eles são mais utilizados.
Leia atentamente os textos e anote suas dúvidas. Bom trabalho!
Objetivos
1
2
3
4
Definir testes de hipóteses.
Identificar os principais tipos de testes de hipóteses.
Definir o conceito de nível de significância.
Reconhecer em quais situações utilizar os testes
de hipóteses.
Aula 5
Bioestatística
85
Definindo os testes de hipóteses
Os testes de hipóteses ou testes de significância são procedimentos estatísticos pelos
quais você rejeita ou aceita uma hipótese de nulidade (H0), associando um risco máximo de
erro (nível de significância) para esta conclusão. São utilizados para detectar se existe alguma
diferença entre as médias testadas.
Para entender melhor a definição de testes de hipóteses, suponha que você queira avaliar
se a utilização de suco de abacate com laranja na alimentação de mulheres resulta em perda
de peso. Como você viu anteriormente, primeiro devemos elaborar as hipóteses.
H0: A utilização de suco de abacate com laranja na alimentação não tem efeito sobre a
perda de peso das mulheres.
H1: A utilização de suco de abacate com laranja na alimentação tem efeito sobre a perda
de peso das mulheres.
Após a elaboração das hipóteses, você deverá testá-las, utilizando o teste específico
para comparar os resultados obtidos. Mas antes de escolher qual o melhor teste estatístico,
primeiro você deve analisar:

Natureza da variável: se ela é qualitativa ou quantitativa;

Distribuição da variável: se tem distribuição normal ou não;

Continuidade da variável: se é contínua ou descontínua;

Instabilidade da variável: se é muito ou pouco instável.
De acordo com esses critérios, podemos ter dois tipos de testes:
86
Aula 5

Testes paramétricos: devem ser utilizados quando são avaliados dados com variáveis
quantitativas e de distribuição normal, como por exemplo, o peso médio de um
rebanho bovino.

Testes não paramétricos: devem ser utilizados para variáveis qualitativas e que não têm
distribuição normal, como por exemplo, número de pessoas que gostam do queijo tipo
“A” numa avaliação de preferências.
Bioestatística
Aplicando testes
paramétricos e não paramétricos
O Quadro 1 resume os critérios a serem analisados na escolha do teste estatístico, de
acordo com a sua indicação em teste paramétrico e não paramétrico.
Características da variável
Testes paramétricos
Variável qualitativa
x
Variável quantitativa
x
Distribuição normal
x
Sem distribuição normal
Contínua
Testes não paramétricos
x
x
Descontínua
Estável
x
x
Instável
x
Quadro 1 – Critérios analisados na escolha do teste estatístico paramétrico e não paramétrico
Fonte: Henrique Rocha de Medeiros
Note que os testes paramétricos são indicados para variáveis quantitativas, com
distribuição normal, contínua e estável. Um exemplo de uma variável que se encaixa nesse perfil
é o peso médio dos animais de um rebanho submetidos a diferentes tipos de dieta alimentar.
Já os testes não paramétricos são indicados para variáveis qualitativas, sem distribuição
normal, descontínua e instável, como por exemplo o número de eleitores que votariam num
determinado candidato para a eleição de diretor da escola.
Atividade 1
Agora que você já estudou o conceito de testes paramétricos e não paramétricos e viu
também em quais tipos de variáveis utilizá-los, pesquise em seu material das aulas anteriores
os conceitos a seguir:
a)
Variável quantitativa e quantitativa.
Aula 5
Bioestatística
87
b)
Variável contínua e descontínua.
c)
Variável estável e instável.
Mas o que é uma variável
com distribuição normal?
Média e mediana
Caso você não se lembre
do conceito de média e
mediana, volte à Aula 3 –
Estatística descritiva.
Diz-se que uma variável apresenta distribuição normal quando a média e mediana são
iguais. Além do mais, os desvios em relação à média são simétricos. Por isso, quando plotamos
os resultados em gráficos, observa-se que estes apresentam forma de sino.
Está com dificuldades para entender esta definição?
Vamos observar e analisar o gráfico a seguir para facilitar a sua compreensão acerca
destes conceitos.
σ=1
-3
-2
-1
μ=0
1
2
3
z
Figura 1 – Gráfico de uma distribuição normal com média (μ) = 0 e desvio padrão (δ) = ±1
88
Aula 5
Bioestatística
Sempre que a distribuição dos dados for normal, observa-se a média (μ) no centro da
curva (ilustrada pela reta em verde) e desvios simétricos em relação à média (μ).
Vale ressaltar que este gráfico poderá ser mais achatado ou não, de acordo com a relação
entre os desvios e a média.
Atividade 2
Construa um gráfico utilizando o conjunto de dados da Tabela 1 a seguir e analise se os
mesmos têm distribuição normal. Este gráfico pode ser elaborado utilizando a ferramenta de
gráficos do Excel ou em papel milimetrado, inserido após a tabela.
Tabela 1 – Peso médio (valores máximos e mínimos) dos animais de um rebanho bovino e respectivos números
de animais por classe de peso
Classes de peso (kg)
Peso médio
Número de animais
por classe de peso
Mínimo
Máximo
(kg) por classe
1
62,5
67,4
64,95
6
2
67,5
72,4
69,95
12
3
72,5
77,4
74,95
25
4
77,5
82,4
79,95
38
5
82,5
87,4
84,95
44
6
87,5
92,4
89,95
52
7
92,5
97,4
94,95
47
8
97,5
102,4
99,95
34
9
102,5
107,4
104,95
23
10
107,5
112,4
109,95
14
11
112,5
117,4
114,95
5
Fonte: Henrique Rocha de Medeiros
Aula 5
Bioestatística
89
Agora já posso iniciar o teste?
Ainda não, mesmo que você já tenha testado todas as condições da variável e identificado
qual tipo de teste a ser utilizado.
Antes você deve convencionar qual o nível de erro desejado para testar esta média. Ou
seja, o limite máximo para se determinar quanto do desvio (erro) é decorrente do acaso ou não.
Esses valores, normalmente, são distribuídos entre 5% e 0,001%. Essa possibilidade
de erro levada em consideração quando se testa as hipóteses é denominada de nível
de significância e é representada pela letra grega alfa (®). A escolha de qual o valor de
probabilidade de erro, entre 5% e 0,001%, escolher dependerá, principalmente, da sua
ponderação e subjetividade. Se você aceitar uma hipótese onde o nível de significância é de
5% ou ® = 0,05, pode-se concluir que ela é 95% verdadeira. Caso você aceite uma hipótese
onde a porcentagem de erro é de 1% ou ® = 0,01, você concluirá que sua hipótese tem 99%
de chance de ser verdadeira. Entendido?
E já que existe uma grande variação nos níveis de significância, qual o valor que devo
utilizar para o meu trabalho?
Acurácia
Medida correta dos
valores.
Esse valor vai depender da hipótese que está sendo testada, da necessidade de acurácia
e precisão da variável estudada e dos objetivos da pesquisa.
Mas como avaliar a acurácia e precisão?
Precisão
Capacidade de repetir a
medida com acurácia.
Para isso, vamos observar o exemplo da figura a seguir (Figura 2), que ilustra o conceito
de acurácia e precisão de quatro atiradores que estão fazendo testes para a tropa de elite da
Polícia Militar.
Atirador 1
Atirador 2
Alta acurácia
Alta precisão
Baixa acurácia
Alta precisão
Alta acurácia
Baixa precisão
Baixa acurácia
Baixa precisão
Figura 2 – Representação esquemática dos conceitos de acurácia e precisão
Fonte: <http://sampa.if.usp.br/~suaide/LabFlex/blog/files/acuracia.jpg>. Acesso em: 17 maio 2010.
90
Aula 5
Bioestatística
Observe que com o Atirador 1, que tem alta acurácia e alta precisão, a maior parte das
marcas pretas (resultantes dos tiros) atinge o centro do alvo, o círculo verde e menor.
O Atirador 2 apresenta baixa acurácia, pois nenhum tiro atingiu o alvo central da figura,
e alta precisão, porque todos os tiros estão bem próximos entre si.
O Atirador 3 tem alta acurácia (atingiu o alvo central) e baixa precisão, pois a maior parte
dos seus tiros são dispersos e longe do alvo.
O Atirador 4 tem baixa precisão e baixa acurácia, pois nenhum dos seus tiros atingiu o
alvo central e todos estão bem dispersos (longe um do outro) na Figura 2.
Vamos refletir sobre esse tema?
Qual a necessidade de precisão e, consequentemente, da escolha do nível de significância
a serem utilizados nas seguintes situações?
1)
Testar uma nova variedade de mandioca (Manihot sculenta Crantz), que é resistente à
seca, para ser plantada em regiões semiáridas.
2)
Testar uma nova vacina contra gripe para idosos com mais de 60 anos.
Certamente, no caso 2 a necessidade de precisão será muito maior que no caso 1.
Para se testar a resistência de uma variedade de planta em relação a stress hídrico,
níveis entre 1 e 5% de erro podem satisfazer a necessidade de confiança do pesquisador na
resposta obtida.
Para a situação 2, onde se testa uma vacina em idosos, níveis de significância superiores
a 0,1% são inadmissíveis. Esses valores podem e devem ser ainda menores se for testado
um produto que pode causar danos à saúde. Nesse caso, recomenda-se trabalhar nos níveis
de significância de 0,01%.
Atividade 3
Estabeleça os níveis de significância (5%; 1%; 0,1% e 0,01%) adequados para se testar
as situações experimentais a seguir e justifique a sua resposta:
Aula 5
Bioestatística
91
92
Aula 5
a)
Avaliar o efeito da utilização de farinha de mandioca na alimentação de crianças de 4 a 8 anos.
b)
Comparar a produção de leite de vacas em uma fazenda.
c)
Avaliar o efeito da substituição do leite de vaca por leite de cabra no ganho de peso de
crianças desnutridas com idade entre 1 e 5 anos.
d)
Comparar a eficácia da utilização de gargarejo de solução caseira com água, sal e vinagre ou
de fármacos (remédios alopáticos – comprados em farmácia) no tratamento de amigdalite.
e)
Avaliar o resultado de uma vacina que imuniza idosos com mais de 60 anos contra gripe.
Bioestatística
Pode-se rejeitar uma hipótese que é verdadeira?
Além do nível de significância (determinada pela necessidade de precisão e acurácia na
resposta medida), existe a possibilidade de ocorrerem erros tipo I (®) ou tipo II (¯) quando se
testa uma hipótese. No erro tipo I atribui-se uma diferença às médias quando elas realmente
não existem. No erro tipo II ocorre o contrário: atribui-se uma igualdade quando as médias
são diferentes.
Esses tipos de erro são antagônicos. Assim, seu controle simutâneo e absoluto é
impossível. Neste caso, você deve escolher o tipo de erro (I ou II) a ser minimizado. Para
isso, o tipo de variável estudada e seus possíveis resultados são importantes para a escolha.
Nas situações onde o resultado favorável é uma diferença, deve-se evitar utilizar testes
que beneficiem erro tipo I. Assim, diminui-se a probabilidade de se atribuir diferenças entre
as médias, quando elas realmente não existem.
Esse tipo de erro é indesejado nas situações onde se espera maior eficiência de algum
tratamento, como por exemplo, testes para comparar produtividade de cultivares de mandioca
ou milho plantadas em regiões de semiárido. Assim, o produtor poderá escolher a variedade
de mandioca ou de milho plantada – deveria ser a que apresentasse a maior produtividade.
Por outro lado, quando o resultado favorável (situação desejada) é a equivalência, deve-se
procurar utilizar testes que beneficiem erro tipo II, isto é, atribuir igualdade entre as médias,
quando elas realmente não existem.
Essa situação pode ser exemplificada quando se compara a substituição de um
medicamento importado do exterior por um nacional. Para esta situação, a resposta desejada
é uma equivalência, pois a escolha de qual tratamento será utilizado se dá em função de alguma
facilidade (por exemplo: preço ou maior possibilidade de aquisição).
Todavia, atribuir uma equivalência quando ela realmente não existe é, no mínimo, uma
irresponsabilidade, e poderá comprometer a eficiência do tratamento. Isso porque faltariam
subsídios para indicar o tratamento mais eficaz.
Como dito anteriormente, esses erros são excludentes e não podem ser controlados
conjuntamente. Assim, o pesquisador (você) deverá fazer uma escolha: qual tipo de erro (I ou
II) quer beneficiar ou evitar.
Aula 5
Bioestatística
93
Atividade 4
Escolha o tipo de erro (I ou II) que deverá ser beneficiado para as seguintes situações e
justifique a sua resposta:
94
Aula 5
a)
Comparar a substituição de um medicamento alopático (comprado em farmácia) por um caseiro.
b)
Comparar a o efeito, no ganho de peso médio diário de bovinos em confinamento, da
substituição de farelo de trigo por resíduo da produção de melão na alimentação.
c)
Avaliar a eficiência de uma vacina contra gripe em pessoas com mais de 60 anos.
d)
Avaliar o efeito da utilização de castanha de caju na alimentação de crianças sobre os níveis
de colesterol bom (LDL) no sangue.
Bioestatística
Os testes de hipóteses
Existe uma gama diversa de testes de hipóteses. Os testes mais comumente utilzados
em sistemas biológicos são:

O Teste “F”, proposto por Fisher em 1924. Este teste indica se existe diferença entre
as médias testadas. Porém, não diz quais são as diferenças. Assim, esse teste só deve
ser utilizado para comparar duas médias por vez. Esses tipos de comparação são
denominados contrastes ortogonais.

O Teste “t” de student. Este teste é bastante utilizado em Biologia, especialmente para
se comparar três ou mais médias simultaneamente. Ele favorece o aparecimento de erro
tipo I (atribui-se uma diferença, quando ela realmente não existe) e controla bem erro
tipo II (¯).

O Teste de Tukey também é utilizado quando se deseja comparar três ou mais médias
simultaneamente. Este teste controla bem erro tipo I e favorece o aparecimento do erro
tipo II (¯) (atribui-se uma igualdade, quando as médias são diferentes).
Além destes testes, existem vários outros como o SNK, o Duncan e o de Sheffé. A escolha
de qual deles você vai utilizar no seu trabalho deverá ocorrer em função da sua necessidade
de controle de erro e peculiaridades inerentes à pesquisa.
Assim, para escolhar qual o tipo de teste a ser utilizado é interessante que você promova
uma discussão entre os membros da equipe e um estatístico para decidirem qual o a melhor
opção a ser utilizada.
Vamos supor que, pra testar se o suco de abacate com laranja tem efeito no emagrecimento
de mulheres – como exemplificado no início dessa aula – você utilizou como população
amostral 60 mulheres. Destas 60 mulheres, 30 receberam o suco de laranja com abacate
(μ1) e 30 receberam uma mistura que chamamos de placebo (μ2).
As mulheres da população μ1 perderam em média 3,5 kg e as mulheres da população
μ2 perderam, em média, 0,5 kg. Para testarmos nossas hipóteses, devemos assumir que há
um erro embutido no nosso experimento, já que os dados obtidos são da população amostral
(60 mulheres) e não de todas as mulheres da população em geral.
Nesse caso, antes de testarmos nossas hipóteses, devemos assumir esse erro e dar um
valor a ele. Quanto maior for o valor do erro, maior a probabilidade de rejeitar uma hipótese
quando ela é verdadeira. Assim, se assumirmos um valor de erro cada vez menor, temos uma
maior confiança nos resultados obtidos.
Placebo
é um fármaco (produto)
ou procedimento inerte
que apresenta efeitos
terapêuticos devido aos
efeitos fisiológicos da
crença de que o pacinente
está sendo tratado.
Assim, nossa hipótese a ser testada seria:
H0: μ1 =μ2 versus Ha: μ1≠μ2 ,
Aula 5
Bioestatística
95
onde:
μ1 = média da perda de peso das mulheres que receberam suco de abacate com laranja (3,5 kg)
μ2 = média da perda de peso das mulheres que não receberam suco de abacate com
laranja (0,5 kg).
Considera-se aceitável um erro (ou nível de significância) de 5%. Podemos, agora, fazer
a seguinte pergunta: tomar suco de laranja com abacate faz mal à saúde das pessoas?
Se a resposta for “não faz mal a saúde”, o teste de “t” de Student pode ser indicado. Esse
teste favorece erro tipo I, que rejeita H0, quando este é verdadeiro. Mas, como tomar este
suco não vai fazer mal à saúde, não haverá problemas com este tipo de erro, uma vez que o
máximo que pode acontecer é a recomendação para tomar um produto que não vai fazer mal!
Todavia, e se o suco “fizer mal às pessoas”? Neste caso, você deveria utilizar um teste
como o de Tukey, que controla erro tipo II. Assim, não existiria recomendação de que se tomar
suco de laranja com abacate resultaria em emagrecimento, pois, no caso observado, a perda de
peso registrada nos pacientes que tomaram suco foi resultante do acaso, e não do tratamento
imposto (tomar suco de abacate com laranja).
Lembre que estes erros não podem ser controlados e ocorrem
ao acaso. Não são fruto de trabalho errado ou mal feito!!
Entendeu o conceito?
Agora vamos fazer uma atividade e ganhar mais experiência para este tipo de reflexão.
Atividade 5
Indique os testes estatísticos mais adequados para as situações abaixo:
a)
96
Aula 5
Bioestatística
Comparar a média de peso de indivíduos que receberam tratamento para diminuir os níveis
de colesterol com aqueles que não receberam nenhum tipo de tratamento.
b)
Comparar a média dos níveis de poluentes emitidos por 4 indústrias químicas do Rio
Grande do Norte.
Resumo
Nesta aula você conheceu a definição de testes de hipóteses e os principais
tipos de testes. Você viu que os testes, de uma maneira geral, podem ser
classificados em paramétricos e não paramétricos, de acordo com o tipo de
variável pesquisada. Você revisou o conceito de variável qualitativa, quantitativa,
contínua, descontínua, estável e instável. Compreendeu o que caracteriza uma
variável com distribuição normal e aprendeu a identificá-la. Conheceu o conceito
de nível de significância, identificou, em uma situação problema, erros do tipo I e
erros do tipo II e compreendeu a importância de cada um deles para a realização
de um teste estatístico. Você também conheceu os principais tipos de testes de
hipóteses e compreendeu em quais situações utilizar cada um deles.
Autoavaliação
Existe uma crença popular de que chá de folha de goiabeira pode ser um bom remédio
caseiro para controlar diarreia em bezerros jovens. Proponha uma metodologia para
testar esta hipótese. Para isto, você deve obedecer as seguintes etapas:
a)
Elabore a hipótese de nulidade (H0) e a alternativa (Ha) para avaliar o fenômeno escolhido.
Aula 5
Bioestatística
97
b)
Escolha o nível de significância (5%; 1%; 0,1% ou 0,01%) adequado para esta situação
e justifique sua resposta.
c)
Escolha o tipo de erro (I ou II) que você quer evitar e justifique sua resposta.
d)
Escolha o teste estatístico mais adequado aos seus objetivos e justifique sua resposta.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
DEPARTAMENTO DE PATOLOGIA - FMUSP. Biometria: aula II: inferência estatística. Disponível
em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010.
DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso
em: 24 fev. 2010.
FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007.
Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman & Affonso
Editores, 1999.
98
Aula 5
Bioestatística
Anotações
Aula 5
Bioestatística
99
Anotações
100
Aula 5
Bioestatística
Análise de variância
Aula
6
Apresentação
A
gora que você já compreendeu o conceito de hipótese estatística (Aula 4 - Elaborando
hipóteses) e os testes estatísticos (Aula 5 - Testando hipóteses), poderemos fazer a
análise de variância. Essa análise é fundamental para que se possa fazer a comparação
de médias. Por isso é importantíssimo que os conceitos apreendidos nas aulas anteriores
estejam bem claros. Volte e estude essas aulas sempre que necessário.
Assim, nesta aula, iremos apresentar o conceito de fatores de variação, de variância, erros
aleatórios e graus de liberdade. É com essas informações que você poderá realizar a análise
das médias ou resultados obtidos nos experimentos e aplicar os testes estatísticos que foram
apresentados na aula passada (Aula 5 - Testando hipóteses).
Com esses conhecimentos apreendidos, você deverá ser capaz de fazer uma avaliação
de experimentos inteiramente casualizados e em blocos completos inteiramente casualizados
em experimentos de Biologia.
Objetivos
1
2
Conhecer os conceitos de fatores de variação, graus de
liberdade, fazer análise de variância de experimentos
inteiramente casualizados e em blocos completos
casualizados.
Compreender as situações onde se pode utilizar análise
de variância corretamente.
Aula 6
Bioestatística
103
Definindo análise de variância
Já vimos na Aula 3 (Descrevendo sistemas) deste curso, os conceitos de variância e
como se fazer a sua estimativa. Essa medida (a variância) é uma peça fundamental em qualquer
análise ou investigação científica, pois é essa análise da variância que permite a comparação
de médias e, assim, verificar se existe diferença significativa entre elas ou não.
Além disso, para fazer uma análise de variância, devemos ter cuidado em respeitar
algumas premissas básicas:
1)
A resposta da variável que está sendo analisada deve ter uma distribuição normal.
2)
Os tratamentos impostos, nos quais a resposta está sendo medida, devem apresentar
variâncias iguais.
3)
A aplicação dos tratamentos deve ser homogênea em todas as unidades experimentais.
4)
A distribuição das unidades experimentais deve ser aleatorizada dentro da área
experimental.
Se essas quatro premissas não forem cumpridas, a análise de variância não pode ser
realizada. Você pode testar a normalidade dos dados utilizando as informações disponibilizadas
na Aula 3 (Descrevendo sistemas) e Aula 5 (Testando hipóteses).
E quando os dados não têm distribuição normal ou apresentam variâncias
diferentes?
Quando os dados não têm distribuição normal, eles podem ser analisados
utilizando estatística não paramétrica. Todavia, esse tipo de análise não será
apresentado neste curso. Já para as situações onde a variância é diferente, pode-se
fazer uma transformação de variáveis. No entanto, para escolher como fazer a
transformação adequada para cada situação, deve-se consultar um estatístico ou
discutir com pesquisadores experientes nessa área de conhecimento.
Agora eu já sei calcular as variâncias, conheço as premissas básicas para sua análise...
e agora, o que faço com essas informações?
104
Aula 6
Bioestatística
Análise de variância
Quando realizamos qualquer experimento ou coleta de dados, vários fatores interferem
juntos e ao mesmo tempo nos resultados. Tome, por exemplo, o seguinte experimento:
Um pesquisador deseja avaliar o peso ao nascer de bezerros num rebanho bovino da
raça gir (Tabela 1).
Tabela 1 – Peso ao nascer de bezerro num rebanho bovino da raça gir
Número do bezerro
1
2
3
4
5
6
7
8
9
10
Peso ao nascer (kg)
30
27
24
28
29
18
23
22
20
28
Observe que vários fatores podem estar interferindo no peso ao nascer dos bezerros.
Entre as possíveis causas de variação podemos citar:

sexo da cria;

efeito da linhagem paterna;

peso e alimentação da mãe;

idade e número de partos da mãe;

época/estação de nascimento dos bezerros.
Algumas dessas fontes de variação podem ser agrupadas e controladas, outras não.
É por esse motivo que se deve fazer a análise de variância, para se conseguir isolar os
fatores de variação impostos e controlados (os tratamentos) daqueles que são do acaso e
não se pode controlar. Assim, você pode avaliar o efeito do que se quer medir (tratamento
experimental) sobre a variável resposta e identificar se existe ou não diferença estatística
significativa entre as médias obtidas nos resultados do experimento.
Para o exemplo da Tabela 1, os dados podem ser organizados em função do touro
utilizado, ou do número de partos das vacas (matrizes) em primíparas ou multíparas etc...
Na análise de variância, podemos decompor os fatores de variação em, basicamente,
dois tipos:
Diferença
estatística
significativa
Indica a possibilidade
de que o resultado
encontrado no
experimento seja igual ao
existente na população.
Primíparas

Controlados – São aqueles conhecidos “a priori” (antes de se iniciar o experimento) e
que reconhecidamente têm efeito sobre a variável resposta que está sendo medida. Por
esse motivo, seus efeitos são medidos e entram no modelo estatístico.
Animais que só tiveram
um parto

Aleatórias ou do acaso – São variáveis desconhecidas (que não podem ser controladas)
e vão compor o erro experimental. Sempre que possível, deve-se minimizar a ação de
variáveis aletórias e do erro experimental.
Multíparas
Aula 6
Animais que tiveram mais
de um parto.
Bioestatística
105
Afinal, é para isso que se faz planejamento de experimentos e se procura controlar a
aplicação dos tratamentos.
Graus de liberdade
É um estimador do
número de categorias
independentes num
teste particular ou
experiência estatística.
Encontram-se mediante a
fórmula n – 1, onde n é
o número de elementos
correspondente ao fator
de variação na amostra.
106
Aula 6
Assim, conhecendo-se as fontes de variação do experimento pode-se aplicar o modelo
estatístico adequado e fazer a contabilização dos resultados através da análise de variância. Para
isso, os fatores de variação estudados são decompostos em função dos seus graus de liberdade
e da soma de quadrados. Nesta aula, serão demonstradas tabelas de análise de variância em
experimentos inteiramente casualizados e em blocos completos inteiramente casualizados.
Bioestatística
Atividade 1
a)
Qual a diferença entre variância e análise de variância?
b)
Quais as condições ou premissas para que um experimento possa ser
avaliado utilizando análise de variância?
c)
Proponha um experimento para medir a produção de frutas de uma área
plantada com cajueiro e identifique os fatores de variação controlados e os
aleatórios.
d)
Você quer avaliar o peso ao nascer de bezerros em um rebanho da raça
gir. Assim, cite os possíveis fatores de variação que têm ação sobre essa
variável resposta (peso dos bezerros ao nascer) e faça sua classificação em
controlados e do acaso.
Experimentos com delineamento
inteiramente casualizado
Um experimento tem delineamento inteiramente casualizado quando a variável resposta
só sofre ação dos tratamentos impostos e do acaso.
Esse é o delineamento experimental mais simples e por isso mesmo o mais forte, que
minimiza o erro experimental em relação aos tratamentos. Nesse tipo de delineamento os
tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de
repetições por tratamento pode ser igual ou diferente, que não resultará em alterações na
análise. O delineamento inteiramente casualizado é muito útil para o estudo de métodos e
técnicas de trabalho de laboratório, que normalmente têm condições uniformes.
Exercício resolvido 1
Diâmetro a
altura do peito
Um pesquisador deseja avaliar 10 progênies de eucalipto (Eucalyptus saligna) em um
experimento inteiramente casualizado, com quatro repetições cada (Tabela 2).
Tabela 2 – Dados médios do diâmetro a altura do peito (DAP) de parcelas de um experimento de competição
de 10 progênies de eucalipto (Eucalyptus saligna), em centímetros
Progênies
Total
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
16,0
14,3
14,7
13,6
11,6
11,0
13,1
10,3
8,5
8,2
16,4
14,5
15,6
13,1
10,5
15,0
10,3
13,2
8,6
8,4
14,1
13,8
11,6
14,7
15,9
10,7
14,3
10,2
9,5
9,3
11,7
14,6
15,0
15,1
14,0
13,0
10,5
13,0
9,4
9,2
58,2
57,2
56,9
56,5
52,0
49,7
48,2
46,7
36,0
35,1
A medição do
diâmetro da árvore deve
ser feita a uma altura
de 1,30 metro do solo.
Total
Progênies
O teste de progênie avalia
os pais pela comparação
do desempenho das suas
descendências.
496,5
Aula 6
Bioestatística
107
Solução
1)
Observar quais os fatores que podem influenciar as variáveis.
Nesse caso, temos o valor genético da planta mãe como melhoradora (o que se deseja
avaliar), o solo, o clima, possíveis infestações de insetos ou doenças nas raízes, água etc.
Certamente a minha variável resposta medida (o DAP) vai sofrer a interferência de todos
esses fatores e outros tantos mais que são do acaso e não se pode controlar.
Todavia, neste exemplo, o fator de variação que se quer testar é a progênie, e esse
é devidamente controlado. Os demais são do acaso. Nesse caso, como é um experimento
inteiramente casualizado este deve ser conduzido numa área plana, onde não há variação de
tipo de solo e de umidade em nenhum local do terreno.
2)
Observar as condições expressas no método estatístico e formular as hipóteses que serão
testadas (Aula 4 – Elaborando hipóteses). São elas:
H 0: Não existe diferença entre as médias de DAP nas 10 progênies avaliadas.
H1: Pelo menos uma das 10 progênies avaliadas difere das demais.
3)
Escolher o teste mais adequado.
Nesse caso, utilizaremos o teste de Tukey, que minimiza erro tipo II (Aula 5 – Testando hipóteses).
4)
Observar se os dados têm distribuição normal.
Isso pode ser realizado fazendo um gráfico com todos os dados, que deverá ter formato de
sino e/ou testando a variância. Para o caso analisado, os dados obedecem a essas duas condições.
5)
Observando os fatores de variação analisados, você verá que a única diferença entre os
tratamentos é a Progênie (P), que vai de 1 a 10.
Como o número de graus de liberdade (GL) é medido pela fórmula: GL = n – 1, onde
n = número de parâmetros do fator de variação. O GL da Progênie será:
GLProgênie = 10 – 1 = 9.
6)
Determine o total de parcelas e o grau de liberdade total.
O total de parcelas do experimento é de 40 (10 Progênies × 4 repetições cada). Assim,
o GL total será:
GLTotal = 40 – 1 = 39
7)
Calcule o grau de liberdade do erro.
O GL do erro é calculado pela diferença entre o GLTotal e o GLProgênie que será:
GLErro = 39 – 9 = 30
108
Aula 6
Bioestatística
8)
Complete o quadro de análise de variância (ANAVA):
Fator de variação
GL
Progênie
9
Erro
30
Total
39
SQ
QM
Valor de F calculado
Nível de significância
ANAVA
SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que
corresponde a variância.
9)
Determine a Soma de Quadrados Total, dos Tratamentos e do Erro Experimental. Para isso,
você deve calcular o Fator de Correção e, em seguida, a Soma de Quadrados Total, a dos
Tratamentos e a do Erro, nessa ordem.
a)
Calcule o Fator de Correção (C ), que deve ser utilizado no cálculo da Soma de Quadrados
Total (SQT) e Soma de Quadrados dos Tratamentos (SQTrat)
2
X
(496,5)2
C=
=
= 6.162,80
n
40
b)
A Soma dos Quadrados Total (SQT ) corresponde à variância total do experimento, e é
calculada utilizando-se a seguinte fórmula:
SQT otal =
X 2 − C = 6401,35 − 6162,41 = 238,54 , onde
x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35
E “C ” é o fator de correção já calculado anteriormente, 6162,80.
c)
A Soma dos Quadrados dos Tratamentos (SQTrat ) permite isolar e quantificar a variância
relacionada aos tratamentos.
Xtrat2
−C
SQT rat =
r
Onde:
Xtrat2 é calculado pela soma de quadrados dos tratamentos, utilizando a seguinte

Você pode encontrar
como sinônimo de ANAVA,
o acrônimo ANOVA,
originado do termo
em inglês “Analysis of
Variance” cuja tradução é
Análise de Variância.
Fórmula
Os dados apresentados
no desenvolvimento
correspondem a soma
de todos os valores
da Tabela 2 (Dados
médios do diâmetro
a altura do peito
(DAP) de parcelas
de um experimento
de competição de 10
progênies de eucalipto
(Eucalyptus saligna), em
centímetros) elevados
ao quadrado.
fórmula:
Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 +
+(46,7)2 + (36,0)2 + (35,1)2
Xtrat2 = 25295,17

O valor de “r” é dado pelo número de repetições de cada tratamento. Para este exemplo,
o valor de “r” será 4, pois foram utilizadas quatro repetições por cada tratamento (Progênie).

O “C ” é o Fator de Correção (6126,41), é o mesmo que já foi calculado anteriormente
para a SQTotal .
Daí:
SQT rat =
Xtrat2
25295,17
−C =
− 6162,41 = 6323,79 − 6162,41 = 160,98
r
4
Aula 6
Bioestatística
109
d)
Soma dos Quadrados do Erro (SQErro )
A Soma dos Quadrados do Erro (SQErro ) é calculada pela diferença entre a SQTotal e o
SQTrat. Assim teremos:
SQErro = SQTotal – SQTrat
Como o SQTotal = 238,54 e o SQTrat = 160,98; teremos:
SQErro = SQTotal – SQTrat
SQErro = 238,54 – 160,38
SQErro = 77,56
10)
De posse dessas informações, podemos preencher outra coluna da tabela de ANAVA
deste experimento:
Fator de variação
Progênie
Erro
Total
11)
GL
9
30
39
SQ
160,98
77,56
238,54
Valor de F calculado
QM
Nível de significância
Determine os valores dos Quadrados Médios (QM).
O valor do Quadrado Médio é calculado dividindo-se a SQ pelo respectivo GL. Não se
calcula o valor de QMTotal, pois este não terá utilidade. Assim teremos:
Para a Progênie
QM P rogênie =
QM Erro =
12)
160,98
= 17,89
9
77,56
= 2,59
30
Calcular o valor de F.
Este é obtido pela razão entre o QMProgênie e QMErro :
F Calculado =
Assim, a nossa tabela de ANAVA ficará da seguinte forma:
Fator de variação
Progênie
Erro
Total
GL
9
30
39
SQ
160,98
77,56
238,54
QM
17,89
2,59
--------
Valor de F calculado
6,91
----------------
Nível de significância
1%
----------------
14)
Como o valor de F calculado é maior que o tabelado a 1% ,que é 3,07, (anexo A) diz-se
que o resultado do experimento é significativo a 1% de probabilidade. Ou seja, existe 99%
de possibilidade de o que ocorreu no experimento ser verdade e acontecer na população.
15)
Como o valor de F calculado é significativo, esse resultado indica que existe diferença
entre as médias avaliadas. Assim, com essa informação você pode rejeitar H0 e aceitar H1.
110
Aula 6
Bioestatística
Fonte: Pimentel-Gomes e Garcia (2002).
13)
QM P rogênie
17,89
=
= 6,91
QM Erro
2,59
Bom, agora você já sabe que existe diferença entre pelo menos uma das médias dos
tratamentos. Entretanto, o teste F (Valor de F calculado) não indica qual dos 10 tratamentos
avaliados tem média diferente. Assim, você precisa calcular a diferença mínima significativa
utilizando o teste de Tukey, que já havia sido previamente escolhido.
Para isto, você deve:
1)
Pegar os valores tabelados na tabela de amplitude estudentizada (anexo B) para o teste
de Tukey a 5% para 10 graus de liberdade da fonte testada (tratamento) e 30 graus de
liberdade do erro, que é 4,82.
O cálculo da diferença mínima significativa (DMS) é obtido da seguinte fórmula:
√
√
QM Erro
2,59
√
= 4,82 √
DM S = q(10 : 30)
= 3,88 cm
r
4
2)
Em seguida, você deve listar (organizar) os resultados (as médias) dos tratamentos, de
forma decrescente (da maior para a menor), como na tabela abaixo:
P1
14,55
P2
14,30
P3
14,23
P4
14,13
P5
13,00
P6
12,43
P7
12,05
P8
11,68
P9
9,00
P10
8,78
3)
Após isso, calcule a diferença entre a maior média (14,55) e a DMS (3,88). O resultado
obtido foi 10,67. Assim, todas as médias contidas no intervalo entre 14,55 cm e 10,67 cm,
são iguais entre si e receberam a mesma letra.
4)
Em seguida, repita a operação com a segunda média mais alta e realize o mesmo processo,
até que você não encontre mais diferença estatística significativa entre as médias.
Utilizando os resultados dessa ANAVA, você terá o seguinte resultado, da comparação
de médias:
P1
14,55ª
P2
14,30ª
P3
14,23ª
P4
14,13ª
P5
13,00ª
P6
12,43ªb
P7
12,05ªb
P8
11,68ªb
P9
9,00b
P10
8,78b
Aula 6
Bioestatística
111
Assim, como letras iguais indicam que as médias não diferem entre si, você pode
identificar que as médias P1, P2, P3, P4 e P5 ( a ) são estatisticamente diferentes da P9 e P10 ( b ).
Vamos aplicar o conceito de análise de variância em experimentos inteiramente
casualizados?
Atividade 2
1
2
Planeje um experimento com delineamento inteiramente casualizado, para testar
o efeito de 5 fontes de adubação nitrogenada sobre a produção de milho, usando
4 repetições para cada tratamento.
Num experimento inteiramente casualizado com 5 tratamentos e 4 repetições,
estudou-se o efeito de 5 carrapaticidas (tratamentos) no controle de carrapatos em
bovinos. Analisando- se o número de carrapatos que cairam por animal, obtiveram-se
as seguintes somas de quadrados: S.Q. Tratamentos = 41,08 e S.Q. Total = 57,46.
De posse dessas informações, estabeleça as hipóteses estatísticas H0 e H1 e
monte o quadro de análise de variância desse experimento realizado inclusive o
valor calculado de F.
112
Aula 6
Bioestatística
Os dados da Tabela 3 se referem a produções de matéria seca de cultivares de sorgo
em t/ha . Utilizando este conjunto de dados estabeleça as hipóteses estatísticas H0
e H1, monte o quadro de análise de variância desse experimento, calcule o valor de
F e diga se existe diferença estatística significativa entre os tratamentos.
3
Tabela 3 – Produções de matéria seca de cultivares de sorgo em t/ha
CULTIVAR
REPETIÇÕES
1
2
3
4
5
6
A
10,27
11,55
11,68
11,38
11,20
11,24
B
9,77
9,96
10,18
11,94
10,43
10,49
C
9,86
9,59
9,99
10,43
9,85
10,03
D
21,22
20,62
22,33
19,89
21
20,78
E
20,20
20,55
22,12
20,78
20,90
20,92
E os experimentos
em blocos completos
inteiramente casualizados?
Antes de definir esse tipo de delineamento experimental, vamos refletir sobre o efeito de
fatores de variação parcialmente controlados. Por exemplo:
1)
Suponha que você quer montar um experimento no campo e observa que existe um
desnível na área, que pode favorecer o acúmulo de água e afetar (beneficiar ou prejudicar)
os tratamentos que forem colocados lá.
2)
Você planeja fazer um experimento no laboratório, e observa que existe uma parte do
laboratório que recebe insolação direta, através de uma janela. E, isso também pode
interferir no seu tratamento experimental.
Aula 6
Bioestatística
113
E agora, o que fazer? Bom, você pode conseguir outras áreas que permitam instalar todo
o experimento num delineamento inteiramente casualizado (Figura 1).
Outra alternativa indicada para essa situação é organizar todos os tratamentos impostos
de modo que eles recebam o efeito desses fatores de variação parcialmente controlados
(aqui citados o desnível do terreno e a insolação) de forma uniforme para todos (Figura 2).
Assim, você não estaria beneficiando ou prejudicando nenhum e controlando parcialmente
esses fatores de variação.
É a esse tipo de delineamento que denominamos blocos completos inteiramente
casualizados. Nesse caso, cada bloco deverá conter uma repetição de cada um dos tratamentos
experimentais, distribuídos aleatoriamente.
Desse modo, os blocos podem ser convencionados como um fator de variação que ocorre
em uma só direção e é perpendicular à disposição dos tratamentos.
Figura 1 – Delineamento inteiramente casualizado
FONTE DE VARIAÇÃO NÃO INTENCIONAL
Figura 2 – Delineamento em blocos completos inteiramente casualizados
114
Aula 6
Bioestatística
Nesse tipo de delineamento experimental, uma parte da Soma de Quadrados do Erro
Experimental é transferida para testar o efeito dos blocos sobre as médias. Por outro lado,
possibilita a uniformização da aplicação dos tratamentos.
Um exemplo prático desse tipo de situação é dado ao se tentar implantar um experimento
numa área que tem uma determinada declividade que favorece o acúmulo de água. Isso pode
beneficiar ou prejudicar a produção ou os tratamentos experimentais que se localizem nessa área.
Exercício resolvido 2
Para este exemplo, vamos utilizar o mesmo experimento da avaliação de progênies de
eucalipto utilizada para o exemplo de delineamento inteiramente casualizado, com uma pequena
alteração: todas as linhas constituirão blocos. Assim, o nosso conjunto de dados ficaria da
seguinte forma:
Progênies
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
Total
Bloco 1
16,0
14,3
14,7
13,6
11,6
11,0
13,1
10,3
8,5
8,2
121,3
Bloco 2
16,4
14,5
15,6
13,1
10,5
15,0
10,3
13,2
8,6
8,4
125,6
Bloco 3
14,1
13,8
11,6
14,7
15,9
10,7
14,3
10,2
9,5
9,3
124,1
Bloco 4
11,7
14,6
15,0
15,1
14,0
13,0
10,5
13,0
9,4
9,2
125,5
Total
58,2
57,2
56,9
56,5
52,0
49,7
48,2
46,7
36,0
35,1
496,5
Assim, o quadro da análise de variância (ANAVA) será:
Fator de variação
GL
Progênie
9
Bloco
3
Erro
27
Total
39
SQ
QM
Valor de F calculado
Nível de significância
27
SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que corresponde
à variância.
Solução
1)
Observe que o valor
dos Graus de Liberdade
do Erro no quadro da
ANAVA 27 da análise
em blocos completos é
menor que no inteiramente
casualizado (30). Essa
diferença, corresponde
justamente ao número de
blocos (4) menos 1.
Inicialmente, deve-se calcular o Fator de Correção (C ) do experimento,
utilizando a seguinte fórmula:
C=
2)
X2
(496,5)2
=
= 6.162,80
n
40
A Soma de Quadrados do Experimento (SQ Total) é calculada da mesma
forma que para delineamentos inteiramente casualizados:
Aula 6
Bioestatística
115
SQT otal =
X 2 − C = 6401,35 − 6162,41 = 238,54 , onde
x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35
E “C” é o fator de correção já calculado anteriormente, 6162,80.
3)
A Soma de Quadrados da Progênie (SQTrat) também é calculada de forma
semelhante ao delineamento interiamente casualizado. Assim teremos:
Xtrat2
−C
SQT rat =
r
onde:
Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 +
+(46,7)2 + (36,0)2 + (35,1)2
Xtrat2 = 25295,17
“C ” é o Fator de Correção anteriormente calculado (6162,41).
Assim, o SQTrat será:
Xtrat2
25295,17
SQT rat =
−C =
− 6162,41 = 6323,79 − 6162,41 = 160,98
r
4
4)
A Soma de Quadrados dos Blocos (SQBloco) permite quantificar a variância
dos blocos, e é calculada da seguinte forma:
XBloco2
SQBloco =
−C
k
Onde,
XBloco2 é o somatório ao quadrado dos valores de cada bloco
“k” é o número de blocos
C é o Fator de Correção, já calculado.
Assim, teremos o seguinte cálculo:
XBloco2
61640,11
SQBloco =
−C =
− 6162,41 = 6164,11 − 6162,41 = 1,61
k
10
5)
A Soma de Quadrados do Erro (SQErro ) é calculada pela diferença:
SQErro = SQTotal – SQBloco – SQTrat
SQErro = 238,54 – 1,60 – 160,38 = 76,56
Observe que o conjunto de dados foi o mesmo do Exercício Resolvido 1, entretanto
o valor da SQErro foi menor. Isso se deve ao fato de que parte do erro experimental
116
Aula 6
Bioestatística
foi transferida para os blocos, a fim de quantificar o efeito dessa fonte de variação
sobre o experimento.
6)
Agora, de posse dessas informações, podemos preencher outra coluna da
tabela de ANAVA desse experimento:
Fator de variação
GL
Progênie
9
160,98
Bloco
3
1,61
Erro
27
76,56
Total
39
238,54
7)
SQ
QM
Valor de F calculado
Nível de significância
Em seguida, devemos calcular os valores dos Quadrados Médios:
O valor do Quadrado Médio é calculado dividindo-se o SQ pelo respectivo GL.
Não se calcula o valor do QMTotal, pois este não terá mais utilidade para a
análise do experimento. Assim teremos para:
160,98
= 17,89
9
1,61
QM Bloco =
= 0,53
3
76,56
QM Erro =
= 2,84
27
QM P rogênie =
8)
Calcular o valor de F calculado pela razão entre o QMProgênie e QMErro :
F Calculado =
9)
QM P rogênie
17,89
=
= 6,28
QM Erro
2,84
Assim, a nossa tabela de ANAVA ficará da seguinte forma:
Fator de variação
GL
SQ
QM
Valor de F calculado
Nível de significância
Progênie
9
160,98
17,89
6,28
1%
Bloco
3
1,61
0,54
--------
--------
Erro
27
76,56
2,59
----------
----------
Total
39
238,54
----------
----------
----------
10)
Como o valor de F calculado também é maior que o tabelado a 1%
(que é 3,07) diz-se que o resultado do experimento é significativo a 1% de
probabilidade. Todavia, observe que houve redução no valor de F calculado.
11)
No mais, os resultados continuam iguais aos do experimento anterior e você
obtém a mesma resposta: as médias P1, P2, P3, P4 e P5 são estatisticamente
diferentes da P9 e P10.
Aula 6
Bioestatística
117
Outros tipos de delineamento
experimental e arranjo estatístico
Além do delineamento inteiramente casualizado e em blocos completos, existe também
o delineamento em quadrado latino.
Nesse caso, os fatores de variação atuam no experimento em dois sentidos (perpendicular
e paralelo) em relação à área experimental. Para trabalhar com esse tipo de delineamento
experimental e os arranjos estatísticos em fatorial e parcela subdividida, recomenda-se consulta
a um estatístico para definir a melhor forma de análise e o número mínimo de repetições de
cada tratamento.
Vamos agora aplicar o conceito de análise de variância e resolver alguns exercícios
realizando a Atividade 3?
Atividade 3
1
118
Aula 6
Bioestatística
Quais são as características de um delineamento em blocos casualizados? E quais
as vantagens e desvantagens em sua aplicação?
2
3
Planeje um experimento para comparar três fórmulas de adubação no crescimento
de Pinus, supondo que você dispõe de um terreno heterogêneo que deve ser dividido
em cinco blocos. Faça o croqui da área.
Em um experimento planejado para verificar o efeito de alguns porta-enxertos para
citros no desenvolvimento da laranjeira pera, Mourão Filho ensaiou várias medidas,
como a altura das árvores, volume da copa, diâmetro do tronco, produção de frutos
etc. Foram utilizados 5 porta-enxertos, divididos em quatro blocos, pois o ambiente
utilizado para o experimento apresentava pequenas variações de insolação. Os portaenxertos utilizados foram:
T1 = limoeiro cravo
T4 = laranjeira caipira
T2 = laranjeira trifoliata
T5 = tangerineira cleópatra
T3 = limoeiro volkamericano
A variável que estudaremos será o número médio de frutos por pé nas parcelas. Os dados
se encontram na tabela a seguir.
Tabela 4 – Número médio de frutos de laranjeira pera enxertada sobre 5 porta-enxertos
Cultivar
Repetições
B1
B2
B3
B4
T1
143,25
224,25
211,50
231,50
T2
106,25
185,00
161,25
157,25
T3
110,75
85,00
109,50
94,50
T4
318,75
297,50
289,50
376,25
T5
274,25
281,00
297,75
305,75
Aula 6
Bioestatística
119
Com base nessas informações:
120
Aula 6
a)
Identifique os itens a seguir: o fator; níveis; variável resposta; unidade de análise; número
de repetições; número de ensaios.
b)
Quais as hipóteses a serem testadas sobre o experimento. Faça a tabela de análise de
variância e interprete.
Bioestatística
c)
Aplique o teste de comparação de Tukey ao nível de 5% de significância para as médias
dos tratamentos do experimento do exercício anterior, e interprete os resultados.
Resumo
Nesta aula, você aprendeu o conceito de análise de variância e viu também como
ela é fundamental para que se possa fazer a comparação de médias. Você viu o
conceito de fatores de variação, de variância, erros aleatórios e graus de liberdade,
conceitos essenciais para realizar a análise das médias ou resultados obtidos nos
experimentos. Em seguida, você aprendeu como aplicar os testes estatísticos e
foi capaz de fazer uma avaliação de experimentos inteiramente casualizados e
em blocos completos inteiramente casualizados em experimentos de Biologia.
Aula 6
Bioestatística
121
Autoavaliação
Um estudo sobre adubação nitrogenada na cultura do arroz irrigado testou
quatro formas de aplicação desse macronutriente: A1 = 80 kg/ha no plantio;
A2 = 40 kg/ha no plantio e 40 kg/ha 40 dias após a emergência (DAE);
A3 = 13,2 kg/ha no plantio e 66,8 kg/ha aos 40 DAE; e A4 = 13,2 kg/ha no
plantio e 33,4 kg/ha aos 40 e aos 60 DAE. O experimento tinha oito repetições,
e os dados de produção de grãos em kg/ha estão na tabela a seguir.
Tabela 5 – Dados de produção de arroz irrigado, em kg/ha, no delineamento inteiramente casualizado, com quatro
tratamentos e oito repetições
Tratamentos
Repetições
1
2
3
4
5
6
7
8
A1
6.276
6.035
6.086
5.594
6.321
6.746
5.751
6.191
A2
7.199
6.890
6.586
7.149
6.657
6.210
6.128
6.393
A3
6.457
6.174
6.612
6.087
5.797
5.865
6.498
6.486
A4
7.202
7.173
7.169
6.590
6.444
6.740
6.370
7.270
Utilizando os dados da tabela acima, faça uma análise estatística completa (estatística
descritiva, teste de normalidade, ANAVA e teste de comparação de médias) e estabeleça
conclusões ao nível de 5% de significância.
122
Aula 6
Bioestatística
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
PIMENTEL-GOMES, F.; GARCIA, C. H. Estatística aplicada a experimentos agronômicos e
florestais: exposição com exemplos e orientações para uso de aplicativos. Biblioteca de ciências
agrárias Luiz de Queiroz. Piracicaba: FEALQ, 2002. v 1.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
VIEIRA, Sonia. Introdução à Bioestatística. Rio de Janeiro: Ed. Campus, 1980.
Anotações
Aula 6
Bioestatística
123
Anotações
124
Aula 6
Bioestatística
ANEXO A –
Valores de amplitude
total estudentizada (q) para uso no
teste de Tukey a nível de 1% de probabilidade
Fonte: Pimentel-Gomes e Garcia (2002, p. 293).
Aula 6
Bioestatística
125
ANEXO B –
Valores de amplitude total
estudentizada (q) para uso no teste
de Tukey a nível de 5% de probabilidade
Fonte: Pimentel-Gomes e Garcia (2002, p. 291).
126
Aula 6
Bioestatística
Anotações
Aula 6
Bioestatística
127
Anotações
128
Aula 6
Bioestatística
Correlacionando informações
Aula
7
Apresentação
Avaliar se existe associação entre duas características quantitativas é o objetivo de
vários estudos em Biologia, e para isto, são realizadas análises de correlação. Nesta aula,
iremos compreender a importância, a definição e quais os tipos de correlação existentes
entre duas variáveis.
Veremos também os métodos utilizados para avaliar a existência de correlação entre
variáveis: o diagrama de dispersão e o coeficiente de correlação. Aprenderemos como construir
um diagrama de dispersão e como calcular o coeficiente de correlação. Na aula, também existem
exercícios resolvidos e não resolvidos, para que você teste os conhecimentos adquiridos.
Boa aula!
Objetivos
1
2
3
Definir o conceito de correlação entre variáveis.
Distinguir os métodos utilizados para avaliar a existência
de correlação entre duas variáveis.
Construir um diagrama de dispersão e calcular o
coeficiente de correlação entre as variáveis.
Aula 7
Bioestatística
131
Relacionando duas
características
Relacionar
Fonte: <http://escolaprof.files.wordpress.com/2009/03/computador.jpg>.
Acesso em: 31 mar. 2010.
Fazer relação. Estabelecer
vínculo entre coisas
diferentes.
No nosso dia a dia, quer no trabalho, na escola ou em casa, temos o costume de relacionar
alguns fatos que presenciamos. Por exemplo: Será que há relação entre o número de horas
que me dedico aos estudos e minha nota final? Será que há relação entre o ato de beber água
depois das refeições e o aumento de peso?
Todos estes questionamentos se referem ao querer saber se há relação entre uma variável,
que podemos chamá-la de x (por exemplo, número de horas na frente do computador) e outra
variável que podemos chamá-la de y (por exemplo, dor de cabeça).
Em sistemas biológicos não é diferente
Em estudos de sistemas biológicos, é comum vermos os pesquisados avaliando a
existência de relação entre duas variáveis de interesse.
Por exemplo: Um biólogo pode estar interessado em saber se há relação entre a quantidade
de chumbo medida na água e o volume de dejetos (ou de esgoto) despejados em um rio.
Quando se pode demonstrar que existe relação ou associação entre duas variáveis
quantitativas, isto é, quando se constata que elas variam juntas, diz-se que as variáveis
estão correlacionadas.
Assim, podemos definir correlação como o estudo do comportamento conjunto
de duas variáveis.
132
Aula 7
Bioestatística
Atividade 1
Mesmo sem dispor de dados, que tipo de relação você acha que existe entre as
situações abaixo:
1)
Intensidade luminosa de uma planta e seu desenvolvimento.
2)
Qualidade da alimentação e o nível de colesterol no sangue.
3)
Quantidade de água parada e o desenvolvimento das larvas do mosquito da dengue.
4)
Reclamação de clientes e a qualidade do produto.
5)
Popularidade de um governo e indicadores econômicos.
Aula 7
Bioestatística
133
Como avaliamos a correlação
entre duas variáveis?
Para avaliar a correlação entre duas variáveis, inicialmente apresentamos os dados em
forma de um gráfico de pontos, denominado diagrama de pontos ou diagrama de dispersão.
Este diagrama permite visualizar a relação entre as duas variáveis.
Mas como podemos construir esse diagrama?
A resposta é simples: Vamos tomar como exemplo as informações sobre a altura dos
alunos do segundo semestre do curso de Ciências Biológicas que utilizamos na Aula 1 (O que é
Bioestatística) e acrescentar mais uma variável a ser medida: o peso destes alunos.
Assim, para construir um diagrama de dispersão você deve:
1)
Coletar os dados das variáveis x e y que pretende correlacionar. No nosso exemplo, podemos
chamar de variável x a altura dos alunos e de variável y, o peso dos mesmos, conforme
podemos visualizar na tabela abaixo.
Tabela 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Altura dos alunos do segundo semestre
1,67
1,87
1,88
1,89
1,78
1,89
1,9
1,76
1,94
1,95
134
Aula 7
Peso dos alunos do segundo semestre
56,0
89,2
90,6
93,6
60,5
91,4
95,8
62,4
95,0
99,0
2)
Em seguida, você deve traçar um sistema de eixos cartesianos, representando uma variável
em cada eixo, ou seja, a variável que chamamos de x, a altura dos alunos, deve ser colocada
no eixo X e a variável que chamamos de y, o peso dos alunos, deve ser colocada no eixo
Y. Caso você não se lembre como se constrói um gráfico com eixo X e Y, volte às Aulas 5
(Dados quantitativos: como organizá-los?) e 6 (Distribuição de freqüências: apresentação
gráfica) da disciplina de Matemática e Realidade.
3)
O próximo passo é marcar pontos nesse gráfico, de modo que, para cada valor de x,
você tenha um valor de y correspondente. Por exemplo: se pela nossa tabela x for 1,67m,
y será 56kg. Isso deve ser feito para todos os dados disponíveis na tabela.
4)
Note que, ao ir acrescentando os dados de x e y, teremos pontos específicos no gráfico
representando estes pares de dados (altura e peso).
5)
Na sequência, escreva os nomes das variáveis nos respectivos eixos, bem como o título
do diagrama. E está pronto o nosso diagrama de dispersão.
Bioestatística
Altura (m) e peso (Kg) dos alunos do
segundo semestre de Biologia
120
Peso (Kg)
100
80
60
40
20
0
1,6
1,7
1,8
1,9
2
Altura(m)
Figura 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas
Entretanto, você deve notar que, o diagrama acima representado foi feito em computador,
utilizando a planilha eletrônica no Excel. Para você fazer esse mesmo diagrama utilizando papel
milimetrado, você deve seguir os passos representados no esquema a seguir (Figura 2).
Coletar os dados das variáveis
que deseja estudar
Traçar um gráfico com eixos cartesianos
(X e Y), representando uma variável em cada eixo
Escrever os nomes das variáveis nos
seus respectivos eixos
Fazer um ponto que represente cada
par de valores X e Y
Escrever o título e se for o caso,
complementar com uma legenda
Figura 2 – Sequência de procedimentos para a construção de um diagrama de dispersão em papel milimetrado
Importante
Para desenhar o diagrama de dispersão, escolha as escalas de tal maneira que a
figura pareça quadrada. Este cuidado ajuda a obter melhor visão da associação
entre as variáveis.
Aula 7
Bioestatística
135
Atividade 2
Utilizando os dados da Tabela 2, faça um diagrama de dispersão no papel milimetrado a
seguir e repita o mesmo exercício fazendo-o em planilha eletrônica do Excel ou Calc.
Tabela 2 – Quantidade de lixo (m3) produzida de acordo com o número de dormitórios das residências
Número de dormitórios
Volume de lixo
1
1
2
3
3
6
4
8
Papel milimetrado para a construção do diagrama de dispersão:
Mas como interpretar o diagrama de dispersão?
Para isso, você deve observar a direção dos pontos.
Note que, no nosso exemplo, à medida que aumenta a altura dos alunos, aumenta também
o peso dos mesmos. Nesse caso, podemos afirmar que as variáveis altura e peso estão
correlacionadas e, à medida que uma aumenta, a outra aumenta também. Assim, podemos
dizer que estas variáveis apresentam correlação positiva.
136
Aula 7
Bioestatística
Se tivéssemos um comportamento diferente, ou seja, à medida que aumenta a altura dos
alunos, diminui o peso, mesmo assim teríamos uma correlação entre as variáveis, porém esta
seria uma correlação negativa.
Se não houvesse nenhuma relação entre a altura dos alunos e o peso, não teríamos
correlação entre as variáveis, ou seja, sem correlação.
Quando além de observarmos a direção dos pontos, também observamos sua dispersão,
podemos ter mais dois outros subtipos de correlações positivas e negativas:

Correlação forte: Quando há menor dispersão dos pontos.

Correlação fraca: Quando há maior dispersão dos pontos.

Correlação perfeita: Quando não há dispersão dos pontos (formam uma linha).
Estes tipos de comportamentos entre as variáveis quando analisadas do ponto de vista
da direção e dispersão dos pontos podem ser ilustrados pelas figuras abaixo:
Diagramas de dispersão que mostram correlação positiva entre as variáveis
Correlação fraca
Correlação forte
Correlação perfeita
Diagramas de dispersão que mostram correlação negativa entre as variáveis
Correlação fraca
Correlação forte
Correlação perfeita
Diagrama de dispersão que mostra correlação nula entre as variáveis
Figura 3 – Diagramas de dispersão
Fonte: <www.lugli.org/2008/02/diagrama-de-dispersao/>. Acesso em: 31 mar. 2010.
Aula 7
Bioestatística
137
Atividade 3
De acordo com as figuras abaixo, classifique as correlações em positivas e negativas e
em fortes, fracas e perfeitas.
1)
Relação entre o consumo médio de vegetais e a taxa de mortalidade para o sexo feminino.
Média da taxa de mortalidade para
o sexo Feminino (100000 pessoas ano)
26
24
22
20
18
16
14
12
10
8
0
100
200
300
400
Consumo médio de Vegetais (gr/pessoas/dia)
Fonte: <stat2.med.up.pt/cursop/glossario/rregressao.html>.
Acesso em: 31 mar. 2010.
2)
Relação entre peso inicial das vacas com os dias de sobrevida quando submetidas a jejum.
Dias de Sobrevivência
60
50
40
30
20
10
0
0
100
200
300
Peso Inicial da Fêmea (mg)
Fonte: <http://www.scielo.br/img/revistas/rsp/v9n3/09f2.gif>.
Acesso em: 31 mar. 2010.
138
Aula 7
Bioestatística
3)
Média do número de sementes e a quantidade de sólidos solúveis totais de carambolas.
N. de Sementes vs. SST
7,0
6,6
SST
6,2
5,8
5,4
5,0
4,6
5
6
7
8
9
10
11
12
13
Sementes
14
C1
C1A
C1B
C1C
C1D
C2
C2A
C2B
C2C
C2D
C3
C3A
C3B
C3C
C3D
Fonte: <http://www.scielo.br/img/fbpe/sa/v58n1/a15fig02.gif>.
Acesso em: 31 mar. 2010.
Há outra maneira de avaliar a
correlação entre duas variáveis?
Sim. Além do diagrama de dispersão, há outro método para avaliar a correlação entre
duas variáveis, e este é feito através do cálculo do Coeficiente de Correlação.
O coeficiente de correlação é uma medida do grau de associação entre duas variáveis
e sua fórmula de cálculo foi proposta por Karl Pearson em 1896. Por este motivo, ele
também é conhecido como Coeficiente de Correlação de Pearson (r) e pode ser obtido
através da fórmula:
x− y
xy −
n
r = 2 2 x
y
x2 −
y2 −
·
n
n
Onde:
∑xy = Somatório dos valores de x vezes os valores de y;
∑x = Somatório dos valores de x;
∑y = Somatório dos valores de y;
∑x2 = Somatório de x ao quadrado;
(∑x)2 = Somatório de x vezes somatório de x;
∑x 2 = Somatório de y ao quadrado;
∑y 2 = Somatório de y vezes somatório de y;
n = números de amostras.
Aula 7
Bioestatística
139
Importante
O valor de r varia entre –1 e +1:
Se r = 1, diz-se que as duas variáveis têm correlação perfeita positiva.
Se r = –1, diz-se que as duas variáveis têm correlação perfeita negativa.
Se r = 0, diz-se que não existe correlação entre as variáveis, ou seja, correlação nula.
Para entender como se aplica a fórmula para calcular o valor de r, observe o Exercício
Resolvido 1.
Exercício Resolvido 1
A Tabela 3 ilustra a taxa de mortalidade infantil e a taxa de analfabetismo no Brasil,
de acordo com cada região brasileira. Utilizando a fórmula acima, calcule o coeficiente de
correlação r e interprete a correlação entre as variáveis.
Tabela 3 – Taxa de mortalidade infantil e taxa de analfabetismo no Brasil, segundo cada região
Região
Taxa de mortalidade
Norte
Taxa de analfabetismo
35,6
12,7
Nordeste
59
29,4
Sudeste
25,2
8,6
Sul
22,5
8,3
Centro-Oeste
25,4
12,4
Resolução
1)
O primeiro passo é determinar qual variável representará a letra x e qual representará a letra y.
Nesse caso, vamos escolher x para a taxa de mortalidade e y para a taxa de analfabetismo.
2)
Em seguida, devemos calcular os valores de x2, y2, xy, (∑x)2 e (∑y)2, pedidos na fórmula.
Assim temos:
X (mortalidade)
Y (analfabetismo)
x2
(mortalidade
ao quadrado)
y2
(analfabetismo ao
quadrado)
xy
(mortalidade vezes
analfabetismo)
35,6
12,7
1267,36
161,29
452,12
59
29,4
3481
864,36
1734,6
25,2
8,6
635,04
73,96
216,72
22,5
8,3
506,25
68,89
186,75
25,4
12,4
645,16
153,76
314,96
167,7
71,4
6534,81
1322,26
2905,15
(∑x)2 = 28123,29
(∑y)2 = 5097,96
∑
140
Aula 7
Bioestatística
3)
Depois de calculado os somatórios de x, y, x2, y2, xy,(∑x)2 e (∑y)2 (em destaque na tabela
acima), é só colocar os valores na fórmula:
167, 7 · 71, 4
5
r = 5097, 96
28123, 29
· 1322, 26 −
6534, 81 −
5
5
2905, 15 −
r = 0,9724
4)
Para interpretarmos esse valor, devemos ter em mente que o valor de r varia entre –1 e +1.
Se obtiver valores fora deste intervalo, pode ter certeza que você errou nos cálculos.
No caso do exercício acima, o valor de r, positivo e muito próximo de 1. Então, existe forte
correlação positiva entre as variáveis. Isto significa que ocorrem mais mortes de menores de
um ano nas regiões em que existe maior número de analfabetos.
Atividade 4
Calcule o coeficiente de correlação utilizando a fórmula de Pearson para os dados
(hipotéticos) de um laboratório de hematologia apresentados na Tabela 4 e interprete a
correlação entre as variáveis leucócitos e eritrócitos:
Tabela 4 – Resultados de exames hematológicos para leucócitos e eritrócitos
Leucócitos (mm3)
Eritrócitos (mm 3)
6.8
4.50
9.7
5.20
4.3
4.55
7.9
4.65
7.4
4.40
7.6
4.40
2.8
4.30
7.8
4.60
5.5
4.90
4.6
4.10
8.0
5.00
7.0
5.17
7.1
4.20
5.9
4.40
12.3
4.24
Aula 7
Bioestatística
141
Resumo
Nesta aula, você aprendeu que duas variáveis podem ou não estar relacionadas
ou associadas. Este é o conceito de correlação, ou seja, o estudo do
comportamento conjunto entre duas variáveis. Estudou que as variáveis podem
se comportar de várias maneiras, ou seja, apresentam diferentes tipos de
correlação: correlação positiva, quando apresentam comportamento na mesma
direção; correlação negativa, quando apresentam comportamento em direções
opostas; e aquelas que não apresentam correlação. Você estudou também que
as correlações podem ser fortes e fracas, de acordo com a dispersão de seus
pontos. Você viu que a correlação pode ser obtida de duas maneiras: uma
através da construção do diagrama de dispersão ou diagrama de pontos e a
outra através do cálculo do coeficiente de correlação. Aprendeu como construir
um diagrama de dispersão em planilha eletrônica e em papel milimetrado e
como calcular o coeficiente de correlação, usando a fórmula desenvolvida por
Pearson. Por fim, você calculou o coeficiente de correlação e interpretou a
correlação existente entre as variáveis analisadas.
Autoavaliação
1
142
Aula 7
Teste os conhecimentos adquiridos na aula de hoje, conceituando os seguintes termos:
a)
Correlação:
b)
Tipos de correlação de acordo com a direção:
Bioestatística
c)
Tipos de correlação de acordo com a dispersão dos pontos:
d)
Diagrama de dispersão :
e)
Coeficiente de correlação e os valores de r:
2
Faça uma pesquisa com 15 pessoas, podendo ser seus familiares, vizinhos e amigos
e preencha a tabela abaixo:
Número de filhos
Renda mensal (número de salários mínimos)
2 filhos
3 salários mínimos
Em seguida, usando os dados acima, calcule o coeficiente de correlação, usando a fórmula
de Pearson e interprete os resultados.
Aula 7
Bioestatística
143
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
CORRELAÇÃO e regressão: [disciplina de métodos quantitativos em medicina]. Disponível em:
<http://www.dim.fm.usp.br/regressao/index.php>. Acesso em: 12 mar. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
Anotações
144
Aula 7
Bioestatística
Anotações
Aula 7
Bioestatística
145
Anotações
146
Aula 7
Bioestatística
Análise de regressão
Aula
8
Apresentação
V
ocê estudou na Aula 7 - Correlacionando informações, que empregamos a análise de
correlação para avaliar o comportamento conjunto de duas variáveis quantitativas.
Todavia, nem sempre esse é o objeto de estudo. Isso se dá especialmente nos casos
em que se precisa/deseja avaliar o comportamento de uma variável (dependente) em função
de outra (independente) e expressar matematicamente essa relação de causa e efeito. Nesse
caso, recomenda-se utilizar uma análise de regressão para se avaliar os dados. E é esse tipo
de análise que iremos estudar nesta aula.
Nesta aula, você verá o conceito de regressão, bem como os tipos de regressão existentes.
Vai conceituar variáveis dependentes e independentes e conhecer e calcular o coeficiente linear
e coeficiente angular da reta. Além disso, estudará a equação da reta que representa a regressão
linear e fará exercícios que englobam todos os conceitos trabalhados.
Objetivos
1
2
3
Definir o conceito de regressão.
Definir o conceito de variável dependente e independente.
Identificar as variáveis dependentes e independentes em
uma situação problema.
4
Diferenciar os tipos de regressão.
5
Definir o conceito de regressão linear.
6
Aplicar os procedimentos de uma análise de regressão
linear simples.
Aula 8
Bioestatística
149
Uma questão de variação
No nosso cotidiano, estamos em contato com situações ou fatos que dependem
exatamente uns dos outros.
Pense em um supermercado que vai aumentar o seu gasto com propaganda por que
dizem que “quem não anuncia se esconde”.
Vamos então pensar no aumento do volume de vendas como função do aumento dos
gastos com propaganda. Você acha que existe uma relação exata entre essas variáveis, isto é,
para cada real a mais gasto com propaganda haverá um aumento fixo no volume de vendas?
Não é bem assim.
Há uma série de fatores que podem influenciar essa relação, tais como o aumento das
vendas em certas épocas do ano, o fato do volume de vendas também depender dos preços e
do aumento de salário; depender da concorrência e outros tantos motivos, e é claro, também da
propaganda. Mesmo que conhecêssemos todas as causas que explicam o volume de vendas em
um supermercado, ainda assim não saberíamos prever exatamente o volume dessas vendas.
Nesse caso, queremos estabelecer uma relação de causa e efeito entre o aumento do
volume de vendas e o aumento dos gastos com propaganda, ou seja, ver o quanto o aumento
do volume das vendas varia em função do aumento dos gastos com propaganda, e ainda
expressar matematicamente essa relação. E isso é feito através da análise de regressão.
Mas o que é regressão?
Algumas vezes estamos interessados em saber não apenas se existe associação entre
duas variáveis quantitativas x e y, como é o caso da correlação (Aula 7 - Correlacionando
informações), mas temos também uma hipótese a respeito de uma provável relação de causa
e efeito entre variáveis, ou como uma variável varia em função da outra.
Desse modo, a análise de regressão refere-se ao estabelecimento dessa relação causa-efeito
entre duas variáveis quantitativas e pode ser expressa matematicamente.
Assim, usa-se a análise de regressão com duas finalidades:
150
Aula 8
1)
Previsão: Para prever o valor de uma variável chamada de x a partir do valor de outra
variável chamada de y.
2)
Estimativa: Estima o quanto x influencia ou modifica y.
Bioestatística
Na Biologia, esse tipo de análise, ou seja, análise de regressão ou análise de relação de
causa e efeito entre variáveis é muito utilizada em experimentos cujo objetivo é determinar
como uma variável varia em função da outra.
Vamos ver alguns exemplos?
Se o pesquisador deseja saber se a quantidade de um determinado anestésico varia em
função do tempo após a sua administração; se um biólogo quiser saber se o nível de fósforo no
solo varia em função da sua adubação; se um nutricionista quiser saber se o nível de vitamina
no sangue varia em função da ingestão de frutas, todos deverão fazer uma análise de regressão,
já que ela tem o poder de avaliar como uma variável varia em função da outra.
Regressão: Estudo de quanto uma variável varia em função da outra,
exprimindo uma relação de causa e efeito.
Atividade 1
1
2
Agora que você já conheceu o conceito de regressão, faça uma
comparação entre correlação e regressão.
Indique duas situações em que um biólogo utilizaria uma análise de
correlação e uma análise de regressão.
Aula 8
Bioestatística
151
Conhecendo melhor
as variáveis x e y analisadas
As variáveis x e y a serem submetidas à análise de regressão recebem denominações
específicas, dependendo de que tipo de relação queremos analisar.
Se desejamos saber se y depende de x, nesse caso, y é chamada de variável dependente
ou variável resposta e x é chamada de variável independente ou variável explanatória.
Caso contrário, se desejamos saber se x depende de y, nesse caso, x é chamada de
variável dependente ou variável resposta e y é chamada de variável independente ou
variável explanatória.
Por convenção, vamos estabelecer que y será sempre a nossa variável dependente e x
a variável independente.
Atividade 2
Identifique as variáveis dependentes (y) e independentes (x) nos exemplos
abaixo:
152
Aula 8
Bioestatística
a)
Peso médio dos alunos do curso de Biologia em função da altura.
b)
Funcionamento dos rins em função da quantidade de água ingerida durante o dia.
c)
Número de batimentos cardíacos em função da intensidade da atividade física.
Mas há somente
um tipo de regressão?
A forma de regressão mais comumente utilizada é a regressão linear, que se caracteriza
pela hipótese de que o valor de y depende do valor de x , e expressamos matematicamente
essa relação por meio de uma equação, assumindo que a associação entre x e y é linear, ou
seja, descrita adequadamente por uma reta.
Mas, como curiosidade, tem-se ainda a regressão por potência, regressão logarítmica
e regressão exponencial, que são chamadas de regressão não linear.
A regressão linear pode ser:

Simples: Quando temos uma variável dependente y e uma variável independente x.

Múltipla: Quando temos uma variável dependente y e mais de uma variável independente,
x1, x2, x3... e assim por diante.
A regressão linear simples
Como vimos no parágrafo acima, a regressão linear simples se caracteriza pela dependência
do valor de y em relação ao valor de x. Essa dependência é expressa matematicamente por meio
de uma equação descrita adequadamente por uma reta, chamada de reta de regressão linear.
Essa é a reta que relaciona as variáveis x e y e é representada pela equação abaixo:
y = α + βx
Onde:
y = variável dependente
α = coeficiente linear (valor de y quando x = 0)
β = coeficiente angular (inclinação da reta; aumento ou diminuição em y para cada aumento
de uma unidade em x)
x = variável independente
Aula 8
Bioestatística
153
Atividade 3
1
a)
y = 3,54 + 1,5 x
b)
y = – 0,87x + 3,87
c)
y = 1,67 + 5,81 x
2
a)
154
Aula 8
Nas equações abaixo, identifique o coeficiente linear e o coeficiente angular da reta:
Bioestatística
Agora, monte as equações da reta com os seguintes valores de coeficientes:
Coeficiente linear = 1,54
Coeficiente angular: 0,87
b)
Coeficiente linear = – 4,76
Coeficiente angular: 1,23
c)
Coeficiente linear = – 3,76
Coeficiente angular: – 1,98
A reta de regressão
Quantidade de anestésico
hidrolisado
A seguir, temos um exemplo de reta de regressão que representa a quantidade de
anestésico hidrolisado no plasma de um paciente em função do tempo decorrido após a sua
administração (Figura 1).
35
30
25
20
y = -0.98 + 2,16 x
15
10
5
0
0
5
10
15
20
Tempo
Figura 1 – Quantidade de anestésico hidrolisado no plasma humano (μL) em função do tempo (minutos) decorrido
após sua administração
Aula 8
Bioestatística
155
Analisando a figura anterior, você pode verificar que os pontos estão praticamente sobre
uma reta, a reta de regressão, e pode concluir que a quantidade de anestésico hidrolisado no
plasma varia em função do tempo decorrido de sua administração. E ainda que essa reta pode
ser representada pela equação:
y = – 0,98 + 2,16 x
Mas o que isso significa?
Na equação anterior, que representa a reta de regressão linear da quantidade de anestésico
hidrolisado no plasma em função do tempo decorrido de sua administração, temos como
coeficiente linear o valor de – 0,98 e como coeficiente angular o valor de 2,16.
O coeficiente linear fornece a altura onde a reta corta os eixos das ordenadas (eixo X),
ou seja, o valor de y onde o x é igual a zero.
O coeficiente angular fornece o ângulo formado pela reta em relação ao eixo x. Assim,
um coeficiente angular positivo, indica que a reta será direcionada pra cima e para a direita, à
medida que o valor de x aumenta. O contrário se dá no caso de uma equação com coeficiente
angular negativo. Nesse caso, à medida que o valor de x aumenta, a reta tende a crescer para
a direita e para baixo.
Entendeu o conceito? Vamos realizar a atividade abaixo, para fixar esses conceitos.
Atividade 4
Utilize as equações abaixo e construa um gráfico para cada uma substituindo o
valor de x , por um número positivo (maior que zero) a sua escolha, totalizando
5 substituições.
156
Aula 8
Bioestatística
a)
y = 3 + 1,5x
b)
y = 3 – 1,5 x
c)
y = 5 + 7x
d)
y = 5 – 7x
Aula 8
Bioestatística
157
Montando uma equação de regressão
Bom, agora que já sabemos o que são o coeficiente linear e o coeficiente angular da
regressão, podemos montar a equação que representa a reta. Para isso, vamos tomar como
exemplo a variação da quantidade de anestésico hidrolisado no plasma em função do tempo
decorrido de sua administração.
Para calcularmos os valores desses coeficientes, usamos as fórmulas abaixo:
Coeficiente linear: α̂ = y − β̂ x
x y
xy −
Coeficiente angular: β̂ =
n 2
2 ( x)
x −
n
Onde:
⁀α = estimativa do coeficiente linear da reta
_
y = média dos valores de y
⁀β = estimativa do coeficiente angular da reta
_
x = média dos valores de x
∑xy = somatório de x*y
∑x = somatório de x
∑y = somatório de y
∑x 2 somatório de x 2
n = número de amostras
Cálculo dos coeficientes
No exemplo da quantidade de anestésico hidrolisado no plasma humano, acima
apresentado, todos os cálculos foram realizados manualmente e organizados em uma planilha.
Para entender como estimar o coeficiente linear e o angular de uma equação, observe a
seqüência do Exercício resolvido 1.
Exercício resolvido 1
Elabore uma equação de regressão para estimar a quantidade de anestésico hidrolisado
no plasma humano em função do tempo decorrido após sua administração.
158
Aula 8
Bioestatística
Solução
1)
O primeiro passo é obter todos os valores da quantidade de anestésico e do tempo após
sua administração, representados na Tabela 1.
Tabela 1 – Quantidade de anestésico hidrolisado (moles/litro) no plasma humano
e tempo (minutos) decorrido após sua administração
2)
Tempo
Quantidade de anestésico hidrolisado
2
3,5
3
5,7
5
9,9
8
16,3
10
19,3
12
25,7
14
28,2
15
32,6
Nomear as variáveis.
A variável dependente y será a quantidade de anestésico e a variável x será o tempo.
Traçar o gráfico de dispersão de y em função de x (figura 1).
35
Quantidade de anestésico
hidrolisado (moles / litro)
3)
30
25
20
15
Quantidade de
anestésico hidrolisado
10
5
0
0
5
10
15
20
Tempo (minutos)
Aula 8
Bioestatística
159
4)
Colocar os valores de x e y em uma tabela e calcular os valores de xy, x 2 e y 2.
∑ somatório
x
2
3
5
8
10
12
14
15
69
y
3,5
5,7
9,9
16,3
19,3
25,7
28,2
32,6
141,2
xy
7
17,1
49,5
130,4
193
308,4
394,8
489
1589,2
x2
4
9
25
64
100
144
196
225
767
y2
12,25
32,49
98,01
265,69
372,49
660,49
795,24
1062,76
3299,42
5)
Agora é só aplicar as fórmulas:
a)
Para calcular o coeficiente angular:
69.141,2
x y
1589,2 −
xy −
8
→ β = 2,16
→ β̂ =
β̂ =
n
4671
2 ( x)2
767
−
x −
8
n
b)
Para calcular o coeficiente linear da reta:
_
_
⁀α = y – ⁀βx
_
_
Mas antes disso precisamos ter a média de x (x ) e média de y (y ):
x
69
x=
−→ x =
−→ x = 8,62
n
8
y
141,2
y=
−→ y =
−→ y = 17,65
n
8
_
_
Agora aplicamos a fórmula: ⁀α = y – ⁀βx
α = 17,65 – 2,16 × 8,62
α = – 0,98
6)
E o último passo é construir a equação da reta, substituindo as letras pelos valores calculados:
Equação da reta:
y = α + βx
y = – 0,98 + 2,16 x
160
Aula 8
Bioestatística
Resumindo as etapas
da regressão linear simples...
Etapas de uma análise de
regressão linear simples
Obter os valores da variável dependente (y) e da
variável independente (x) que serão analisadas
Traçar o gráfico de dispersão
Colocar os valores de x e y em uma tabela e calcular os somatórios de x, y, xy, x 2 e y 2
Aplicar as fórmulas do coeficiente linear e do coeficiente angular
Construir a equação da reta y = α + βx
Figura 2 – Etapas para a realização de uma análise de regressão linear simples
Fonte: Henrique Rocha de Medeiros.
Atividade 5
Suponha que você esteja estudando a relação entre a quantidade de um poluente
despejado por uma fábrica em um riacho, e o dano ecológico nesse curso d’água, medido
por um escore de dano que vai de 0 a 20 (Tabela 2). Para verificar sua hipótese, você precisa
fazer uma análise de regressão. Assim, utilizando os valores da tabela abaixo, responda
o que se pede.
Aula 8
Bioestatística
161
Tabela 2 – Escore de dano ecológico medido para diferentes concentrações de poluente no riacho
162
Aula 8
Quantidade de poluente (μg/L)
Escore de dano ecológico
1
3
2
6
3
7
4
10
5
10
6
12
a)
Identifique as variáveis dependentes e independentes.
b)
Monte o diagrama de dispersão utilizando o gráfico milimetrado abaixo.
c)
Calcule os valores do coeficiente angular e do coeficiente linear da reta.
Bioestatística
d)
Monte a equação da reta de regressão e conclua se o escore da dano ecológico está
variando em função da quantidade de poluente de um riacho.
Coeficiente de determinação
Até agora vimos que as variáveis x e y podem variar uma em função da outra, e que
esse comportamento é medido através da análise de regressão, que representa, em uma reta,
o quanto a variável y depende da variável x .
Mas podemos nos perguntar: O quanto essa reta reflete realmente o comportamento de
x e y ? Quanto do que visualizamos na reta é real?
A resposta está baseada na precisão e acurácia da reta, que é refletida nos valores do
coeficiente de determinação, representado pelo símbolo R 2.
Aula 8
Bioestatística
163
O coeficiente de determinação (R 2) é um valor entre 0 e 1, que estima quanto da alteração
da variável dependente (Y ) em função de mudanças na variável independente (X) pode ser
explicada pela equação de regressão. Por esse motivo, o coeficiente de determinação pode
ser definido como o grau de ajuste da reta de regressão estimada ao conjunto de dados.
Ele reflete quão bem o modelo se ajusta ao conjunto de dados utilizados para elaborar a equação
e, por esse motivo, denota a força da associação linear entre x e y.
Por isso, R 2 assume diferentes valores, sempre variando de zero a 1:

Se R 2 = 1:
1 significa que a variação explicada responde por 100% da variação total.
Ou seja, a reta de regressão representa perfeitamente o conjunto de dados e toda a
variação de y está relacionada com a de x.

Se R 2 for diferente de zero e inferior a 1: significa que a variação explicada responde
por uma percentagem da variação total. Por exemplo: se R 2 = 0,81, indica que
aproximadamente 81% da variação em y está relacionada com a de x e que o restante
19% (100% – 81%) é explicado pelo acaso (outros fatores que não o “x ”). Observe que
alguns pontos estão localizados fora da reta, mas próximo a mesma. Assim, nesse caso,
a equação representa quase que perfeitamente o conjunto de dados analisados.

Se R 2 for igual ou muito próximo a zero: quando isso acontece, significa que o valor
médio de y (coeficiente linear) é a melhor projeção para qualquer valor de x. Ou seja, a
reta de regressão não representa os dados observados, e por isso mesmo não deve ser
utilizada para fazer inferências sobre a população.
Calculando o valor do
coeficiente de determinação
O coeficiente de determinação de uma equação pode ser estimado dividindo-se a soma
de quadrados da regressão pela soma de quadrados total da variável resposta, que é “Y ”.
Soma de quadrados da regressão (SQREGRESSÃO), é estimada utilizando-se a seguinte equação:
⎡
SQREGRESSÃO
⎢ n
⎢
= b⎢
Xi Yi −
⎢
⎣ i−1
n
n ⎤
Xi
Yi ⎥
⎥
i=1
i=1
⎥
⎥
n
⎦
Soma de quadrados total (SQTOTAL) é estimada utilizando-se a equação abaixo:
n 2 ⎤
⎢ n
Yi ⎥
⎥
⎢
⎥
i=1
2
SQTOTAL = ⎢
Yi −
⎥
⎢
⎥
⎢
n
⎦
⎣ i−1
⎡
164
Aula 8
Bioestatística
Calculando o coeficiente de
determinação de uma equação de regressão
Para isso, vamos utilizar os dados do Exercício resolvido 1.
Como os valores utilizados no cálculo já foram estimados, para calcular o coeficiente
angular e linear da equação, podemos utilizar esses resultados:
n
b = 2,16
Xi Yi = 1589,2
i−1
n
Yi = 141,2
i=1
n
i−1
n
Yi2
Vamos precisar calcular apenas o valor de
Xi = 69
i=1
= 3299,42
n
n= 8
2
Yi
= 141,22 = 19937,44
i=1
Resolvendo-se a fórmula, temos o seguinte:
⎡
⎢ n
SQREGRESSÃO = b ⎢
⎢
Xi Yi −
⎢
⎣ i−1
n
n ⎤
Xi
Yi ⎥
⎥
i=1
i=1
⎥
⎥
n
⎦
SQREGRESSÃO = 2,16 1589,2 − (69)(141,2)
8
e
⎡
n 2 ⎤
⎢ n
Yi ⎥
⎢
⎥
⎢
⎥
Yi2 − i=1
⎥
SQTOTAL = ⎢
⎢
⎥
n
i−1
⎣
⎦
SQTOTAL = 3299,42 − 19937,44
8
R2 =
SQREGRESSÃO = 802,1
SQTOTAL = 807,2
SQREGRESSÃO
802,1
−→ R2 =
−→ R2 = 99,3
SQT OT AL
807,2
Exemplo
Vamos ver um exemplo de aplicação de regressão linear?
Especula-se que a quantidade de lixo de uma cidade varia em função do poder aquisitivo
de seus habitantes. Para saber se essa hipótese está correta, o pesquisador realizou uma coleta
de dados em 3 cidades (A, B e C), e anotou a quantidade de lixo produzida (em toneladas) de
acordo com o número de salários-mínimos que a população recebe. Esses dados podem ser
visualizados nas Tabelas 3, 4 e 5.
Aula 8
Bioestatística
165
Tabela 3 – Quantidade de lixo produzida (em toneladas)
na cidade A, de acordo com o número de salários-mínimos da população
Quantidade de lixo
Número de salário-mínimo
2
2
4
5
6
8
8
11
Tabela 4 – Quantidade de lixo produzida (em toneladas)
na cidade B, de acordo com o número de salários-mínimos da população
Quantidade de lixo
Número de salário-mínimo
2
1
4
2
6
4
8
4
Tabela 5 – Quantidade de lixo produzida (em toneladas)
na cidade B, de acordo com o número de salários-mínimos da população
Quantidade de lixo
Número de salário-mínimo
2
5
4
1
6
3
8
8
Após a obtenção desses dados, o pesquisador organizou os dados em uma planilha e
calculou os valores do coeficiente linear e do coeficiente angular da equação de regressão para
cada cidade e obteve a reta de regressão linear (observe o Exercício resolvido 1), a equação
da reta e o coeficiente de determinação R 2 para cada cidade e que podem ser visualizados
nas Figuras 3, 4 e 5.
Número de
salários-mínimos
12
10
y = 1,5x -1
R2 = 1
8
6
4
2
0
0
2
4
6
8
Quantidade de lixo (toneladas)
Figura 3 – Quantidade de lixo produzida (em toneladas) na cidade A,
de acordo com o número de salários-mínimos da população
166
Aula 8
Bioestatística
10
Número de
salários-mínimos
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
y = 0,55x
R 2 = 0,8963
0
2
4
6
8
10
Quantidade de lixo (toneladas)
Número de
salários-mínimos
Figura 4 – Quantidade de lixo produzida (em toneladas)
na cidade B, de acordo com o número de salários-mínimos da população
9
8
7
6
5
4
3
2
1
0
y = 0,55x + 1,5
R 2 = 0,2262
0
2
4
6
8
10
Quantidade de lixo (toneladas)
Figura 5 – Quantidade de lixo produzida (em toneladas)
na cidade C, de acordo com o número de salários-mínimos da população
Solução
Ao analisarmos as três figuras, podemos verificar que a quantidade de lixo gerada em
cada cidade em função do número de habitantes variou de maneira diferente: na cidade A,
quanto maior a quantidade de lixo gerada, maior a renda dos habitantes; na cidade B, houve
uma tendência desse mesmo resultado, exceto quando a produção de lixo foi de 6 toneladas;
na cidade C, pode-se notar uma maior dispersão dos dados, quando a variação da quantidade
de lixo gerada não acompanha exatamente o aumento da renda da população.
Mas será que a interpretação dos resultados está correta? Será que a reta traçada para
representar a situação de cada cidade é real, representando o quanto a quantidade de lixo varia
em função da renda da população?
Aula 8
Bioestatística
167
Vamos então analisar a reta de regressão e o coeficiente de determinação da análise de
regressão para cada cidade:
1)
No caso da cidade A, o valor de R 2 = 1, o que significa que a reta de regressão traçada
se ajusta perfeitamente aos pontos, o que pode ser verificado pelo fato dela passar
exatamente em cima de cada ponto. Podemos afirmar que 100% da variação que ocorre em
y (quantidade de lixo gerada) está relacionada com a variação de x (renda da população).
Assim, podemos utilizar a equação de regressão para estimar a quatidade de lixo produzida
pela parte da população que ganha 2,5 salários-mínimos.
Equação de A: y = 1,5x + 1
Substituindo-se “x ” por 2,5 temos: y = 1,5*2,5 + 1 = 4,75 toneladas de lixo.
2)
No caso da cidade B, o valor de R 2 = 0,89, o que significa que a reta de regressão traçada
se ajusta quase que perfeitamente aos pontos, o que pode ser verificado pelo fato dela se
aproximar muito de cada um deles. Nesse caso, podemos afirmar que 89% da variação
que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda
da população). O restante, 11%, é fruto de uma variação que não tem explicação.
Nesse caso, como a equação de regressão também apresenta um coeficiente de
determinação alto (maior que 50%), pode-se utilizar a mesma para fazer inferências sobre a
quantidade de lixo produzida em função da renda da população.
3)
No caso da cidade C, o valor de R2 = 0,22, o que significa que a reta de regressão
traçada se ajusta muito pouco aos pontos, o que pode ser verificado pelo fato dela não se
aproximar de cada um deles. Nesse caso, podemos afirmar que somente 22% da variação
que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda
da população). O restante, 78%, é fruto de uma variação que não tem explicação. Nesse
caso, possívelmente existem outros fatores (como por exemplo, o nível de escolaridade e
educação dos habitantes) que influenciam na quantidade de lixo gerada.
Isso quer dizer que a minha equação não serve?
Não propriamente, mas apenas que ela não é suficientemente adequada para explicar
a relação de causa e efeito, entre a receita da população e a quantidade de lixo gerada.
Possivelmente, nesse caso, a adição de outras variáveis (como por exemplo, o número médio
de anos de estudo da população) e uma nova equação de regressão múltipla resultarão em
aumento do R 2.
168
Aula 8
Bioestatística
Resumo
Nesta aula, você viu o conceito de regressão linear simples, ou seja, o estudo
de quanto uma variável varia em função da outra, exprimindo uma relação de
causa e efeito. Estudou que essas variáveis quantitativas podem ser dependentes
(y ) e independentes (x) e verificou como identificá-las em cada situação
problema. Conceituou regressão linear simples e conheceu os demais tipos de
regressão utilizados. Identificou que, numa análise de regressão, temos vários
fatores envolvidos, tais como o coeficiente linear, representado pela letra α e o
coeficiente angular da reta, representado pela letra β. Estudou a equação da reta
que representa a regressão linear, como você pode fazer uma análise de regressão
e como determinar o coeficiente de regressão.
Autoavaliação
Faça uma regressão linear e calcule o seu coeficiente de determinação, utilizando
as informações da Tabela 6, que relaciona a quantidade de filhos por mulher em
função no número de anos de estudo, e discuta sobre a representatividade da
equação gerada.
Tabela 6 – Número de filhos segundo os anos completos de estudos, em mulheres de 15 a 49 anos de idade
Número de anos de estudo
Número médio de filhos
0
3,6
3
3,5
7
2,9
8
2,3
11
1,6
12
1,4
Fonte: Adaptado de Berquó e Cavenaghi (2006)
Aula 8
Bioestatística
169
Referências
BERQUO, Elza; CAVENAGHI, Suzana. Fecundidade em declínio: breve nota sobre a redução
no número médio de filhos por mulher no Brasil. Novos estud. - CEBRAP [online], n. 74, p.
11-15, 2006.
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
CORRELAÇÃO e regressão. 2000. Disponível em: <http://www.dim.fm.usp.br/regressao/index.
php>. Acesso em: 12 mar. 2010.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980.
______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
170
Aula 8
Bioestatística
Anotações
Aula 8
Bioestatística
171
Anotações
172
Aula 8
Bioestatística
Entendendo os números
índices e suas aplicações
Aula
9
Apresentação
V
ocê já deve ter ouvido expressões como: “Houve aumento no índice de inflação”; “Houve
alteração no índice nacional de custo na construção civil (INCC); “Houve aumento na
taxa de natalidade do Estado do Rio Grande do Norte em 2009”. Esses indicadores
são chamados de números índices e você os estudará nesta aula. Você verá como calcular
os números índices, sua importância e formas de aplicação dessa ferramenta estatística nas
Ciências Biológicas e em situações do cotidiano.
Objetivos
1
Compreender o conceito de número índice.
2
Diferenciar números índices simples de compostos.
3
Calcular os números índices e interpretar os seus
resultados.
Aula 9
Bioestatística
175
Números índices e
o nosso cotidiano
D
iariamente, vemos nos telejornais informações de como anda a nossa economia:
Notícias como “[...] a inflação nos últimos 12 meses foi de 1,56%”; “[...] o aumento
do IGPM foi de 12,6%”; “[...] o INPC teve queda de 2,8% no mês de agosto”. Vemos
também notícias sobre o índice de fertilidade da população brasileira, índice de natalidade,
índice de mortalidade, dentre outros (Figura 1). E, na maioria das vezes, ficamos sem saber o
que estas informações significam.
Figura 1– Exemplos de números índices diariamente apresentados nos telejornais nacionais.
Fonte: Lilian Giotto Zaros
Esses índices ilustrados na figura acima são denominados de números índices. Sua
definição, como calculá-los e como interpretá-los é o que você verá a seguir.
176
Aula 9
Bioestatística
O que são números índices?
O
s números índices (ou apenas índices) são instrumentos estatísticos utilizados
para comparar a evolução ou o comportamento de variáveis através do tempo. São
indicadores que se aplicam no campo da produção, evolução dos preços, dos salários,
da biodiversidade animal e vegetal, do desmatamento, de registros demográficos, dentre
outros, como citados na Figura 1.
Como medem variações no tempo e no espaço, permitem sintetizar e apresentar de forma
eficaz a natureza das alterações nas variáveis. Usando os números índices é possível, com um
só valor, avaliar a evolução de um conjunto complexo de variáveis.
Matematicamente, é a razão entre o valor de uma variável em uma data limite e o valor
dessa mesma variável em outra data, denominada data base.
Por exemplo: quando nos deparamos com a informação de que o índice de mortalidade
infantil no Rio Grande do Norte no ano de 2010 foi de 3,5%, este índice de mortalidade foi
obtido pela razão entre o número de mortalidades no ano de 2010 e o número de mortalidades
em uma data base, por exemplo, no ano de 2009. Todavia, essa comparação deve ser feita
apenas em relação à data base.
Note que os números índices são expressos em porcentagens e só se aplicam às datas
a que se referem ou são adimensionais (sem unidade de medida).
Data limite
Data limite: data final
do período de tempo
estudado.
Data base
Data base: data inicial
do período de tempo
estudado.
Curiosidade
Os números índices como dissemos acima, podem ser aplicados nas Ciências
Biológicas. A notícia a seguir exemplifica essa aplicação.
Desmatamento na Caatinga já destruiu metade da vegetação original
Por Jefferson Rudy/MMA
A Caatinga, único bioma exclusivamente brasileiro, possui atualmente metade de
sua cobertura vegetal original. Em 2008, a vegetação remanescente da área era
de 53,62%. Dados do monitoramento do desmatamento no bioma realizado entre
2002 e 2008 revelam que, neste período, o território devastado foi de 16.576km2,
o equivalente a 2% de toda a Caatinga. A taxa anual média de desmatamento na
mesma época ficou em torno de 0,33% (2.763 km2).
Fonte: <http://www.espacoecologiconoar.com.br/index.php?option=com_content&task=view&id=13106&Itemid=1>.
Acesso em: 10 maio 2010.
Aula 9
Bioestatística
177
Atividade 1
Cite dois exemplos, diferentes dos citados anteriormente, de números
índices que você conhece e que são utilizados nas mais diversas subáreas
das Ciências Biológicas.
Tipos de números índices
Há dois tipos de números índices:
1)
Simples: Representam a evolução de uma só variável simples entre dois períodos de
tempo. Por exemplo: quando uma família nota que o preço do pão é o dobro do que era
há 10 anos, está fazendo uso de certo tipo de número índice de uma só variável.
A principal limitação dos índices simples é que eles se referem apenas a itens isolados.
Apesar disso, são vários os exemplos de índices simples: crescimento da população, taxa de
natalidade, taxa de mortalidade e indicador de desemprego.
178
Aula 9
Bioestatística
Fonte: Quino, tirinha 231, 16 ago. 2006. Disponível em: <http://clubedamafalda.blogspot.com/2006/08/tirinha-231.html>. Acesso em: 10 maio 2010.
2)
Compostos: Expressam a evolução de uma variável composta (que integra várias medidas
juntas) entre dois períodos de tempo. Um exemplo deste tipo de variável composta é
observado no cálculo da inflação. Essa medida/índice é o resultado da variação conjunta
de preços de numerosos itens, como por exemplo, os alimentos (leite, carne, ovos,
manteiga etc.), o transporte (combustíveis, passagens de ônibus etc.), dentre outros.
Alguns desses artigos podem ter tido alteração (aumento ou diminuição) no preço e outros
podem continuar com o mesmo valor. Além disso, cada um desses artigos tem um peso
(ponderação) diferente para o cálculo do índice. Assim, um aumento no preço do leite e do
feijão, por exemplo, tem um impacto muito maior no índice de inflação do que elevação do
valor de automóveis. Isso se deve ao fato de que os alimentos são consumidos por toda
a populção e os automóveis somente por alguns poucos indivíduos.
Atividade 2
1
Conceitue números índices.
Aula 9
Bioestatística
179
2
3
Diferencie números índices simples de números índices compostos
e dê exemplos de cada um deles, utilizando informações obtidas em
jornais ou revistas ou na internet.
Selecione um grupo de 15 indivíduos (podem ser pessoas da
sua família, amigos, alunos, colegas de trabalho, da igreja e/ou de
prática de esportes) e faça as seguintes perguntas: Quais os tipos
de números índices que você conhece? Em que local você obteve
essas informações? Em seguida, complete a tabela abaixo com as
informações obtidas:
Tipo de número índice
que conhece
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
180
Aula 9
Bioestatística
Local onde obteve
a informação
Como calcular
os números índices?
O cálculo dos números índices é feito utilizando-se a fórmula abaixo:
NI =
VA
× 100
VB
Onde:
NI = número índice;
VA = valor do parâmetro atual ou na data limite;
VB = valor do parâmetro anterior ou na data base.
Utilizando essa fórmula, você poderá calcular os números índices, sejam eles simples
ou compostos.
Exercício resolvido 1
Será que se você dividir o número de inscritos no vestibular para o Curso de Ciências
Biológicas em 2010 pelo número de inscritos no ano anterior, e multiplicar por 100, você
terá um índice?
Solução
Sim, você terá um índice. Se o índice for maior do que 100, a procura pelo
curso aumentou. Se ao contrário, for menor do que 100, a demanda diminuiu.
Vamos verificar?
Suponha que o número de inscritos no ano de 2010 foi de 2500 estudantes e em
2009 foi de 2000. Assim, temos que:
VA
2500
NI =
× 100 =
× 100 = 1,25 × 100 = 125%
VB
2000
Agora, como o ano base representa sempre 100%, e o valor atual do índice é
125%, por diferença podemos calcular se houve ou não aumento do número de
inscritos no vestibular 2010 em relação a 2009.
Efetuando a operação matemática: 125% – 100%, podemos concluir que houve
um aumento de 25% na procura do Curso de Ciências Biológicas no vestibular
2010 em relação a 2009.
Aula 9
Bioestatística
181
Utilizando esse mesmo conceito, você pode ter resultados onde o valor atual (VA) é
menor que o valor base (VB). Nesse caso, o resultado da subtração será um número negativo
e indicará uma redução no índice.
Atividade 3
Calcule o número índice para as seguintes situações e interprete os resultados.
1
2
182
Aula 9
Bioestatística
Foram oferecidas 50 bolsas de iniciação científica aos alunos do Curso
de Ciências Biológicas no ano de 2009 e 45 no ano de 2010.
Um biólogo notou que 525 plantas floresceram em sua estufa no mês
de fevereiro, quando comparadas a 400 plantas no mês de setembro
de 2009.
3
O volume de chuva na região oeste do estado do Rio Grande do Norte
em 2008 foi de 3,5mm e chegou a 6mm no ano seguinte.
Curiosidade
Sempre que se tem o crescimento de um índice, há um reflexo positivo para
a população?
Depende do que seja esse índice. Se for de uma variável boa, o crescimento deste
índice será bom para a população. Como exemplo disso, temos: crescimento na
expectativa de vida, aumento na taxa de escolaridade das crianças, aumento real
do salário mínimo.
Já se fosse o índice de crescimento da inflação ou da taxa de mortalidade de
crianças até cinco anos de idade, por exemplo, seria extremamente diferente,
pois são indicadores que quanto mais baixos ou decrescentes, melhor para a
maioria da população.
Aula 9
Bioestatística
183
Utilizando números índices
Como já visto antes, os números índices estão presentes no cotidiano da população.
Assim, nos próximos parágrafos, vamos discorrer sobre alguns índices que você poderá
calcular para auxiliar o seu trabalho e/ou seu dia a dia.
Índice relativo de preços ou preços
relativos simples
É a razão entre o preço de um produto em uma determinada data e o preço desse mesmo
produto na data escolhida como base.
O índice relativo de preços mostra a evolução do preço de um produto em um determinado
período estudado. Você pode utilizar esse índice para verificar as alterações de preços, por
exemplo, dos principais itens de compra da sua casa.
O índice relativo de preço (IP) é obtido pela fórmula abaixo:
IP =
pt
× 100
p0
Onde:
IP= índice de preços;
pt = preço numa data atual;
p0 = preço na data base ou época-base.
Exercício resolvido 2
O preço de determinado artigo, em 2008, foi R$ 5,00 e em 2010 subiu para R$ 6,25.
Tomando-se por base o ano 2008, determinar o índice relativo de preço em 2010.
Solução
1
2
184
Aula 9
Bioestatística
Identificar a data base e a data atual:
Data base (0) = 2008 e período atual (t) = 2010
Identificar os preços na época atual e na época base:
Preço na data atual = 6,25 e preço na data base = 5,00
3
Em seguida, aplicar a fórmula do índice relativo de preço:
IP =
4
pt
6,25
× 100 =
× 100 = 125%
p0
5
Conclusão: Em 2010 houve um aumento de 25% (125 – 100) no preço
do artigo, em relação ao preço do mesmo artigo em 2008.
Índice de aprovação dos alunos (IA)
O índice de aprovação dos alunos é rotineiramente utilizado por professores que querem
ter uma ideia de como foi a aprovação dos alunos em sua disciplina.
Ele pode ser obtido aplicando-se a fórmula geral dos números índices, dividindo-se o
total de alunos aprovados pelo número de matrículas na disciplina.
IA =
Número de alunos aprovados
× 100
Número de alunos matriculados na disciplina
Note que para este índice, o fato do aluno ter sido aprovado por média (direto) e/ou por
recuperação, bem como ter trancado a disciplina não interfere no resultado. O que me interessa
saber é a relação entre o número de alunos aprovados ao final do curso.
Note que a fórmula para o cálculo do índice de aprovação de alunos é a mesma utilizada
para o cálculo do número índice em geral, como dito anteriormente.
Exercício resolvido 3
Calcule o índice de aprovação de uma turma da disciplina de Bioestatística do terceiro
semestre de 2010, onde o número de alunos inscritos foi de 41 e de aprovados foi de 30.
Solução
1
Identificar:
Número de alunos aprovados: 30
Número de alunos matriculados: 41
Aula 9
Bioestatística
185
2
IA =
Em seguida, aplicar a fórmula do índice de aprovação:
Número de alunos aprovados
30
× 100 =
× 100 = 73,1%
Número de alunos matriculados na disciplina
41
3
Conclusão: O índice de aprovação na disciplina de Bioestatística em 2010
foi de 73,1%.
Atividade 4
Calcule o índice relativo de preços nas situações abaixo e interprete os resultados:
186
Aula 9
Bioestatística
1
Uma caixa de morangos, que custava R$3,50 em fevereiro de 2010,
passou a custar R$4,30 em maio do mesmo ano.
2
Uma moto que custava R$ 5.900,00 em janeiro de 2009, passou a
custar R$ 7.100,00 em janeiro de 2010.
Uma casa que custava R$190.000,00 em maio de 2008, passou a
custar R$178.000,00 em maio de 2010.
3
Índices de custo de vida (ICV)
O índice de custo de vida, conhecido pela sigla ICV, é um índice composto e pode ser
calculado como no exemplo abaixo:
Suponha que uma família com cinco pessoas compre semanalmente 10 litros de leite,
4 kg de feijão e 5 kg de arroz e gaste R$ 25,00/semana com transporte. Vamos então elaborar
um índice composto de custo de vida para esta família na primeira (1) e na última semana do
mês (4)?
Nesse caso, precisamos fazer um gasto ponderado entre a quantidade de alimentos e
serviços e o preço de cada item. Para isso, vamos observar a tabela abaixo:
Item
Preço na semana 1
Preço na semana 4
Leite
R$ 0,77
R$ 0,77
Feijão
R$ 1,53
R$ 2,50
Arroz
R$ 0,88
R$ 1,88
Transporte
R$ 2,5
R$ 2,5
Assim, o VA corresponderá ao valor da cesta de produtos consumida pela família na
semana 4 e o VB ao consumo da família na semana 1.
Aula 9
Bioestatística
187
Deste modo, teremos:
Gasto semanal da família na semana 1
Item
Quantidade
consumida
Valor unitário (R$)
Total da semana 1
Porcentagem
do total
Leite
10
R$ 0,77
R$ 7,70
17,82%
Feijão
4
R$ 1,53
R$ 6,12
14,16%
Arroz
5
R$ 0,88
R$ 4,40
10,18%
Transporte
(passagens)
10
R$ 2,5
R$ 25,00
57,84%
R$ 43,22
100,00%
Total da semana
Gasto semanal da família na semana 4
Item
Quantidade
consumida
Valor unitário (R$)
Total da semana 4
Porcentagem do
total
Leite
10
R$ 0,77
R$ 7,70
14,78%
Feijão
4
R$ 2,50
R$ 10,00
19,19%
Arroz
5
R$ 1,88
R$ 9,40
18,04%
Transporte
(passagens)
10
R$ 2,5
R$ 25,00
47,98%
R$ 52,10
100,00%
Total da semana
Aplicando a fórmula do número índice, temos:
IA =
VA
52,10
× 100 =
× 100 = 1,2055 × 100 = 120,55%
VB
43,22
Neste caso, o índice calculado é de 20,55% (120,555 – 100%).
Embora o aumento no preço do feijão seja de 63,40% e do arroz de 113,64%, o aumento
no índice do custo de vida é menor que este valor (20,55%). Isto ocorre porque os itens que
tiveram maior aumento têm uma participação relativa no custo de vida (despesas) total da família.
É por esse motivo que, às vezes, os índices de inflação são divulgados e você pode achar
que a alteração nos preços observados na sua região é diferente da informação oficial. Isso
ocorre porque a inflação é calculada por uma média ponderada de itens médios de consumo
de uma família brasileira. Assim, nem sempre os hábitos de consumo e os preços observados
são semelhantes aos seus.
188
Aula 9
Bioestatística
Resumo
Nesta aula, você aprendeu o conceito de números índices e foi capaz de perceber
que eles são utilizados nas mais diversas áreas do nosso cotidiano, nas Ciências
Biológicas, na Geografia, na Economia, dentre outras. Você diferenciou números
índices simples e compostos e realizou os cálculos necessários para determinar
um número índice. Além disso, você viu alguns exemplos de números índices,
tais como o índice relativo de preços, o índice de aprovação de alunos e índice
de custo de vida e aprendeu a calcular cada um deles. Por fim, você testou os
conhecimentos adquiridos, acompanhando a resolução de exercícios e fazendo
sua autoavaliação.
Autoavaliação
Fonte: <http://blog.ambientebrasil.com.br/wp-content/
uploads/2009/03/chamine.jpg>. Acesso em: 10 maio 2010.
Leia o texto abaixo, retirado do Jornal O Estado de São Paulo de 31 de outubro
de 2006, e calcule o índice de emissão de gás carbônico na atmosfera para os
anos de 2000 e 2004, tendo como data base o ano de 1990.
“Apesar dos esforços internacionais, as emissões de dióxido de carbono (CO2) que geram
o efeito estufa aumentaram em 2004 e atingiram os maiores índices desde a década de 90.
Os países ricos somados tiveram uma queda de apenas 3,3% em média nas emissões nos
últimos 15 anos. Porém, quando se leva em conta apenas o período entre 2000 e 2004, houve
na realidade um aumento das emissões nessas economias, o que mostra a necessidade de
Aula 9
Bioestatística
189
medidas mais drásticas para lidar com aquecimento do planeta. As emissões nos países ricos
atingiram 19,9 bilhões de toneladas de CO2 em 2004, antes 17,5 bilhões em 2000. Em 1990,
ano-referência para o protocolo de Kyoto, os gases lançados na atmosfera por indústrias,
usinas e carros somavam 18,6 bilhões de toneladas”.
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001.
JORNAL DA CIÊNCIA. Emissão de CO2 cresce no planeta. 31 out. 2006. Disponível em: <http://
www.jornaldaciencia.org.br/Detalhe.jsp?id=42014>. Acesso em: 10 maio 2010.
SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo
Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998.
SIQUEIRA, Ivana Caldeira; SIMA, Luiz Fernando; ROCHA, João Alberto Guerra da. A importância
dos números-índices. Disponível em: <http://www.eumed.net/ce/2009a/ssr.htm>. Acesso em:
4 abr. 2010.
TELEMEDICINA: informática médica. Disciplina de métodos quantitativos em medicina:
correlação e regressão. 1999. Disponível em: <http://www.dim.fm.usp.br/regressao/index.
php>. Acesso em: 10 maio 2010.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980.
______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
190
Aula 9
Bioestatística
Anotações
Aula 9
Bioestatística
191
Anotações
192
Aula 9
Bioestatística
Probabilidade:
conceitos e aplicações
Aula
10
Apresentação
Nesta aula, você vai conhecer a história da probabilidade, bem como entender o seu
significado. Você verá como a probabilidade está presente no nosso cotidiano e como podemos
empregá-la nas Ciências Biológicas. Vai estudar também as leis da probabilidade e fará
exercícios que são regidos por essas leis.
Esta aula é de extrema importância, uma vez que os conceitos aqui adquiridos serão
utilizados na disciplina de Genética. Desse modo, faça sempre anotações e resolva os exercícios
propostos, que serão úteis em seu aprendizado futuro.
Bom estudo!
Objetivos
1
Compreender o conceito de probabilidade.
2
Conhecer a história da Teoria da Probabilidade.
3
Conhecer as leis de probabilidade.
4
Aplicar os conceitos aprendidos em estudos de sistemas
biológicos.
Aula 10
Bioestatística
195
O que é probabilidade?
Todos conhecem, por intuição, o conceito de probabilidade, ou seja, o risco (chance) de
ocorrer um determinado evento preestabelecido.
Por exemplo, observe o conjunto de dados na Figura 1, abaixo. Todos estes dados não
são viciados, ou seja, não são adulterados, e em cada face existe uma numeração marcada que
vai de um até seis. Assim, se eu pegar um desses dados e arremessá-lo numa caixa, existe a
probabilidade de 1/6 (ou 17%) de sair, na face voltada pra cima, o número 3.
Figura 1 – Conjunto de dados não viciados
Fonte: <http://palavraguda.files.wordpress.com/2007/09/dados.jpg>.
Acesso em: 4 maio 2010.
A priori
Do latim “partindo daquilo
que vem antes”. É uma
expressão filosófica que
designa uma etapa para se
chegar ao conhecimento.
196
Aula 10
Observe que essa probabilidade é a mesma, se eu escolher, a priori, qualquer um dos números
entre um e seis para apostar as minhas fichas. Concomitantemente, a probabilidade de ocorrer um
número diferente do que eu escolhi é de 83%, ou seja, o que faltar para completar 100%.
É utilizando essa lógica que as empresas de jogos legais montam sua estratégia de
pagamento das apostas. Assim, elas podem pagar os prêmios devidos e ainda assim auferir lucro.
Bioestatística
Curiosidades sobre as loterias...
Você sabe qual a probabilidade de ganhar na Mega-Sena? Aí vai a resposta: 0,000000003%.
Ainda assim, com uma possibilidade tão baixa, raramente o prêmio acumula.
E se você resolver preencher todas as combinações possíveis dentre os números da
Mega-Sena para assegurar que vai ganhar o prêmio principal, você gastará mais dinheiro que
o valor a ser recebido.
A probabilidade é usada para associar, a cada fato possível, sua respectiva chance de
ocorrência. Por exemplo, se há 80% de possibilidade de chover então há 20% de possibilidade
de não chover; se você fosse se submeter a uma cirurgia que tem apenas 30% de chance de
sucesso ponderaria melhor sobre sua decisão.
Às vezes, podemos prever fenômenos, como é o caso de você jogar várias vezes uma
moeda de determinado lugar e medir a velocidade da queda, onde os resultados serão sempre
iguais. Esse fenômeno é previsível, pois obedece determinada lei da Física e é chamado
de determinístico.
Outras vezes, o fenômeno é imprevisível, não determinístico, mas apresenta um padrão
que vem sendo observado a longo prazo. Por exemplo, você não sabe qual será o primeiro
camundongo a girar a roleta dentro da gaiola de experimento, mas sabe que, nas várias vezes
que você observou o comportamento dos animais, foi o camundongo de número 2 o primeiro
a fazê-lo; você não sabe se o terceiro filho de um casal que tem olhos verdes e castanhos terá
olhos castanhos, mas sabe que os dois primeiros filhos tiveram olhos castanhos.
Desse modo, podemos definir probabilidade
como sendo a chance de um evento ocorrer.
Atividade 1
1
Defina probabilidade.
Aula 10
Bioestatística
197
2
Cite três situações cotidianas em que esteja implícito o conceito de probabilidade.
Mas antes de aprofundarmos os nossos estudos sobre probabilidade, vamos conhecer
como a Teoria da Probabilidade se originou?
Um pouco de história
O estudo da Teoria da Probabilidade começou em 1664, com a troca de correspondência
entre dois matemáticos franceses, Blaise Pascal e Pierre Fermant, que tinham sido procurados
por Antonie Gombaund, o Chevalier de Meré, homem de letras e membro da corte de Luis XIV.
a
b
Figura 2 – (a) Blaise Pascal (1623-1662). (b) Pierre Fermant, 1601-1665
Fonte: <http://www.york.ac.uk/depts/maths/histstat/people/pascal.gif>;
<http://www.york.ac.uk/depts/maths/histstat/people/fermat.gif>.
Acesso em: 4 maio 2010.
198
Aula 10
Bioestatística
O questionamento de Chevalier de Meré era de como dividir o prêmio de um jogo
envolvendo várias partidas se, por alguma razão, o jogo fosse interrompido antes que algum
jogador tivesse vencido o número de partidas combinado anteriormente.
Nessa época, os dois matemáticos iniciaram seus estudos e chegaram, cada qual, a
uma conclusão diferente: Pascal se baseou nos valores esperados de duas ações que se
alternam (alternativas) e Fermant focou seus estudos no cálculo da probabilidade de um evento.
Entretanto, nenhum dos dois estudiosos publicou imediatamente seus resultados.
Desse modo, o Chevalier de Meré avaliou que o estudo das probabilidades não deveria
ser pesquisado a fundo e ainda afirmou que o tempo gasto nesse estudo poderia ser melhor
empregado para outros fins. Felizmente, esse fato não foi acatado por todos os estudiosos
da época.
Assim, em 1655, o astrônomo, físico e matemático holandês Christian Huygens (16291695) teve conhecimento do fato e resolveu iniciar seus estudos, e em 1657 publicou sua
solução. Daí em diante, vários foram os estudiosos que contribuíram com o estudo da
probabilidade, dentre eles, o matemático Jacques Bernoulli (1654-1705) e o matemático,
físico e astrônomo Pierre-Simom de Laplace (1749-1827), que publicou o trabalho intitulado
“Théorie Analytique des Probabilités” (1812), onde as teorias de probabilidade se tornaram
cientificamente justificáveis nas prática.
A aceitação das ideias sobre probabilidade pelo pensamento científico moderno foi muito
além do que os pensadores dos séculos XVII e XVIII, principalmente com o desenvolvimento
e aceitação da estatística na ciência e na indústria.
Teorias da
probabilidade
Para saber mais
sobre a história das
probabilidades, consulte
Crusius (2001).
O acaso
A palavra acaso é originária do latim a casu, e significa algo que surge ou acontece a
esmo, sem motivo ou explicação aparente.
Muitas das situações que presenciamos no nosso dia a dia são determinadas pelo acaso,
configurando situações que podem ser classificadas como sorte ou azar. Sair de casa apressado
e ver o ônibus partindo do ponto; não participar de um chat de dúvidas e este não ser realizado
devido à doença do professor; encontrar uma pessoa na rua com a qual você precisava conversar;
ser atendido pelo SUS antes que algo mais grave aconteça com a sua saúde; todos esses são
acontecimentos comuns a todos nós e, muitas vezes, determinados pelo acaso.
Aula 10
Bioestatística
199
Fonte: <http://1.bp.blogspot.com/_Mc6hSIUqSgg/Sm4WqMEAemI/AAAAAAAABiY/Ls3XvHYN68c/s400/Charge+do+Pater+-+A+Tribuna3.jpg>. Acesso em: 4 maio 2010.
Esses acontecimentos acima citados apresentam duas características em comum:
1)
Podem ou não acontecer (não sendo previsto com certeza).
2)
Qualquer um deles acontecerá um certo número de vezes (e não ocorrerá um outro número
de vezes) ao longo de um determinado período de tempo.
Essas duas características podem ser apresentadas no exemplo acima, no qual você pode
não participar de um chat de dúvidas e este não ser realizado devido à doença do professor
e você pode não participar de um chat de dúvidas e este ocorrer sem a sua participação
(característica 1). Também, esse fato pode ocorrer um determinado número de vezes e se
repetir durante um certo tempo, no caso de você não participar de vários chats marcados pelo
professor e ter a sorte dele adoecer em diversas ocasiões (característica 2).
Existem situações nas quais, embora não se saiba o que de fato irá acontecer, tem-se
uma lista de possíveis resultados. Como por exemplo:
1)
O sexo de uma criança: masculino ou feminino.
2)
O tipo sanguíneo de uma pessoa: A, B, AB e O.
3)
O resultado obtido pelo aluno numa disciplina: aprovado ou reprovado.
Essas situações são denominadas pelos matemáticos de ensaio probabilístico ou ensaio
aleatório, pois os resultados dependem do acaso. Isto é, embora se possa saber os tipos
de resposta existentes, toda vez que o ensaio for repetido, você não poderá saber, a priori,
qual o resultado.
200
Aula 10
Bioestatística
Um exemplo desse conceito foi abordado no lançamento de dados, onde as respostas
possíveis são os números de um a seis, todavia, é impossível você saber (a menos que exista
alguma irregularidade no jogo) qual o resultado (número) obtido ao se jogar o dado.
Outro exemplo desse conceito é quando se analisa a seguinte frase: “É provável que o meu
time ganhe a partida hoje?”. Pode-se esperar a ocorrência de três resultados para a partida:

O meu time ganhar.

Haver empate entre os dois times.

O meu time perder.
Repare que todos os resultados possíveis são conhecidos “a priori”. Todavia, por mais
que você torça pela vitória do seu time, é impossível saber se ele vai ganhar o jogo antes do
término da partida.
Eventos aleatórios
Evento é cada um dos resultados possíveis de uma situação acontecer. Se considerarmos
os exemplos anteriormente citados, seria um evento o fato do camundongo número 2 girar a
roleta dentro da gaiola de experimento; do terceiro filho do casal nascer de olhos castanhos;
de sair o número 3 em um dado.
Um exemplo clássico de evento é o lançamento de uma moeda: se a moeda for honesta,
o evento “cara” tem igual chance de ocorrer que o evento “coroa”, ou seja 50% de chance.
Esses são denominados de eventos aleatórios (do latim alea, sorte), pois cada um deles (cara
e coroa) tem a mesma chance de ocorrer em relação a seus respectivos eventos alternativos
(se der cara, o evento alternativo será coroa e se sair coroa, o evento alternativo será cara).
Moeda honesta
Moeda não viciada, onde
cara e coroa têm chances
iguais de acontecerem.
Fonte: Adaptado de <http://pion.sbfisica.org.br/pdc/var/eznewsletter_site/
storage/images/multimidia/charges/fisica_moderna_e_contemporanea/probabilidade
/24861-1-por-BR/probabilidade.jpg>. Acesso em: 4 maio 2010.
Aula 10
Bioestatística
201
Outro exemplo de evento aleatório é a formação de um determinado tipo de gameta. Um
indivíduo heterozigoto Aa tem a mesma probabilidade de formar gametas portadores do alelo
A (50%) e do alelo a (50%), certo?
Heterozigoto
Indivíduo que tem dois
alelos diferentes do
mesmo gene (Aa).
Alelo
Cada uma das formas
alternativas do
mesmo gene (A ou a).
202
Aula 10
Atividade 2
Veja a seguir as probabilidades de ocorrência de alguns eventos aleatórios e tente explicar
por que cada um deles ocorre com a probabilidade indicada.
1
A probabilidade de sortear uma carta de espadas de um baralho de 52 cartas é de 1/4.
2
A probabilidade de sortear um rei qualquer de um baralho de 52 cartas é de 1/13.
3
A probabilidade de sortear o rei de espadas de um baralho de 52 cartas é de 1/52.
Bioestatística
Eventos independentes
Q
uando a ocorrência de um evento não afeta a probabilidade de ocorrência de um outro,
fala-se em eventos independentes. Por exemplo, ao lançar várias moedas ao mesmo
tempo, ou uma mesma moeda várias vezes consecutivas, o resultado do primeiro
lançamento não interfere no resultado dos demais lançamentos. Por isso, cada resultado é
um evento independente do outro.
Da mesma maneira, o nascimento de uma criança com um determinado fenótipo é
um evento independente em relação ao nascimento de outros filhos do mesmo casal. Por
exemplo, imagine um casal que já teve dois filhos homens. Qual a probabilidade de que uma
terceira criança seja do sexo feminino? Uma vez que a formação de cada filho é um evento
independente, a chance de nascer uma menina, supondo que homens e mulheres nasçam com
a mesma frequência, é 1/2 ou 50%, como em qualquer nascimento.
Eventos mutuamente excludentes
Os eventos são classificados como mutuamente excludentes, quando o acontecimento
de um implica na impossibilidade do outro ocorrer. Nesse caso, a soma das probabilidades
dos eventos é igual a 1 ou 100%.
Um exemplo desse tipo de evento é dado pela probabilidade de uma mãe ter uma criança
do sexo masculino ou feminino. Repare que para este evento, só existem duas opções, que são
excludestes entre si com relação ao sexo: masculino ou feminino. Nesse caso, a probabilidade
da mãe ter uma criança do sexo masculino é 0,5 (50%). Consequentemente, a probabilidade
dessa criança ser do sexo feminino é o complemento para 1 (100%), ou seja, 0,5 (50%).
Cálculo da probabilidade
A probabilidade de um determinado evento A ocorrer, é calculada pela equação:
P r(A) =
número de eventos que apresentam A
número total de eventos
Para realizarmos o cálculo da probabilidade, vamos considerar o exemplo a seguir e
efetuar sua resolução passo a passo.
Aula 10
Bioestatística
203
Exemplo
Sabe-se que há 26 cartas pretas e 26 cartas vermelhas em um baralho comum de 52
cartas, não considerando os coringas. Qual a probabilidade de se tirar, ao acaso, uma carta
vermelha deste baralho?
Solução
Passo 1: Em primeiro lugar devemos identificar, no enunciado do problema, quais as
nossas variáveis:
– Número total de eventos: 52, pois este é o número total de cartas no baralho.
– Número de eventos que apresentam A: nesse caso, A é o conjunto de cartas vermelhas, e
há 26 cartas desse tipo em um baralho.
Passo 2: Identificados o número total de eventos e o número de eventos que representam A,
devemos aplicar a fórmula da probabilidade:
P r(A) =
número de eventos que apresentam A
26
1
=
= = 0, 5
número total de eventos
52
2
Passo 3: Agora é só concluir: A probabilidade de se tirar, ao acaso, uma carta vermelha deste
baralho é de 0,5. Muitas vezes apresentamos o valor da probabilidade em porcentagem. Nesse
caso, é só multiplicar o valor obtido por 100. Assim temos:
0,5 × 100= 50%.
Atividade 3
1
a)
204
Aula 10
Bioestatística
No lançamento de um dado, qual a probabilidade de:
Sair o número 6?
b)
Sair um número múltiplo de 3?
c)
Sair um número menor do que 3?
2
3
A probabilidade de um casal heterozigoto (Aa x Aa) para o gene da fenilcetonúria
(doença genética caracterizada pelo defeito ou ausência da enzima fenilalanina
hidroxilase ) ter um filho afetado (aa) é 1/4. Se o casal tem 3 filhos, qual a possibilidade
de um dos filhos ter a doença? Justifique sua resposta.
Se a probabilidade de um indivíduo ter sangue Rh– é 10%, qual é a possibilidade de
5 indivíduos que se apresentaram para exame de sangue serem todos Rh–?
Justifique sua resposta.
Aula 10
Bioestatística
205
Leis ou regras de probabilidade
Uma grande parte das perguntas relacionadas ao cálculo da probabilidade pode ser
respondida pela observação das suas Propriedades Elementares e a aplicação da Lei ou Regra
da Soma e da Lei ou Regra do Produto de probabilidade.
Propriedades Elementares
P1) A probabilidade de um evento impossível é nula (0%).
P2) A probabilidade de um evento certo é 1 (100%).
P3) A probabilidade de um evento qualquer é sempre um valor entre zero e um (entre 0% e
100%). Assim, é impossível se calcular uma probabilidade negativa ou maior que 1.
Regra da Soma ou regra do “ou”
Essa regra diz que a probabilidade de que ocorram eventos mutuamente excludentes
como, por exemplo, A ou B ou C ou D etc é a soma de suas respectivas probabilidades e o
total obtido será sempre igual a 1 (100%). Essa regra pode ser representada por:
P r(A ou B ou C ou D . . . .) = P r(A) + P r(B) + P r(C) + P r(D) + . . . .
Vamos ver um exemplo?
Exemplo
Qual a probabilidade de, em uma gestação, nascer um indivíduo do sexo masculino ou
do sexo feminino?
1
1
P r(masculino ou f eminino) = P r(masculino) + P r(f eminino) = + = 1
Solução
2 2
Assim, há 100% de probabilidade de nascer um indivíduo do sexo masculino ou do sexo
feminino.
Regra do Produto ou regra do “e”
Essa regra diz que a probabilidade de que ocorram, simultaneamente, os eventos E, F, G,
H etc. é o produto de suas respectivas probabilidades, se estes eventos forem independentes
entre si, e pode ser representado por:
P r(E, F, G, e H . . .) = P r(E) × P r(F ) × P r(G) × P r(H) . . .
Vamos ver um exemplo?
206
Aula 10
Bioestatística
Exemplo
As variáveis gênero (masculino e feminino) e grupo sanguíneo (A, B, AB e O) são
características independentes na espécie humana. Admitindo uma proporção de 1:1 em Natal, a
probabilidade de um natalense selecionado ao acaso ser do sexo feminino e ter tipo sanguíneo O é:
P r(sexo f eminino e grupo O) = P r(sexo f eminino) × P r(grupo O) =
Solução
=
1 1
× = 0, 125 ou 12, 5%
2 4
Pode-se concluir que há 12,5% de chance de um natalense ser do sexo masculino e ter
sangue tipo O.
Vamos vem uma aplicação das regras de probabilidade na genética?
Exercício resolvido 1
Em experimentos realizados por Mendel, observou-se que o cruzamento de ervilhas
amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) originaram ervilhas
amarelas heterozigotas (Aa). Se essas ervilhas fossem cruzadas entre si, seriam originadas
ervilhas amarelas e verdes, na proporção de 3:1. Suponha que Mendel pegou, ao acaso, três
ervilhas, resultantes do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade
de as três serem verdes?
Figura 3 – Gregor Johann Mendel
Resolução
De acordo com o enunciado do texto, se cruzarmos ervilhas amarelas AA com ervilhas verdes
(aa), temos 100% de ervilhas amarelas, pois ambas ervilhas produzirão gametas de um tipo só:
Aula 10
Bioestatística
207
as amarelas produzirão gametas A e as verdes a. A combinação desses gametas
origina apenas Aa, ou seja, ervilhas amarelas.
Agora, se cruzarmos as ervilhas amarelas originadas desse cruzamento (Aa)
entre si, teremos a produção de dois tipos de gametas para cada uma: gametas
A e a. E se realizarmos sua combinação, teremos:
A
a
A
AA
Ervilha amarela
Aa
Ervilha amarela
a
Aa
Ervilha amarela
aa
Ervilha verde
Proporção 3:1 = Três ervilhas
amarelas para uma ervilha verde
Assim, por esse cruzamento, podemos concluir que a probabilidade de uma
ervilha resultante do cruzamento de Aa × Aa de ser verde (aa) é uma em quatro,
ou seja 1/4 ou 25%.
Agora podemos calcular a probabilidade das três ervilhas serem verdes, aplicando
a regra do produto:
Pr(três ervilhas verdes) = Pr(ervilha verde)×Pr(ervilha
1 1 1
1 verde)×Pr(ervilha
P r(três ervilhas verdes) = × × =
ou 1, 56%
verde)
4 4 4
64
Atividade 4
Um casal tem dois filhos. Qual a probabilidade de:
1
208
Aula 10
Bioestatística
O primogênito ser homem.
2
Os dois filhos serem homens.
3
Pelo menos um dos filhos serem homem.
Resumo
Nesta aula, você conheceu um pouco da história da probabilidade e compreendeu
o seu conceito. Entendeu o conceito de acaso e estudou os principais tipos
de eventos: aleatórios, independentes e mutuamente excludentes. Aprendeu
como calcular a probabilidade utilizando a sua fórmula e visualizando exercícios
resolvidos. Conheceu as leis de probabilidade, ou seja, regra da soma ou regra do
ou e a regra do produto ou regra do e, bem como suas propriedades elementares.
Aprendeu como aplicar essas leis tendo como exemplo situações cotidianas e
exercícios de genética.
Aula 10
Bioestatística
209
Autoavaliação
Agora que você já compreendeu os principais conceitos e regras que compõem a Teoria
da Probabilidade, teste seus conhecimentos adquiridos, resolvendo o exercício abaixo.
Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser do tipo
A é 30% e ser do tipo B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o
fator Rh independe do tipo sanguíneo. Nessas condições, qual a probabilidade de uma pessoa
tomada ao acaso da população ser:
1
2
210
Aula 10
Bioestatística
O, Rh+
AB, Rh–
Referências
CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed.
Artmed, 2003.
CRUSIUS, C. A. A razão como faculdade calculadora: a aposta de Pascal. Porto Alegre: Ed.
Universidade/UFRGS, 2001.
HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário
Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p.
LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em excel.
Rio de Janeiro: Reichamann e Afonso Editores, 1999.
VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980.
______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
Anotações
Aula 10
Bioestatística
211
Anotações
212
Aula 10
Bioestatística
Anotações
Aula 10
Bioestatística
213
Anotações
214
Aula 10
Bioestatística
Esta edição foi produzida em mês de 2012 no Rio Grande do Norte, pela Secretaria de
Educação a Distância da Universidade Federal do Rio Grande do Norte (SEDIS/UFRN).
Utilizando-se Helvetica Lt Std Condensed para corpo do texto e Helvetica Lt Std Condensed
Black títulos e subtítulos sobre papel offset 90 g/m2.
Impresso na nome da gráfica
Foram impressos 1.000 exemplares desta edição.
SEDIS Secretaria de Educação a Distância – UFRN | Campus Universitário
Praça Cívica | Natal/RN | CEP 59.078-970 | [email protected] | www.sedis.ufrn.br
Download

Bioestatística - Sedis