Biologia Bioestatística Lilian Giotto Zaros Henrique Rocha de Medeiros Bioestatística Lilian Giotto Zaros Henrique Rocha de Medeiros Biologia 2ª Edição Bioestatística Natal – RN, 2011 Governo Federal Presidenta da República Dilma Vana Rousseff Vice-Presidente da República Michel Miguel Elias Temer Lulia Ministro da Educação Fernando Haddad Universidade Federal do Rio Grande do Norte – UFRN Reitora Ângela Maria Paiva Cruz Vice-Reitora Maria de Fátima Freire Melo Ximenes Secretaria de Educação a Distância (SEDIS) Secretária de Educação a Distância Maria Carmem Freire Diógenes Rêgo Secretária Adjunta de Educação a Distância Eugênia Maria Dantas FICHA TÉCNICA EDITORAÇÃO DE MATERIAIS Criação e edição de imagens Adauto Harley Anderson Gomes do Nascimento Carolina Costa de Oliveira Dickson de Oliveira Tavares Leonardo dos Santos Feitoza Roberto Luiz Batista de Lima Rommel Figueiredo COORDENAÇÃO DE PRODUÇÃO DE MATERIAIS DIDÁTICOS Marcos Aurélio Felipe GESTÃO DE PRODUÇÃO DE MATERIAIS Luciana Melo de Lacerda Rosilene Alves de Paiva PROJETO GRÁFICO Ivana Lima Diagramação Ana Paula Resende Carolina Aires Mayer Davi Jose di Giacomo Koshiyama Elizabeth da Silva Ferreira Ivana Lima José Antonio Bezerra Junior Rafael Marques Garcia REVISÃO DE MATERIAIS Revisão de Estrutura e Linguagem Eugenio Tavares Borges Janio Gustavo Barbosa Jeremias Alves de Araújo José Correia Torres Neto Kaline Sampaio de Araújo Luciane Almeida Mascarenhas de Andrade Thalyta Mabel Nobre Barbosa Módulo matemático Joacy Guilherme de A. F. Filho Revisão de Língua Portuguesa Camila Maria Gomes Cristinara Ferreira dos Santos Emanuelle Pereira de Lima Diniz Janaina Tomaz Capistrano Priscila Xavier de Macedo Rhena Raize Peixoto de Lima IMAGENS UTILIZADAS Acervo da UFRN www.depositphotos.com www.morguefile.com www.sxc.hu Encyclopædia Britannica, Inc. Revisão das Normas da ABNT Verônica Pinheiro da Silva Catalogação da publicação na fonte. Bibliotecária Verônica Pinheiro da Silva. Zaros, Lilian Giotto. Bioestatística / Lilian Giotto Zaros e Henrique Rocha de Medeiros. – Natal: EDUFRN, 2011. 214 p.: il. ISBN 978-85-7273-833-0 Conteúdo: Aula 1 – O que é bioestatística. Aula 2 – Como transformar dados em informações. Aula 3 - Descrevendo Sistemas. Aula 4 – Elaborando hipóteses. Aula 5 – Testando hipóteses. Aula 6 – Análise de variância. Aula 7 – Correlacionando informações. Aula 8 – Análise de regressão. Aula 9 – Entendendo os números índices e suas aplicações. Aula 10 – Probabilidade: conceitos e aplicações. Disciplina ofertada ao curso de Biologia a distância da UFRN. 1. Bioestatística. 2. Hipóteses. 3. Probabilidade. I. Medeiros, Henrique Rocha de. II. Título. CDU 311 Z38b © Copyright 2005. Todos os direitos reservados a Editora da Universidade Federal do Rio Grande do Norte – EDUFRN. Nenhuma parte deste material pode ser utilizada ou reproduzida sem a autorização expressa do Ministério da Educacão – MEC Sumário Apresentação Institucional 5 Aula 1 O que é Bioestatística 7 Aula 2 Como transformar dados em informações 25 Aula 3 Descrevendo Sistemas 43 Aula 4 Elaborando hipóteses 65 Aula 5 Testando hipóteses 83 Aula 6 Análise de variância 101 Aula 7 Correlacionando informações 129 Aula 8 Análise de regressão 147 Aula 9 Entendendo os números índices e suas aplicações 173 Aula 10 Probabilidade:conceitos e aplicações 193 Apresentação Institucional A Secretaria de Educação a Distância – SEDIS da Universidade Federal do Rio Grande do Norte – UFRN, desde 2005, vem atuando como fomentadora, no âmbito local, das Políticas Nacionais de Educação a Distância em parceira com a Secretaria de Educação a Distância – SEED, o Ministério da Educação – MEC e a Universidade Aberta do Brasil – UAB/CAPES. Duas linhas de atuação têm caracterizado o esforço em EaD desta instituição: a primeira está voltada para a Formação Continuada de Professores do Ensino Básico, sendo implementados cursos de licenciatura e pós-graduação lato e stricto sensu; a segunda volta-se para a Formação de Gestores Públicos, através da oferta de bacharelados e especializações em Administração Pública e Administração Pública Municipal. Para dar suporte à oferta dos cursos de EaD, a Sedis tem disponibilizado um conjunto de meios didáticos e pedagógicos, dentre os quais se destacam os materiais impressos que são elaborados por disciplinas, utilizando linguagem e projeto gráfico para atender às necessidades de um aluno que aprende a distância. O conteúdo é elaborado por profissionais qualificados e que têm experiência relevante na área, com o apoio de uma equipe multidisciplinar. O material impresso é a referência primária para o aluno, sendo indicadas outras mídias, como videoaulas, livros, textos, filmes, videoconferências, materiais digitais e interativos e webconferências, que possibilitam ampliar os conteúdos e a interação entre os sujeitos do processo de aprendizagem. Assim, a UFRN através da SEDIS se integra o grupo de instituições que assumiram o desafio de contribuir com a formação desse “capital” humano e incorporou a EaD como modalidade capaz de superar as barreiras espaciais e políticas que tornaram cada vez mais seleto o acesso à graduação e à pós-graduação no Brasil. No Rio Grande do Norte, a UFRN está presente em polos presenciais de apoio localizados nas mais diferentes regiões, ofertando cursos de graduação, aperfeiçoamento, especialização e mestrado, interiorizando e tornando o Ensino Superior uma realidade que contribui para diminuir as diferenças regionais e o conhecimento uma possibilidade concreta para o desenvolvimento local. Nesse sentido, este material que você recebe é resultado de um investimento intelectual e econômico assumido por diversas instituições que se comprometeram com a Educação e com a reversão da seletividade do espaço quanto ao acesso e ao consumo do saber E REFLETE O COMPROMISSO DA SEDIS/UFRN COM A EDUCAÇÃO A DISTÂNCIA como modalidade estratégica para a melhoria dos indicadores educacionais no RN e no Brasil. SECRETARIA DE EDUCAÇÃO A DISTÂNCIA SEDIS/UFRN 5 O que é Bioestatística Aula 1 Apresentação N esta primeira aula, apresentaremos um breve histórico da Estatística, suas subdivisões e como podemos utilizá-la no ramo das Ciências Biológicas. Num segundo momento, abordaremos o conceito de Bioestatística e suas aplicações, partindo para a retomada de alguns conceitos vistos na disciplina de Matemática e Realidade. Essa retomada é essencial não somente para a compreensão das aulas seguintes, mas também da disciplina como um todo. Para compreender os assuntos que serão abordados nesta aula, é necessário que você leia atentamente os conceitos, que sempre serão acompanhados de exemplos aplicados às Ciências Biológicas. Ao final de cada tópico principal haverá uma série de exercícios propostos para você resolver, além de exercícios já resolvidos. No final da aula, haverá uma autoavaliação para que você avalie a sua aprendizagem. Tenha sempre seu caderno em mãos para que você anote suas dúvidas e as encaminhe para nós o mais rápido possível. Objetivos 1 2 3 4 5 Conhecer a história da Estatística e identificar as situações onde ela pode ser aplicada. Conhecer e distinguir as diversas fases do método estatístico. Definir o que é Bioestatística. Compreender os conceitos fundamentais para o entendimento e aplicação da Bioestatística. Distinguir as técnicas de amostragem para a escolha de elementos que irão compor uma amostra. Aula 1 Bioestatística 9 O que é Estatística? Para alguns, responder a essa pergunta é muito fácil, mas para outros, que nunca ouviram falar em estatística, pode parecer algo impossível de entendimento. Mas, mesmo sem saber, você já deve ter utilizado a estatística no seu cotidiano. Vamos conferir? Com a chegada da Copa do Mundo de 2010, muitas lojas irão fazer promoções de televisores. Você, consumidor, quer comprar uma TV e para saber qual delas tem o melhor preço, inicia sua pesquisa de loja em loja, anotando os valores. Depois, em casa, compara os preços, seleciona aquele mais em conta e se dirige até a loja para efetuar a sua compra. Nessa situação, a estatística esteve presente quando você coletou os dados, extraiu as informações a partir da sua pesquisa e tomou as decisões baseadas na sua coleta de dados. Mas, além do cotidiano, a Estatística pode estar presente em qualquer disciplina de qualquer curso, inclusive do curso de Ciências Biológicas. Mas você deve estar se perguntando: “Em quais disciplinas e como?” B em, se o professor da disciplina de Biodiversidade pedir para que você faça um levantamento de quais as espécies animais habitantes da caatinga estão ameaçadas de extinção, você estará utilizando um dos princípios da Estatística, ou melhor, do método estatístico (que veremos a seguir), que é o da coleta de dados. Mas se ele for mais além, e pedir para que você ordene quais os animais mais ameaçados de extinção, aí você terá que fazer um levantamento mais aprofundado, checar outras fontes, organizar e interpretar os dados e apresentar os resultados ao professor. Nesse momento você ainda estará utilizando a estatística. Percebeu como a Estatística toma parte do nosso cotidiano e das disciplinas do Curso de Ciências Biológicas, por exemplo? A Estatística tem se mostrado um instrumento extremamente útil na organização e interpretação dos dados, auxiliando na tomada de decisões, além de proporcionar uma avaliação adequada de uma determinada situação, seja ela de origem biológica ou não. 10 Aula 1 Bioestatística O papel da Estatística quando estabelecida como ciência Pois bem, inicialmente a Estatística se preocupava em enumerar coisas e pessoas para a avaliação das riquezas e cadastramento das propriedades de uma determinada cidade. Isso aconteceu há milhares de anos atrás e atualmente acontece no Brasil a cada 10 anos. Você já deve ter recebido em sua casa um funcionário do Instituto Brasileiro de Geografia e Estatística (IBGE), munido de um questionário para avaliar sua condição de vida. Pois é esse questionário, chamado de CENSO, que nos permite adquirir informações sobre cada família brasileira, e já era realizado em civilizações muito antigas como a do Império Romano, da China e do antigo Egito em 1000 a.C. Fonte: <http://matematiques.sites.uol.com.br/pereirafreitas/1.1.2metodoestati stico.htm>. Acesso em: 25 fev. 2010. Hoje, com o passar dos anos, podemos constatar que o papel da Estatística vai além de organizar e descrever fatos e/ou gerar informações analisando um conjunto de dados coletados, mas também auxiliar no: 1) Planejamento, auxiliando na escolha das situações experimentais e na determinação da quantidade de indivíduos a serem examinados. 2) Na análise dos dados, indicando técnicas para resumir e apresentar as informações, bem como para comparar as situações experimentais ou não. 3) Na elaboração das conclusões, utilizando os vários métodos estatísticos que permitem generalizar a partir dos resultados obtidos. Estatística é a ciência que tem como objetivo orientar a coleta, o resumo, a apresentação, a análise e a interpretação dos dados coletados. E para isso, ela se apóia na utilização do método estatístico. O método estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Aula 1 Bioestatística 11 O método estatístico apresenta as seguintes fases: Definição do problema: Podemos ilustrar essa primeira fase do método estatístico com a pergunta: O que pesquisar? Nessa etapa você deve conhecer o problema a ser pesquisado, fazer as perguntas às quais quer que sejam respondidas com a sua pesquisa. Por exemplo: A altura média dos alunos de cada semestre do Curso de Ciências Biológicas. Planejamento da pesquisa: Essa segunda etapa pode ser traduzida com a pergunta: Como pesquisar? Assim, é essencial que você tenha clareza de como a pesquisa será feita. Deve-se também definir se você utilizará a população ou apenas uma amostra dessa população, que estudaremos logo a seguir. Utilizando o nosso exemplo acima, devemos planejar se vamos estudar a altura de todos os alunos do Curso de Ciências Biológicas ou somente dos alunos do primeiro semestre, ou somente a altura dos homens. Coleta dos dados: Podemos perguntar: O que coletar? Nessa etapa você deve obter as informações de acordo com o que foi planejado na etapa anterior. Se o objetivo é saber a altura dos alunos de cada semestre do Curso de Ciências Biológicas, você deve iniciar as medições de cada um dos alunos, anotando os valores obtidos, como exemplificados na tabela 1. Tabela 1 – Altura, em metros, dos alunos do 1º, 2º e 3º semestres do Curso de Ciências Biológicas 12 Aula 1 Bioestatística Altura dos alunos do semestre 1 (m) Altura dos alunos do semestre 2 (m) Altura dos alunos do semestre 3 (m) 1,54 1,67 1,65 1,74 1,87 1,54 1,82 1,88 1,64 1,9 1,89 1,56 1,54 1,78 1,75 3,54 1,89 1,56 1,75 1,9 1,6 1,87 1,76 1,64 1,96 1,94 1,65 1,72 1,95 1,6 Crítica dos dados: Essa fase é essencial para saber como anda a sua pesquisa. Pode-se lançar a seguinte pergunta: Os dados estão coerentes? Você deve observar criticamente os dados coletados, para que, se detectado algum erro, este não seja repetido nas coletas futuras. Se você está medindo as alturas dos alunos de cada semestre do Curso de Ciências Biológicas e encontra uma medida de 3,54 m, conforme apresentado em destaque na Tabela 1, pode ter certeza que nessa hora, você cometeu algum erro. Apresentação: Nessa etapa você deverá apresentar os dados coletados após eles serem organizados. Uma vez os dados coletados, eles devem ser apresentados, seja através de tabelas ou gráficos, conforme apresentado no Gráfico 1, ou por meio de um texto escrito. Altura média (m) 2 1,9 1,8 1,7 1,6 1,5 1,4 Alunos do semestre 1 Alunos do semestre 2 Alunos do semestre 3 Gráfico 1 – Altura média (m) dos alunos do primeiro, segundo e terceiro semestre do Curso de Ciências Biológicas Análise e interpretação dos dados: Essa é a etapa final do método estatístico, mas nem por isso, a menos importante. Nessa fase você deve descrever e analisar os dados pesquisados, e chegar a uma conclusão, ou seja, responder a sua pergunta inicial. No caso do nosso exemplo, constatar qual a altura média dos alunos de cada semestre do Curso de Ciências Biológicas. As fases do método estatístico, que incluem desde a definição do problema até a apresentação dos dados, denominam-se Estatística Descritiva, e a análise e interpretação dos dados constitui a Estatística Inferencial, que ajuda a concluir sobre um conjunto maior de dados (populações) quando apenas parte desse conjunto (as amostras) foi estudada. Aula 1 Bioestatística 13 Atividade 1 Com base no que você viu até agora sobre o método estatístico, faça uma pesquisa na sua casa ou comunidade sobre algo que você gostaria de saber (número de pessoas da comunidade, número de pessoas com olhos claros, tipo de árvore da sua região, dentre outros) e, à medida que você for organizando sua pesquisa, explicite quais as fases do método estatístico que você utilizou. 14 Aula 1 Bioestatística Mas você deve estar se perguntando: “E a Bioestatística?” Agora que você já sabe o que é Estatística, você se arriscaria a elaborar uma definição para Bioestatística? É simples! Considera-se Bioestatística a aplicação dos métodos estatísticos para solucionar problemas biológicos. Pode parecer difícil para um aluno que não tem gosto pela Matemática aprender Bioestatística. Mas ele deve adquirir algum conhecimento sobre essa disciplina, pois só assim poderá ter um ponto de vista objetivo sobre as técnicas do método científico empregado nas suas pesquisas e saberá avaliar o grau de importância da informação fornecida por essas técnicas. Aprender Bioestatística também pode proporcionar que você se familiarize com alguns conceitos mais utilizados na área. Alguns termos do vocabulário comum têm significado técnico e específico quando usados em Bioestatística. E é importante conhecê-los. Enfim, sem despender muito tempo com cálculos e demonstrações, pretendemos que você adquira os conhecimentos suficientes para tornar-se um usuário competente das técnicas estatísticas mais comuns que podem ser aplicadas nas Ciências Biológicas. Atividade 2 1 2 Com base no que foi apresentado até aqui, escreva o que você entendeu sobre o que é Bioestatística e qual a sua importância. Procure, no seu cotidiano, duas utilizações da Estatística. Aula 1 Bioestatística 15 Retomando alguns conceitos fundamentais Alguns conceitos fundamentais para o entendimento e aplicação da Bioestatística você já viu na disciplina de Matemática e Realidade (Aula 2 – A Estatística: do senso comum ao conhecimento científico. Vamos retomá-los? Unidade experimental ou Unidade de observação É a menor unidade a fornecer uma informação. Podem ser pessoas, animais, plantas, objetos. São aqueles indivíduos submetidos a uma situação de experimento controlado, como por exemplo, ratos de laboratório colocados em um labirinto para estudar o comportamento antes e após a administração de uma droga. População É o conjunto de “todos” os elementos (pessoas, animais, plantas, objetos) que apresentam, pelo menos, uma característica comum e que pode ser observada, como por exemplo, a população de árvores de mandacaru do sertão do Rio Grande do Norte. Amostra É qualquer parte retirada de uma população estatística, ou seja, é qualquer subconjunto de uma população. Árvores de mandacaru do município de Currais Novos (RN). Dados São as informações numéricas ou não obtidas de uma unidade experimental ou de observação. Quando se afirma que as árvores de mandacaru têm 21 espinhos, os dados são “21 espinhos”. Variável É alguma característica que pode ser observada (contada ou medida) em uma população ou em uma amostra. O número de espinhos do mandacaru, a idade de uma pessoa e seus 16 Aula 1 Bioestatística hábitos quanto ao fumo, a estatura de um jogador de basquete, a cor da pelagem dos animais, o tipo de folha de uma planta constituem exemplos de variáveis. Entretanto, as variáveis podem ser classificadas em quantitativas e qualitativas: 1) Variáveis quantitativas: são aquelas cujos dados são valores numéricos, como por exemplo, a estatura das pessoas, o número de sementes de uma vagem, o nível de colesterol no sangue, o número de espinhos do mandacaru. As variáveis quantitativas podem ainda ser: a) Variáveis quantitativas discretas: são aquelas em que os dados podem apresentar somente determinados valores, no geral, números inteiros, como por exemplo, o número de filhos de um casal, o número de patas de um cavalo e o número de pétalas das flores. É impossível dizer que um casal tem 2,3 filhos. b) Variáveis quantitativas contínuas: são aquelas em que os dados podem apresentar qualquer valor dentro de um intervalo de variação possível, como por exemplo, o peso de uma pessoa (56,3 kg) e a altura de uma árvore (1,5 m). 2) Variáveis qualitativas: são aquelas que fornecem dados de natureza não numérica, ou seja, fornecem qualidade à variável, como por exemplo, a cor da semente das ervilhas, a raça ou o sexo do animal. As variáveis qualitativas podem ser: a) Variáveis qualitativas nominais: os níveis de respostas não admitem nenhuma ordem, diferenciando uma categoria da outra, apenas pelo nome, por exemplo, o sexo dos animais, ou é fêmea ou macho. b) Variáveis qualitativas ordinais: os níveis de respostas admitem ordem. Não é só possível identificar diferentes categorias, mas também reconhecer graus de intensidade entre elas, possibilitando a sua ordenação. A cor da flor do mandacaru, que pode ser de branca à vermelha; o nível de intensidade de dor, que pode ser fraca, média, forte e muito forte. Atividade 3 1 a) Explique com suas palavras o que você entendeu por: População: Aula 1 Bioestatística 17 b) Amostra: c) Variável: 2 18 Aula 1 Classifique as variáveis abaixo: a) Cor do cabelo: b) Número de patas de um coelho: c) Número de células brancas no sangue: d) Tipo sanguíneo A, B, AB e O: e) Tipo de folha de uma árvore: f) Número de colônias de E. coli existente na água mineral: Bioestatística Utilizando as amostras de uma população O s experimentos são realizados com amostras de uma população e não com toda a população e podemos apresentar duas razões para isso: A primeira, porque as populações finitas só podem ser estudadas através de amostras, como por exemplo, um conjunto de alunos de uma escola em determinando ano, e a segunda, porque essas populações são muito grandes. Imagine sabermos o tipo sanguíneo mais frequente dos brasileiros? Levaríamos muito tempo e teríamos muito trabalho para realizarmos esses testes. Fonte: <martabolshaw.blogspot.com/2008_03_01_archive.html>. Acesso em: 25 fev. 2010. E se pegássemos apenas uma amostra dessa população? O estudo cuidadoso de uma amostra tem mais valor científico do que o estudo de toda a população. Por exemplo, para estudar o efeito do flúor sobre a prevenção da cárie em crianças, é melhor submeter uma amostra de crianças a exames periódicos minuciosos, do que examinar rapidamente todas as crianças antes e determinado tempo após o uso do flúor. Dessa maneira não seria mais fácil, e ao mesmo tempo constituiria de uma metodologia correta? Aula 1 Bioestatística 19 Como fazer para escolher a amostra correta? Quando trabalhamos com uma amostra da população, utilizamos as técnicas de amostragem, isto é, escolhemos o procedimento que vamos adotar para escolher os elementos que irão compor a amostra. Amostra casual simples É composta por elementos retirados ao acaso da população. Todo elemento da população tem igual probabilidade de ser escolhido para compor a amostra. Vamos ver como? Vamos supor que você esteja no laboratório de biologia vegetal e quer realizar um experimento para avaliar os efeitos de diferentes quantidades de cálcio (1mg, 3 mg e 5 mg) no crescimento da planta. Para a realização desse experimento temos 15 vasos de plantas, nas mesmas condições de umidade, luz, temperatura, altura da planta e estado nutricional. A pergunta é: Quais vasos escolher para receber 1mg, 3 mg e 5mg de cálcio? Nesse caso, fazemos um sorteio dos vasos, para que todos tenham a mesma chance de serem escolhidos para receber diferentes quantidades de cálcio. 20 Aula 1 Bioestatística Amostra sistemática Os elementos são escolhidos por um sistema. Se no exemplo acima, você escolhesse somente os vasos listrados de preto, estaria organizando uma amostragem sistemática. Amostra estratificada É composta por todos os elementos originados de todos os estratos da população. Por exemplo: A população de Natal (RN) é composta por crianças, jovens, adultos e idosos. Uma amostra estratificada tem que ter uma representação na mesma proporção das quatro categorias acima citadas, ou seja, 10 crianças, 10 jovens, 10 adultos e 10 idosos. Amostra de conveniência É formada por elementos que o pesquisador reuniu somente porque dispunha deles. Se você utilizar todos os vasos de plantas citados no primeiro exemplo, independente de um critério, esta amostra constituirá numa amostra de conveniência. Entretanto, você deve ter muito cuidado ao utilizar esse tipo de amostra, pois os dados podem ser tendenciosos, não revelando a realidade da situação. Atividade 4 Responda às questões abaixo de acordo com o que você entendeu sobre amostras e seus tipos. 1 2 Um pesquisador tem dez gaiolas. Cada uma delas contém seis ratos. Como esse pesquisador pode selecionar dez ratos para compor sua amostra? Dada uma população de quarenta cajueiros, descreva uma forma de obter uma amostra casual simples composta por seis cajueiros. Aula 1 Bioestatística 21 3 Organize uma lista com dez nomes de pessoas em ordem alfabética. Depois descreva uma forma de obter uma amostra sistemática de cinco nomes. Resumo Nesta primeira aula, você viu um breve histórico da Estatística e como podemos aplicá-la nas Ciências Biológicas. Estudou que, com o passar dos anos, o papel da Estatística se modificou, indo além de organizar e descrever fatos e/ou gerar informações. Você pode perceber que ela vem auxiliando na escolha das situações experimentais, na determinação da quantidade de indivíduos a serem examinados, na análise dos dados, indicando técnicas para resumir e apresentar as informações e na elaboração das conclusões. Você aprendeu a definição de método estatístico e todas as suas fases, desde a definição do problema, passando pelo planejamento, coleta e crítica dos dados, até a apresentação, análise e interpretação dos dados. Estudou também a Bioestatística, ou seja, a aplicação da Estatística nas Ciências Biológicas, e retomou alguns conceitos essenciais para o seu entendimento e aplicação, como a definição de população, amostra e variável. Por fim, viu que as técnicas de amostragem constituem um conjunto de procedimentos que vamos adotar para escolher os elementos que irão compor a amostra que queremos analisar. Autoavaliação Nesta aula, você deve ter percebido a importância da Estatística e da aplicação dos métodos estatísticos para solucionar problemas biológicos. Feito isto, verifique se você consegue responder, de maneira resumida, às seguintes perguntas: 22 Aula 1 Bioestatística 1 Qual a finalidade e as fases do método estatístico? 2 Conceitue população e amostra, exemplificando. Se você conseguiu respondê-las, suas respostas certamente contêm os elementos básicos que você deverá ter apreendido deste conteúdo. Caso contrário, retome os textos e resolva as questões até que tais conceitos se estabeleçam para você como um conhecimento bem estruturado. Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA – IBGE. Disponível em: <www.ibge. gov.br>. Acesso em: 25 fev. 2010. LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso Editores, 1999. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Campus, 1980. Aula 1 Bioestatística 23 Anotações 24 Aula 1 Bioestatística Como transformar dados em informações Aula 2 Apresentação Nesta aula, estudaremos o conceito de dados e banco de dados. Veremos como criar um banco de dados e, posteriormente, a transformar os dados em informações. Inicialmente faremos uma retomada dos principais conceitos vistos na Aula 1 – O que é Bioestatística – para depois iniciarmos a apresentação dos novos conceitos sobre os dados. Conceituado dados e banco de dados, estudaremos as diferenças entre dados e informações e aprenderemos a planejar uma coleta de dados. Por fim, analisaremos os dados coletados para que eles sejam apresentados em forma de tabelas, figuras ou gráficos, de acordo com o objetivo da pesquisa. Tenha em mãos o seu material da Disciplina de Matemática e Realidade, pois faremos a revisão utilizando as Aulas 3 (A natureza dos dados estatísticos e sua organização) e 4 (Gráficos estatísticos: uma síntese dos dados). Bom estudo! Objetivos 1 Conceituar dados e banco de dados. 2 Distinguir a diferença entre dados e informações. 3 Estabelecer critérios para fazer uma coleta de dados. 4 Analisar os dados coletados. Aula 2 Bioestatística 27 Retomando alguns conceitos da Aula 1 Unidade Experimetal É a menor unidade a fornecer uma informação. Podem ser pessoas, animais, plantas, objetos. Variável É alguma característica que pode ser observada (contada ou medida) em uma população ou em uma amostra. Antes de iniciarmos a nossa aula, é conveniente você relembrar o que é uma unidade experimental, uma variável e como esta pode ser classificada (Aula 1– O que é Bioestatística). Vamos definir o que são os dados? Dados são definidos como informações numéricas (contínuas ou discretas) ou qualitativas, obtidas de uma unidade experimental ou de observação. Classificação das variáveis No exemplo da Aula 1, quando se afirma que as árvores de mandacaru têm 21 espinhos, os dados são “21 espinhos”. Podemos também citar o exemplo do consumidor que vai a várias lojas para fazer uma pesquisa de preço dos televisores. Nesse caso, os dados são os preços das TVs que ele pesquisou. Quantitativa (discreta ou contínua) e qualitativa (nominal ou ordinal). Se compararmos os exemplos acima, podemos verificar que os dados podem ainda ser classificados em: Dados isolados, como é o caso dos 21 espinhos de mandacaru, obtidos somente de uma planta. Conjunto de dados, como é o caso dos diversos valores pesquisados pelo consumidor antes de comprar a televisão. Nesse caso, para que esses dados transmitam alguma informação, eles devem ser organizados. Como organizar os dados? Organizar o dado “21 espinhos de mandacaru” é relativamente fácil, sendo possível até anotar em um papel e guardar. Pronto, simples assim; desde que eu só queira estudar uma planta. Mas, qual a relevância deste dado (21 espinhos), se o objetivo do meu trabalho é determinar o número médio de espinhos nos mandacarus em um jardim que tem 20 plantas? Observe que, nesse caso, teremos que traçar uma estratégia de planejamento e organização de trabalho, de modo que se possa ao final: 1) 28 Aula 2 Bioestatística Ter contado ou estimado o número médio de espinhos de todas as plantas. 2) Conseguir lembrar ou guardar esses números, a fim de que, se outro indivíduo precisar recomeçar ou continuar o trabalho, possa repetir o mesmo e chegar a resultados semelhantes. Nesse momento, quando nos deparamos com uma quantidade maior de dados a serem coletados para posterior análise, precisamos organizá-los em um banco de dados. Atividade 1 1 2 Diferencie dados e banco de dados. Cite alguns exemplos de dados quantitativos e qualitativos que fazem parte do seu cotidiano. Aula 2 Bioestatística 29 Banco de dados Forma sistemática Forma organizada de dispor os dados, seguindo algum critério. Por exemplo: ao arrumar suas camisetas no armário você as ordena pela cor. Um banco de dados é um conjunto de registros (de números ou variáveis qualitativas) com uma estrutura regular que permite a reorganização e inserção desses registros de forma sistemática, com a finalidade de se gerar informações. Pode ser a agenda do seu telefone celular, a lista telefônica, o seu caderno de anotações e até um conjunto de dados organizados em uma planilha de Excel. Sim, isso mesmo! Mas desde que esses dados sejam organizados de forma sistemática. Veja o exemplo a seguir: Situação problema 1: Como posso fazer a identificação das principais espécies vegetais de uma área de caatinga na reserva florestal do meu município? Para resolver esse problema, devemos primeiro deixar bem claro: 1) Qual o objetivo da pesquisa? Identificar as principais espécies vegetais numa determinada área de reserva florestal do município onde moro. 2) O que fazer para alcançar esse objetivo? Identificar e contar o número de individuos presentes em cada uma das áreas de caatinga do município. Note que no objetivo estão “espécies vegetais”, isto inclui árvores, arbustos, cactáceas, gramíneas e leguminosas, independente de seu tamanho. Feito isso, você pode partir para o próximo passo: 3) Identificar e classificar as variáveis a serem estudadas: As variáveis são as espécies vegetais. Neste exemplo, trata-se de uma variável numérica e discreta, pois serão dados de contagem (Caso haja dúvidas, volte para a Aula 1 – O que é Bioestatística – e leia a definição de variáveis e seus tipos). Agora, como posso definir o método de amostragem já que é impossível contar todas as espécies vegetais da área? Para isso devemos fazer a seguinte pergunta: 4) Quantas amostras eu vou precisar colher, para fazer essa determinação? Existem vários métodos para fazer essa determinação, neste caso o mais recomendado é fazer uma revisão de literatura e procurar identificar o método mais adequado. Para este caso específico do exemplo, podemos definir que 30 Aula 2 Bioestatística serão avaliados 12 locais diferentes (L1, L2, L3, L4, L5, ... ,L12) e em cada um destes locais serão coletadas amostras de parcelas de 4m 2 (Figura 1). Em cada parcela, todas as plantas encontradas serão identificadas pelo nome comum e o científico e contadas. L1 L2 L3 L4 L5 L6 L7 L8 L9 L 10 L 11 L 12 Parcela de 4m 2 contendo todas as plantas a serem contadas Figura 1 – Área experimental e respectiva parcela de 4m 2 Na Figura 1, em cada subunidade será reservada uma parcela com 4m 2 de área para identificação e contagem do número de plantas de caatinga. Depois de coletados os dados, veja, na tabela a seguir, como ficou a sua organização. Tabela 1 – Levantamento fitossociológico de uma área de caatinga Ordem 1 Nome Popular Angico Espécie Piptadenia macrocarpa 2 Bambural Hyptis suaveolans (L.) Poit 3 Carrapicho Agulha Bidens sp Número de indivíduos 4 1375 37 4 Catingueira Caesalpinia pyramidalis Tul 2 5 Jitirana Merremia aegyptia L. 4 6 Malva Sida cordifolia L. 135 7 Manda Pulão Croton sp. 249 8 Marmeleiro Croton hemiargyreus 9 Mata Pasto Senna obtusifolia 13 8 10 Melosa Ruellia asperula 54 11 Milhã Brachiaria plantaginea 90 12 Mofumbo Combretum leprosum Mart. 13 13 Mororó Bauhinia cheilantha 2 14 Pau Branco Auxemma oncocalyx 4 15 Sabiá Mimosa caesalpiniifolia 1 16 Tiririca Cyperus sp 3 17 Urtiga Fleurya aestuans L. 11 Viu como é fácil? Agora, que tal extrair uma informação desse conjunto de dados? Identifique a espécie vegetal que apresenta o maior número de indivíduos (plantas) na área amostrada. Aula 2 Bioestatística 31 Atividade 2 Biometria Estudo das características biológicas quantitativas de uma população. Vamos tomar algumas medidas de biometria com seus conhecidos? Selecione um grupo de 25 indivíduos (podem ser pessoas da sua família, amigos, alunos, colegas de trabalho, da igreja e/ou de prática de esportes) e organize uma tabela com os seguintes dados: primeiro nome, idade, sexo, altura e peso de cada um deles, utilizando a tabela a seguir. Primeiro nome 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 32 Aula 2 Bioestatística Idade Sexo Altura Peso Diferenciando os conceitos: dados x informações Para discutir o conceito de informações, vamos partir da seguinte situação: Uma lista telefônica (seja de celular ou papel) é um conjunto de dados, organizados em função de alguma variável como, por exemplo, o nome e/ou endereço. Quando você precisa ligar para uma pessoa, cujo telefone não se lembra, o que você faz? Certamente, uma pesquisa/ análise no conjunto de dados da lista a fim de obter a informação desejada: o telefone da pessoa. Analisando essa situação, podemos definir informação como: o conhecimento obtido através da interpretação do significado dos dados (HOUAISS; VILLAR; FRANCO, 2001). Aliás, um dicionário da língua portuguesa nada mais é que um conjunto de dados, organizados de forma sistemática (normalmente em ordem alfabética), no qual podemos obter informações sobre a ortografia correta, significados, sinônimos e antônimos de palavras. Uma curiosidade... Se, na minha lista telefônica, eu não encontrar o número de telefone da pessoa que procuro ou se ele não for o correto, ainda assim isso é uma informação? Sim, só que nesse caso o seu banco de dados (agenda do telefone) não serviu para responder o seu questionamento. Por esse motivo, a informação obtida foi: ‘você não tem o número do telefone da pessoa’. Neste caso, se realmente desejar falar com ela, você vai precisar conseguir a informação correta em outra fonte de dados, que pode ser a lista telefônica, um colega, etc. Nessa situação é importante para lembrar que nem sempre o nosso conjunto de dados vai permitir obter a informação necessária e/ou correta. São vários os fatores que podem resultar nesse problema, dentre eles podemos citar problemas na amostragem (número insuficiente e/ou amostras tendenciosas que conduzem a conclusões inverídicas) e erros na coleta e/ou no processamento dos dados. Aula 2 Bioestatística 33 Atividade 3 Na tabela construída na Atividade 2, conte o número de pessoas do sexo masculino e do feminino que tem mais de 1,55m de altura e pesa mais que 68kg. Planejando a coleta de dados Lembra que agora a pouco vimos que há vários fatores que podem resultar no fato de um dado não fornecer nenhuma informação ou fornecer informações erradas? Esse fato foi exemplificado pelo caso de não acharmos o telefone procurado ou acharmos o telefone e este estar errado. Para que isso não ocorra, é importante planejar e traçar uma estratégia para realizar a coleta de dados. Essa estratégia de planejamento da Coleta de Dados é composta por: Observação dos ítens do método estatístico (mencionada na Aula 1): Nessa primeira fase você deve seguir as etapas do método estatístico, que são: (1) Identificação do problema e (2) Formulação de hipóteses. Conhecendo esses dois ítens, entre outras coisas, é possível: Identificar e classificar as variáveis adequadas e necessárias para a pesquisa. Isso é importante para que você possa organizar as tabelas em função do tipo de resposta esperada (ex.: sim ou não; presente ou ausente; espaço para número ou texto) para cada variável estudada. Traçar uma estratégia de ação que permita coletar, organizar e processar os dados de forma precisa e correta. Assim, pode-se evitar desperdício de tempo anotanto informações que não serão úteis e adequando as condições para coletar os dados e a necessidade do trabalho. Desse modo, pode-se evitar erros na anotação ou processamento dos dados. Um exemplo disso pôde ser observado na realização do censo agropecuário 2006, no qual os entrevistadores utilizaram “palmtops” para coletar os dados. Assim, diminui a chance de ocorrer erros durante o processamento dos questionários, por erros de leitura. Entretanto, os erros de coleta de dados podem acontecer na hora da anotação dos questionários por resposta imprecisa do entrevistado. 34 Aula 2 Bioestatística Além disto, é importante antes de sair para coletar os dados, verificar: Quantas pessoas serão necessárias para realizar o trabalho. Se existe material de coleta disponível (por exemplo: lápis e papel, frascos para armazenar amostras etc.) para todo o trabalho. Se é necessário realizar treinamento antes de iniciar o trabalho. Como as amostras coletadas podem ser armazenadas e transportadas. Se a amostra utilizada é representativa da população. Como será realizado o trabalho de coleta. Tendo como exemplo a Tabela 1, para fazer a coleta de dados de quais as espécies vegetais e o número de plantas em cada parcela, precisamos de: fita métrica para demarcar o perímetro da área amostral; lápis e papel para fazer anotar o nome comum (popular), o científico e a quantidade de indivíduos de cada espécie. Além disso, para esse trabalho específico é importante levar na equipe uma pessoa que conheça a flora regional e saiba identidicar as plantas. Em caso de dúvidas, é interessante também ter recipientes adequados para coletar amostras e levar para o biotério, a fim de fazer identificação correta da espécie. A Figura 2 reúne as principais etapas do planejamento da coleta de dados. PLANEJAMENTO DA COLETA DE DADOS Observação das fases do método estatístico Identificação do problema Formulação de hipóteses ETAPA OPERACIONAL • Determinar o número de pessoas da equipe • Realizar treinamento para a coleta dos dados • Providenciar material necessário • Organizar o trabaho no local da coleta • Verificar o modo de armazenamento e transporte do material coletado Figura 2 – Principais etapas do planejamento da coleta de dados Fonte: Henrique Rocha de Medeiros Aula 2 Bioestatística 35 Atividade 4 Elabore um plano para a coleta de dados idade, peso e altura de todas as pessoas da cidade onde você mora. 36 Aula 2 Bioestatística Análise gráfica de conjunto de dados Como dito anteriormente, um conjunto de dados só poderá ser transformado em informação se, com ele, for possível realizar alguma análise e interpretação dos seus resultados. Assim, podemos estabelecer alguns mecanismos de classificação para o conjunto de dados. Uma das ferramentas que possibilitam essa organização sistematizada são as planilhas (Figura 3), isto é, um conjunto de dados organizados em linhas e colunas, que podem ser preenchidas manualmente ou em computadores (planilhas eletrônicas). Figura 3 – Exemplo da planilha com linhas e colunas feita em computador. Os dados apresentados são referentes ao exemplo utilizado na aula Fonte: Henrique Rocha de Medeiros A opção de organizar os dados em linhas ou colunas vai depender da preferência definida antes de iniciar o trabalho de coleta. Todavia, esta deve sempre possibilitar a soma ou contagem de dados correspondentes à mesma variável seguindo uma única sequência de linhas ou colunas. Além disso, a sistematização das informações em planilhas facilita ainda a elaboração de tabelas (ver Tabela 1 – Levantamento fitossociológico de uma área de caatinga) e gráficos para análise dos dados. Há vários tipos de gráficos, e a escolha de qual utilizar vai depender do tipo de dados existentes, da necessidade e familiaridade com as informações. Utilizando os dados do nosso exemplo, escolhemos apresentá-los em forma de gráfico de barras, mais adequado para o tipo de dados que temos (Figura 4). Aula 2 Bioestatística 37 Levantamento fitossociológico de espécies encontradas numa área de Caatinga 1600 Número de indivíduos de cada espécie 1400 Bambural 1200 1000 Número de indivíduos 800 600 400 Manda Pulão 200 0 Carrapicho Agulha Angico Malva Jitirana Catingueira Mata Melosa Pasto Milhã Marmeleiro Pau Mororó Branco Sabiá Tiririca Urtiga Mofumbo Espécies encontradas Figura 4 – Identificação e quantificação das espécies vegetais encontradas numa área de caatinga na Região Nordeste do Brasil Fonte: Henrique Rocha de Medeiros Não existe um tipo mais correto de gráfico, todavia é importante que eles permitam a interpretação rápida e o entendimento dos resultados e, além disso, que respeitem as normas para a elaboração de gráficos e tabelas, como visto nas Aulas 3 e 4 da disciplina Matemática e Realidade. Exercício resolvido 1 Utilizando as informações da Tabela 1 (Levantamento fitossociológico de uma área de caatinga), indique quantas espécies foram identificadas e qual o total de plantas contadas. Resolução Nessa tabela, os dados referentes a cada espécie (observe que os nomes científicos não se repetem) estão organizados em linhas. Assim, observando-se a tabela pode-se aferir que foram identificadas 17 espécies. O número total de plantas contadas pode ser obtido somando-se o número de indivíduos de cada espécie (4 + 1375+ 37+...+1+3+11 = 2005). 38 Aula 2 Bioestatística Exercício resolvido 2 Ainda utilizando as informações da Tabela 1, identifique as três espécies que tem mais indivíduos na amostra estudada. Nesse caso, a mesma resposta pode ser obtida analisando a tabela ou construindo gráficos como pôde ser observado. Resolução Observando-se os resultados da tabela pode-se identificar que o bamburral, o manda pulão e a malva, com respectivamente 1.375, 249 e 135 indivíduos cada, são as espécies vegetais que têm o maior número de plantas na área estudada. Essa mesma resposta pode ser obtida, analisando-se a Figura 4: Identificação e quantificação das espécies vegetais encontradas numa área de caatinda na Região Nordeste do Brasil. Nesse caso, a opção pela tabela ou pelo gráfico se dará em função da necessidade de informação. Se o objetivo for apenas identificar as espécies com maior número de indivíduos, possivelmente o gráfico será a melhor alternativa. Entretanto, se a quantificação é necessária, a organização da tabela em função do número de indivíduos poderá facilitar o trabalho. Resumo Você estudou o conceito de dados e banco de dados e aprendeu como criar um banco de dados para, posteriormente, transformá-lo em informações. Você retomou os principais conceitos vistos na Aula 1 – O que é Bioestatística – tais como, unidade experimental, variável e classificação de variáveis. Você estudou as diferenças entre dados e informações e aprendeu que, para que dados sejam transformados em informações, precisa planejar sua coleta de forma a evitar erros. Para isso, utilizou-se as duas primeiras etapas do método estatístico: (1) Identificação do problema e (2) Formulação de hipóteses. Você estudou também algumas ações que fazem parte do planejamento da coleta de dados, como conhecer o local da coleta, formar uma equipe de coleta, levar material necessário, dentre outros. Aprendeu que os dados coletados podem ser organizados em planilhas eletrônicas feitas em computador, o que facilita posterior análise e interpretação. Por fim, relembrou as formas de apresentação dos dados, como por exemplo, em tabelas e gráficos. Aula 2 Bioestatística 39 Autoavaliação A dengue é uma doença grave, que está disseminada em todo o território nacional. Então, que tal por em prática os conceitos da aula de hoje, transformando os dados sobre essa epidemia em informação? Para isto analise os dados que foram retirados de um texto extraído da página da Secretaria de Saúde Pública (SESAP/RN) na internet. <http://www.rn.gov.br/contentproducao/aplicacao/govrn/imprensa/enviados/noticia_detalhe. asp?nImprensa=0&nCodigoNoticia=17319>: A Secretaria Estadual de Saúde Pública, por meio do Programa de Controle da Dengue, divulgou nesta segunda-feira (14/12/2009) o boletim de acompanhamento epidemiológico da dengue. Desde janeiro deste ano foram notificados 3.577 casos da doença no Rio Grande do Norte. Destes, 17 foram de Febre Hemorrágica de Dengue (FHD), além de três óbitos ocorridos. Em relação ao mesmo período do ano anterior (2008) quando foram notificados 43.552, houve uma redução nos casos. Na região metropolitana da Capital (que inclui os municípios de Natal, Macaíba, São Gonçalo e Extremoz) foram notificados 1.724 casos de dengue. Em Natal, foram notificados 1.235 casos de dengue, dos quais 13 de FHD. Já em Mossoró, 370 pessoas foram acometidas por esta enfermidade (dengue) e 07 apresentaram FHD. Agora, utilizando os dados acima e: 1 40 Aula 2 Bioestatística Construa uma tabela com o número de casos notificados da doença no ano de 2009 em todo o estado do Rio Grande do Norte, na Região Metropolitana da capital, em Natal e em Mossoró. 2 3 Calcule a porcentagem de casos ocorridos no município de Natal em relação ao restante do estado, analisando os dados da tabela elaborada na questão 1. Analise os dados e calcule a redução do número de casos notificados de dengue em 2009 em relação ao ano anterior (2008), quando foram notificados 43.552 casos dessa enfermidade. Se você conseguiu resolver o exercício acima, parabéns! Caso contrário, entre em contato com o seu professor, retorne ao texto da aula, reveja os principais conceitos, volte à atividade de autoavaliação e tente quantas vezes forem necessárias. Referências HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso Editores, 1999. OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing Company, 1990. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: FEP MVZ Editora, 1997. Aula 2 Bioestatística 41 Anotações 42 Aula 2 Bioestatística Descrevendo Sistemas Aula 3 Apresentação N esta aula, estudaremos as aplicações da estatística descritiva nas Ciências Biológicas. Para isto, utilizaremos dados de sistemas biológicos para calcular a média, variância, desvio padrão, moda e mediana e veremos como obter informações com este tipo de análise estatística. Desse modo, será importante que você tenha uma boa compreensão dos conceitos vistos na Aula 1 – O que é Bioestatística – e Aula 2 – Como transformar dados em informações. As análises que aqui serão realizadas terão como base os conceitos apreendidos nessas aulas. Objetivos 1 2 3 Distinguir os conceitos de estatística descritiva e suas aplicações em Ciências Biológicas. Aplicar a estatística descritiva para realizar análises de conjuntos de dados. Avaliar os resultados da análise dos dados, de modo a poder caracterizar corretamente a amostra e poder fazer inferências sobre a população. Aula 3 Bioestatística 45 Medidas de tendência central As medidas de tendência central indicam um ponto, em torno do qual, se distribuem ou concentram os números do conjunto de dados. Este tende a estar localizado no centro da distribuição dos dados. As principais medidas de tendência central são a média, a moda e a mediana, que estudaremos a seguir. Média A média de um conjunto de números pode ser definida como um valor que representa o total desse conjunto, sem alterar as suas características. Esta medida (média) é um valor de “equilíbrio” do conjunto de dados. Se o conjunto de dados é obtido de uma população, utiliza-se a letra grega “µ” (pronuncia-se mi) para representar a média. Quando o conjunto de dados é obtido de uma _ amostra da população, utiliza-se o símbolo “x ” (pronuncia-se x barra). Calculando médias e suas aplicações _ A média aritmética (x ) de um conjunto de dados é calculada pela soma de todos os dados dividida pelo número deles. A representação matemática do cálculo da média é a seguinte: x x= n onde: ∑x = somatório de todos os valores de x n = a quantidade de valores Exercício resolvido 1 Um aluno tirou as notas: 0, 2, 4, 6 e 10, em cinco provas. Calcule a média das notas desse aluno. 46 Aula 3 Bioestatística Resolução 1) Primeiro devemos somar (∑x) todos os valores da cada prova: 0 + 2 + 4 + 6 + 10. O resultado é 22. 2) Depois identificamos o n, ou seja, como são 5 notas, temos n = 5. 3) Por fim, divide-se a soma 22 por 5 (22/5) e obtém-se a média 4,4. 4) Conclui-se que o aluno teve média 4,4. Exercício resolvido 2 Calcule a média geral das notas da turma de 25 alunos, de acordo com os dados apresentados na Tabela 1. Tabela 1 – Resultado da avaliação (nota) de uma turma com 25 alunos Número de alunos Nota 5 5 8 7 9 8 3 10 Resolução Neste caso, você pode resolver a questão (e encontrar a média geral da turma) de duas maneiras: 1) Somando todas as notas (∑x) obtidas pelos alunos (5 + 5 + 5 + 5 + 5 +7+7+7+7+7+7+7+7+8+8+8+8+8+8+8+ 8 + 8 + 10 + 10 + 10) que dá ∑x = 183 e dividir o valor encontrado pelo número (n) de alunos que é n = 25. Assim, o cálculo da média da turma é obtido pela divisão 183/25, cujo resultado é 7,32. (5*5) + (8*7) + (9*8) 2) 3*10) + (3*1 O mesmo resultado de média (7,32) pode ser obtido se você multiplicar a nota pelo número de alunos que tiraram a respectiva nota e fizer o somatório de todos os resultados, da seguinte maneira: (5*5) + (8*7) + (9*8) + (3*10) = 183. Assim, se dividirmos 183 por 25 obteremos o mesmo resultado para o cálculo da média geral da turma, ou seja, 7,32. 5*5 = 5+5+5+5+5; 8*7 = 7+7+7+7+7+7+7+7; 9*8 = 8+8+8+8+8+8+8+8+8 e 3*10 =10+10+10 Aula 3 Bioestatística 47 Atividade 1 Calcule a média para os seguintes conjuntos de dados: 48 Aula 3 Bioestatística a) A altura (em cm) de plantas submetidas a tratamento com hormônio de crescimento: 12,5cm; 12,6cm; 12,9cm; 13,5cm; 13,7cm; 12,7cm; 13,6cm. b) Número de movimentos respiratórios por minuto (mpm) de cobaias de laboratório após a administração de um anestésico intravenoso: 12 mpm; 14 mpm; 13 mpm; 14 mpm; 15 mpm; 16 mpm; 16 mpm; 15 mpm; 13 mpm. c) Número de salários mínimos recebidos pelos trabalhadores de um laboratório de análises clínicas: 5 salários míninos; 4 salários míninos; 4,5 salários míninos; 6 salários míninos; 5,5 salários míninos; 8 salários míninos; 6 salários míninos; 6,5 salários míninos. Mediana e moda A análise da média deve refletir o conjunto de dados. Todavia, este cálculo pode ser afetado por medidas muito discrepantes (muito altas ou muito baixas em relação ao valor médio). Quando isto acontece, a média calculada não representa adequadamente o que acontece no conjunto de dados. Para estas situações o cálculo da mediana e/ou da moda pode ser uma alternativa adequada para descrever o conjunto de dados. A mediana (cujo símbolo é md) é o valor que ocupa a posição central; esta medida divide o conjunto de dados em duas metades iguais. Para calcular a mediana, organize o seu conjunto de dados em ordem crescente e encontre o valor que está no centro da série. Quando o número de dados for ímpar a mediana será o valor que está no centro da série. Quando o número de dados for par, a mediana será a média dos valores que estão no centro da série. Exercício resolvido 3 Vamos descobrir a mediana do conjunto de dados utilizado para o cálculo das médias do Exercício resolvido 2? Para isso devemos: 1) Organizar o conjunto de dados em ordem crescente. Assim procedendo, obtemos: Valor 5 5 5 5 5 7 7 7 7 Posição 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2) 7 7 7 7 8 8 8 8 8 8 8 8 8 10 10 10 Note que temos 25 números. Esse valor é ímpar, e desse modo, a mediana será o valor que divide esse conjunto. Neste caso, a mediana corresponderá ao número que está na posição 13 (número 7), pois este dividirá o conjunto de dados em duas metades iguais, com 12 dados (números) cada um, como se pode observar abaixo: Conjunto 1 com os 12 primeiros valores (anteriores a mediana) Valor Posição 5 1 5 2 5 3 5 4 5 5 7 6 7 7 7 8 7 9 7 10 7 11 7 12 Mediana Valor 7 Posição 13 Conjunto 2 com os 12 últimos valores (posteriores a mediana) Valor Posição 8 14 8 15 8 16 8 17 8 18 8 19 8 20 8 21 8 22 10 23 10 24 10 25 Aula 3 Bioestatística 49 É interessante utilizar essa medida quando se estuda um grande conjunto de dados, onde existe muita discrepância entre eles. Neste caso, a mediana pode ser uma medida mais representativa que a média. Já a moda (cujo símbolo é mo) representa o valor que ocorre com maior frequência no conjunto de dados. Analisando-se o conjunto de dados do Exercício resolvido 2, observa-se que a nota que mais aparece é 8. Neste caso, a moda ou o valor modal é 8. Neste exercício, a média, a mediana e a moda apresentam valores bem próximos entre si. E, dependendo do conjunto de dados estas três medidas podem até ter o mesmo valor. Entretanto, dependendo da variação existente no conjunto de dados, você deverá escolher qual dessas medidas de tendência central (média, mediana ou moda) é a mais representativa e adequada para ser utilizada. Atividade 2 1 2 a) 50 Aula 3 Bioestatística Calcule a média, a moda e a mediana para o conjunto de dados de uma classe com seis alunos, cujas notas foram: Aluno A Nota 2,0 5,0 8,0 5,0 7,5 3,5 B C D E F Analisando o conjunto de dados abaixo, responda: Aluno A Nota 2,0 5,0 7,0 10,0 5,0 6,0 3,0 8,0 B C D E F G Quantos alunos têm nota superior à média geral da turma? H b) Calcule a média, a moda e a mediana desta turma. c) Qual destas três medidas de tendência central, você acha mais adequada para descrever o conjunto de dados? Justifique a sua resposta. Medidas de dispersão As medidas de dispersão indicam ou permitem ter noção do quanto estão distantes os dados entre si. Ou seja, como eles variam em relação à média. Neste sentido, a descrição de um conjunto de dados sempre se faz com uma medida de tendência central (geralmente a média) e uma de dispersão associadas. Mas, como medir esta variação em relação à média? Para isto, devemos analisar a amplitude e os desvios em relação à média. Amplitude A amplitude corresponde à diferença entre o maior e o menor valor no conjunto de dados. Esta medida nos fornece uma noção da dispersão dos dados. Para explicar este conceito, vamos utilizar dois conjuntos de dados A e B, que representam a nota obtida pelos alunos de uma determinada disciplina: Conjunto de dados A: 4; 6; 4; 6; 5; 5 Conjunto de dados B: 9; 1; 5; 5; 1; 9 Aula 3 Bioestatística 51 Para calcular a amplitude destes dois conjuntos de dados, identifique, respectivamente, o maior e o menor valor em cada um deles. No conjunto A o maior valor encontrado é 6 e o menor 4. Assim, a amplitude é 6 – 4 = 2. Para o conjunto de dados B o maior e o menor valor, são respectivamente 9 e 1, portanto a amplitude é 9 – 1 = 8. Observe que esta medida permite inferir que a variabilidade do conjunto de dados B é maior que o do A. Quando se trabalha com algumas variáveis de grande instabilidade como, por exemplo, contagem de ovos por grama de fezes (OPG) utilizado para diagnóstico de verminose, onde se podem determinar valores de amplitude superior a 10000 OPG, esta medida é bastante interessante para demonstrar a variabilidade e a dispersão existente. Estas características podem ser comprovadas nos dados da tabela a seguir (Tabela 2), onde temos zero como o menor valor de OPG e 5100 como o maior valor. Tabela 2 – Contagem de OPG (ovos/g) de um rebanho de ovinos mestiços (½ sangue Somalis × ½ sem raça definida) mantidos em pastagem nativa naturalmente contaminada por larvas de nematódeos gastrintestinais Animal Contagem de OPG 1 100 2 0 3 200 4 300 5 0 6 100 7 400 8 100 9 1100 10 1400 11 5100 12 400 13 700 14 300 15 500 16 0 17 700 18 1300 19 200 20 800 21 300 22 2300 Fonte: Zaros et al (2009). 52 Aula 3 Bioestatística Desvio em relação à media O desvio em relação à média permite estimar o quanto um determinado valor se afasta da média do conjunto. O cálculo do desvio em relação à média é dado pela diferença entre o valor medido (observado) e a média do conjunto de dados (calculado previamente). Este é representado matematicamente pela fórmula: _ Desvio em relação a média = x – x . Onde: x = valor medido _ x = valor da média calculada Para determinar os desvios, precisamos inicialmente calcular as médias de cada conjunto de dados. Ainda utilizando os conjuntos A (4; 6; 4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9), vemos que a média para ambos é 5. Assim, os desvios em relação à média do conjunto de dados A são: Valor medido (x) _ Média (x ) 4 5 6 5 1 4 5 –1 6 5 1 5 5 0 5 5 0 _ x–x –1 Total = 0 Os desvios em relação à média para o conjunto B são: Valor medido (x) _ Média (x ) _ x–x 9 5 4 1 5 –4 5 5 0 5 5 0 1 5 –4 9 5 4 Total = 0 Observe que, apesar dos conjuntos de dados A e B possuírem as mesmas médias, eles apresentam desvios bem diferentes. No conjunto A, os desvios vão de – 1 a + 1 e no B, de – 4 a + 4. Você notou que, apesar dos valores diferentes, a soma dos desvios é zero nos dois conjuntos? Vamos ver o porquê? Você pode está se perguntando: Se a soma dos desvios em relação à média é sempre zero para qualquer conjunto de dados, como poderei utilizar esta medida? Aula 3 Bioestatística 53 _ Neste caso, podemos utilizar um artifício matemático que é elevar o valor de (x – x ) _ ao quadrado, transformando-o em (x – x )2, e assim ter sempre um valor positivo para esta operação. Assim, sempre que você calcular a soma dos desvios elevada a potência 2, obterá um valor positivo e diferente de zero. Vamos conferir? Exercício resolvido 4 Calcule a soma dos desvios elevada à potência 2 para os conjuntos de dados A (4; 6; 4; 6; 5; 5) e B (9; 1; 5; 5; 1; 9). Resolução 1) 2) 3) 54 Aula 3 Bioestatística Para o conjunto de dados A: Valor medido (x) _ Média (x ) _ x–x 4 5 –1 1 6 5 1 1 4 5 –1 1 6 5 1 1 5 5 0 0 5 5 _ (x – x ) 2 0 0 Total = 0 Total = 4 Para o conjunto de dados B: Valor medido (x) _ Média ( x ) 9 1 _ x–x _ (x – x ) 2 5 4 16 5 –4 16 5 5 0 0 5 5 0 0 1 5 –4 16 9 5 4 16 Total = 0 Total = 64 Calculados os desvios e elevando-os à potência de 2, eles só terão valor zero, _ se todos os valores x – x do conjunto forem iguais a 0. Neste caso, não existe dispersão e/ou diferença em relação a média. Atividade 3 Retome os principais conceitos vistos nesta aula e defina: a) Média: b) Mediana: c) Moda: d) Amplitude: e) Desvio em relação à média: Aula 3 Bioestatística 55 Variância de uma amostra Depois de calcular os desvios em relação à média, agora, você já pode calcular a variância (s ) de uma amostra. Esta medida de dispersão permite ter noção de quanto variam os dados em relação a média e principalmente calcular o desvio padrão de uma média. 2 A variância de uma amostra é estimada pela fórmula: 2 S = (x − x)2 n−1 Onde: x = valor medido ou observado na amostra _ x = Média calculada para amostra n = número de dados da amostra Vamos fazer uma aplicação da variância utilizando os dados do exercício resolvido 4? Neste caso, para os dois conjuntos de dados, A e B, foram utilizados 6 valores, então o valor de n é igual a 6 e, consequentemente, n – 1 = 5. Utilizando estes conceitos, a variância para o conjunto A é calculada dividindo-se o valor _ de (x – x )2, que é igual a 4, por n – 1, que é igual a 5. Assim, a variância de A é 4/5 ou 0,8. _ Da mesma forma, a variância de B é calculada por 64, resultado de (x – x )2, dividido por 5, resultado de n – 1. Ou seja, 64/5 que resulta em 12,8. Observe que a variância é uma medida adimensional. Agora, conhecendo a variância de um conjunto de dados, eu posso estimar o seu desvio padrão. Desvio padrão C omo a variância é uma medida que estima os quadrados dos desvios em relação a média, esta tem pouca aplicação prática. Visto que as unidades de medida dos dados utilizados no cáculo da variância também são elevadas ao quadrado, o que dificulta a interpretação das respostas. Tome-se por exemplo uma medida calculada em: kg ou cm ou m 2. Neste caso, a variância será expressa em respectivamente: kg 2 ou cm 2 ou m 4; dificultando a interpretação dos resultados. 56 Aula 3 Bioestatística Uma forma de resolver este problema é extrair a raiz quadrada da variância, obtendo assim o desvio padrão (s). O desvio padrão (s) de um conjunto de dados é obtido calculando-se a raiz quadrada da variância, utilizando a fórmula: √ 2 s = ( S2) Onde: S 2 = variância da amostra Utilizando este conceito nos mesmos conjuntos de dados A e B, obtemos os seguintes valores: Para o conjunto A: S 2 = 0,8 então, s = 2 0, 8 s = 0,894 Para o conjunto B: S 2 = 12,8 então, s = 2 12, 8 s = 3,577 Agora, já que conhecemos a média e o desvio padrão do conjunto de dados e a amplitude, podemos utilizar estas informações para descrever os dados analisados neste exemplo. 1) Conjunto A = 5 ± 0,894; menor valor 4; maior valor 6; n = 5. 2) Conjunto B = 5 ± 3,577; menor valor 1; maior valor 9; n = 5. Você pode, utilizando essas informações, escolher o conjunto de dados A, se preferir o que tiver menor desvio em relação à média ou o conjunto de dados B se a opção for pela maior amplitude. Coeficiente de variação Agora, o que representa o desvio em relação à média? O desvio em relação à média permite avaliar a instabilidade do conjunto de dados. Esta medida de dispersão é chamada de coeficiente de variação (CV). O CV é calculado dividindo-se o desvio padrão pela média do conjunto de dados. _ CV = s/x Onde: s = Desvio Padrão _ x = Média aritimética calculada para o conjunto de dados. Aula 3 Bioestatística 57 Utilizando os dados do Exercício resolvido 4, teremos os seguintes coeficientes de variação. 1) Conjunto de dados A: 0,894/5 = 0,1788 ou 17,88% 2) Conjunto de dados B: 3,577/5 = 0,7154 ou 71,54% Este resultado indica que o conjunto de dados A é mais homogêneo e menos instável que o B. Atenção Não estamos afirmando que “A” é melhor do que “B” ou vice-versa, mas sim, homogêneo. Isto é importante, para se avaliar a representatividade da média em relação ao conjunto de dados. Lembra quando falamos da média de dados de contagem de OPG e que nestes casos, se pode ter amplitude superior a 10000? Este é um caso de variável muito instável, onde a média não tem muita representatividade. Nestas situações, trabalhar com a moda ou a mediana é mais interessante que com a média. A noção de instabilidade de uma variável e a escolha entre utilizar a média, a moda ou a mediana para descrever o conjunto de dados, é uma opção individual do pesquisador. Para isto, recomenda-se o bom senso e observar/ler como se publicam estas informações nos meios científicos, jornais e revistas. Atividade 4 Os dados a seguir fornecem a concentração de um determinado poluente (ppm) em 8 pontos de um afluente medidos uma hora antes e uma hora depois de um acidente ambiental: Tabela 3 – Concentração (em ppm) de um determinado poluente nas águas de um rio antes e depois de um acidente ambiental Concentração antes 4,67 4,97 5,11 5,17 5,33 6.22 6,50 7,0 Concentração depois 5,44 6,11 6,49 6,61 6,67 6,67 6,78 7,89 Fonte: <http://leg.ufpr.br/~paulojus/CE003/ce003/node2.html>. Acesso em: 12 abr. 2010. 58 Aula 3 Bioestatística Utilizando o conjunto de dados da Tabela 3, calcule a média, a mediana, a moda, o desvio padrão e o coeficiente de variação da concentração de poluentes antes e depois do acidente ambiental. Leitura complementar PROJETO de ensino. Aprendendo a fazer estatística. Disponível em: <http://www.des.uem. br/projetos/Estatistica_Descritiva.pdf>. Acesso em: 12 abr. 2010. Este texto refere-se aos principais conceitos da Estatística Descritiva vistos na aula de hoje. Além disto, sua leitura possibilitará conhecer outros exemplos de aplicações da Estatística Descritiva, principalmente para você utilizar em situações de sala de aula tendo como exemplo as situações do cotidiano. Aula 3 Bioestatística 59 Resumo Nesta aula, você estudou as aplicações da estatística descritiva nas Ciências Biológicas. Para isto, você teve como exemplo dados de sistemas biológicos para calcular a média, variância, desvio padrão, moda e mediana. Você compreendeu como obter informações com este tipo de análise estatística e aprendeu a realizar uma análise de um conjunto de dados utilizando a estatística descritiva. Por fim, você pôde interpretar os resultados da análise dos dados, de modo a poder caracterizar corretamente a amostra e poder fazer inferências sobre a população. Autoavaliação Um fazendeiro foi avaliar a produção de leite dos seus animais. Ele anotou os dados na tabela a seguir (Tabela 4). Entretanto, ficou sem saber analisar, fazer uma estatística descritiva dos resultados. Tabela 4 – Produção de leite (Kg/animal/dia) Produção de leite (kg/animal/dia) Identificação do animal Dia 1 Dia 2 Dia 3 Dia 4 A296 7,4 4 7,2 6,6 A369 6 5,4 8 4,8 A001 8 2,8 3,4 9,4 L061 7,4 9,8 11,2 7 L212 4,6 9 10,2 4 L344 2,8 5 6,2 4 Analise os dados da Tabela 4 e calcule a média, o desvio padrão, a moda, a mediana e o coeficiente de variação da produção de leite do rebanho. 60 Aula 3 Bioestatística Se você conseguiu resolver o exercício acima, parabéns. Caso contrário, entre em contato com o seu professor. Retome o texto da aula, reveja os principais conceitos, volte à atividade de Autoavaliação e tente quantas vezes forem necessárias. Referências HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso Editores, 1999. MAGALHÃES, M. N.; LIMA, A. C. P. de. Noções de probabilidade e estatística. São Paulo: IME-USP, 2000. OTT, Lyman; MENDEENHALL, William. Understanding statistics. Boston: PWS-KENT Publishing Company, 1990. PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de bioestatística. 2. ed. São Paulo: Pioneira Thomson Learning, 2004. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: FEP MVZ Editora, 1997. ZAROS, L. G. et al. Desempenho de ovinos Somalis resistentes e susceptíveis a nematódeos gastrintestinais. In: ZOOTEC, 2009, Águas de Lindóia. Anais... Águas de Lindóia, 2009. Aula 3 Bioestatística 61 Anotações 62 Aula 3 Bioestatística Anotações Aula 3 Bioestatística 63 Anotações 64 Aula 3 Bioestatística Elaborando hipóteses Aula 4 Apresentação N esta aula, apresentaremos o conceito de hipótese, exemplificando com situações que fazem parte do seu cotidiano. Num segundo momento, veremos quais os tipos de hipótese e como utilizá-los. Entenderemos o conceito de população amostral e referência, os quais serão parte essencial na construção da hipótese. Estudaremos quais os tipos de erros existentes ao se aceitar ou rejeitar uma hipótese verdadeira. Nesta aula, temos exercícios resolvidos que servirão de guia para que você faça as atividades propostas após cada assunto abordado. Lembre-se: para que você compreenda os conceitos desta aula, é necessário que você leia atentamente o texto, fazendo sempre anotações sobre suas dúvidas e questionamentos. Objetivos Definir hipótese. 1 Diferenciar os tipos de hipóteses. 2 Definir erro tipo I e tipo II. 3 Aula 4 Bioestatística 67 Uma provável teoria... Figura 1 – Céu nublado Segundo o Dicionário On Line de Português, a palavra hipótese refere-se a uma suposição que se faz acerca de uma coisa possível ou não, a qual se tira uma consequência; teoria provável, admissível, embora ainda não demonstrada. Na ilustração anterior, nossa hipótese é que vai chover. Chegamos a essa afirmação, constatando o céu cinzento e carregado de nuvens. Mas, será que podemos comprovar essa hipótese? Será que essa hipótese pode ser rejeitada? Que elementos temos para aceitar ou rejeitar essa hipótese? Essas e outras questões serão respondidas no decorrer desta aula. Se voltarmos um pouco no tempo e relembrarmos algumas disciplinas que você já estudou, como Biodiversidade, podemos destacar teorias que foram formuladas a partir de uma, duas ou mais hipóteses. Um exemplo foi a teoria da evolução dos seres vivos. Essa teoria teve várias hipóteses, dentre elas a sustentada pelo cientista francês Jean-Baptiste Lamarck, que afirmava que os seres vivos tinham de se transformar para melhor se adaptarem ao ambiente, ou seja, as girafas teriam adquirido o pescoço longo ao se esforçarem para ter acesso à comida. Essa hipótese não foi aceita pela ciência e foi substituída pelas hipóteses de Darwim, que originaram a Teoria da Seleção Natural. 68 Aula 4 Bioestatística Fonte: <http://noticiasro.nafoto.net/images/photo20081004014824.jpg>. Acesso em: 25 mar. 2010. Observe a figura abaixo e responda a seguinte pergunta: Será que vai chover? Esse é apenas um exemplo de hipóteses que, quando aceitas, tornaram-se fatos, teorias. Figura 2 – Girafas que teriam adquirido pescoço longo ao se esforçarem para ter acesso à comida - Hipótese de Lamarck Atividade 1 Baseado nos conhecimentos que você adquiriu durante o curso de Ciências Biológicas, pesquise e descreva outras hipóteses que foram confirmadas ou rejeitadas na história da Biologia. Aula 4 Bioestatística 69 Um exemplo nos dias de hoje Nas Ciências Biológicas, os trabalhos científicos são realizados com objetivos bem estabelecidos, expressos por meio de afirmações – as hipóteses – que os pesquisadores desejam verificar. Veja esta situação: suponha que o pesquisador queira verificar se o medicamento X, utilizado no tratamento do câncer de pele apresenta, como efeito colateral, um aumento na pressão sanguínea. Nesse caso, o pesquisador elabora duas afirmações, ou seja, duas hipóteses que devem ter sentido contrário uma da outra (igualdade x diferença). Assim, obrigatoriamente, ao aceitar uma hipótese, a outra deve ser rejeitada. Isso pode ser visto no exemplo a seguir. Hipótese 1 (H1): o medicamento X, utilizado no tratamento do câncer de pele, não apresenta efeito colateral. Hipótese 2 (H2): o medicamento X, utilizado no tratamento do câncer de pele, apresenta pelo menos um efeito colateral. Entretanto, para saber quais das hipóteses são verdadeiras, o pesquisador deverá testá-las, ou seja, inicia-se uma pesquisa para responder às suas perguntas. No caso do exemplo acima, ele deve selecionar indivíduos, utilizar a medicação X e avaliar se ocorre algum efeito colateral nos pacientes. Dependendo dos resultados obtidos, o pesquisador aceita ou não a sua hipótese: se ele verificar que os indivíduos apresentaram algum efeito colateral, como, por exemplo, alteração na pressão arterial após a administração do medicamento, ele aceitará a hipótese 2; caso contrário, deverá aceitar a hipótese 1. Fonte: <http://frasesilustradas.files.wordpress.com/2009/04/hipotese.jpg>. Acesso em: 25 mar. 2010. 70 Aula 4 Bioestatística Atividade 2 Com base no que você leu até aqui, defina hipótese e construa duas hipóteses sobre como será a disciplina de Bioestatística. Hipóteses e seus tipos Até o momento, vimos o conceito de hipótese. Agora, vamos conhecer seus tipos? Há dois tipos principais de hipóteses. Uma que chamamos de Hipótese Científica e a outra que denominamos de Hipótese Estatística. A hipótese científica é aquela que não menciona o valor do parâmetro. É o caso da nossa situação acima, em que as hipóteses formuladas não exprimem valor, ou seja, não se referem à média da pressão sanguínea dos indivíduos analisados. Valor do parâmetro Valor do parâmetro: é um número, um valor que quantifica a variável. Já a hipótese estatística menciona o valor do parâmetro. Seria o caso se, no exemplo acima, o pesquisador apresentasse o valor médio da pressão sanguínea dos indivíduos analisados, como, por exemplo, 128mmHg (milímetros de mercúrio). O esquema a seguir resume os dois principais tipos de hipóteses com seus respectivos exemplos e nos apresenta outros dois subtipos da hipótese estatística, a Hipótese Nula ou de Nulidade (H0) e a Hipótese Alternativa (Ha). Aula 4 Bioestatística 71 HIPÓTESE Hipótese Científica O medicamento apresenta efeito colateral Hipótese Estatística O medicamento apresenta efeito colateral sobre a média de pressão sanguínea Parâmetro com valor Parâmetro sem valor Hipótese Nula Ho A média da pressão sanguínea é igual para os indivíduos que receberam o medicamento e para os que não receberam Hipótese Alternativa Ha A média da pressão sanguínea é diferente para os indivíduos que receberam o medicamento e para os que não receberam Figura 3 – Tipos e subtipos de hipóteses e seus respectivos exemplos Fonte: Lilian Giotto Zaros. População amostrada (μ1) é a amostra que constitui o seu estudo. No caso do nosso exemplo, os 60 indivíduos que tomaram o medicamento constituem a população amostral ou, simplesmente, a amostra. População tomada como referência (μ2) é aquele que serve como base ou referência para o estudo. No caso do exemplo, é a população de pessoas que não receberam o medicamento. O pesquisador não precisa, necessariamente, medir a pressão de todas as pessoas. Ele simplesmente pode ter como base estudos já realizados que constataram que a média da pressão arterial é de 128mmHg. 72 Aula 4 Vamos nos aprofundar nas hipóteses estatísticas? As hipóteses estatísticas sempre comparam dois ou mais parâmetros, afirmando que são iguais ou não, como você pôde ver no esquema acima. Essas hipóteses ainda podem ser: Hipótese Nula ou de Nulidade (H0), que estabelece a ausência de diferenças entre os parâmetros. É sempre a primeira a ser formulada. Ainda utilizando o exemplo anterior, a hipótese de nulidade pode ser: H0, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados com o medicamento X, não difere da média da população tomada como referência (μ2), ou abreviadamente: H0 : μ1 = μ2 Se essa hipótese for aceita, a conclusão é de que o medicamento não altera a pressão sanguínea. Bioestatística Hipótese alternativa Hipótese Alternativa (Ha ou H1): é a hipótese contrária à hipótese nula. Estabelece a presença de diferenças entre os parâmetros. Geralmente, é a que o pesquisador quer ver confirmada. A hipótese alternativa do exemplo acima é: Ha, a média da pressão sanguínea da população amostrada (μ1), de indivíduos tratados com o medicamento X, difere média da população tomada como referência (μ2), ou abreviadamente: Ha : μ1 ≠ μ2 Se essa hipótese for aceita, a conclusão é de que o medicamento altera a pressão sanguínea. Exercício resolvido Formule as hipóteses de nulidade e alternativa para a situação descrita a seguir. Um pesquisador da Empresa Brasileira de Pesquisa Agropecuária (EMBRAPA) tem se dedicado aos estudos de caprinos, tentando identificar alguns genes que sejam relacionados à resistência à verminose. Num dado momento da sua pesquisa, ele notou que vários genes aparecem em diferentes proporções nos animais mais resistentes do que nos animais mais susceptíveis e outros genes aparecem nas mesmas proporções em ambos os animais. Diante dessa observação, o pesquisador precisa formular suas hipóteses para posteriormente testá-las. Descreva quais as hipóteses esse pesquisador deve testar. Resolução Em primeiro lugar, você deve identificar qual a população a ser testada. No exemplo acima, queremos comparar se os animais resistentes apresentam os mesmos genes que os animais susceptíveis. Nesse caso, como iremos testar os dois grupos de animais, podemos denominar os animais resistentes de população 1 (μ1) e os animais susceptíveis de população 2 (μ2), já que ambos serão testados. Uma vez definida a população a ser testada, você pode elaborar as hipóteses. Hipótese de nulidade (H0): a média de expressão gênica dos animais resistentes não difere da dos animais susceptíveis. H0 : μ1 = μ2 Hipótese alternativa (H a): a média de expressão gênica dos animais resistentes difere da dos animais susceptíveis. Ha : μ1 ≠ μ2 Entendido? Agora faça o mesmo nas situações abaixo. Aula 4 Bioestatística 73 Atividade 3 1 2 74 Aula 4 Bioestatística Um pesquisador da Fundação Oswaldo Cruz, no Rio de Janeiro, recebeu uma demanda do Governo Federal para testar um novo inseticida contra o mosquito Aedes aegipty, transmissor da dengue e da febre amarela urbana. Alguns estudos preliminares foram realizados e comprovaram que o inseticida tem efeito na diminuição da população desse inseto. Entretanto, o que o governo ainda não sabe é se ele atua inibindo a eclosão dos ovos, inibindo o desenvolvimento da larva em adulto, ou tornando os adultos estéreis. Com base nessas informações, escolha uma das três alternativas para o mecanismo de ação do inseticida e elabore as hipóteses (H0 e Ha) que devem ser testadas para responder ao questionamento do Governo Federal. Antigamente, se pensava que o câncer de mama era uma doença rara em mulheres abaixo dos 35 anos. Pesquisas recentes têm mostrado que essa incidência não é um evento tão raro como se pensava anteriormente. Desse modo, pesquisadores de institutos de saúde vêm se questionando se as causas desse tipo de câncer são as mesmas em mulheres abaixo de 35 anos, quando comparadas àquelas de 45 anos ou mais. Suponha que você é um desses pesquisadores que irá realizar a pesquisa e elabore as hipóteses (H0 e Ha) a serem testadas. Cometendo erros Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar, em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha), você irá ver que podemos cometer erros ao aceitar ou não uma hipótese. O aceitar ou rejeitar uma hipótese é dado pelos testes de hipóteses, os quais estudaremos na Aula 5 – Testando hipóteses. A verificação das hipóteses estatísticas somente se dará com certeza se você estudar toda a população, e não somente uma amostra dessa população, como somente alguns indivíduos utilizados para avaliar o efeito do medicamento na pressão arterial. Entretanto, como não podemos avaliar toda a população, por diversas razões, avaliamos somente uma amostra dela (por exemplo, 60 indivíduos) e extrapolamos, ou seja, aplicamos os resultados obtidos com essa amostra para todos os indivíduos da população. Mas, quando fazemos isso, corremos o risco de cometer erros, afirmando que há uma diferença, quando ela efetivamente não existe, ou o inverso. Testes de hipóteses procedimento estatístico pelo qual se rejeita ou não uma hipótese, associando à conclusão um risco máximo de erro. Extrapolar generalizar; estender a validade de uma afirmação ou conclusão além dos limites em que ela é comprovável. E como podem ser esses erros? Os erros cometidos ao se extrapolar as informações de uma amostra para toda a população podem ser visualizados no esquema apresentado a seguir. ERRO Tipo I - erro α Tipo II - erro β Rejeita H0 quando ela é verdadeira Aceita H0 quando ela é falsa Afirma-se uma diferença quando ela efetivamente não existe Afirma-se uma igualdade quando o correto seria afirmar uma diferença Figura 4 – Tipos de erros que podem ser cometidos ao se testar hipóteses Fonte: Lilian Giotto Zaros. Aula 4 Bioestatística 75 Mas, como é possível rejeitar uma hipótese que é verdadeira? O teste que realizamos para aceitar ou rejeitar uma hipótese baseia-se numa situação experimental (amostra), sujeita a flutuações amostrais. Devido a essas flutuações, você pode ter uma amostra que não represente bem a população, levando a uma conclusão que não corresponde à realidade. O PESQUISADOR Se a Hipótese Nula (H0 ) é VERDADEIRA FALSA ACEITA H0 DECISÃO CORRETA COMETE O ERRO TIPO II (β) REJEITA H0 COMETE O ERRO TIPO I (α) DECISÃO CORRETA Fonte: <http://www.editoraferreira.com.br/publique/media/ pedro_toq14_teste-hipoteses.pdf>. Acesso em: 25 mar. 2010. No quadro a seguir você pode verificar os erros cometidos de acordo com a decisão tomada pelo pesquisador de aceitar ou não uma hipótese. Figura 5 – Tipos de erros cometidos ao aceitar ou rejeitar uma hipótese de nulidade ou alternativa Se o pesquisador aceita H0 e ela é realmente verdadeira, ele tomou a decisão correta, e, consequentemente, não cometeu erro algum. Entretanto, se ele aceita H0 e ela é falsa, ele cometeu um erro, chamado de erro tipo II, representado pela letra grega beta (β). Mas, se o pesquisador rejeita H0 e ela é verdadeira, ele comete o erro tipo I, representado pela letra grega alfa (α). Já, se ele rejeita H0 e ela é falsa, ele tomou a decisão correta e não cometeu erro algum. E como evitar esses tipos de erros? Esses erros podem ser evitados através dos testes de hipóteses (Aula 5) que os tornem menores possíveis. Entretanto, não é possível minimizar ambos os erros ao mesmo tempo. Os testes de hipóteses são montados de forma que, fixado o Erro Tipo I que se está disposto a cometer, o Erro Tipo II seja o menor possível. 76 Aula 4 Bioestatística Atividade 4 1 2 Pesquise o conceito de erro e, com base nos seus conhecimentos adquiridos nesta aula, defina os tipos de erros estatísticos e suas consequências. O texto abaixo foi escrito por Doris S. M. Fontes (2007, extraído da Internet), graduada em Estatística, aborda a importância do erro estatístico. Leia e reflita sobre ele. Será que os erros médicos são mais graves que os erros estatísticos? [...] Muitas vezes, conclui-se que os erros estatísticos não devem ser encarados com tanto rigor legal como aqueles causados por médicos, advogados ou engenheiros. Eu realmente não compartilho muito dessa opinião. Erros estatísticos podem ser muito graves, trazendo consequências realmente nefastas para milhões de pessoas. Enquanto um médico mata um, dois ou dez pacientes por imperícia, um resultado estatístico aceito por uma empresa ou governo pode trazer prejuízo/ danos ou mortes para muitas pessoas, ou milhões, simultâneamente, dependendo do caso [...] O remédio genérico que foi aprovado mais tarde é verificado que não funciona. E quantas vítimas já terá feito? Um produto lançado a partir de resultados estatísticos duvidosos, quantos terão morrido? Aula 4 Bioestatística 77 Resumo Nesta aula, você aprendeu o conceito de hipótese e também que há hipóteses científicas e estatísticas. Você estudou os tipos de hipóteses estatísticas denominadas hipótese de nulidade (H0 ) e hipótese alternativa (Ha ) e as identificou em vários exemplos utilizados ao longo da aula. Entendeu o conceito de população amostral e referência, que são parte essencial na construção de hipóteses. Aprendeu também a formular hipóteses utilizando alguns exemplos da Biologia e a reconhecer a importância de uma hipótese bem formulada. Você conheceu que podemos aceitar ou rejeitar hipóteses e verificamos que, ao rejeitar ou aceitar uma hipótese, podemos cometer algum tipo de erro. Estudou os conceitos de erros apresentados em erro tipo I, representado pela letra grega alfa (α) e o erro tipo II, representado pela letra grega beta (β). Por fim, você pôde perceber e refletir sobre a sua importância quando extrapolamos uma conclusão retirada de um estudo de uma amostra para toda a população. 78 Aula 4 Bioestatística Autoavaliação Vamos aplicar o que aprendemos? Para isso, resolva o exercício abaixo. Suponha que antropólogos da Alemanha costumam classificar os tipos de populações antigas com base no comprimento dos seus crânios: população 1 (P1), com valores médios de 190mm e população 2 (P2), com valores médios de 196mm. Recentemente, descobriram em outra localidade 12 crânios com comprimento médio de 194mm e desejam saber à qual tipo de população (P1 ou P2) pertenceram esses crânios. Assim, transforme o problema acima em uma hipótese estatística. Se você conseguiu resolver a autoavaliação, parabéns. Caso contrário, entre em contato com o seu professor, reveja os principais conceitos, volte à atividade e tente quantas vezes forem necessárias. Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. DEPARTAMENTO DE PATOLOGIA – FMUSP. Biometria: aula II: inferência estatística. Disponível em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010. Aula 4 Bioestatística 79 DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso em: 24 fev. 2010. FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007. Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p. LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman e Affonso Editores, 1999. Anotações 80 Aula 4 Bioestatística Anotações Aula 4 Bioestatística 81 Anotações 82 Aula 4 Bioestatística Testando hipóteses Aula 5 Apresentação Agora que você já compreendeu o conceito de hipótese estatística e conseguiu identificar, em uma situação problema, as hipóteses de nulidade (H0) e alternativa (Ha),(Aula 4- Elaborando hipóteses) você irá conhecer os testes pelos quais podemos verificar se as hipóteses que construímos são ou não verdadeiras. Esses testes são chamados de testes de hipóteses. Também nesta aula você vai estudar o conceito de nível de significância do teste, onde você utilizará o conceito de erro tipo I e tipo II visto na aula anterior (Aula 4- Elaborando hipóteses) para compreender o que é o nível de significância de um teste e sua importância. Em seguida, você vai aprender a classificar os tipos de testes de hipóteses e verá em quais situações eles são mais utilizados. Leia atentamente os textos e anote suas dúvidas. Bom trabalho! Objetivos 1 2 3 4 Definir testes de hipóteses. Identificar os principais tipos de testes de hipóteses. Definir o conceito de nível de significância. Reconhecer em quais situações utilizar os testes de hipóteses. Aula 5 Bioestatística 85 Definindo os testes de hipóteses Os testes de hipóteses ou testes de significância são procedimentos estatísticos pelos quais você rejeita ou aceita uma hipótese de nulidade (H0), associando um risco máximo de erro (nível de significância) para esta conclusão. São utilizados para detectar se existe alguma diferença entre as médias testadas. Para entender melhor a definição de testes de hipóteses, suponha que você queira avaliar se a utilização de suco de abacate com laranja na alimentação de mulheres resulta em perda de peso. Como você viu anteriormente, primeiro devemos elaborar as hipóteses. H0: A utilização de suco de abacate com laranja na alimentação não tem efeito sobre a perda de peso das mulheres. H1: A utilização de suco de abacate com laranja na alimentação tem efeito sobre a perda de peso das mulheres. Após a elaboração das hipóteses, você deverá testá-las, utilizando o teste específico para comparar os resultados obtidos. Mas antes de escolher qual o melhor teste estatístico, primeiro você deve analisar: Natureza da variável: se ela é qualitativa ou quantitativa; Distribuição da variável: se tem distribuição normal ou não; Continuidade da variável: se é contínua ou descontínua; Instabilidade da variável: se é muito ou pouco instável. De acordo com esses critérios, podemos ter dois tipos de testes: 86 Aula 5 Testes paramétricos: devem ser utilizados quando são avaliados dados com variáveis quantitativas e de distribuição normal, como por exemplo, o peso médio de um rebanho bovino. Testes não paramétricos: devem ser utilizados para variáveis qualitativas e que não têm distribuição normal, como por exemplo, número de pessoas que gostam do queijo tipo “A” numa avaliação de preferências. Bioestatística Aplicando testes paramétricos e não paramétricos O Quadro 1 resume os critérios a serem analisados na escolha do teste estatístico, de acordo com a sua indicação em teste paramétrico e não paramétrico. Características da variável Testes paramétricos Variável qualitativa x Variável quantitativa x Distribuição normal x Sem distribuição normal Contínua Testes não paramétricos x x Descontínua Estável x x Instável x Quadro 1 – Critérios analisados na escolha do teste estatístico paramétrico e não paramétrico Fonte: Henrique Rocha de Medeiros Note que os testes paramétricos são indicados para variáveis quantitativas, com distribuição normal, contínua e estável. Um exemplo de uma variável que se encaixa nesse perfil é o peso médio dos animais de um rebanho submetidos a diferentes tipos de dieta alimentar. Já os testes não paramétricos são indicados para variáveis qualitativas, sem distribuição normal, descontínua e instável, como por exemplo o número de eleitores que votariam num determinado candidato para a eleição de diretor da escola. Atividade 1 Agora que você já estudou o conceito de testes paramétricos e não paramétricos e viu também em quais tipos de variáveis utilizá-los, pesquise em seu material das aulas anteriores os conceitos a seguir: a) Variável quantitativa e quantitativa. Aula 5 Bioestatística 87 b) Variável contínua e descontínua. c) Variável estável e instável. Mas o que é uma variável com distribuição normal? Média e mediana Caso você não se lembre do conceito de média e mediana, volte à Aula 3 – Estatística descritiva. Diz-se que uma variável apresenta distribuição normal quando a média e mediana são iguais. Além do mais, os desvios em relação à média são simétricos. Por isso, quando plotamos os resultados em gráficos, observa-se que estes apresentam forma de sino. Está com dificuldades para entender esta definição? Vamos observar e analisar o gráfico a seguir para facilitar a sua compreensão acerca destes conceitos. σ=1 -3 -2 -1 μ=0 1 2 3 z Figura 1 – Gráfico de uma distribuição normal com média (μ) = 0 e desvio padrão (δ) = ±1 88 Aula 5 Bioestatística Sempre que a distribuição dos dados for normal, observa-se a média (μ) no centro da curva (ilustrada pela reta em verde) e desvios simétricos em relação à média (μ). Vale ressaltar que este gráfico poderá ser mais achatado ou não, de acordo com a relação entre os desvios e a média. Atividade 2 Construa um gráfico utilizando o conjunto de dados da Tabela 1 a seguir e analise se os mesmos têm distribuição normal. Este gráfico pode ser elaborado utilizando a ferramenta de gráficos do Excel ou em papel milimetrado, inserido após a tabela. Tabela 1 – Peso médio (valores máximos e mínimos) dos animais de um rebanho bovino e respectivos números de animais por classe de peso Classes de peso (kg) Peso médio Número de animais por classe de peso Mínimo Máximo (kg) por classe 1 62,5 67,4 64,95 6 2 67,5 72,4 69,95 12 3 72,5 77,4 74,95 25 4 77,5 82,4 79,95 38 5 82,5 87,4 84,95 44 6 87,5 92,4 89,95 52 7 92,5 97,4 94,95 47 8 97,5 102,4 99,95 34 9 102,5 107,4 104,95 23 10 107,5 112,4 109,95 14 11 112,5 117,4 114,95 5 Fonte: Henrique Rocha de Medeiros Aula 5 Bioestatística 89 Agora já posso iniciar o teste? Ainda não, mesmo que você já tenha testado todas as condições da variável e identificado qual tipo de teste a ser utilizado. Antes você deve convencionar qual o nível de erro desejado para testar esta média. Ou seja, o limite máximo para se determinar quanto do desvio (erro) é decorrente do acaso ou não. Esses valores, normalmente, são distribuídos entre 5% e 0,001%. Essa possibilidade de erro levada em consideração quando se testa as hipóteses é denominada de nível de significância e é representada pela letra grega alfa (®). A escolha de qual o valor de probabilidade de erro, entre 5% e 0,001%, escolher dependerá, principalmente, da sua ponderação e subjetividade. Se você aceitar uma hipótese onde o nível de significância é de 5% ou ® = 0,05, pode-se concluir que ela é 95% verdadeira. Caso você aceite uma hipótese onde a porcentagem de erro é de 1% ou ® = 0,01, você concluirá que sua hipótese tem 99% de chance de ser verdadeira. Entendido? E já que existe uma grande variação nos níveis de significância, qual o valor que devo utilizar para o meu trabalho? Acurácia Medida correta dos valores. Esse valor vai depender da hipótese que está sendo testada, da necessidade de acurácia e precisão da variável estudada e dos objetivos da pesquisa. Mas como avaliar a acurácia e precisão? Precisão Capacidade de repetir a medida com acurácia. Para isso, vamos observar o exemplo da figura a seguir (Figura 2), que ilustra o conceito de acurácia e precisão de quatro atiradores que estão fazendo testes para a tropa de elite da Polícia Militar. Atirador 1 Atirador 2 Alta acurácia Alta precisão Baixa acurácia Alta precisão Alta acurácia Baixa precisão Baixa acurácia Baixa precisão Figura 2 – Representação esquemática dos conceitos de acurácia e precisão Fonte: <http://sampa.if.usp.br/~suaide/LabFlex/blog/files/acuracia.jpg>. Acesso em: 17 maio 2010. 90 Aula 5 Bioestatística Observe que com o Atirador 1, que tem alta acurácia e alta precisão, a maior parte das marcas pretas (resultantes dos tiros) atinge o centro do alvo, o círculo verde e menor. O Atirador 2 apresenta baixa acurácia, pois nenhum tiro atingiu o alvo central da figura, e alta precisão, porque todos os tiros estão bem próximos entre si. O Atirador 3 tem alta acurácia (atingiu o alvo central) e baixa precisão, pois a maior parte dos seus tiros são dispersos e longe do alvo. O Atirador 4 tem baixa precisão e baixa acurácia, pois nenhum dos seus tiros atingiu o alvo central e todos estão bem dispersos (longe um do outro) na Figura 2. Vamos refletir sobre esse tema? Qual a necessidade de precisão e, consequentemente, da escolha do nível de significância a serem utilizados nas seguintes situações? 1) Testar uma nova variedade de mandioca (Manihot sculenta Crantz), que é resistente à seca, para ser plantada em regiões semiáridas. 2) Testar uma nova vacina contra gripe para idosos com mais de 60 anos. Certamente, no caso 2 a necessidade de precisão será muito maior que no caso 1. Para se testar a resistência de uma variedade de planta em relação a stress hídrico, níveis entre 1 e 5% de erro podem satisfazer a necessidade de confiança do pesquisador na resposta obtida. Para a situação 2, onde se testa uma vacina em idosos, níveis de significância superiores a 0,1% são inadmissíveis. Esses valores podem e devem ser ainda menores se for testado um produto que pode causar danos à saúde. Nesse caso, recomenda-se trabalhar nos níveis de significância de 0,01%. Atividade 3 Estabeleça os níveis de significância (5%; 1%; 0,1% e 0,01%) adequados para se testar as situações experimentais a seguir e justifique a sua resposta: Aula 5 Bioestatística 91 92 Aula 5 a) Avaliar o efeito da utilização de farinha de mandioca na alimentação de crianças de 4 a 8 anos. b) Comparar a produção de leite de vacas em uma fazenda. c) Avaliar o efeito da substituição do leite de vaca por leite de cabra no ganho de peso de crianças desnutridas com idade entre 1 e 5 anos. d) Comparar a eficácia da utilização de gargarejo de solução caseira com água, sal e vinagre ou de fármacos (remédios alopáticos – comprados em farmácia) no tratamento de amigdalite. e) Avaliar o resultado de uma vacina que imuniza idosos com mais de 60 anos contra gripe. Bioestatística Pode-se rejeitar uma hipótese que é verdadeira? Além do nível de significância (determinada pela necessidade de precisão e acurácia na resposta medida), existe a possibilidade de ocorrerem erros tipo I (®) ou tipo II (¯) quando se testa uma hipótese. No erro tipo I atribui-se uma diferença às médias quando elas realmente não existem. No erro tipo II ocorre o contrário: atribui-se uma igualdade quando as médias são diferentes. Esses tipos de erro são antagônicos. Assim, seu controle simutâneo e absoluto é impossível. Neste caso, você deve escolher o tipo de erro (I ou II) a ser minimizado. Para isso, o tipo de variável estudada e seus possíveis resultados são importantes para a escolha. Nas situações onde o resultado favorável é uma diferença, deve-se evitar utilizar testes que beneficiem erro tipo I. Assim, diminui-se a probabilidade de se atribuir diferenças entre as médias, quando elas realmente não existem. Esse tipo de erro é indesejado nas situações onde se espera maior eficiência de algum tratamento, como por exemplo, testes para comparar produtividade de cultivares de mandioca ou milho plantadas em regiões de semiárido. Assim, o produtor poderá escolher a variedade de mandioca ou de milho plantada – deveria ser a que apresentasse a maior produtividade. Por outro lado, quando o resultado favorável (situação desejada) é a equivalência, deve-se procurar utilizar testes que beneficiem erro tipo II, isto é, atribuir igualdade entre as médias, quando elas realmente não existem. Essa situação pode ser exemplificada quando se compara a substituição de um medicamento importado do exterior por um nacional. Para esta situação, a resposta desejada é uma equivalência, pois a escolha de qual tratamento será utilizado se dá em função de alguma facilidade (por exemplo: preço ou maior possibilidade de aquisição). Todavia, atribuir uma equivalência quando ela realmente não existe é, no mínimo, uma irresponsabilidade, e poderá comprometer a eficiência do tratamento. Isso porque faltariam subsídios para indicar o tratamento mais eficaz. Como dito anteriormente, esses erros são excludentes e não podem ser controlados conjuntamente. Assim, o pesquisador (você) deverá fazer uma escolha: qual tipo de erro (I ou II) quer beneficiar ou evitar. Aula 5 Bioestatística 93 Atividade 4 Escolha o tipo de erro (I ou II) que deverá ser beneficiado para as seguintes situações e justifique a sua resposta: 94 Aula 5 a) Comparar a substituição de um medicamento alopático (comprado em farmácia) por um caseiro. b) Comparar a o efeito, no ganho de peso médio diário de bovinos em confinamento, da substituição de farelo de trigo por resíduo da produção de melão na alimentação. c) Avaliar a eficiência de uma vacina contra gripe em pessoas com mais de 60 anos. d) Avaliar o efeito da utilização de castanha de caju na alimentação de crianças sobre os níveis de colesterol bom (LDL) no sangue. Bioestatística Os testes de hipóteses Existe uma gama diversa de testes de hipóteses. Os testes mais comumente utilzados em sistemas biológicos são: O Teste “F”, proposto por Fisher em 1924. Este teste indica se existe diferença entre as médias testadas. Porém, não diz quais são as diferenças. Assim, esse teste só deve ser utilizado para comparar duas médias por vez. Esses tipos de comparação são denominados contrastes ortogonais. O Teste “t” de student. Este teste é bastante utilizado em Biologia, especialmente para se comparar três ou mais médias simultaneamente. Ele favorece o aparecimento de erro tipo I (atribui-se uma diferença, quando ela realmente não existe) e controla bem erro tipo II (¯). O Teste de Tukey também é utilizado quando se deseja comparar três ou mais médias simultaneamente. Este teste controla bem erro tipo I e favorece o aparecimento do erro tipo II (¯) (atribui-se uma igualdade, quando as médias são diferentes). Além destes testes, existem vários outros como o SNK, o Duncan e o de Sheffé. A escolha de qual deles você vai utilizar no seu trabalho deverá ocorrer em função da sua necessidade de controle de erro e peculiaridades inerentes à pesquisa. Assim, para escolhar qual o tipo de teste a ser utilizado é interessante que você promova uma discussão entre os membros da equipe e um estatístico para decidirem qual o a melhor opção a ser utilizada. Vamos supor que, pra testar se o suco de abacate com laranja tem efeito no emagrecimento de mulheres – como exemplificado no início dessa aula – você utilizou como população amostral 60 mulheres. Destas 60 mulheres, 30 receberam o suco de laranja com abacate (μ1) e 30 receberam uma mistura que chamamos de placebo (μ2). As mulheres da população μ1 perderam em média 3,5 kg e as mulheres da população μ2 perderam, em média, 0,5 kg. Para testarmos nossas hipóteses, devemos assumir que há um erro embutido no nosso experimento, já que os dados obtidos são da população amostral (60 mulheres) e não de todas as mulheres da população em geral. Nesse caso, antes de testarmos nossas hipóteses, devemos assumir esse erro e dar um valor a ele. Quanto maior for o valor do erro, maior a probabilidade de rejeitar uma hipótese quando ela é verdadeira. Assim, se assumirmos um valor de erro cada vez menor, temos uma maior confiança nos resultados obtidos. Placebo é um fármaco (produto) ou procedimento inerte que apresenta efeitos terapêuticos devido aos efeitos fisiológicos da crença de que o pacinente está sendo tratado. Assim, nossa hipótese a ser testada seria: H0: μ1 =μ2 versus Ha: μ1≠μ2 , Aula 5 Bioestatística 95 onde: μ1 = média da perda de peso das mulheres que receberam suco de abacate com laranja (3,5 kg) μ2 = média da perda de peso das mulheres que não receberam suco de abacate com laranja (0,5 kg). Considera-se aceitável um erro (ou nível de significância) de 5%. Podemos, agora, fazer a seguinte pergunta: tomar suco de laranja com abacate faz mal à saúde das pessoas? Se a resposta for “não faz mal a saúde”, o teste de “t” de Student pode ser indicado. Esse teste favorece erro tipo I, que rejeita H0, quando este é verdadeiro. Mas, como tomar este suco não vai fazer mal à saúde, não haverá problemas com este tipo de erro, uma vez que o máximo que pode acontecer é a recomendação para tomar um produto que não vai fazer mal! Todavia, e se o suco “fizer mal às pessoas”? Neste caso, você deveria utilizar um teste como o de Tukey, que controla erro tipo II. Assim, não existiria recomendação de que se tomar suco de laranja com abacate resultaria em emagrecimento, pois, no caso observado, a perda de peso registrada nos pacientes que tomaram suco foi resultante do acaso, e não do tratamento imposto (tomar suco de abacate com laranja). Lembre que estes erros não podem ser controlados e ocorrem ao acaso. Não são fruto de trabalho errado ou mal feito!! Entendeu o conceito? Agora vamos fazer uma atividade e ganhar mais experiência para este tipo de reflexão. Atividade 5 Indique os testes estatísticos mais adequados para as situações abaixo: a) 96 Aula 5 Bioestatística Comparar a média de peso de indivíduos que receberam tratamento para diminuir os níveis de colesterol com aqueles que não receberam nenhum tipo de tratamento. b) Comparar a média dos níveis de poluentes emitidos por 4 indústrias químicas do Rio Grande do Norte. Resumo Nesta aula você conheceu a definição de testes de hipóteses e os principais tipos de testes. Você viu que os testes, de uma maneira geral, podem ser classificados em paramétricos e não paramétricos, de acordo com o tipo de variável pesquisada. Você revisou o conceito de variável qualitativa, quantitativa, contínua, descontínua, estável e instável. Compreendeu o que caracteriza uma variável com distribuição normal e aprendeu a identificá-la. Conheceu o conceito de nível de significância, identificou, em uma situação problema, erros do tipo I e erros do tipo II e compreendeu a importância de cada um deles para a realização de um teste estatístico. Você também conheceu os principais tipos de testes de hipóteses e compreendeu em quais situações utilizar cada um deles. Autoavaliação Existe uma crença popular de que chá de folha de goiabeira pode ser um bom remédio caseiro para controlar diarreia em bezerros jovens. Proponha uma metodologia para testar esta hipótese. Para isto, você deve obedecer as seguintes etapas: a) Elabore a hipótese de nulidade (H0) e a alternativa (Ha) para avaliar o fenômeno escolhido. Aula 5 Bioestatística 97 b) Escolha o nível de significância (5%; 1%; 0,1% ou 0,01%) adequado para esta situação e justifique sua resposta. c) Escolha o tipo de erro (I ou II) que você quer evitar e justifique sua resposta. d) Escolha o teste estatístico mais adequado aos seus objetivos e justifique sua resposta. Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003. DEPARTAMENTO DE PATOLOGIA - FMUSP. Biometria: aula II: inferência estatística. Disponível em: <http://med.fm.usp.br/dim/apostila/biometria/aula02.htm>. Acesso em: 23 fev. 2010. DICIONÁRIO On Line de Português. Disponível em: <http://m.dicio.com.br/hipotese/>. Acesso em: 24 fev. 2010. FONTES, D. S. Será que os erros médicos são mais graves que erros estatísticos? 2007. Disponível em: <http://www.conre3.org.br/forum/viewtopic.php?t=595>. Acesso em: 25 fev. 2010. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p. LOPES, Paulo Afonso. Probabilidades e estatística. Rio de Janeiro: Ed. Reichman & Affonso Editores, 1999. 98 Aula 5 Bioestatística Anotações Aula 5 Bioestatística 99 Anotações 100 Aula 5 Bioestatística Análise de variância Aula 6 Apresentação A gora que você já compreendeu o conceito de hipótese estatística (Aula 4 - Elaborando hipóteses) e os testes estatísticos (Aula 5 - Testando hipóteses), poderemos fazer a análise de variância. Essa análise é fundamental para que se possa fazer a comparação de médias. Por isso é importantíssimo que os conceitos apreendidos nas aulas anteriores estejam bem claros. Volte e estude essas aulas sempre que necessário. Assim, nesta aula, iremos apresentar o conceito de fatores de variação, de variância, erros aleatórios e graus de liberdade. É com essas informações que você poderá realizar a análise das médias ou resultados obtidos nos experimentos e aplicar os testes estatísticos que foram apresentados na aula passada (Aula 5 - Testando hipóteses). Com esses conhecimentos apreendidos, você deverá ser capaz de fazer uma avaliação de experimentos inteiramente casualizados e em blocos completos inteiramente casualizados em experimentos de Biologia. Objetivos 1 2 Conhecer os conceitos de fatores de variação, graus de liberdade, fazer análise de variância de experimentos inteiramente casualizados e em blocos completos casualizados. Compreender as situações onde se pode utilizar análise de variância corretamente. Aula 6 Bioestatística 103 Definindo análise de variância Já vimos na Aula 3 (Descrevendo sistemas) deste curso, os conceitos de variância e como se fazer a sua estimativa. Essa medida (a variância) é uma peça fundamental em qualquer análise ou investigação científica, pois é essa análise da variância que permite a comparação de médias e, assim, verificar se existe diferença significativa entre elas ou não. Além disso, para fazer uma análise de variância, devemos ter cuidado em respeitar algumas premissas básicas: 1) A resposta da variável que está sendo analisada deve ter uma distribuição normal. 2) Os tratamentos impostos, nos quais a resposta está sendo medida, devem apresentar variâncias iguais. 3) A aplicação dos tratamentos deve ser homogênea em todas as unidades experimentais. 4) A distribuição das unidades experimentais deve ser aleatorizada dentro da área experimental. Se essas quatro premissas não forem cumpridas, a análise de variância não pode ser realizada. Você pode testar a normalidade dos dados utilizando as informações disponibilizadas na Aula 3 (Descrevendo sistemas) e Aula 5 (Testando hipóteses). E quando os dados não têm distribuição normal ou apresentam variâncias diferentes? Quando os dados não têm distribuição normal, eles podem ser analisados utilizando estatística não paramétrica. Todavia, esse tipo de análise não será apresentado neste curso. Já para as situações onde a variância é diferente, pode-se fazer uma transformação de variáveis. No entanto, para escolher como fazer a transformação adequada para cada situação, deve-se consultar um estatístico ou discutir com pesquisadores experientes nessa área de conhecimento. Agora eu já sei calcular as variâncias, conheço as premissas básicas para sua análise... e agora, o que faço com essas informações? 104 Aula 6 Bioestatística Análise de variância Quando realizamos qualquer experimento ou coleta de dados, vários fatores interferem juntos e ao mesmo tempo nos resultados. Tome, por exemplo, o seguinte experimento: Um pesquisador deseja avaliar o peso ao nascer de bezerros num rebanho bovino da raça gir (Tabela 1). Tabela 1 – Peso ao nascer de bezerro num rebanho bovino da raça gir Número do bezerro 1 2 3 4 5 6 7 8 9 10 Peso ao nascer (kg) 30 27 24 28 29 18 23 22 20 28 Observe que vários fatores podem estar interferindo no peso ao nascer dos bezerros. Entre as possíveis causas de variação podemos citar: sexo da cria; efeito da linhagem paterna; peso e alimentação da mãe; idade e número de partos da mãe; época/estação de nascimento dos bezerros. Algumas dessas fontes de variação podem ser agrupadas e controladas, outras não. É por esse motivo que se deve fazer a análise de variância, para se conseguir isolar os fatores de variação impostos e controlados (os tratamentos) daqueles que são do acaso e não se pode controlar. Assim, você pode avaliar o efeito do que se quer medir (tratamento experimental) sobre a variável resposta e identificar se existe ou não diferença estatística significativa entre as médias obtidas nos resultados do experimento. Para o exemplo da Tabela 1, os dados podem ser organizados em função do touro utilizado, ou do número de partos das vacas (matrizes) em primíparas ou multíparas etc... Na análise de variância, podemos decompor os fatores de variação em, basicamente, dois tipos: Diferença estatística significativa Indica a possibilidade de que o resultado encontrado no experimento seja igual ao existente na população. Primíparas Controlados – São aqueles conhecidos “a priori” (antes de se iniciar o experimento) e que reconhecidamente têm efeito sobre a variável resposta que está sendo medida. Por esse motivo, seus efeitos são medidos e entram no modelo estatístico. Animais que só tiveram um parto Aleatórias ou do acaso – São variáveis desconhecidas (que não podem ser controladas) e vão compor o erro experimental. Sempre que possível, deve-se minimizar a ação de variáveis aletórias e do erro experimental. Multíparas Aula 6 Animais que tiveram mais de um parto. Bioestatística 105 Afinal, é para isso que se faz planejamento de experimentos e se procura controlar a aplicação dos tratamentos. Graus de liberdade É um estimador do número de categorias independentes num teste particular ou experiência estatística. Encontram-se mediante a fórmula n – 1, onde n é o número de elementos correspondente ao fator de variação na amostra. 106 Aula 6 Assim, conhecendo-se as fontes de variação do experimento pode-se aplicar o modelo estatístico adequado e fazer a contabilização dos resultados através da análise de variância. Para isso, os fatores de variação estudados são decompostos em função dos seus graus de liberdade e da soma de quadrados. Nesta aula, serão demonstradas tabelas de análise de variância em experimentos inteiramente casualizados e em blocos completos inteiramente casualizados. Bioestatística Atividade 1 a) Qual a diferença entre variância e análise de variância? b) Quais as condições ou premissas para que um experimento possa ser avaliado utilizando análise de variância? c) Proponha um experimento para medir a produção de frutas de uma área plantada com cajueiro e identifique os fatores de variação controlados e os aleatórios. d) Você quer avaliar o peso ao nascer de bezerros em um rebanho da raça gir. Assim, cite os possíveis fatores de variação que têm ação sobre essa variável resposta (peso dos bezerros ao nascer) e faça sua classificação em controlados e do acaso. Experimentos com delineamento inteiramente casualizado Um experimento tem delineamento inteiramente casualizado quando a variável resposta só sofre ação dos tratamentos impostos e do acaso. Esse é o delineamento experimental mais simples e por isso mesmo o mais forte, que minimiza o erro experimental em relação aos tratamentos. Nesse tipo de delineamento os tratamentos se distribuem ao acaso em todas as unidades experimentais e o número de repetições por tratamento pode ser igual ou diferente, que não resultará em alterações na análise. O delineamento inteiramente casualizado é muito útil para o estudo de métodos e técnicas de trabalho de laboratório, que normalmente têm condições uniformes. Exercício resolvido 1 Diâmetro a altura do peito Um pesquisador deseja avaliar 10 progênies de eucalipto (Eucalyptus saligna) em um experimento inteiramente casualizado, com quatro repetições cada (Tabela 2). Tabela 2 – Dados médios do diâmetro a altura do peito (DAP) de parcelas de um experimento de competição de 10 progênies de eucalipto (Eucalyptus saligna), em centímetros Progênies Total P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 16,0 14,3 14,7 13,6 11,6 11,0 13,1 10,3 8,5 8,2 16,4 14,5 15,6 13,1 10,5 15,0 10,3 13,2 8,6 8,4 14,1 13,8 11,6 14,7 15,9 10,7 14,3 10,2 9,5 9,3 11,7 14,6 15,0 15,1 14,0 13,0 10,5 13,0 9,4 9,2 58,2 57,2 56,9 56,5 52,0 49,7 48,2 46,7 36,0 35,1 A medição do diâmetro da árvore deve ser feita a uma altura de 1,30 metro do solo. Total Progênies O teste de progênie avalia os pais pela comparação do desempenho das suas descendências. 496,5 Aula 6 Bioestatística 107 Solução 1) Observar quais os fatores que podem influenciar as variáveis. Nesse caso, temos o valor genético da planta mãe como melhoradora (o que se deseja avaliar), o solo, o clima, possíveis infestações de insetos ou doenças nas raízes, água etc. Certamente a minha variável resposta medida (o DAP) vai sofrer a interferência de todos esses fatores e outros tantos mais que são do acaso e não se pode controlar. Todavia, neste exemplo, o fator de variação que se quer testar é a progênie, e esse é devidamente controlado. Os demais são do acaso. Nesse caso, como é um experimento inteiramente casualizado este deve ser conduzido numa área plana, onde não há variação de tipo de solo e de umidade em nenhum local do terreno. 2) Observar as condições expressas no método estatístico e formular as hipóteses que serão testadas (Aula 4 – Elaborando hipóteses). São elas: H 0: Não existe diferença entre as médias de DAP nas 10 progênies avaliadas. H1: Pelo menos uma das 10 progênies avaliadas difere das demais. 3) Escolher o teste mais adequado. Nesse caso, utilizaremos o teste de Tukey, que minimiza erro tipo II (Aula 5 – Testando hipóteses). 4) Observar se os dados têm distribuição normal. Isso pode ser realizado fazendo um gráfico com todos os dados, que deverá ter formato de sino e/ou testando a variância. Para o caso analisado, os dados obedecem a essas duas condições. 5) Observando os fatores de variação analisados, você verá que a única diferença entre os tratamentos é a Progênie (P), que vai de 1 a 10. Como o número de graus de liberdade (GL) é medido pela fórmula: GL = n – 1, onde n = número de parâmetros do fator de variação. O GL da Progênie será: GLProgênie = 10 – 1 = 9. 6) Determine o total de parcelas e o grau de liberdade total. O total de parcelas do experimento é de 40 (10 Progênies × 4 repetições cada). Assim, o GL total será: GLTotal = 40 – 1 = 39 7) Calcule o grau de liberdade do erro. O GL do erro é calculado pela diferença entre o GLTotal e o GLProgênie que será: GLErro = 39 – 9 = 30 108 Aula 6 Bioestatística 8) Complete o quadro de análise de variância (ANAVA): Fator de variação GL Progênie 9 Erro 30 Total 39 SQ QM Valor de F calculado Nível de significância ANAVA SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que corresponde a variância. 9) Determine a Soma de Quadrados Total, dos Tratamentos e do Erro Experimental. Para isso, você deve calcular o Fator de Correção e, em seguida, a Soma de Quadrados Total, a dos Tratamentos e a do Erro, nessa ordem. a) Calcule o Fator de Correção (C ), que deve ser utilizado no cálculo da Soma de Quadrados Total (SQT) e Soma de Quadrados dos Tratamentos (SQTrat) 2 X (496,5)2 C= = = 6.162,80 n 40 b) A Soma dos Quadrados Total (SQT ) corresponde à variância total do experimento, e é calculada utilizando-se a seguinte fórmula: SQT otal = X 2 − C = 6401,35 − 6162,41 = 238,54 , onde x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35 E “C ” é o fator de correção já calculado anteriormente, 6162,80. c) A Soma dos Quadrados dos Tratamentos (SQTrat ) permite isolar e quantificar a variância relacionada aos tratamentos. Xtrat2 −C SQT rat = r Onde: Xtrat2 é calculado pela soma de quadrados dos tratamentos, utilizando a seguinte Você pode encontrar como sinônimo de ANAVA, o acrônimo ANOVA, originado do termo em inglês “Analysis of Variance” cuja tradução é Análise de Variância. Fórmula Os dados apresentados no desenvolvimento correspondem a soma de todos os valores da Tabela 2 (Dados médios do diâmetro a altura do peito (DAP) de parcelas de um experimento de competição de 10 progênies de eucalipto (Eucalyptus saligna), em centímetros) elevados ao quadrado. fórmula: Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 + +(46,7)2 + (36,0)2 + (35,1)2 Xtrat2 = 25295,17 O valor de “r” é dado pelo número de repetições de cada tratamento. Para este exemplo, o valor de “r” será 4, pois foram utilizadas quatro repetições por cada tratamento (Progênie). O “C ” é o Fator de Correção (6126,41), é o mesmo que já foi calculado anteriormente para a SQTotal . Daí: SQT rat = Xtrat2 25295,17 −C = − 6162,41 = 6323,79 − 6162,41 = 160,98 r 4 Aula 6 Bioestatística 109 d) Soma dos Quadrados do Erro (SQErro ) A Soma dos Quadrados do Erro (SQErro ) é calculada pela diferença entre a SQTotal e o SQTrat. Assim teremos: SQErro = SQTotal – SQTrat Como o SQTotal = 238,54 e o SQTrat = 160,98; teremos: SQErro = SQTotal – SQTrat SQErro = 238,54 – 160,38 SQErro = 77,56 10) De posse dessas informações, podemos preencher outra coluna da tabela de ANAVA deste experimento: Fator de variação Progênie Erro Total 11) GL 9 30 39 SQ 160,98 77,56 238,54 Valor de F calculado QM Nível de significância Determine os valores dos Quadrados Médios (QM). O valor do Quadrado Médio é calculado dividindo-se a SQ pelo respectivo GL. Não se calcula o valor de QMTotal, pois este não terá utilidade. Assim teremos: Para a Progênie QM P rogênie = QM Erro = 12) 160,98 = 17,89 9 77,56 = 2,59 30 Calcular o valor de F. Este é obtido pela razão entre o QMProgênie e QMErro : F Calculado = Assim, a nossa tabela de ANAVA ficará da seguinte forma: Fator de variação Progênie Erro Total GL 9 30 39 SQ 160,98 77,56 238,54 QM 17,89 2,59 -------- Valor de F calculado 6,91 ---------------- Nível de significância 1% ---------------- 14) Como o valor de F calculado é maior que o tabelado a 1% ,que é 3,07, (anexo A) diz-se que o resultado do experimento é significativo a 1% de probabilidade. Ou seja, existe 99% de possibilidade de o que ocorreu no experimento ser verdade e acontecer na população. 15) Como o valor de F calculado é significativo, esse resultado indica que existe diferença entre as médias avaliadas. Assim, com essa informação você pode rejeitar H0 e aceitar H1. 110 Aula 6 Bioestatística Fonte: Pimentel-Gomes e Garcia (2002). 13) QM P rogênie 17,89 = = 6,91 QM Erro 2,59 Bom, agora você já sabe que existe diferença entre pelo menos uma das médias dos tratamentos. Entretanto, o teste F (Valor de F calculado) não indica qual dos 10 tratamentos avaliados tem média diferente. Assim, você precisa calcular a diferença mínima significativa utilizando o teste de Tukey, que já havia sido previamente escolhido. Para isto, você deve: 1) Pegar os valores tabelados na tabela de amplitude estudentizada (anexo B) para o teste de Tukey a 5% para 10 graus de liberdade da fonte testada (tratamento) e 30 graus de liberdade do erro, que é 4,82. O cálculo da diferença mínima significativa (DMS) é obtido da seguinte fórmula: √ √ QM Erro 2,59 √ = 4,82 √ DM S = q(10 : 30) = 3,88 cm r 4 2) Em seguida, você deve listar (organizar) os resultados (as médias) dos tratamentos, de forma decrescente (da maior para a menor), como na tabela abaixo: P1 14,55 P2 14,30 P3 14,23 P4 14,13 P5 13,00 P6 12,43 P7 12,05 P8 11,68 P9 9,00 P10 8,78 3) Após isso, calcule a diferença entre a maior média (14,55) e a DMS (3,88). O resultado obtido foi 10,67. Assim, todas as médias contidas no intervalo entre 14,55 cm e 10,67 cm, são iguais entre si e receberam a mesma letra. 4) Em seguida, repita a operação com a segunda média mais alta e realize o mesmo processo, até que você não encontre mais diferença estatística significativa entre as médias. Utilizando os resultados dessa ANAVA, você terá o seguinte resultado, da comparação de médias: P1 14,55ª P2 14,30ª P3 14,23ª P4 14,13ª P5 13,00ª P6 12,43ªb P7 12,05ªb P8 11,68ªb P9 9,00b P10 8,78b Aula 6 Bioestatística 111 Assim, como letras iguais indicam que as médias não diferem entre si, você pode identificar que as médias P1, P2, P3, P4 e P5 ( a ) são estatisticamente diferentes da P9 e P10 ( b ). Vamos aplicar o conceito de análise de variância em experimentos inteiramente casualizados? Atividade 2 1 2 Planeje um experimento com delineamento inteiramente casualizado, para testar o efeito de 5 fontes de adubação nitrogenada sobre a produção de milho, usando 4 repetições para cada tratamento. Num experimento inteiramente casualizado com 5 tratamentos e 4 repetições, estudou-se o efeito de 5 carrapaticidas (tratamentos) no controle de carrapatos em bovinos. Analisando- se o número de carrapatos que cairam por animal, obtiveram-se as seguintes somas de quadrados: S.Q. Tratamentos = 41,08 e S.Q. Total = 57,46. De posse dessas informações, estabeleça as hipóteses estatísticas H0 e H1 e monte o quadro de análise de variância desse experimento realizado inclusive o valor calculado de F. 112 Aula 6 Bioestatística Os dados da Tabela 3 se referem a produções de matéria seca de cultivares de sorgo em t/ha . Utilizando este conjunto de dados estabeleça as hipóteses estatísticas H0 e H1, monte o quadro de análise de variância desse experimento, calcule o valor de F e diga se existe diferença estatística significativa entre os tratamentos. 3 Tabela 3 – Produções de matéria seca de cultivares de sorgo em t/ha CULTIVAR REPETIÇÕES 1 2 3 4 5 6 A 10,27 11,55 11,68 11,38 11,20 11,24 B 9,77 9,96 10,18 11,94 10,43 10,49 C 9,86 9,59 9,99 10,43 9,85 10,03 D 21,22 20,62 22,33 19,89 21 20,78 E 20,20 20,55 22,12 20,78 20,90 20,92 E os experimentos em blocos completos inteiramente casualizados? Antes de definir esse tipo de delineamento experimental, vamos refletir sobre o efeito de fatores de variação parcialmente controlados. Por exemplo: 1) Suponha que você quer montar um experimento no campo e observa que existe um desnível na área, que pode favorecer o acúmulo de água e afetar (beneficiar ou prejudicar) os tratamentos que forem colocados lá. 2) Você planeja fazer um experimento no laboratório, e observa que existe uma parte do laboratório que recebe insolação direta, através de uma janela. E, isso também pode interferir no seu tratamento experimental. Aula 6 Bioestatística 113 E agora, o que fazer? Bom, você pode conseguir outras áreas que permitam instalar todo o experimento num delineamento inteiramente casualizado (Figura 1). Outra alternativa indicada para essa situação é organizar todos os tratamentos impostos de modo que eles recebam o efeito desses fatores de variação parcialmente controlados (aqui citados o desnível do terreno e a insolação) de forma uniforme para todos (Figura 2). Assim, você não estaria beneficiando ou prejudicando nenhum e controlando parcialmente esses fatores de variação. É a esse tipo de delineamento que denominamos blocos completos inteiramente casualizados. Nesse caso, cada bloco deverá conter uma repetição de cada um dos tratamentos experimentais, distribuídos aleatoriamente. Desse modo, os blocos podem ser convencionados como um fator de variação que ocorre em uma só direção e é perpendicular à disposição dos tratamentos. Figura 1 – Delineamento inteiramente casualizado FONTE DE VARIAÇÃO NÃO INTENCIONAL Figura 2 – Delineamento em blocos completos inteiramente casualizados 114 Aula 6 Bioestatística Nesse tipo de delineamento experimental, uma parte da Soma de Quadrados do Erro Experimental é transferida para testar o efeito dos blocos sobre as médias. Por outro lado, possibilita a uniformização da aplicação dos tratamentos. Um exemplo prático desse tipo de situação é dado ao se tentar implantar um experimento numa área que tem uma determinada declividade que favorece o acúmulo de água. Isso pode beneficiar ou prejudicar a produção ou os tratamentos experimentais que se localizem nessa área. Exercício resolvido 2 Para este exemplo, vamos utilizar o mesmo experimento da avaliação de progênies de eucalipto utilizada para o exemplo de delineamento inteiramente casualizado, com uma pequena alteração: todas as linhas constituirão blocos. Assim, o nosso conjunto de dados ficaria da seguinte forma: Progênies P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Total Bloco 1 16,0 14,3 14,7 13,6 11,6 11,0 13,1 10,3 8,5 8,2 121,3 Bloco 2 16,4 14,5 15,6 13,1 10,5 15,0 10,3 13,2 8,6 8,4 125,6 Bloco 3 14,1 13,8 11,6 14,7 15,9 10,7 14,3 10,2 9,5 9,3 124,1 Bloco 4 11,7 14,6 15,0 15,1 14,0 13,0 10,5 13,0 9,4 9,2 125,5 Total 58,2 57,2 56,9 56,5 52,0 49,7 48,2 46,7 36,0 35,1 496,5 Assim, o quadro da análise de variância (ANAVA) será: Fator de variação GL Progênie 9 Bloco 3 Erro 27 Total 39 SQ QM Valor de F calculado Nível de significância 27 SQ e QM significam, respectivamente, Soma de Quadrados e Quadrado Médio do Erro, que corresponde à variância. Solução 1) Observe que o valor dos Graus de Liberdade do Erro no quadro da ANAVA 27 da análise em blocos completos é menor que no inteiramente casualizado (30). Essa diferença, corresponde justamente ao número de blocos (4) menos 1. Inicialmente, deve-se calcular o Fator de Correção (C ) do experimento, utilizando a seguinte fórmula: C= 2) X2 (496,5)2 = = 6.162,80 n 40 A Soma de Quadrados do Experimento (SQ Total) é calculada da mesma forma que para delineamentos inteiramente casualizados: Aula 6 Bioestatística 115 SQT otal = X 2 − C = 6401,35 − 6162,41 = 238,54 , onde x2 = 162 + 16,42 + . . . + 14,32 + 152 . . . + 9,22 = 6401,35 E “C” é o fator de correção já calculado anteriormente, 6162,80. 3) A Soma de Quadrados da Progênie (SQTrat) também é calculada de forma semelhante ao delineamento interiamente casualizado. Assim teremos: Xtrat2 −C SQT rat = r onde: Xtrat2 = (58,20)2 + (57,2)2 + (56,9)2 + (56,5)2 + (52,0)2 + (49,7)2 + (48,2)2 + +(46,7)2 + (36,0)2 + (35,1)2 Xtrat2 = 25295,17 “C ” é o Fator de Correção anteriormente calculado (6162,41). Assim, o SQTrat será: Xtrat2 25295,17 SQT rat = −C = − 6162,41 = 6323,79 − 6162,41 = 160,98 r 4 4) A Soma de Quadrados dos Blocos (SQBloco) permite quantificar a variância dos blocos, e é calculada da seguinte forma: XBloco2 SQBloco = −C k Onde, XBloco2 é o somatório ao quadrado dos valores de cada bloco “k” é o número de blocos C é o Fator de Correção, já calculado. Assim, teremos o seguinte cálculo: XBloco2 61640,11 SQBloco = −C = − 6162,41 = 6164,11 − 6162,41 = 1,61 k 10 5) A Soma de Quadrados do Erro (SQErro ) é calculada pela diferença: SQErro = SQTotal – SQBloco – SQTrat SQErro = 238,54 – 1,60 – 160,38 = 76,56 Observe que o conjunto de dados foi o mesmo do Exercício Resolvido 1, entretanto o valor da SQErro foi menor. Isso se deve ao fato de que parte do erro experimental 116 Aula 6 Bioestatística foi transferida para os blocos, a fim de quantificar o efeito dessa fonte de variação sobre o experimento. 6) Agora, de posse dessas informações, podemos preencher outra coluna da tabela de ANAVA desse experimento: Fator de variação GL Progênie 9 160,98 Bloco 3 1,61 Erro 27 76,56 Total 39 238,54 7) SQ QM Valor de F calculado Nível de significância Em seguida, devemos calcular os valores dos Quadrados Médios: O valor do Quadrado Médio é calculado dividindo-se o SQ pelo respectivo GL. Não se calcula o valor do QMTotal, pois este não terá mais utilidade para a análise do experimento. Assim teremos para: 160,98 = 17,89 9 1,61 QM Bloco = = 0,53 3 76,56 QM Erro = = 2,84 27 QM P rogênie = 8) Calcular o valor de F calculado pela razão entre o QMProgênie e QMErro : F Calculado = 9) QM P rogênie 17,89 = = 6,28 QM Erro 2,84 Assim, a nossa tabela de ANAVA ficará da seguinte forma: Fator de variação GL SQ QM Valor de F calculado Nível de significância Progênie 9 160,98 17,89 6,28 1% Bloco 3 1,61 0,54 -------- -------- Erro 27 76,56 2,59 ---------- ---------- Total 39 238,54 ---------- ---------- ---------- 10) Como o valor de F calculado também é maior que o tabelado a 1% (que é 3,07) diz-se que o resultado do experimento é significativo a 1% de probabilidade. Todavia, observe que houve redução no valor de F calculado. 11) No mais, os resultados continuam iguais aos do experimento anterior e você obtém a mesma resposta: as médias P1, P2, P3, P4 e P5 são estatisticamente diferentes da P9 e P10. Aula 6 Bioestatística 117 Outros tipos de delineamento experimental e arranjo estatístico Além do delineamento inteiramente casualizado e em blocos completos, existe também o delineamento em quadrado latino. Nesse caso, os fatores de variação atuam no experimento em dois sentidos (perpendicular e paralelo) em relação à área experimental. Para trabalhar com esse tipo de delineamento experimental e os arranjos estatísticos em fatorial e parcela subdividida, recomenda-se consulta a um estatístico para definir a melhor forma de análise e o número mínimo de repetições de cada tratamento. Vamos agora aplicar o conceito de análise de variância e resolver alguns exercícios realizando a Atividade 3? Atividade 3 1 118 Aula 6 Bioestatística Quais são as características de um delineamento em blocos casualizados? E quais as vantagens e desvantagens em sua aplicação? 2 3 Planeje um experimento para comparar três fórmulas de adubação no crescimento de Pinus, supondo que você dispõe de um terreno heterogêneo que deve ser dividido em cinco blocos. Faça o croqui da área. Em um experimento planejado para verificar o efeito de alguns porta-enxertos para citros no desenvolvimento da laranjeira pera, Mourão Filho ensaiou várias medidas, como a altura das árvores, volume da copa, diâmetro do tronco, produção de frutos etc. Foram utilizados 5 porta-enxertos, divididos em quatro blocos, pois o ambiente utilizado para o experimento apresentava pequenas variações de insolação. Os portaenxertos utilizados foram: T1 = limoeiro cravo T4 = laranjeira caipira T2 = laranjeira trifoliata T5 = tangerineira cleópatra T3 = limoeiro volkamericano A variável que estudaremos será o número médio de frutos por pé nas parcelas. Os dados se encontram na tabela a seguir. Tabela 4 – Número médio de frutos de laranjeira pera enxertada sobre 5 porta-enxertos Cultivar Repetições B1 B2 B3 B4 T1 143,25 224,25 211,50 231,50 T2 106,25 185,00 161,25 157,25 T3 110,75 85,00 109,50 94,50 T4 318,75 297,50 289,50 376,25 T5 274,25 281,00 297,75 305,75 Aula 6 Bioestatística 119 Com base nessas informações: 120 Aula 6 a) Identifique os itens a seguir: o fator; níveis; variável resposta; unidade de análise; número de repetições; número de ensaios. b) Quais as hipóteses a serem testadas sobre o experimento. Faça a tabela de análise de variância e interprete. Bioestatística c) Aplique o teste de comparação de Tukey ao nível de 5% de significância para as médias dos tratamentos do experimento do exercício anterior, e interprete os resultados. Resumo Nesta aula, você aprendeu o conceito de análise de variância e viu também como ela é fundamental para que se possa fazer a comparação de médias. Você viu o conceito de fatores de variação, de variância, erros aleatórios e graus de liberdade, conceitos essenciais para realizar a análise das médias ou resultados obtidos nos experimentos. Em seguida, você aprendeu como aplicar os testes estatísticos e foi capaz de fazer uma avaliação de experimentos inteiramente casualizados e em blocos completos inteiramente casualizados em experimentos de Biologia. Aula 6 Bioestatística 121 Autoavaliação Um estudo sobre adubação nitrogenada na cultura do arroz irrigado testou quatro formas de aplicação desse macronutriente: A1 = 80 kg/ha no plantio; A2 = 40 kg/ha no plantio e 40 kg/ha 40 dias após a emergência (DAE); A3 = 13,2 kg/ha no plantio e 66,8 kg/ha aos 40 DAE; e A4 = 13,2 kg/ha no plantio e 33,4 kg/ha aos 40 e aos 60 DAE. O experimento tinha oito repetições, e os dados de produção de grãos em kg/ha estão na tabela a seguir. Tabela 5 – Dados de produção de arroz irrigado, em kg/ha, no delineamento inteiramente casualizado, com quatro tratamentos e oito repetições Tratamentos Repetições 1 2 3 4 5 6 7 8 A1 6.276 6.035 6.086 5.594 6.321 6.746 5.751 6.191 A2 7.199 6.890 6.586 7.149 6.657 6.210 6.128 6.393 A3 6.457 6.174 6.612 6.087 5.797 5.865 6.498 6.486 A4 7.202 7.173 7.169 6.590 6.444 6.740 6.370 7.270 Utilizando os dados da tabela acima, faça uma análise estatística completa (estatística descritiva, teste de normalidade, ANAVA e teste de comparação de médias) e estabeleça conclusões ao nível de 5% de significância. 122 Aula 6 Bioestatística Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed. Artmed, 2003. PIMENTEL-GOMES, F.; GARCIA, C. H. Estatística aplicada a experimentos agronômicos e florestais: exposição com exemplos e orientações para uso de aplicativos. Biblioteca de ciências agrárias Luiz de Queiroz. Piracicaba: FEALQ, 2002. v 1. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. VIEIRA, Sonia. Introdução à Bioestatística. Rio de Janeiro: Ed. Campus, 1980. Anotações Aula 6 Bioestatística 123 Anotações 124 Aula 6 Bioestatística ANEXO A – Valores de amplitude total estudentizada (q) para uso no teste de Tukey a nível de 1% de probabilidade Fonte: Pimentel-Gomes e Garcia (2002, p. 293). Aula 6 Bioestatística 125 ANEXO B – Valores de amplitude total estudentizada (q) para uso no teste de Tukey a nível de 5% de probabilidade Fonte: Pimentel-Gomes e Garcia (2002, p. 291). 126 Aula 6 Bioestatística Anotações Aula 6 Bioestatística 127 Anotações 128 Aula 6 Bioestatística Correlacionando informações Aula 7 Apresentação Avaliar se existe associação entre duas características quantitativas é o objetivo de vários estudos em Biologia, e para isto, são realizadas análises de correlação. Nesta aula, iremos compreender a importância, a definição e quais os tipos de correlação existentes entre duas variáveis. Veremos também os métodos utilizados para avaliar a existência de correlação entre variáveis: o diagrama de dispersão e o coeficiente de correlação. Aprenderemos como construir um diagrama de dispersão e como calcular o coeficiente de correlação. Na aula, também existem exercícios resolvidos e não resolvidos, para que você teste os conhecimentos adquiridos. Boa aula! Objetivos 1 2 3 Definir o conceito de correlação entre variáveis. Distinguir os métodos utilizados para avaliar a existência de correlação entre duas variáveis. Construir um diagrama de dispersão e calcular o coeficiente de correlação entre as variáveis. Aula 7 Bioestatística 131 Relacionando duas características Relacionar Fonte: <http://escolaprof.files.wordpress.com/2009/03/computador.jpg>. Acesso em: 31 mar. 2010. Fazer relação. Estabelecer vínculo entre coisas diferentes. No nosso dia a dia, quer no trabalho, na escola ou em casa, temos o costume de relacionar alguns fatos que presenciamos. Por exemplo: Será que há relação entre o número de horas que me dedico aos estudos e minha nota final? Será que há relação entre o ato de beber água depois das refeições e o aumento de peso? Todos estes questionamentos se referem ao querer saber se há relação entre uma variável, que podemos chamá-la de x (por exemplo, número de horas na frente do computador) e outra variável que podemos chamá-la de y (por exemplo, dor de cabeça). Em sistemas biológicos não é diferente Em estudos de sistemas biológicos, é comum vermos os pesquisados avaliando a existência de relação entre duas variáveis de interesse. Por exemplo: Um biólogo pode estar interessado em saber se há relação entre a quantidade de chumbo medida na água e o volume de dejetos (ou de esgoto) despejados em um rio. Quando se pode demonstrar que existe relação ou associação entre duas variáveis quantitativas, isto é, quando se constata que elas variam juntas, diz-se que as variáveis estão correlacionadas. Assim, podemos definir correlação como o estudo do comportamento conjunto de duas variáveis. 132 Aula 7 Bioestatística Atividade 1 Mesmo sem dispor de dados, que tipo de relação você acha que existe entre as situações abaixo: 1) Intensidade luminosa de uma planta e seu desenvolvimento. 2) Qualidade da alimentação e o nível de colesterol no sangue. 3) Quantidade de água parada e o desenvolvimento das larvas do mosquito da dengue. 4) Reclamação de clientes e a qualidade do produto. 5) Popularidade de um governo e indicadores econômicos. Aula 7 Bioestatística 133 Como avaliamos a correlação entre duas variáveis? Para avaliar a correlação entre duas variáveis, inicialmente apresentamos os dados em forma de um gráfico de pontos, denominado diagrama de pontos ou diagrama de dispersão. Este diagrama permite visualizar a relação entre as duas variáveis. Mas como podemos construir esse diagrama? A resposta é simples: Vamos tomar como exemplo as informações sobre a altura dos alunos do segundo semestre do curso de Ciências Biológicas que utilizamos na Aula 1 (O que é Bioestatística) e acrescentar mais uma variável a ser medida: o peso destes alunos. Assim, para construir um diagrama de dispersão você deve: 1) Coletar os dados das variáveis x e y que pretende correlacionar. No nosso exemplo, podemos chamar de variável x a altura dos alunos e de variável y, o peso dos mesmos, conforme podemos visualizar na tabela abaixo. Tabela 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas Altura dos alunos do segundo semestre 1,67 1,87 1,88 1,89 1,78 1,89 1,9 1,76 1,94 1,95 134 Aula 7 Peso dos alunos do segundo semestre 56,0 89,2 90,6 93,6 60,5 91,4 95,8 62,4 95,0 99,0 2) Em seguida, você deve traçar um sistema de eixos cartesianos, representando uma variável em cada eixo, ou seja, a variável que chamamos de x, a altura dos alunos, deve ser colocada no eixo X e a variável que chamamos de y, o peso dos alunos, deve ser colocada no eixo Y. Caso você não se lembre como se constrói um gráfico com eixo X e Y, volte às Aulas 5 (Dados quantitativos: como organizá-los?) e 6 (Distribuição de freqüências: apresentação gráfica) da disciplina de Matemática e Realidade. 3) O próximo passo é marcar pontos nesse gráfico, de modo que, para cada valor de x, você tenha um valor de y correspondente. Por exemplo: se pela nossa tabela x for 1,67m, y será 56kg. Isso deve ser feito para todos os dados disponíveis na tabela. 4) Note que, ao ir acrescentando os dados de x e y, teremos pontos específicos no gráfico representando estes pares de dados (altura e peso). 5) Na sequência, escreva os nomes das variáveis nos respectivos eixos, bem como o título do diagrama. E está pronto o nosso diagrama de dispersão. Bioestatística Altura (m) e peso (Kg) dos alunos do segundo semestre de Biologia 120 Peso (Kg) 100 80 60 40 20 0 1,6 1,7 1,8 1,9 2 Altura(m) Figura 1– Altura (m) e peso (Kg) dos alunos do segundo semestre do Curso de Ciências Biológicas Entretanto, você deve notar que, o diagrama acima representado foi feito em computador, utilizando a planilha eletrônica no Excel. Para você fazer esse mesmo diagrama utilizando papel milimetrado, você deve seguir os passos representados no esquema a seguir (Figura 2). Coletar os dados das variáveis que deseja estudar Traçar um gráfico com eixos cartesianos (X e Y), representando uma variável em cada eixo Escrever os nomes das variáveis nos seus respectivos eixos Fazer um ponto que represente cada par de valores X e Y Escrever o título e se for o caso, complementar com uma legenda Figura 2 – Sequência de procedimentos para a construção de um diagrama de dispersão em papel milimetrado Importante Para desenhar o diagrama de dispersão, escolha as escalas de tal maneira que a figura pareça quadrada. Este cuidado ajuda a obter melhor visão da associação entre as variáveis. Aula 7 Bioestatística 135 Atividade 2 Utilizando os dados da Tabela 2, faça um diagrama de dispersão no papel milimetrado a seguir e repita o mesmo exercício fazendo-o em planilha eletrônica do Excel ou Calc. Tabela 2 – Quantidade de lixo (m3) produzida de acordo com o número de dormitórios das residências Número de dormitórios Volume de lixo 1 1 2 3 3 6 4 8 Papel milimetrado para a construção do diagrama de dispersão: Mas como interpretar o diagrama de dispersão? Para isso, você deve observar a direção dos pontos. Note que, no nosso exemplo, à medida que aumenta a altura dos alunos, aumenta também o peso dos mesmos. Nesse caso, podemos afirmar que as variáveis altura e peso estão correlacionadas e, à medida que uma aumenta, a outra aumenta também. Assim, podemos dizer que estas variáveis apresentam correlação positiva. 136 Aula 7 Bioestatística Se tivéssemos um comportamento diferente, ou seja, à medida que aumenta a altura dos alunos, diminui o peso, mesmo assim teríamos uma correlação entre as variáveis, porém esta seria uma correlação negativa. Se não houvesse nenhuma relação entre a altura dos alunos e o peso, não teríamos correlação entre as variáveis, ou seja, sem correlação. Quando além de observarmos a direção dos pontos, também observamos sua dispersão, podemos ter mais dois outros subtipos de correlações positivas e negativas: Correlação forte: Quando há menor dispersão dos pontos. Correlação fraca: Quando há maior dispersão dos pontos. Correlação perfeita: Quando não há dispersão dos pontos (formam uma linha). Estes tipos de comportamentos entre as variáveis quando analisadas do ponto de vista da direção e dispersão dos pontos podem ser ilustrados pelas figuras abaixo: Diagramas de dispersão que mostram correlação positiva entre as variáveis Correlação fraca Correlação forte Correlação perfeita Diagramas de dispersão que mostram correlação negativa entre as variáveis Correlação fraca Correlação forte Correlação perfeita Diagrama de dispersão que mostra correlação nula entre as variáveis Figura 3 – Diagramas de dispersão Fonte: <www.lugli.org/2008/02/diagrama-de-dispersao/>. Acesso em: 31 mar. 2010. Aula 7 Bioestatística 137 Atividade 3 De acordo com as figuras abaixo, classifique as correlações em positivas e negativas e em fortes, fracas e perfeitas. 1) Relação entre o consumo médio de vegetais e a taxa de mortalidade para o sexo feminino. Média da taxa de mortalidade para o sexo Feminino (100000 pessoas ano) 26 24 22 20 18 16 14 12 10 8 0 100 200 300 400 Consumo médio de Vegetais (gr/pessoas/dia) Fonte: <stat2.med.up.pt/cursop/glossario/rregressao.html>. Acesso em: 31 mar. 2010. 2) Relação entre peso inicial das vacas com os dias de sobrevida quando submetidas a jejum. Dias de Sobrevivência 60 50 40 30 20 10 0 0 100 200 300 Peso Inicial da Fêmea (mg) Fonte: <http://www.scielo.br/img/revistas/rsp/v9n3/09f2.gif>. Acesso em: 31 mar. 2010. 138 Aula 7 Bioestatística 3) Média do número de sementes e a quantidade de sólidos solúveis totais de carambolas. N. de Sementes vs. SST 7,0 6,6 SST 6,2 5,8 5,4 5,0 4,6 5 6 7 8 9 10 11 12 13 Sementes 14 C1 C1A C1B C1C C1D C2 C2A C2B C2C C2D C3 C3A C3B C3C C3D Fonte: <http://www.scielo.br/img/fbpe/sa/v58n1/a15fig02.gif>. Acesso em: 31 mar. 2010. Há outra maneira de avaliar a correlação entre duas variáveis? Sim. Além do diagrama de dispersão, há outro método para avaliar a correlação entre duas variáveis, e este é feito através do cálculo do Coeficiente de Correlação. O coeficiente de correlação é uma medida do grau de associação entre duas variáveis e sua fórmula de cálculo foi proposta por Karl Pearson em 1896. Por este motivo, ele também é conhecido como Coeficiente de Correlação de Pearson (r) e pode ser obtido através da fórmula: x− y xy − n r = 2 2 x y x2 − y2 − · n n Onde: ∑xy = Somatório dos valores de x vezes os valores de y; ∑x = Somatório dos valores de x; ∑y = Somatório dos valores de y; ∑x2 = Somatório de x ao quadrado; (∑x)2 = Somatório de x vezes somatório de x; ∑x 2 = Somatório de y ao quadrado; ∑y 2 = Somatório de y vezes somatório de y; n = números de amostras. Aula 7 Bioestatística 139 Importante O valor de r varia entre –1 e +1: Se r = 1, diz-se que as duas variáveis têm correlação perfeita positiva. Se r = –1, diz-se que as duas variáveis têm correlação perfeita negativa. Se r = 0, diz-se que não existe correlação entre as variáveis, ou seja, correlação nula. Para entender como se aplica a fórmula para calcular o valor de r, observe o Exercício Resolvido 1. Exercício Resolvido 1 A Tabela 3 ilustra a taxa de mortalidade infantil e a taxa de analfabetismo no Brasil, de acordo com cada região brasileira. Utilizando a fórmula acima, calcule o coeficiente de correlação r e interprete a correlação entre as variáveis. Tabela 3 – Taxa de mortalidade infantil e taxa de analfabetismo no Brasil, segundo cada região Região Taxa de mortalidade Norte Taxa de analfabetismo 35,6 12,7 Nordeste 59 29,4 Sudeste 25,2 8,6 Sul 22,5 8,3 Centro-Oeste 25,4 12,4 Resolução 1) O primeiro passo é determinar qual variável representará a letra x e qual representará a letra y. Nesse caso, vamos escolher x para a taxa de mortalidade e y para a taxa de analfabetismo. 2) Em seguida, devemos calcular os valores de x2, y2, xy, (∑x)2 e (∑y)2, pedidos na fórmula. Assim temos: X (mortalidade) Y (analfabetismo) x2 (mortalidade ao quadrado) y2 (analfabetismo ao quadrado) xy (mortalidade vezes analfabetismo) 35,6 12,7 1267,36 161,29 452,12 59 29,4 3481 864,36 1734,6 25,2 8,6 635,04 73,96 216,72 22,5 8,3 506,25 68,89 186,75 25,4 12,4 645,16 153,76 314,96 167,7 71,4 6534,81 1322,26 2905,15 (∑x)2 = 28123,29 (∑y)2 = 5097,96 ∑ 140 Aula 7 Bioestatística 3) Depois de calculado os somatórios de x, y, x2, y2, xy,(∑x)2 e (∑y)2 (em destaque na tabela acima), é só colocar os valores na fórmula: 167, 7 · 71, 4 5 r = 5097, 96 28123, 29 · 1322, 26 − 6534, 81 − 5 5 2905, 15 − r = 0,9724 4) Para interpretarmos esse valor, devemos ter em mente que o valor de r varia entre –1 e +1. Se obtiver valores fora deste intervalo, pode ter certeza que você errou nos cálculos. No caso do exercício acima, o valor de r, positivo e muito próximo de 1. Então, existe forte correlação positiva entre as variáveis. Isto significa que ocorrem mais mortes de menores de um ano nas regiões em que existe maior número de analfabetos. Atividade 4 Calcule o coeficiente de correlação utilizando a fórmula de Pearson para os dados (hipotéticos) de um laboratório de hematologia apresentados na Tabela 4 e interprete a correlação entre as variáveis leucócitos e eritrócitos: Tabela 4 – Resultados de exames hematológicos para leucócitos e eritrócitos Leucócitos (mm3) Eritrócitos (mm 3) 6.8 4.50 9.7 5.20 4.3 4.55 7.9 4.65 7.4 4.40 7.6 4.40 2.8 4.30 7.8 4.60 5.5 4.90 4.6 4.10 8.0 5.00 7.0 5.17 7.1 4.20 5.9 4.40 12.3 4.24 Aula 7 Bioestatística 141 Resumo Nesta aula, você aprendeu que duas variáveis podem ou não estar relacionadas ou associadas. Este é o conceito de correlação, ou seja, o estudo do comportamento conjunto entre duas variáveis. Estudou que as variáveis podem se comportar de várias maneiras, ou seja, apresentam diferentes tipos de correlação: correlação positiva, quando apresentam comportamento na mesma direção; correlação negativa, quando apresentam comportamento em direções opostas; e aquelas que não apresentam correlação. Você estudou também que as correlações podem ser fortes e fracas, de acordo com a dispersão de seus pontos. Você viu que a correlação pode ser obtida de duas maneiras: uma através da construção do diagrama de dispersão ou diagrama de pontos e a outra através do cálculo do coeficiente de correlação. Aprendeu como construir um diagrama de dispersão em planilha eletrônica e em papel milimetrado e como calcular o coeficiente de correlação, usando a fórmula desenvolvida por Pearson. Por fim, você calculou o coeficiente de correlação e interpretou a correlação existente entre as variáveis analisadas. Autoavaliação 1 142 Aula 7 Teste os conhecimentos adquiridos na aula de hoje, conceituando os seguintes termos: a) Correlação: b) Tipos de correlação de acordo com a direção: Bioestatística c) Tipos de correlação de acordo com a dispersão dos pontos: d) Diagrama de dispersão : e) Coeficiente de correlação e os valores de r: 2 Faça uma pesquisa com 15 pessoas, podendo ser seus familiares, vizinhos e amigos e preencha a tabela abaixo: Número de filhos Renda mensal (número de salários mínimos) 2 filhos 3 salários mínimos Em seguida, usando os dados acima, calcule o coeficiente de correlação, usando a fórmula de Pearson e interprete os resultados. Aula 7 Bioestatística 143 Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed. Artmed, 2003. CORRELAÇÃO e regressão: [disciplina de métodos quantitativos em medicina]. Disponível em: <http://www.dim.fm.usp.br/regressao/index.php>. Acesso em: 12 mar. 2010. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999. Anotações 144 Aula 7 Bioestatística Anotações Aula 7 Bioestatística 145 Anotações 146 Aula 7 Bioestatística Análise de regressão Aula 8 Apresentação V ocê estudou na Aula 7 - Correlacionando informações, que empregamos a análise de correlação para avaliar o comportamento conjunto de duas variáveis quantitativas. Todavia, nem sempre esse é o objeto de estudo. Isso se dá especialmente nos casos em que se precisa/deseja avaliar o comportamento de uma variável (dependente) em função de outra (independente) e expressar matematicamente essa relação de causa e efeito. Nesse caso, recomenda-se utilizar uma análise de regressão para se avaliar os dados. E é esse tipo de análise que iremos estudar nesta aula. Nesta aula, você verá o conceito de regressão, bem como os tipos de regressão existentes. Vai conceituar variáveis dependentes e independentes e conhecer e calcular o coeficiente linear e coeficiente angular da reta. Além disso, estudará a equação da reta que representa a regressão linear e fará exercícios que englobam todos os conceitos trabalhados. Objetivos 1 2 3 Definir o conceito de regressão. Definir o conceito de variável dependente e independente. Identificar as variáveis dependentes e independentes em uma situação problema. 4 Diferenciar os tipos de regressão. 5 Definir o conceito de regressão linear. 6 Aplicar os procedimentos de uma análise de regressão linear simples. Aula 8 Bioestatística 149 Uma questão de variação No nosso cotidiano, estamos em contato com situações ou fatos que dependem exatamente uns dos outros. Pense em um supermercado que vai aumentar o seu gasto com propaganda por que dizem que “quem não anuncia se esconde”. Vamos então pensar no aumento do volume de vendas como função do aumento dos gastos com propaganda. Você acha que existe uma relação exata entre essas variáveis, isto é, para cada real a mais gasto com propaganda haverá um aumento fixo no volume de vendas? Não é bem assim. Há uma série de fatores que podem influenciar essa relação, tais como o aumento das vendas em certas épocas do ano, o fato do volume de vendas também depender dos preços e do aumento de salário; depender da concorrência e outros tantos motivos, e é claro, também da propaganda. Mesmo que conhecêssemos todas as causas que explicam o volume de vendas em um supermercado, ainda assim não saberíamos prever exatamente o volume dessas vendas. Nesse caso, queremos estabelecer uma relação de causa e efeito entre o aumento do volume de vendas e o aumento dos gastos com propaganda, ou seja, ver o quanto o aumento do volume das vendas varia em função do aumento dos gastos com propaganda, e ainda expressar matematicamente essa relação. E isso é feito através da análise de regressão. Mas o que é regressão? Algumas vezes estamos interessados em saber não apenas se existe associação entre duas variáveis quantitativas x e y, como é o caso da correlação (Aula 7 - Correlacionando informações), mas temos também uma hipótese a respeito de uma provável relação de causa e efeito entre variáveis, ou como uma variável varia em função da outra. Desse modo, a análise de regressão refere-se ao estabelecimento dessa relação causa-efeito entre duas variáveis quantitativas e pode ser expressa matematicamente. Assim, usa-se a análise de regressão com duas finalidades: 150 Aula 8 1) Previsão: Para prever o valor de uma variável chamada de x a partir do valor de outra variável chamada de y. 2) Estimativa: Estima o quanto x influencia ou modifica y. Bioestatística Na Biologia, esse tipo de análise, ou seja, análise de regressão ou análise de relação de causa e efeito entre variáveis é muito utilizada em experimentos cujo objetivo é determinar como uma variável varia em função da outra. Vamos ver alguns exemplos? Se o pesquisador deseja saber se a quantidade de um determinado anestésico varia em função do tempo após a sua administração; se um biólogo quiser saber se o nível de fósforo no solo varia em função da sua adubação; se um nutricionista quiser saber se o nível de vitamina no sangue varia em função da ingestão de frutas, todos deverão fazer uma análise de regressão, já que ela tem o poder de avaliar como uma variável varia em função da outra. Regressão: Estudo de quanto uma variável varia em função da outra, exprimindo uma relação de causa e efeito. Atividade 1 1 2 Agora que você já conheceu o conceito de regressão, faça uma comparação entre correlação e regressão. Indique duas situações em que um biólogo utilizaria uma análise de correlação e uma análise de regressão. Aula 8 Bioestatística 151 Conhecendo melhor as variáveis x e y analisadas As variáveis x e y a serem submetidas à análise de regressão recebem denominações específicas, dependendo de que tipo de relação queremos analisar. Se desejamos saber se y depende de x, nesse caso, y é chamada de variável dependente ou variável resposta e x é chamada de variável independente ou variável explanatória. Caso contrário, se desejamos saber se x depende de y, nesse caso, x é chamada de variável dependente ou variável resposta e y é chamada de variável independente ou variável explanatória. Por convenção, vamos estabelecer que y será sempre a nossa variável dependente e x a variável independente. Atividade 2 Identifique as variáveis dependentes (y) e independentes (x) nos exemplos abaixo: 152 Aula 8 Bioestatística a) Peso médio dos alunos do curso de Biologia em função da altura. b) Funcionamento dos rins em função da quantidade de água ingerida durante o dia. c) Número de batimentos cardíacos em função da intensidade da atividade física. Mas há somente um tipo de regressão? A forma de regressão mais comumente utilizada é a regressão linear, que se caracteriza pela hipótese de que o valor de y depende do valor de x , e expressamos matematicamente essa relação por meio de uma equação, assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente por uma reta. Mas, como curiosidade, tem-se ainda a regressão por potência, regressão logarítmica e regressão exponencial, que são chamadas de regressão não linear. A regressão linear pode ser: Simples: Quando temos uma variável dependente y e uma variável independente x. Múltipla: Quando temos uma variável dependente y e mais de uma variável independente, x1, x2, x3... e assim por diante. A regressão linear simples Como vimos no parágrafo acima, a regressão linear simples se caracteriza pela dependência do valor de y em relação ao valor de x. Essa dependência é expressa matematicamente por meio de uma equação descrita adequadamente por uma reta, chamada de reta de regressão linear. Essa é a reta que relaciona as variáveis x e y e é representada pela equação abaixo: y = α + βx Onde: y = variável dependente α = coeficiente linear (valor de y quando x = 0) β = coeficiente angular (inclinação da reta; aumento ou diminuição em y para cada aumento de uma unidade em x) x = variável independente Aula 8 Bioestatística 153 Atividade 3 1 a) y = 3,54 + 1,5 x b) y = – 0,87x + 3,87 c) y = 1,67 + 5,81 x 2 a) 154 Aula 8 Nas equações abaixo, identifique o coeficiente linear e o coeficiente angular da reta: Bioestatística Agora, monte as equações da reta com os seguintes valores de coeficientes: Coeficiente linear = 1,54 Coeficiente angular: 0,87 b) Coeficiente linear = – 4,76 Coeficiente angular: 1,23 c) Coeficiente linear = – 3,76 Coeficiente angular: – 1,98 A reta de regressão Quantidade de anestésico hidrolisado A seguir, temos um exemplo de reta de regressão que representa a quantidade de anestésico hidrolisado no plasma de um paciente em função do tempo decorrido após a sua administração (Figura 1). 35 30 25 20 y = -0.98 + 2,16 x 15 10 5 0 0 5 10 15 20 Tempo Figura 1 – Quantidade de anestésico hidrolisado no plasma humano (μL) em função do tempo (minutos) decorrido após sua administração Aula 8 Bioestatística 155 Analisando a figura anterior, você pode verificar que os pontos estão praticamente sobre uma reta, a reta de regressão, e pode concluir que a quantidade de anestésico hidrolisado no plasma varia em função do tempo decorrido de sua administração. E ainda que essa reta pode ser representada pela equação: y = – 0,98 + 2,16 x Mas o que isso significa? Na equação anterior, que representa a reta de regressão linear da quantidade de anestésico hidrolisado no plasma em função do tempo decorrido de sua administração, temos como coeficiente linear o valor de – 0,98 e como coeficiente angular o valor de 2,16. O coeficiente linear fornece a altura onde a reta corta os eixos das ordenadas (eixo X), ou seja, o valor de y onde o x é igual a zero. O coeficiente angular fornece o ângulo formado pela reta em relação ao eixo x. Assim, um coeficiente angular positivo, indica que a reta será direcionada pra cima e para a direita, à medida que o valor de x aumenta. O contrário se dá no caso de uma equação com coeficiente angular negativo. Nesse caso, à medida que o valor de x aumenta, a reta tende a crescer para a direita e para baixo. Entendeu o conceito? Vamos realizar a atividade abaixo, para fixar esses conceitos. Atividade 4 Utilize as equações abaixo e construa um gráfico para cada uma substituindo o valor de x , por um número positivo (maior que zero) a sua escolha, totalizando 5 substituições. 156 Aula 8 Bioestatística a) y = 3 + 1,5x b) y = 3 – 1,5 x c) y = 5 + 7x d) y = 5 – 7x Aula 8 Bioestatística 157 Montando uma equação de regressão Bom, agora que já sabemos o que são o coeficiente linear e o coeficiente angular da regressão, podemos montar a equação que representa a reta. Para isso, vamos tomar como exemplo a variação da quantidade de anestésico hidrolisado no plasma em função do tempo decorrido de sua administração. Para calcularmos os valores desses coeficientes, usamos as fórmulas abaixo: Coeficiente linear: α̂ = y − β̂ x x y xy − Coeficiente angular: β̂ = n 2 2 ( x) x − n Onde: ⁀α = estimativa do coeficiente linear da reta _ y = média dos valores de y ⁀β = estimativa do coeficiente angular da reta _ x = média dos valores de x ∑xy = somatório de x*y ∑x = somatório de x ∑y = somatório de y ∑x 2 somatório de x 2 n = número de amostras Cálculo dos coeficientes No exemplo da quantidade de anestésico hidrolisado no plasma humano, acima apresentado, todos os cálculos foram realizados manualmente e organizados em uma planilha. Para entender como estimar o coeficiente linear e o angular de uma equação, observe a seqüência do Exercício resolvido 1. Exercício resolvido 1 Elabore uma equação de regressão para estimar a quantidade de anestésico hidrolisado no plasma humano em função do tempo decorrido após sua administração. 158 Aula 8 Bioestatística Solução 1) O primeiro passo é obter todos os valores da quantidade de anestésico e do tempo após sua administração, representados na Tabela 1. Tabela 1 – Quantidade de anestésico hidrolisado (moles/litro) no plasma humano e tempo (minutos) decorrido após sua administração 2) Tempo Quantidade de anestésico hidrolisado 2 3,5 3 5,7 5 9,9 8 16,3 10 19,3 12 25,7 14 28,2 15 32,6 Nomear as variáveis. A variável dependente y será a quantidade de anestésico e a variável x será o tempo. Traçar o gráfico de dispersão de y em função de x (figura 1). 35 Quantidade de anestésico hidrolisado (moles / litro) 3) 30 25 20 15 Quantidade de anestésico hidrolisado 10 5 0 0 5 10 15 20 Tempo (minutos) Aula 8 Bioestatística 159 4) Colocar os valores de x e y em uma tabela e calcular os valores de xy, x 2 e y 2. ∑ somatório x 2 3 5 8 10 12 14 15 69 y 3,5 5,7 9,9 16,3 19,3 25,7 28,2 32,6 141,2 xy 7 17,1 49,5 130,4 193 308,4 394,8 489 1589,2 x2 4 9 25 64 100 144 196 225 767 y2 12,25 32,49 98,01 265,69 372,49 660,49 795,24 1062,76 3299,42 5) Agora é só aplicar as fórmulas: a) Para calcular o coeficiente angular: 69.141,2 x y 1589,2 − xy − 8 → β = 2,16 → β̂ = β̂ = n 4671 2 ( x)2 767 − x − 8 n b) Para calcular o coeficiente linear da reta: _ _ ⁀α = y – ⁀βx _ _ Mas antes disso precisamos ter a média de x (x ) e média de y (y ): x 69 x= −→ x = −→ x = 8,62 n 8 y 141,2 y= −→ y = −→ y = 17,65 n 8 _ _ Agora aplicamos a fórmula: ⁀α = y – ⁀βx α = 17,65 – 2,16 × 8,62 α = – 0,98 6) E o último passo é construir a equação da reta, substituindo as letras pelos valores calculados: Equação da reta: y = α + βx y = – 0,98 + 2,16 x 160 Aula 8 Bioestatística Resumindo as etapas da regressão linear simples... Etapas de uma análise de regressão linear simples Obter os valores da variável dependente (y) e da variável independente (x) que serão analisadas Traçar o gráfico de dispersão Colocar os valores de x e y em uma tabela e calcular os somatórios de x, y, xy, x 2 e y 2 Aplicar as fórmulas do coeficiente linear e do coeficiente angular Construir a equação da reta y = α + βx Figura 2 – Etapas para a realização de uma análise de regressão linear simples Fonte: Henrique Rocha de Medeiros. Atividade 5 Suponha que você esteja estudando a relação entre a quantidade de um poluente despejado por uma fábrica em um riacho, e o dano ecológico nesse curso d’água, medido por um escore de dano que vai de 0 a 20 (Tabela 2). Para verificar sua hipótese, você precisa fazer uma análise de regressão. Assim, utilizando os valores da tabela abaixo, responda o que se pede. Aula 8 Bioestatística 161 Tabela 2 – Escore de dano ecológico medido para diferentes concentrações de poluente no riacho 162 Aula 8 Quantidade de poluente (μg/L) Escore de dano ecológico 1 3 2 6 3 7 4 10 5 10 6 12 a) Identifique as variáveis dependentes e independentes. b) Monte o diagrama de dispersão utilizando o gráfico milimetrado abaixo. c) Calcule os valores do coeficiente angular e do coeficiente linear da reta. Bioestatística d) Monte a equação da reta de regressão e conclua se o escore da dano ecológico está variando em função da quantidade de poluente de um riacho. Coeficiente de determinação Até agora vimos que as variáveis x e y podem variar uma em função da outra, e que esse comportamento é medido através da análise de regressão, que representa, em uma reta, o quanto a variável y depende da variável x . Mas podemos nos perguntar: O quanto essa reta reflete realmente o comportamento de x e y ? Quanto do que visualizamos na reta é real? A resposta está baseada na precisão e acurácia da reta, que é refletida nos valores do coeficiente de determinação, representado pelo símbolo R 2. Aula 8 Bioestatística 163 O coeficiente de determinação (R 2) é um valor entre 0 e 1, que estima quanto da alteração da variável dependente (Y ) em função de mudanças na variável independente (X) pode ser explicada pela equação de regressão. Por esse motivo, o coeficiente de determinação pode ser definido como o grau de ajuste da reta de regressão estimada ao conjunto de dados. Ele reflete quão bem o modelo se ajusta ao conjunto de dados utilizados para elaborar a equação e, por esse motivo, denota a força da associação linear entre x e y. Por isso, R 2 assume diferentes valores, sempre variando de zero a 1: Se R 2 = 1: 1 significa que a variação explicada responde por 100% da variação total. Ou seja, a reta de regressão representa perfeitamente o conjunto de dados e toda a variação de y está relacionada com a de x. Se R 2 for diferente de zero e inferior a 1: significa que a variação explicada responde por uma percentagem da variação total. Por exemplo: se R 2 = 0,81, indica que aproximadamente 81% da variação em y está relacionada com a de x e que o restante 19% (100% – 81%) é explicado pelo acaso (outros fatores que não o “x ”). Observe que alguns pontos estão localizados fora da reta, mas próximo a mesma. Assim, nesse caso, a equação representa quase que perfeitamente o conjunto de dados analisados. Se R 2 for igual ou muito próximo a zero: quando isso acontece, significa que o valor médio de y (coeficiente linear) é a melhor projeção para qualquer valor de x. Ou seja, a reta de regressão não representa os dados observados, e por isso mesmo não deve ser utilizada para fazer inferências sobre a população. Calculando o valor do coeficiente de determinação O coeficiente de determinação de uma equação pode ser estimado dividindo-se a soma de quadrados da regressão pela soma de quadrados total da variável resposta, que é “Y ”. Soma de quadrados da regressão (SQREGRESSÃO), é estimada utilizando-se a seguinte equação: ⎡ SQREGRESSÃO ⎢ n ⎢ = b⎢ Xi Yi − ⎢ ⎣ i−1 n n ⎤ Xi Yi ⎥ ⎥ i=1 i=1 ⎥ ⎥ n ⎦ Soma de quadrados total (SQTOTAL) é estimada utilizando-se a equação abaixo: n 2 ⎤ ⎢ n Yi ⎥ ⎥ ⎢ ⎥ i=1 2 SQTOTAL = ⎢ Yi − ⎥ ⎢ ⎥ ⎢ n ⎦ ⎣ i−1 ⎡ 164 Aula 8 Bioestatística Calculando o coeficiente de determinação de uma equação de regressão Para isso, vamos utilizar os dados do Exercício resolvido 1. Como os valores utilizados no cálculo já foram estimados, para calcular o coeficiente angular e linear da equação, podemos utilizar esses resultados: n b = 2,16 Xi Yi = 1589,2 i−1 n Yi = 141,2 i=1 n i−1 n Yi2 Vamos precisar calcular apenas o valor de Xi = 69 i=1 = 3299,42 n n= 8 2 Yi = 141,22 = 19937,44 i=1 Resolvendo-se a fórmula, temos o seguinte: ⎡ ⎢ n SQREGRESSÃO = b ⎢ ⎢ Xi Yi − ⎢ ⎣ i−1 n n ⎤ Xi Yi ⎥ ⎥ i=1 i=1 ⎥ ⎥ n ⎦ SQREGRESSÃO = 2,16 1589,2 − (69)(141,2) 8 e ⎡ n 2 ⎤ ⎢ n Yi ⎥ ⎢ ⎥ ⎢ ⎥ Yi2 − i=1 ⎥ SQTOTAL = ⎢ ⎢ ⎥ n i−1 ⎣ ⎦ SQTOTAL = 3299,42 − 19937,44 8 R2 = SQREGRESSÃO = 802,1 SQTOTAL = 807,2 SQREGRESSÃO 802,1 −→ R2 = −→ R2 = 99,3 SQT OT AL 807,2 Exemplo Vamos ver um exemplo de aplicação de regressão linear? Especula-se que a quantidade de lixo de uma cidade varia em função do poder aquisitivo de seus habitantes. Para saber se essa hipótese está correta, o pesquisador realizou uma coleta de dados em 3 cidades (A, B e C), e anotou a quantidade de lixo produzida (em toneladas) de acordo com o número de salários-mínimos que a população recebe. Esses dados podem ser visualizados nas Tabelas 3, 4 e 5. Aula 8 Bioestatística 165 Tabela 3 – Quantidade de lixo produzida (em toneladas) na cidade A, de acordo com o número de salários-mínimos da população Quantidade de lixo Número de salário-mínimo 2 2 4 5 6 8 8 11 Tabela 4 – Quantidade de lixo produzida (em toneladas) na cidade B, de acordo com o número de salários-mínimos da população Quantidade de lixo Número de salário-mínimo 2 1 4 2 6 4 8 4 Tabela 5 – Quantidade de lixo produzida (em toneladas) na cidade B, de acordo com o número de salários-mínimos da população Quantidade de lixo Número de salário-mínimo 2 5 4 1 6 3 8 8 Após a obtenção desses dados, o pesquisador organizou os dados em uma planilha e calculou os valores do coeficiente linear e do coeficiente angular da equação de regressão para cada cidade e obteve a reta de regressão linear (observe o Exercício resolvido 1), a equação da reta e o coeficiente de determinação R 2 para cada cidade e que podem ser visualizados nas Figuras 3, 4 e 5. Número de salários-mínimos 12 10 y = 1,5x -1 R2 = 1 8 6 4 2 0 0 2 4 6 8 Quantidade de lixo (toneladas) Figura 3 – Quantidade de lixo produzida (em toneladas) na cidade A, de acordo com o número de salários-mínimos da população 166 Aula 8 Bioestatística 10 Número de salários-mínimos 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 y = 0,55x R 2 = 0,8963 0 2 4 6 8 10 Quantidade de lixo (toneladas) Número de salários-mínimos Figura 4 – Quantidade de lixo produzida (em toneladas) na cidade B, de acordo com o número de salários-mínimos da população 9 8 7 6 5 4 3 2 1 0 y = 0,55x + 1,5 R 2 = 0,2262 0 2 4 6 8 10 Quantidade de lixo (toneladas) Figura 5 – Quantidade de lixo produzida (em toneladas) na cidade C, de acordo com o número de salários-mínimos da população Solução Ao analisarmos as três figuras, podemos verificar que a quantidade de lixo gerada em cada cidade em função do número de habitantes variou de maneira diferente: na cidade A, quanto maior a quantidade de lixo gerada, maior a renda dos habitantes; na cidade B, houve uma tendência desse mesmo resultado, exceto quando a produção de lixo foi de 6 toneladas; na cidade C, pode-se notar uma maior dispersão dos dados, quando a variação da quantidade de lixo gerada não acompanha exatamente o aumento da renda da população. Mas será que a interpretação dos resultados está correta? Será que a reta traçada para representar a situação de cada cidade é real, representando o quanto a quantidade de lixo varia em função da renda da população? Aula 8 Bioestatística 167 Vamos então analisar a reta de regressão e o coeficiente de determinação da análise de regressão para cada cidade: 1) No caso da cidade A, o valor de R 2 = 1, o que significa que a reta de regressão traçada se ajusta perfeitamente aos pontos, o que pode ser verificado pelo fato dela passar exatamente em cima de cada ponto. Podemos afirmar que 100% da variação que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda da população). Assim, podemos utilizar a equação de regressão para estimar a quatidade de lixo produzida pela parte da população que ganha 2,5 salários-mínimos. Equação de A: y = 1,5x + 1 Substituindo-se “x ” por 2,5 temos: y = 1,5*2,5 + 1 = 4,75 toneladas de lixo. 2) No caso da cidade B, o valor de R 2 = 0,89, o que significa que a reta de regressão traçada se ajusta quase que perfeitamente aos pontos, o que pode ser verificado pelo fato dela se aproximar muito de cada um deles. Nesse caso, podemos afirmar que 89% da variação que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda da população). O restante, 11%, é fruto de uma variação que não tem explicação. Nesse caso, como a equação de regressão também apresenta um coeficiente de determinação alto (maior que 50%), pode-se utilizar a mesma para fazer inferências sobre a quantidade de lixo produzida em função da renda da população. 3) No caso da cidade C, o valor de R2 = 0,22, o que significa que a reta de regressão traçada se ajusta muito pouco aos pontos, o que pode ser verificado pelo fato dela não se aproximar de cada um deles. Nesse caso, podemos afirmar que somente 22% da variação que ocorre em y (quantidade de lixo gerada) está relacionada com a variação de x (renda da população). O restante, 78%, é fruto de uma variação que não tem explicação. Nesse caso, possívelmente existem outros fatores (como por exemplo, o nível de escolaridade e educação dos habitantes) que influenciam na quantidade de lixo gerada. Isso quer dizer que a minha equação não serve? Não propriamente, mas apenas que ela não é suficientemente adequada para explicar a relação de causa e efeito, entre a receita da população e a quantidade de lixo gerada. Possivelmente, nesse caso, a adição de outras variáveis (como por exemplo, o número médio de anos de estudo da população) e uma nova equação de regressão múltipla resultarão em aumento do R 2. 168 Aula 8 Bioestatística Resumo Nesta aula, você viu o conceito de regressão linear simples, ou seja, o estudo de quanto uma variável varia em função da outra, exprimindo uma relação de causa e efeito. Estudou que essas variáveis quantitativas podem ser dependentes (y ) e independentes (x) e verificou como identificá-las em cada situação problema. Conceituou regressão linear simples e conheceu os demais tipos de regressão utilizados. Identificou que, numa análise de regressão, temos vários fatores envolvidos, tais como o coeficiente linear, representado pela letra α e o coeficiente angular da reta, representado pela letra β. Estudou a equação da reta que representa a regressão linear, como você pode fazer uma análise de regressão e como determinar o coeficiente de regressão. Autoavaliação Faça uma regressão linear e calcule o seu coeficiente de determinação, utilizando as informações da Tabela 6, que relaciona a quantidade de filhos por mulher em função no número de anos de estudo, e discuta sobre a representatividade da equação gerada. Tabela 6 – Número de filhos segundo os anos completos de estudos, em mulheres de 15 a 49 anos de idade Número de anos de estudo Número médio de filhos 0 3,6 3 3,5 7 2,9 8 2,3 11 1,6 12 1,4 Fonte: Adaptado de Berquó e Cavenaghi (2006) Aula 8 Bioestatística 169 Referências BERQUO, Elza; CAVENAGHI, Suzana. Fecundidade em declínio: breve nota sobre a redução no número médio de filhos por mulher no Brasil. Novos estud. - CEBRAP [online], n. 74, p. 11-15, 2006. CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed. Artmed, 2003. CORRELAÇÃO e regressão. 2000. Disponível em: <http://www.dim.fm.usp.br/regressao/index. php>. Acesso em: 12 mar. 2010. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980. ______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999. 170 Aula 8 Bioestatística Anotações Aula 8 Bioestatística 171 Anotações 172 Aula 8 Bioestatística Entendendo os números índices e suas aplicações Aula 9 Apresentação V ocê já deve ter ouvido expressões como: “Houve aumento no índice de inflação”; “Houve alteração no índice nacional de custo na construção civil (INCC); “Houve aumento na taxa de natalidade do Estado do Rio Grande do Norte em 2009”. Esses indicadores são chamados de números índices e você os estudará nesta aula. Você verá como calcular os números índices, sua importância e formas de aplicação dessa ferramenta estatística nas Ciências Biológicas e em situações do cotidiano. Objetivos 1 Compreender o conceito de número índice. 2 Diferenciar números índices simples de compostos. 3 Calcular os números índices e interpretar os seus resultados. Aula 9 Bioestatística 175 Números índices e o nosso cotidiano D iariamente, vemos nos telejornais informações de como anda a nossa economia: Notícias como “[...] a inflação nos últimos 12 meses foi de 1,56%”; “[...] o aumento do IGPM foi de 12,6%”; “[...] o INPC teve queda de 2,8% no mês de agosto”. Vemos também notícias sobre o índice de fertilidade da população brasileira, índice de natalidade, índice de mortalidade, dentre outros (Figura 1). E, na maioria das vezes, ficamos sem saber o que estas informações significam. Figura 1– Exemplos de números índices diariamente apresentados nos telejornais nacionais. Fonte: Lilian Giotto Zaros Esses índices ilustrados na figura acima são denominados de números índices. Sua definição, como calculá-los e como interpretá-los é o que você verá a seguir. 176 Aula 9 Bioestatística O que são números índices? O s números índices (ou apenas índices) são instrumentos estatísticos utilizados para comparar a evolução ou o comportamento de variáveis através do tempo. São indicadores que se aplicam no campo da produção, evolução dos preços, dos salários, da biodiversidade animal e vegetal, do desmatamento, de registros demográficos, dentre outros, como citados na Figura 1. Como medem variações no tempo e no espaço, permitem sintetizar e apresentar de forma eficaz a natureza das alterações nas variáveis. Usando os números índices é possível, com um só valor, avaliar a evolução de um conjunto complexo de variáveis. Matematicamente, é a razão entre o valor de uma variável em uma data limite e o valor dessa mesma variável em outra data, denominada data base. Por exemplo: quando nos deparamos com a informação de que o índice de mortalidade infantil no Rio Grande do Norte no ano de 2010 foi de 3,5%, este índice de mortalidade foi obtido pela razão entre o número de mortalidades no ano de 2010 e o número de mortalidades em uma data base, por exemplo, no ano de 2009. Todavia, essa comparação deve ser feita apenas em relação à data base. Note que os números índices são expressos em porcentagens e só se aplicam às datas a que se referem ou são adimensionais (sem unidade de medida). Data limite Data limite: data final do período de tempo estudado. Data base Data base: data inicial do período de tempo estudado. Curiosidade Os números índices como dissemos acima, podem ser aplicados nas Ciências Biológicas. A notícia a seguir exemplifica essa aplicação. Desmatamento na Caatinga já destruiu metade da vegetação original Por Jefferson Rudy/MMA A Caatinga, único bioma exclusivamente brasileiro, possui atualmente metade de sua cobertura vegetal original. Em 2008, a vegetação remanescente da área era de 53,62%. Dados do monitoramento do desmatamento no bioma realizado entre 2002 e 2008 revelam que, neste período, o território devastado foi de 16.576km2, o equivalente a 2% de toda a Caatinga. A taxa anual média de desmatamento na mesma época ficou em torno de 0,33% (2.763 km2). Fonte: <http://www.espacoecologiconoar.com.br/index.php?option=com_content&task=view&id=13106&Itemid=1>. Acesso em: 10 maio 2010. Aula 9 Bioestatística 177 Atividade 1 Cite dois exemplos, diferentes dos citados anteriormente, de números índices que você conhece e que são utilizados nas mais diversas subáreas das Ciências Biológicas. Tipos de números índices Há dois tipos de números índices: 1) Simples: Representam a evolução de uma só variável simples entre dois períodos de tempo. Por exemplo: quando uma família nota que o preço do pão é o dobro do que era há 10 anos, está fazendo uso de certo tipo de número índice de uma só variável. A principal limitação dos índices simples é que eles se referem apenas a itens isolados. Apesar disso, são vários os exemplos de índices simples: crescimento da população, taxa de natalidade, taxa de mortalidade e indicador de desemprego. 178 Aula 9 Bioestatística Fonte: Quino, tirinha 231, 16 ago. 2006. Disponível em: <http://clubedamafalda.blogspot.com/2006/08/tirinha-231.html>. Acesso em: 10 maio 2010. 2) Compostos: Expressam a evolução de uma variável composta (que integra várias medidas juntas) entre dois períodos de tempo. Um exemplo deste tipo de variável composta é observado no cálculo da inflação. Essa medida/índice é o resultado da variação conjunta de preços de numerosos itens, como por exemplo, os alimentos (leite, carne, ovos, manteiga etc.), o transporte (combustíveis, passagens de ônibus etc.), dentre outros. Alguns desses artigos podem ter tido alteração (aumento ou diminuição) no preço e outros podem continuar com o mesmo valor. Além disso, cada um desses artigos tem um peso (ponderação) diferente para o cálculo do índice. Assim, um aumento no preço do leite e do feijão, por exemplo, tem um impacto muito maior no índice de inflação do que elevação do valor de automóveis. Isso se deve ao fato de que os alimentos são consumidos por toda a populção e os automóveis somente por alguns poucos indivíduos. Atividade 2 1 Conceitue números índices. Aula 9 Bioestatística 179 2 3 Diferencie números índices simples de números índices compostos e dê exemplos de cada um deles, utilizando informações obtidas em jornais ou revistas ou na internet. Selecione um grupo de 15 indivíduos (podem ser pessoas da sua família, amigos, alunos, colegas de trabalho, da igreja e/ou de prática de esportes) e faça as seguintes perguntas: Quais os tipos de números índices que você conhece? Em que local você obteve essas informações? Em seguida, complete a tabela abaixo com as informações obtidas: Tipo de número índice que conhece 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 180 Aula 9 Bioestatística Local onde obteve a informação Como calcular os números índices? O cálculo dos números índices é feito utilizando-se a fórmula abaixo: NI = VA × 100 VB Onde: NI = número índice; VA = valor do parâmetro atual ou na data limite; VB = valor do parâmetro anterior ou na data base. Utilizando essa fórmula, você poderá calcular os números índices, sejam eles simples ou compostos. Exercício resolvido 1 Será que se você dividir o número de inscritos no vestibular para o Curso de Ciências Biológicas em 2010 pelo número de inscritos no ano anterior, e multiplicar por 100, você terá um índice? Solução Sim, você terá um índice. Se o índice for maior do que 100, a procura pelo curso aumentou. Se ao contrário, for menor do que 100, a demanda diminuiu. Vamos verificar? Suponha que o número de inscritos no ano de 2010 foi de 2500 estudantes e em 2009 foi de 2000. Assim, temos que: VA 2500 NI = × 100 = × 100 = 1,25 × 100 = 125% VB 2000 Agora, como o ano base representa sempre 100%, e o valor atual do índice é 125%, por diferença podemos calcular se houve ou não aumento do número de inscritos no vestibular 2010 em relação a 2009. Efetuando a operação matemática: 125% – 100%, podemos concluir que houve um aumento de 25% na procura do Curso de Ciências Biológicas no vestibular 2010 em relação a 2009. Aula 9 Bioestatística 181 Utilizando esse mesmo conceito, você pode ter resultados onde o valor atual (VA) é menor que o valor base (VB). Nesse caso, o resultado da subtração será um número negativo e indicará uma redução no índice. Atividade 3 Calcule o número índice para as seguintes situações e interprete os resultados. 1 2 182 Aula 9 Bioestatística Foram oferecidas 50 bolsas de iniciação científica aos alunos do Curso de Ciências Biológicas no ano de 2009 e 45 no ano de 2010. Um biólogo notou que 525 plantas floresceram em sua estufa no mês de fevereiro, quando comparadas a 400 plantas no mês de setembro de 2009. 3 O volume de chuva na região oeste do estado do Rio Grande do Norte em 2008 foi de 3,5mm e chegou a 6mm no ano seguinte. Curiosidade Sempre que se tem o crescimento de um índice, há um reflexo positivo para a população? Depende do que seja esse índice. Se for de uma variável boa, o crescimento deste índice será bom para a população. Como exemplo disso, temos: crescimento na expectativa de vida, aumento na taxa de escolaridade das crianças, aumento real do salário mínimo. Já se fosse o índice de crescimento da inflação ou da taxa de mortalidade de crianças até cinco anos de idade, por exemplo, seria extremamente diferente, pois são indicadores que quanto mais baixos ou decrescentes, melhor para a maioria da população. Aula 9 Bioestatística 183 Utilizando números índices Como já visto antes, os números índices estão presentes no cotidiano da população. Assim, nos próximos parágrafos, vamos discorrer sobre alguns índices que você poderá calcular para auxiliar o seu trabalho e/ou seu dia a dia. Índice relativo de preços ou preços relativos simples É a razão entre o preço de um produto em uma determinada data e o preço desse mesmo produto na data escolhida como base. O índice relativo de preços mostra a evolução do preço de um produto em um determinado período estudado. Você pode utilizar esse índice para verificar as alterações de preços, por exemplo, dos principais itens de compra da sua casa. O índice relativo de preço (IP) é obtido pela fórmula abaixo: IP = pt × 100 p0 Onde: IP= índice de preços; pt = preço numa data atual; p0 = preço na data base ou época-base. Exercício resolvido 2 O preço de determinado artigo, em 2008, foi R$ 5,00 e em 2010 subiu para R$ 6,25. Tomando-se por base o ano 2008, determinar o índice relativo de preço em 2010. Solução 1 2 184 Aula 9 Bioestatística Identificar a data base e a data atual: Data base (0) = 2008 e período atual (t) = 2010 Identificar os preços na época atual e na época base: Preço na data atual = 6,25 e preço na data base = 5,00 3 Em seguida, aplicar a fórmula do índice relativo de preço: IP = 4 pt 6,25 × 100 = × 100 = 125% p0 5 Conclusão: Em 2010 houve um aumento de 25% (125 – 100) no preço do artigo, em relação ao preço do mesmo artigo em 2008. Índice de aprovação dos alunos (IA) O índice de aprovação dos alunos é rotineiramente utilizado por professores que querem ter uma ideia de como foi a aprovação dos alunos em sua disciplina. Ele pode ser obtido aplicando-se a fórmula geral dos números índices, dividindo-se o total de alunos aprovados pelo número de matrículas na disciplina. IA = Número de alunos aprovados × 100 Número de alunos matriculados na disciplina Note que para este índice, o fato do aluno ter sido aprovado por média (direto) e/ou por recuperação, bem como ter trancado a disciplina não interfere no resultado. O que me interessa saber é a relação entre o número de alunos aprovados ao final do curso. Note que a fórmula para o cálculo do índice de aprovação de alunos é a mesma utilizada para o cálculo do número índice em geral, como dito anteriormente. Exercício resolvido 3 Calcule o índice de aprovação de uma turma da disciplina de Bioestatística do terceiro semestre de 2010, onde o número de alunos inscritos foi de 41 e de aprovados foi de 30. Solução 1 Identificar: Número de alunos aprovados: 30 Número de alunos matriculados: 41 Aula 9 Bioestatística 185 2 IA = Em seguida, aplicar a fórmula do índice de aprovação: Número de alunos aprovados 30 × 100 = × 100 = 73,1% Número de alunos matriculados na disciplina 41 3 Conclusão: O índice de aprovação na disciplina de Bioestatística em 2010 foi de 73,1%. Atividade 4 Calcule o índice relativo de preços nas situações abaixo e interprete os resultados: 186 Aula 9 Bioestatística 1 Uma caixa de morangos, que custava R$3,50 em fevereiro de 2010, passou a custar R$4,30 em maio do mesmo ano. 2 Uma moto que custava R$ 5.900,00 em janeiro de 2009, passou a custar R$ 7.100,00 em janeiro de 2010. Uma casa que custava R$190.000,00 em maio de 2008, passou a custar R$178.000,00 em maio de 2010. 3 Índices de custo de vida (ICV) O índice de custo de vida, conhecido pela sigla ICV, é um índice composto e pode ser calculado como no exemplo abaixo: Suponha que uma família com cinco pessoas compre semanalmente 10 litros de leite, 4 kg de feijão e 5 kg de arroz e gaste R$ 25,00/semana com transporte. Vamos então elaborar um índice composto de custo de vida para esta família na primeira (1) e na última semana do mês (4)? Nesse caso, precisamos fazer um gasto ponderado entre a quantidade de alimentos e serviços e o preço de cada item. Para isso, vamos observar a tabela abaixo: Item Preço na semana 1 Preço na semana 4 Leite R$ 0,77 R$ 0,77 Feijão R$ 1,53 R$ 2,50 Arroz R$ 0,88 R$ 1,88 Transporte R$ 2,5 R$ 2,5 Assim, o VA corresponderá ao valor da cesta de produtos consumida pela família na semana 4 e o VB ao consumo da família na semana 1. Aula 9 Bioestatística 187 Deste modo, teremos: Gasto semanal da família na semana 1 Item Quantidade consumida Valor unitário (R$) Total da semana 1 Porcentagem do total Leite 10 R$ 0,77 R$ 7,70 17,82% Feijão 4 R$ 1,53 R$ 6,12 14,16% Arroz 5 R$ 0,88 R$ 4,40 10,18% Transporte (passagens) 10 R$ 2,5 R$ 25,00 57,84% R$ 43,22 100,00% Total da semana Gasto semanal da família na semana 4 Item Quantidade consumida Valor unitário (R$) Total da semana 4 Porcentagem do total Leite 10 R$ 0,77 R$ 7,70 14,78% Feijão 4 R$ 2,50 R$ 10,00 19,19% Arroz 5 R$ 1,88 R$ 9,40 18,04% Transporte (passagens) 10 R$ 2,5 R$ 25,00 47,98% R$ 52,10 100,00% Total da semana Aplicando a fórmula do número índice, temos: IA = VA 52,10 × 100 = × 100 = 1,2055 × 100 = 120,55% VB 43,22 Neste caso, o índice calculado é de 20,55% (120,555 – 100%). Embora o aumento no preço do feijão seja de 63,40% e do arroz de 113,64%, o aumento no índice do custo de vida é menor que este valor (20,55%). Isto ocorre porque os itens que tiveram maior aumento têm uma participação relativa no custo de vida (despesas) total da família. É por esse motivo que, às vezes, os índices de inflação são divulgados e você pode achar que a alteração nos preços observados na sua região é diferente da informação oficial. Isso ocorre porque a inflação é calculada por uma média ponderada de itens médios de consumo de uma família brasileira. Assim, nem sempre os hábitos de consumo e os preços observados são semelhantes aos seus. 188 Aula 9 Bioestatística Resumo Nesta aula, você aprendeu o conceito de números índices e foi capaz de perceber que eles são utilizados nas mais diversas áreas do nosso cotidiano, nas Ciências Biológicas, na Geografia, na Economia, dentre outras. Você diferenciou números índices simples e compostos e realizou os cálculos necessários para determinar um número índice. Além disso, você viu alguns exemplos de números índices, tais como o índice relativo de preços, o índice de aprovação de alunos e índice de custo de vida e aprendeu a calcular cada um deles. Por fim, você testou os conhecimentos adquiridos, acompanhando a resolução de exercícios e fazendo sua autoavaliação. Autoavaliação Fonte: <http://blog.ambientebrasil.com.br/wp-content/ uploads/2009/03/chamine.jpg>. Acesso em: 10 maio 2010. Leia o texto abaixo, retirado do Jornal O Estado de São Paulo de 31 de outubro de 2006, e calcule o índice de emissão de gás carbônico na atmosfera para os anos de 2000 e 2004, tendo como data base o ano de 1990. “Apesar dos esforços internacionais, as emissões de dióxido de carbono (CO2) que geram o efeito estufa aumentaram em 2004 e atingiram os maiores índices desde a década de 90. Os países ricos somados tiveram uma queda de apenas 3,3% em média nas emissões nos últimos 15 anos. Porém, quando se leva em conta apenas o período entre 2000 e 2004, houve na realidade um aumento das emissões nessas economias, o que mostra a necessidade de Aula 9 Bioestatística 189 medidas mais drásticas para lidar com aquecimento do planeta. As emissões nos países ricos atingiram 19,9 bilhões de toneladas de CO2 em 2004, antes 17,5 bilhões em 2000. Em 1990, ano-referência para o protocolo de Kyoto, os gases lançados na atmosfera por indústrias, usinas e carros somavam 18,6 bilhões de toneladas”. Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed. Artmed, 2003. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. JORNAL DA CIÊNCIA. Emissão de CO2 cresce no planeta. 31 out. 2006. Disponível em: <http:// www.jornaldaciencia.org.br/Detalhe.jsp?id=42014>. Acesso em: 10 maio 2010. SAMPAIO, Ivan Barbosa Machado. Estatística aplicada à experimentação animal. Belo Horizonte: Ed. Fundação de Ensino e Pesquisa em Medicina Veterinária e Zootecnia, 1998. SIQUEIRA, Ivana Caldeira; SIMA, Luiz Fernando; ROCHA, João Alberto Guerra da. A importância dos números-índices. Disponível em: <http://www.eumed.net/ce/2009a/ssr.htm>. Acesso em: 4 abr. 2010. TELEMEDICINA: informática médica. Disciplina de métodos quantitativos em medicina: correlação e regressão. 1999. Disponível em: <http://www.dim.fm.usp.br/regressao/index. php>. Acesso em: 10 maio 2010. VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980. ______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999. 190 Aula 9 Bioestatística Anotações Aula 9 Bioestatística 191 Anotações 192 Aula 9 Bioestatística Probabilidade: conceitos e aplicações Aula 10 Apresentação Nesta aula, você vai conhecer a história da probabilidade, bem como entender o seu significado. Você verá como a probabilidade está presente no nosso cotidiano e como podemos empregá-la nas Ciências Biológicas. Vai estudar também as leis da probabilidade e fará exercícios que são regidos por essas leis. Esta aula é de extrema importância, uma vez que os conceitos aqui adquiridos serão utilizados na disciplina de Genética. Desse modo, faça sempre anotações e resolva os exercícios propostos, que serão úteis em seu aprendizado futuro. Bom estudo! Objetivos 1 Compreender o conceito de probabilidade. 2 Conhecer a história da Teoria da Probabilidade. 3 Conhecer as leis de probabilidade. 4 Aplicar os conceitos aprendidos em estudos de sistemas biológicos. Aula 10 Bioestatística 195 O que é probabilidade? Todos conhecem, por intuição, o conceito de probabilidade, ou seja, o risco (chance) de ocorrer um determinado evento preestabelecido. Por exemplo, observe o conjunto de dados na Figura 1, abaixo. Todos estes dados não são viciados, ou seja, não são adulterados, e em cada face existe uma numeração marcada que vai de um até seis. Assim, se eu pegar um desses dados e arremessá-lo numa caixa, existe a probabilidade de 1/6 (ou 17%) de sair, na face voltada pra cima, o número 3. Figura 1 – Conjunto de dados não viciados Fonte: <http://palavraguda.files.wordpress.com/2007/09/dados.jpg>. Acesso em: 4 maio 2010. A priori Do latim “partindo daquilo que vem antes”. É uma expressão filosófica que designa uma etapa para se chegar ao conhecimento. 196 Aula 10 Observe que essa probabilidade é a mesma, se eu escolher, a priori, qualquer um dos números entre um e seis para apostar as minhas fichas. Concomitantemente, a probabilidade de ocorrer um número diferente do que eu escolhi é de 83%, ou seja, o que faltar para completar 100%. É utilizando essa lógica que as empresas de jogos legais montam sua estratégia de pagamento das apostas. Assim, elas podem pagar os prêmios devidos e ainda assim auferir lucro. Bioestatística Curiosidades sobre as loterias... Você sabe qual a probabilidade de ganhar na Mega-Sena? Aí vai a resposta: 0,000000003%. Ainda assim, com uma possibilidade tão baixa, raramente o prêmio acumula. E se você resolver preencher todas as combinações possíveis dentre os números da Mega-Sena para assegurar que vai ganhar o prêmio principal, você gastará mais dinheiro que o valor a ser recebido. A probabilidade é usada para associar, a cada fato possível, sua respectiva chance de ocorrência. Por exemplo, se há 80% de possibilidade de chover então há 20% de possibilidade de não chover; se você fosse se submeter a uma cirurgia que tem apenas 30% de chance de sucesso ponderaria melhor sobre sua decisão. Às vezes, podemos prever fenômenos, como é o caso de você jogar várias vezes uma moeda de determinado lugar e medir a velocidade da queda, onde os resultados serão sempre iguais. Esse fenômeno é previsível, pois obedece determinada lei da Física e é chamado de determinístico. Outras vezes, o fenômeno é imprevisível, não determinístico, mas apresenta um padrão que vem sendo observado a longo prazo. Por exemplo, você não sabe qual será o primeiro camundongo a girar a roleta dentro da gaiola de experimento, mas sabe que, nas várias vezes que você observou o comportamento dos animais, foi o camundongo de número 2 o primeiro a fazê-lo; você não sabe se o terceiro filho de um casal que tem olhos verdes e castanhos terá olhos castanhos, mas sabe que os dois primeiros filhos tiveram olhos castanhos. Desse modo, podemos definir probabilidade como sendo a chance de um evento ocorrer. Atividade 1 1 Defina probabilidade. Aula 10 Bioestatística 197 2 Cite três situações cotidianas em que esteja implícito o conceito de probabilidade. Mas antes de aprofundarmos os nossos estudos sobre probabilidade, vamos conhecer como a Teoria da Probabilidade se originou? Um pouco de história O estudo da Teoria da Probabilidade começou em 1664, com a troca de correspondência entre dois matemáticos franceses, Blaise Pascal e Pierre Fermant, que tinham sido procurados por Antonie Gombaund, o Chevalier de Meré, homem de letras e membro da corte de Luis XIV. a b Figura 2 – (a) Blaise Pascal (1623-1662). (b) Pierre Fermant, 1601-1665 Fonte: <http://www.york.ac.uk/depts/maths/histstat/people/pascal.gif>; <http://www.york.ac.uk/depts/maths/histstat/people/fermat.gif>. Acesso em: 4 maio 2010. 198 Aula 10 Bioestatística O questionamento de Chevalier de Meré era de como dividir o prêmio de um jogo envolvendo várias partidas se, por alguma razão, o jogo fosse interrompido antes que algum jogador tivesse vencido o número de partidas combinado anteriormente. Nessa época, os dois matemáticos iniciaram seus estudos e chegaram, cada qual, a uma conclusão diferente: Pascal se baseou nos valores esperados de duas ações que se alternam (alternativas) e Fermant focou seus estudos no cálculo da probabilidade de um evento. Entretanto, nenhum dos dois estudiosos publicou imediatamente seus resultados. Desse modo, o Chevalier de Meré avaliou que o estudo das probabilidades não deveria ser pesquisado a fundo e ainda afirmou que o tempo gasto nesse estudo poderia ser melhor empregado para outros fins. Felizmente, esse fato não foi acatado por todos os estudiosos da época. Assim, em 1655, o astrônomo, físico e matemático holandês Christian Huygens (16291695) teve conhecimento do fato e resolveu iniciar seus estudos, e em 1657 publicou sua solução. Daí em diante, vários foram os estudiosos que contribuíram com o estudo da probabilidade, dentre eles, o matemático Jacques Bernoulli (1654-1705) e o matemático, físico e astrônomo Pierre-Simom de Laplace (1749-1827), que publicou o trabalho intitulado “Théorie Analytique des Probabilités” (1812), onde as teorias de probabilidade se tornaram cientificamente justificáveis nas prática. A aceitação das ideias sobre probabilidade pelo pensamento científico moderno foi muito além do que os pensadores dos séculos XVII e XVIII, principalmente com o desenvolvimento e aceitação da estatística na ciência e na indústria. Teorias da probabilidade Para saber mais sobre a história das probabilidades, consulte Crusius (2001). O acaso A palavra acaso é originária do latim a casu, e significa algo que surge ou acontece a esmo, sem motivo ou explicação aparente. Muitas das situações que presenciamos no nosso dia a dia são determinadas pelo acaso, configurando situações que podem ser classificadas como sorte ou azar. Sair de casa apressado e ver o ônibus partindo do ponto; não participar de um chat de dúvidas e este não ser realizado devido à doença do professor; encontrar uma pessoa na rua com a qual você precisava conversar; ser atendido pelo SUS antes que algo mais grave aconteça com a sua saúde; todos esses são acontecimentos comuns a todos nós e, muitas vezes, determinados pelo acaso. Aula 10 Bioestatística 199 Fonte: <http://1.bp.blogspot.com/_Mc6hSIUqSgg/Sm4WqMEAemI/AAAAAAAABiY/Ls3XvHYN68c/s400/Charge+do+Pater+-+A+Tribuna3.jpg>. Acesso em: 4 maio 2010. Esses acontecimentos acima citados apresentam duas características em comum: 1) Podem ou não acontecer (não sendo previsto com certeza). 2) Qualquer um deles acontecerá um certo número de vezes (e não ocorrerá um outro número de vezes) ao longo de um determinado período de tempo. Essas duas características podem ser apresentadas no exemplo acima, no qual você pode não participar de um chat de dúvidas e este não ser realizado devido à doença do professor e você pode não participar de um chat de dúvidas e este ocorrer sem a sua participação (característica 1). Também, esse fato pode ocorrer um determinado número de vezes e se repetir durante um certo tempo, no caso de você não participar de vários chats marcados pelo professor e ter a sorte dele adoecer em diversas ocasiões (característica 2). Existem situações nas quais, embora não se saiba o que de fato irá acontecer, tem-se uma lista de possíveis resultados. Como por exemplo: 1) O sexo de uma criança: masculino ou feminino. 2) O tipo sanguíneo de uma pessoa: A, B, AB e O. 3) O resultado obtido pelo aluno numa disciplina: aprovado ou reprovado. Essas situações são denominadas pelos matemáticos de ensaio probabilístico ou ensaio aleatório, pois os resultados dependem do acaso. Isto é, embora se possa saber os tipos de resposta existentes, toda vez que o ensaio for repetido, você não poderá saber, a priori, qual o resultado. 200 Aula 10 Bioestatística Um exemplo desse conceito foi abordado no lançamento de dados, onde as respostas possíveis são os números de um a seis, todavia, é impossível você saber (a menos que exista alguma irregularidade no jogo) qual o resultado (número) obtido ao se jogar o dado. Outro exemplo desse conceito é quando se analisa a seguinte frase: “É provável que o meu time ganhe a partida hoje?”. Pode-se esperar a ocorrência de três resultados para a partida: O meu time ganhar. Haver empate entre os dois times. O meu time perder. Repare que todos os resultados possíveis são conhecidos “a priori”. Todavia, por mais que você torça pela vitória do seu time, é impossível saber se ele vai ganhar o jogo antes do término da partida. Eventos aleatórios Evento é cada um dos resultados possíveis de uma situação acontecer. Se considerarmos os exemplos anteriormente citados, seria um evento o fato do camundongo número 2 girar a roleta dentro da gaiola de experimento; do terceiro filho do casal nascer de olhos castanhos; de sair o número 3 em um dado. Um exemplo clássico de evento é o lançamento de uma moeda: se a moeda for honesta, o evento “cara” tem igual chance de ocorrer que o evento “coroa”, ou seja 50% de chance. Esses são denominados de eventos aleatórios (do latim alea, sorte), pois cada um deles (cara e coroa) tem a mesma chance de ocorrer em relação a seus respectivos eventos alternativos (se der cara, o evento alternativo será coroa e se sair coroa, o evento alternativo será cara). Moeda honesta Moeda não viciada, onde cara e coroa têm chances iguais de acontecerem. Fonte: Adaptado de <http://pion.sbfisica.org.br/pdc/var/eznewsletter_site/ storage/images/multimidia/charges/fisica_moderna_e_contemporanea/probabilidade /24861-1-por-BR/probabilidade.jpg>. Acesso em: 4 maio 2010. Aula 10 Bioestatística 201 Outro exemplo de evento aleatório é a formação de um determinado tipo de gameta. Um indivíduo heterozigoto Aa tem a mesma probabilidade de formar gametas portadores do alelo A (50%) e do alelo a (50%), certo? Heterozigoto Indivíduo que tem dois alelos diferentes do mesmo gene (Aa). Alelo Cada uma das formas alternativas do mesmo gene (A ou a). 202 Aula 10 Atividade 2 Veja a seguir as probabilidades de ocorrência de alguns eventos aleatórios e tente explicar por que cada um deles ocorre com a probabilidade indicada. 1 A probabilidade de sortear uma carta de espadas de um baralho de 52 cartas é de 1/4. 2 A probabilidade de sortear um rei qualquer de um baralho de 52 cartas é de 1/13. 3 A probabilidade de sortear o rei de espadas de um baralho de 52 cartas é de 1/52. Bioestatística Eventos independentes Q uando a ocorrência de um evento não afeta a probabilidade de ocorrência de um outro, fala-se em eventos independentes. Por exemplo, ao lançar várias moedas ao mesmo tempo, ou uma mesma moeda várias vezes consecutivas, o resultado do primeiro lançamento não interfere no resultado dos demais lançamentos. Por isso, cada resultado é um evento independente do outro. Da mesma maneira, o nascimento de uma criança com um determinado fenótipo é um evento independente em relação ao nascimento de outros filhos do mesmo casal. Por exemplo, imagine um casal que já teve dois filhos homens. Qual a probabilidade de que uma terceira criança seja do sexo feminino? Uma vez que a formação de cada filho é um evento independente, a chance de nascer uma menina, supondo que homens e mulheres nasçam com a mesma frequência, é 1/2 ou 50%, como em qualquer nascimento. Eventos mutuamente excludentes Os eventos são classificados como mutuamente excludentes, quando o acontecimento de um implica na impossibilidade do outro ocorrer. Nesse caso, a soma das probabilidades dos eventos é igual a 1 ou 100%. Um exemplo desse tipo de evento é dado pela probabilidade de uma mãe ter uma criança do sexo masculino ou feminino. Repare que para este evento, só existem duas opções, que são excludestes entre si com relação ao sexo: masculino ou feminino. Nesse caso, a probabilidade da mãe ter uma criança do sexo masculino é 0,5 (50%). Consequentemente, a probabilidade dessa criança ser do sexo feminino é o complemento para 1 (100%), ou seja, 0,5 (50%). Cálculo da probabilidade A probabilidade de um determinado evento A ocorrer, é calculada pela equação: P r(A) = número de eventos que apresentam A número total de eventos Para realizarmos o cálculo da probabilidade, vamos considerar o exemplo a seguir e efetuar sua resolução passo a passo. Aula 10 Bioestatística 203 Exemplo Sabe-se que há 26 cartas pretas e 26 cartas vermelhas em um baralho comum de 52 cartas, não considerando os coringas. Qual a probabilidade de se tirar, ao acaso, uma carta vermelha deste baralho? Solução Passo 1: Em primeiro lugar devemos identificar, no enunciado do problema, quais as nossas variáveis: – Número total de eventos: 52, pois este é o número total de cartas no baralho. – Número de eventos que apresentam A: nesse caso, A é o conjunto de cartas vermelhas, e há 26 cartas desse tipo em um baralho. Passo 2: Identificados o número total de eventos e o número de eventos que representam A, devemos aplicar a fórmula da probabilidade: P r(A) = número de eventos que apresentam A 26 1 = = = 0, 5 número total de eventos 52 2 Passo 3: Agora é só concluir: A probabilidade de se tirar, ao acaso, uma carta vermelha deste baralho é de 0,5. Muitas vezes apresentamos o valor da probabilidade em porcentagem. Nesse caso, é só multiplicar o valor obtido por 100. Assim temos: 0,5 × 100= 50%. Atividade 3 1 a) 204 Aula 10 Bioestatística No lançamento de um dado, qual a probabilidade de: Sair o número 6? b) Sair um número múltiplo de 3? c) Sair um número menor do que 3? 2 3 A probabilidade de um casal heterozigoto (Aa x Aa) para o gene da fenilcetonúria (doença genética caracterizada pelo defeito ou ausência da enzima fenilalanina hidroxilase ) ter um filho afetado (aa) é 1/4. Se o casal tem 3 filhos, qual a possibilidade de um dos filhos ter a doença? Justifique sua resposta. Se a probabilidade de um indivíduo ter sangue Rh– é 10%, qual é a possibilidade de 5 indivíduos que se apresentaram para exame de sangue serem todos Rh–? Justifique sua resposta. Aula 10 Bioestatística 205 Leis ou regras de probabilidade Uma grande parte das perguntas relacionadas ao cálculo da probabilidade pode ser respondida pela observação das suas Propriedades Elementares e a aplicação da Lei ou Regra da Soma e da Lei ou Regra do Produto de probabilidade. Propriedades Elementares P1) A probabilidade de um evento impossível é nula (0%). P2) A probabilidade de um evento certo é 1 (100%). P3) A probabilidade de um evento qualquer é sempre um valor entre zero e um (entre 0% e 100%). Assim, é impossível se calcular uma probabilidade negativa ou maior que 1. Regra da Soma ou regra do “ou” Essa regra diz que a probabilidade de que ocorram eventos mutuamente excludentes como, por exemplo, A ou B ou C ou D etc é a soma de suas respectivas probabilidades e o total obtido será sempre igual a 1 (100%). Essa regra pode ser representada por: P r(A ou B ou C ou D . . . .) = P r(A) + P r(B) + P r(C) + P r(D) + . . . . Vamos ver um exemplo? Exemplo Qual a probabilidade de, em uma gestação, nascer um indivíduo do sexo masculino ou do sexo feminino? 1 1 P r(masculino ou f eminino) = P r(masculino) + P r(f eminino) = + = 1 Solução 2 2 Assim, há 100% de probabilidade de nascer um indivíduo do sexo masculino ou do sexo feminino. Regra do Produto ou regra do “e” Essa regra diz que a probabilidade de que ocorram, simultaneamente, os eventos E, F, G, H etc. é o produto de suas respectivas probabilidades, se estes eventos forem independentes entre si, e pode ser representado por: P r(E, F, G, e H . . .) = P r(E) × P r(F ) × P r(G) × P r(H) . . . Vamos ver um exemplo? 206 Aula 10 Bioestatística Exemplo As variáveis gênero (masculino e feminino) e grupo sanguíneo (A, B, AB e O) são características independentes na espécie humana. Admitindo uma proporção de 1:1 em Natal, a probabilidade de um natalense selecionado ao acaso ser do sexo feminino e ter tipo sanguíneo O é: P r(sexo f eminino e grupo O) = P r(sexo f eminino) × P r(grupo O) = Solução = 1 1 × = 0, 125 ou 12, 5% 2 4 Pode-se concluir que há 12,5% de chance de um natalense ser do sexo masculino e ter sangue tipo O. Vamos vem uma aplicação das regras de probabilidade na genética? Exercício resolvido 1 Em experimentos realizados por Mendel, observou-se que o cruzamento de ervilhas amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) originaram ervilhas amarelas heterozigotas (Aa). Se essas ervilhas fossem cruzadas entre si, seriam originadas ervilhas amarelas e verdes, na proporção de 3:1. Suponha que Mendel pegou, ao acaso, três ervilhas, resultantes do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade de as três serem verdes? Figura 3 – Gregor Johann Mendel Resolução De acordo com o enunciado do texto, se cruzarmos ervilhas amarelas AA com ervilhas verdes (aa), temos 100% de ervilhas amarelas, pois ambas ervilhas produzirão gametas de um tipo só: Aula 10 Bioestatística 207 as amarelas produzirão gametas A e as verdes a. A combinação desses gametas origina apenas Aa, ou seja, ervilhas amarelas. Agora, se cruzarmos as ervilhas amarelas originadas desse cruzamento (Aa) entre si, teremos a produção de dois tipos de gametas para cada uma: gametas A e a. E se realizarmos sua combinação, teremos: A a A AA Ervilha amarela Aa Ervilha amarela a Aa Ervilha amarela aa Ervilha verde Proporção 3:1 = Três ervilhas amarelas para uma ervilha verde Assim, por esse cruzamento, podemos concluir que a probabilidade de uma ervilha resultante do cruzamento de Aa × Aa de ser verde (aa) é uma em quatro, ou seja 1/4 ou 25%. Agora podemos calcular a probabilidade das três ervilhas serem verdes, aplicando a regra do produto: Pr(três ervilhas verdes) = Pr(ervilha verde)×Pr(ervilha 1 1 1 1 verde)×Pr(ervilha P r(três ervilhas verdes) = × × = ou 1, 56% verde) 4 4 4 64 Atividade 4 Um casal tem dois filhos. Qual a probabilidade de: 1 208 Aula 10 Bioestatística O primogênito ser homem. 2 Os dois filhos serem homens. 3 Pelo menos um dos filhos serem homem. Resumo Nesta aula, você conheceu um pouco da história da probabilidade e compreendeu o seu conceito. Entendeu o conceito de acaso e estudou os principais tipos de eventos: aleatórios, independentes e mutuamente excludentes. Aprendeu como calcular a probabilidade utilizando a sua fórmula e visualizando exercícios resolvidos. Conheceu as leis de probabilidade, ou seja, regra da soma ou regra do ou e a regra do produto ou regra do e, bem como suas propriedades elementares. Aprendeu como aplicar essas leis tendo como exemplo situações cotidianas e exercícios de genética. Aula 10 Bioestatística 209 Autoavaliação Agora que você já compreendeu os principais conceitos e regras que compõem a Teoria da Probabilidade, teste seus conhecimentos adquiridos, resolvendo o exercício abaixo. Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser do tipo A é 30% e ser do tipo B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator Rh independe do tipo sanguíneo. Nessas condições, qual a probabilidade de uma pessoa tomada ao acaso da população ser: 1 2 210 Aula 10 Bioestatística O, Rh+ AB, Rh– Referências CALLEGARI-JACQUES, Sídia M. Bioestatística: princípios e aplicações. Porto Alegre: Ed. Artmed, 2003. CRUSIUS, C. A. A razão como faculdade calculadora: a aposta de Pascal. Porto Alegre: Ed. Universidade/UFRGS, 2001. HOUAISS, Antonio; VILLAR, Mauro de Sales; FRANCO, Francisco Manoel de Mello. Dicionário Houaiss da língua portuguesa. Rio de Janeiro: Editora Objetiva, 2001. 2922p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em excel. Rio de Janeiro: Reichamann e Afonso Editores, 1999. VIEIRA, Sonia. Introdução à bioestatística. Rio de Janeiro: Ed. Campus, 1980. ______. Princípios de estatística. São Paulo: Ed. Pioneira, 1999. Anotações Aula 10 Bioestatística 211 Anotações 212 Aula 10 Bioestatística Anotações Aula 10 Bioestatística 213 Anotações 214 Aula 10 Bioestatística Esta edição foi produzida em mês de 2012 no Rio Grande do Norte, pela Secretaria de Educação a Distância da Universidade Federal do Rio Grande do Norte (SEDIS/UFRN). Utilizando-se Helvetica Lt Std Condensed para corpo do texto e Helvetica Lt Std Condensed Black títulos e subtítulos sobre papel offset 90 g/m2. Impresso na nome da gráfica Foram impressos 1.000 exemplares desta edição. SEDIS Secretaria de Educação a Distância – UFRN | Campus Universitário Praça Cívica | Natal/RN | CEP 59.078-970 | [email protected] | www.sedis.ufrn.br