Francisco Mercês de Mello
Rita Cabral Guimarães
Curso de Engenheiro Agrónomo
em 1961 (UTL). Bacharelato em
Matemática Aplicada em 1974
(ULM). Doutoramento em
Engenharia Agrícola em 1987
(U. Évora). Professor associado
(aposentado) da Universidade
de Évora.
Licenciatura em Engenharia
Agrícola em 1993 (U. Évora).
Mestrado em Engenharia do Solo
e da Água em 1997 (U. Évora).
Doutoramento em Engenharia dos
Recursos Hídricos em 2005 (U. Évora).
Licenciatura em Engenharia Civil
em 2013 (U. Évora). Professora auxiliar
na Universidade de Évora.
MERCÊS
DE MELLO
•
RITA
GUIMARÃES
FRANCISCO MERCÊS DE MELLO • RITA CABRAL GUIMARÃES
Métodos Estatísticos
Este livro, com evidente cuidado pedagógico, e recorrendo permanentemente a exemplos
práticos, apresenta em 21 capítulos e vários anexos todo o instrumental teórico e prático para
dotar o leitor de tudo o que necessita para enfrentar os obstáculos que poderá encontrar no seu
estudo ou profissão.
Nos primeiros capítulos apresenta os conceitos básicos da Estatística e o ambiente e utilização do software SPSS. Depois aborda a noção de probabilidade, as distribuições amostrais e
os vários tipos de amostragem. Seguidamente trata da comparação de dados categóricos e
dados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui-quadrado, o teste t-Student (também para variáveis emparelhadas) e o teste F da análise de
variância (ANOVA). Discute o modelo de regressão e a correlação e os diferentes testes não
paramétricos. Nos capítulos seguintes apresenta as medidas de força da associação ou efeito,
através dos odds ratio, risco relativo e da diferença de risco. Nos capítulos finais apresenta a
parte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivência, regressão de Cox e regressão de Poisson e aborda a meta-análise, principalmente no que
diz respeito à sua representação gráfica (forest plot).
Este livro destina-se pois a todos os estudantes e profissionais que, na sua atividade profissional ou nos seus estudos necessitem de aprender ou consolidar os conceitos teóricos estatísticos e a sua respetiva transposição para a prática.
O presente trabalho escrito com a clareza, que só quem viveu explicando consegue
imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na
investigação biomédica, mas também para quem necessita de compreender a linguagem
da maioria dos trabalhos publicados. (...) O recurso aos exemplos reais é sem sombra de
dúvida, mais um dos argumentos que pode justificar a recomendação deste livro aos
profissionais de saúde.
Métodos Estatísticos para o Ensino e a Investigação nas
Ciências da Saúde
Atualmente a estatística é uma ferramenta indispensável para os profissionais na área das
ciências da saúde. Conhecer, interpretar e aplicar a teoria e as técnicas estatísticas é fundamental para uma boa investigação, estudo e práticas esclarecidas.
para o Ensino e a Investigação nas
Ciências da Saúde
Com exemplos extraídos de revistas
e publicações médicas
Apresentação e utilização do SPSS
Favor
tratamento
Favor
placebo
Prof. Alexandre Castro Caldas
Professor Catedrático
– 1.00 0.00
Diretor do Instituto de Ciências da Saúde – Universidade Católica Portuguesa
1.00
2.00
3.00
A publicação desta obra teve o apoio:
506
ISBN 978-972-618-805-6
Prefácio
Prof. Alexandre Castro Caldas
9 789726 188056
EDIÇÕES SÍLABO
Métodos Estatísticos
para o Ensino
e a Investigação
nas Ciências da Saúde
Com Utilização do SPSS
FRANCISCO MERCÊS DE MELLO
RITA CABRAL GUIMARÃES
EDIÇÕES SÍLABO
É expressamente proibido reproduzir, no todo ou em parte, sob qualquer
forma ou meio, NOMEADAMENTE FOTOCÓPIA, esta obra. As transgressões
serão passíveis das penalizações previstas na legislação em vigor.
Visite a Sílabo na rede
www.silabo.pt
Editor: Manuel Robalo
FICHA TÉCNICA:
Título: Métodos Estatísticos para o Ensino e a Investigação nas Ciências da Saúde
– Com utilização do SPSS
Autores: Francisco Mercês de Mello, Rita Cabral Guimarães
© Edições Sílabo, Lda.
Capa: Pedro Mota
1ª Edição – Lisboa, julho de 2015
Impressão e acabamentos: Europress, Lda.
Depósito Legal: 395231/15
ISBN: 978-972-618-805-6
EDIÇÕES SÍLABO, LDA.
R. Cidade de Manchester, 2
1170-100 Lisboa
Tel.: 218130345
Fax: 218166719
e-mail: [email protected]
www.silabo.pt
Índice
Agradecimentos
13
Palavras prévias
15
Prefácios
17
Introdução
19
Capítulo 1
Conceitos básicos da estatística e da análise exploratória dos dados
1.1. Introdução
21
1.2. Conceitos básicos
21
1.3. Medição e escalas de medição
22
1.4. Ordenação dos dados
23
1.5. Dados agrupados: distribuição de frequências
23
1.6. Estatística descritiva
28
1.6.1. Medidas de localização
28
1.6.2. Medidas de dispersão
31
1.6.3. Medidas de forma
33
Capítulo 2
Princípios básicos de utilização do SPSS
2.1. Introdução
37
2.2. Como iniciar o SPSS
37
2.3. Como criar um ficheiro de dados no SPSS
39
2.4. Tratamento e apresentação dos dados
44
2.4.1. Tabela de frequências
44
2.4.2. Estatística descritiva
48
2.5. Como calcular uma nova variável a partir de outra existente
51
2.6. Como calcular variáveis a partir de datas
55
Capítulo 3
Exemplos de aplicação do SPSS a casos concretos
de estatística descritiva
3.1. Introdução
61
3.2. Exemplos de aplicação
61
Capítulo 4
Probabilidade
4.1. Introdução
79
4.2. Conceitos de probabilidade
79
4.3. Algumas propriedades e teoremas
80
4.4. Distribuições discretas
82
4.5. Distribuições contínuas
86
Capítulo 5
Distribuições amostrais
5.1. Introdução
93
5.2. Teorema do limite central
94
5.3. Parâmetros de uma população
94
5.3.1. Distribuição amostral da média, x
94
5.3.2. Distribuição amostral de uma proporção
96
5.3.3. Distribuição amostral da variância
97
5.4. Parâmetros de duas populações
5.4.1. Distribuição da diferença entre duas médias amostrais
97
97
5.4.2. Distribuição amostral para a diferença
entre duas proporções populacionais
101
5.4.3. Distribuição amostral para o quociente entre variâncias
102
Capítulo 6
Estimação pontual e intervalar
6.1. Introdução
105
6.2. Estimação pontual
105
6.3. Estimação intervalar
105
Capítulo 7
Testes de hipóteses
7.1. Introdução
115
7.2. Hipóteses estatísticas
115
7.3. Estatística de teste
117
7.4. Nível de significância
117
7.5. Valores críticos e região de rejeição de um teste de hipótese
117
7.6. Erro associado a uma decisão estatística
121
7.7. Probabilidade de significância (p-value)
121
7.8. Cálculo das probabilidades de cometer um erro tipo I e tipo II.
Função potência
126
7.9. Comparação conjunta dos erros tipo II e potência para testes
de hipóteses bilaterais e unilaterais
129
7.10. Testes de hipóteses vs. intervalos de confiança
130
7.11. Como calcular o valor-p com o SPSS
131
Capítulo 8
Amostragem
8.1. Introdução
133
8.2. Dimensão da amostra
133
8.2.1. Nomograma de Altman para cálculo da dimensão da amostra
136
8.2.2. Fórmula rápida de Lehr
137
8.3. Métodos de seleção de amostras
138
Capítulo 9
Comparação de dados categóricos em amostras independentes
9.1. Introdução
141
9.2. Teste do qui-quadrado
141
9.3. Teste de Fisher
146
9.4. Medidas de força da associação/efeito: risco relativo e odds ratio
147
Capítulo 10
Testes para analisar a normalidade dos dados
e a homogeneidade das variâncias
10.1. Introdução
167
10.2. Análise da normalidade
167
10.3. Análise da homogeneidade das variâncias
173
Capítulo 11
Testes t-Student
11.1. Teste t-Student para uma amostra
177
11.2. Teste t-Student para comparação de dados numéricos em duas amostras
180
11.2.1. Teste t-Student para duas amostras independentes
180
11.2.2. Teste t-Student para duas amostras emparelhadas
184
Capítulo 12
Comparação de dados numéricos em mais de duas amostras
independentes. Análise de variância
12.1. Introdução
189
12.2. Os diferentes tipos de ANOVA
190
12.3. Delineamentos completamente casualizados
190
12.4. Delineamentos em blocos completamente casualizados
197
12.5. Delineamentos com medições repetidas (one way ANOVA)
207
12.6. Experiências fatoriais
213
12.6.1. Classificação dupla cruzada
214
12.6.2. Esquema de dois fatores completamente casualizados
12.7. Modelo a dois fatores misto
214
225
Capítulo 13
Regressão linear. Correlação
13.1. Introdução
233
13.2. O modelo de regressão linear simples
233
13.3. Pressupostos do modelo de regressão linear simples
234
13.4. Correlação paramétrica
234
13.5. Correlação não paramétrica
238
13.6. Coeficiente de correlação bisserial por pontos
240
13.7. O Modelo de regressão linear múltipla
250
13.7.1. Coeficientes de regressão parciais
251
13.7.2. Coeficiente de determinação múltipla
251
13.7.3. Coeficiente de correlação parcial
251
13.7.4. Testes de hipóteses
252
13.7.5. Escolha do processo de seleção de variáveis
253
13.8. Variáveis independentes categóricas
261
Capítulo 14
Testes não paramétricos
14.1. Introdução
263
14.2. Teste de Kolmogorov-Smirnov
263
14.3. Teste binomial
264
14.4. Teste do qui-quadrado
267
14.5. Teste de Fisher
267
14.6. Teste de Mann-Whitney
267
14.7. Teste de Kruskall-Wallis
271
14.8. Teste dos sinais
273
14.9. Teste de Wilcoxon
276
14.10. Teste de McNemar
278
14.11. Teste de Cochran
280
14.12. Teste de Friedman
282
Capítulo 15
Testes de diagnóstico. Curva ROC
15.1. Introdução
285
15.2. Definições. Cálculos
286
15.2.1. Probabilidade condicional e testes de diagnóstico
15.3. Curva ROC
289
291
Capítulo 16
Regressão logística simples e múltipla
16.1. Introdução
299
16.2. Categorização das variáveis independentes
303
16.3. Esquema geral de procedimento para efetuar uma análise
de regressão logística com SPSS
306
16.4. Regressão logística politómica
323
16.4.1. Testes de significância
325
16.4.2. Interpretação dos parâmetros
325
16.5. Regressão ordinal
330
16.5.1. Avaliação da qualidade do modelo
331
16.5.2. Classificação com o modelo de regressão ordinal
332
Capítulo 17
Confundimento e modificação de efeitos
17.1. Introdução
339
17.2. Estatísticas de Mantel-Haenszel
339
17.3. Como analisar confundimento e modificação de efeito
342
17.3.1. Inexistência de confundimento e de interação
343
17.3.2. Existência de confundimento sem interação
347
17.3.3. Existência de interação sem confundimento
350
17.3.4. Existência de confundimento e de interação
352
17.4. Comparação da regressão logística com a análise estratificada
em tabelas 2 × 2
354
Capítulo 18
Análise de sobrevivência
18.1. Introdução
357
18.2. Método actuarial
357
18.3. Método de Kaplan-Meier
362
18.4. Comparação de curvas de sobrevivência
364
18.4.1. Comparação pontual
364
18.4.2. Comparação global
365
18.5. Taxas de incidência cumulativa
374
Capítulo 19
Análise de regressão de Cox
19.1. Introdução
377
19.2. Coeficientes de regressão parciais
378
19.3. Testes de hipóteses a efetuar
380
19.4. Validação dos pressupostos do modelo
382
19.5. Modelos paramétricos
403
Capítulo 20
Análise de regressão de Poisson
20.1. Introdução
407
20.2. Razão de taxas de incidência
408
Capítulo 21
Meta-análise
21.1. Introdução
425
21.2. Modelos de efeitos fixos e modelos de efeitos aleatórios
426
21.3. Heterogeneidade estatística
426
21.4. Gráfico dos resultados (forest plot)
427
Anexo 1 – Tabelas para a distribuição normal
431
Anexo 2 – Tabelas para a distribuição t-Student
437
Anexo 3 – Tabelas para a distribuição de qui-quadrado
441
Anexo 4 – Tabelas para a distribuição de F-Snedecor
443
Referências bibliográficas
451
Índice remissivo
457
Agradecimentos
Os autores vêm expressar o seu agradecimento ao Sr. Dr. Luís Santos, Chefe de
Serviço de Patologia Clínica, Diretor Técnico do Serviço de Patologia Clínica do Hospital
de Cascais Dr. José de Almeida, pelo incentivo constante que lhes deu para a concretização deste livro, juntamente com o esclarecimento que lhes foi prestando quanto a
variados termos médicos e à revisão final que se dignou a fazer a esta obra.
Ao Professor Doutor Pedro Aguiar, do Instituto Nacional de Saúde Pública, os autores agradecem os esclarecimentos que deu às varias questões que lhe apresentaram e
à forma amável como para tal se disponibilizou.
Ao Sr. Dr. António Paula Brito Pina, da ARS do Algarve – IP, agradecemos a pronta
autorização que nos concedeu para usar os seus textos e dados de obras por si publicadas.
Ao Sr. Dr. Frederico do Rosário, do Centro de Saúde de Tondela, agradecemos a
forma amável como acolheu as nossas dúvidas, ao ponto de nos deixar utilizar os seus
dados e trabalhar connosco no SPSS a regressão de Poisson.
Ao Professor Doutor Paulo Margotto os autores querem agradecer a amabilidade
com que nos autorizou a usar os deus dados e os seus textos publicados na World Wide
Web.
Não podíamos deixar de agradecer o acolhimento que tivemos na excelente Biblioteca do Hospital de S. José, na pessoa da sua assistente-técnica Sra. D. Mónica Teixeira. Trata-se de uma funcionária sempre disposta a resolver os nossos inúmeros problemas, de uma forma que consideramos exemplar e com um zelo inexcedível.
Palavras prévias
A estatística desempenha um importante papel na pesquisa médica. Odd O. Aalem,
da Secção de Estatística Médica da Universidade de Oslo, no ano 2000, escreveu na
revista Statistical Methods in Medical Research, um artigo intitulado «Medical Statistics –
No Time for Complacency». Neste excelente artigo, para além de chamar a atenção
para a incerteza, como essência da estatística, aponta um conjunto de fatores que respondem à pergunta do presente capítulo. São eles:
A prática médica e a pesquisa médica geram grande quantidade de dados, cheios
de incerteza e variabilidade, impondo uma análise apropriada ao tratamento destes
dados – a análise estatística;
Os testes aos tratamentos ou medidas preventivas, na prática apoiam-se na estatística. Isto é verdadeiro para ambos, quer no delineamento, quer na análise. A casualização foi entusiasticamente implementada nas experiências clínicas e a chamada medicina baseada em evidências tem a sua base nos ensaios clínicos e em estudos epidemiológicos.
O panorama médico mundial tem fortes aspetos estatísticos. Medidas estatísticas
respondem a questões do tipo: «Quão comum é a doença?»; «Qual o fator responsável?»; «Qual a probabilidade de melhorar a sobrevivência?».
Por outro lado é importante deixar bem expresso que uma diferença entre comportamentos, estatisticamente significantes, pode não ser clinicamente «importante». A
importância em termos biológicos não deve ser julgada pelos estatísticos, mas sim pelos
profissionais da área em que a pesquisa está sendo feita.
Prefácios
Os métodos quantitativos de investigação dominam hoje a literatura biomédica. Ao
longo dos anos a metodologia estatística tem vindo a refinar a sua capacidade de valorização dos resultados obtidos na experimentação, enriquecendo assim a oferta das
opções e das aplicações.
Os cálculos estatísticos deixaram há muito de ser realizados com papel e lápis ou
com o recurso à regra de cálculo, passaram a integrar programas complexos de que os
utilizadores desconhecem as regras matemáticas que os suportam.
Desta forma, os profissionais não acompanharam a evolução das metodologias
estatísticas e recorrem à aparente simplicidade do teclado de um computador para realizar os seus estudos. Nada mais passível de erro do que fazê-lo desta forma. A estatística é um componente da metodologia da investigação que deve ser ponderada com
conhecimento das suas regras de utilização, no mesmo momento em que se planeia um
estudo. Não é qualquer coisa que se aplica aos resultados para lhes dar uma tonalidade
de verdade. Por outro lado, mesmo quando bem utilizada a metodologia, muitos leitores
dos trabalhos publicados se confundem na leitura e interpretação dos resultados.
O presente trabalho escrito com a clareza, que só quem viveu explicando consegue
imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na
investigação biomédica, mas também para quem necessita de compreender a linguagem da maioria dos trabalhos publicados.
É certo que não é o único livro sobre o assunto disponível nas livrarias mas é,
decerto, dos que melhor conjugam o rigor que a metodologia requer, com a simplicidade
do texto. O recurso aos exemplos reais é sem sombra de dúvida, mais um dos argumentos que pode justificar a recomendação deste livro aos profissionais de saúde.
Prof. Doutor Alexandre Castro Caldas
Professor Catedrático
Diretor do Instituto de Ciências da Saúde
Universidade Católica Portuguesa
O trabalho que agora se publica materializa a difícil tarefa de disponibilizar aos
investigadores em Ciências da Saúde os indispensáveis instrumentos de análise estatística, não ignorando que a maioria dos interessados não possui conhecimentos aprofundados de métodos de análise matemática, mas sem descurar o rigor teórico exigido a
qualquer texto de carácter científico.
Para tanto, os autores começam por apresentar os conceitos fundamentais da análise estatística servindo-se de exemplos retirados de casos clínicos descritos nas principais revistas médicas. Em simultâneo mostram como pode ser utilizado o programa
informático SPSS para implementação dos métodos de análise.
Para além dos testes estatísticos mais habitualmente utilizados neste tipo de investigação, os autores alargam o seu trabalho aos mais recentes modelos de regressão
logística, de Cox e de Poisson e à meta-análise, na sua formulação gráfica «forest plot».
A riquesa e a variedade da centena de casos apresentados no livro fazem dele um
singular instrumento de trabalho que merecerá sem dúvida o interesse dos profissionais
do sector das Ciências da Saúde.
E para aqueles que quiserem ir mais longe no estudo destas questões, a extensa
lista de Referências Bibliográficas e obras consultadas constitui uma preciosa orientação.
Prof. Doutor Fernando Brito Soares
Professor Catedrático da Faculdade de Economia da
Universidade Nova de Lisboa
Introdução
Qualquer projeto de investigação em Ciências da Saúde, tem necessariamente de
se complementar com estudos bioestatísticos. Os autores possuem uma formação no
âmbito da Biologia e da Estatística, tendo até o primeiro autor regido uma disciplina de
Bioestatística no Instituto Superior das Ciências da Saúde, a convite do seu Presidente,
Professor Manuel Halpern, nos anos letivos de 1994/95 e 1995/96.
Talvez por este facto, e incentivados por médicos amigos, começaram há 3 anos a
«construir» este livro, vendo hoje com regozijo, que valeu a pena o trabalho destes
anos, já que esta ambição se concretizou.
Para melhor entenderem o largo espectro da aplicação da Estatística na investigação nas Ciências da Saúde e tomarem contacto com a terminologia, testes e modelos
mais utilizados, os autores consultaram cerca de uma centena de revistas médicas
cientificas (vários volumes e números) que estão identificadas em Anexo, e que lhes
permitiram dispor de uma vasta coleção de dados.
O package estatístico utilizado foi o SPSS 21, versão para Windows. Procurou-se
não sobrecarregar o leitor com cálculos manuais extensos e matematicamente pesados,
nos cerca de 100 exemplos resolvidos, partindo quase sempre de dados reais e recorrendo ao SPSS. Procurou-se, em síntese, fazer com que o leitor olhe amigavelmente
para este programa, que resolve em poucos segundos aquilo que, manualmente, poderia levar horas.
O livro contém 21 capítulos e vários anexos. Nos primeiros capítulos, faz-se uma
revisão dos conceitos básicos da Estatística, uma descrição do ambiente SPSS e
incluem-se exemplos resolvidos neste Software, sobre estatística descritiva. Segue-se
depois uma abordagem à noção de probabilidade, às distribuições amostrais e aos tipos
de amostragem. Posteriormente, trata-se da comparação de dados categóricos e dados
numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui-quadrado, o teste t-Student (também para variáveis emparelhadas) e o teste F da análise de variância (ANOVA). Estudaram-se o modelo de regressão e a correlação e os
diferentes testes não paramétricos. Tratam-se a seguir as medidas de força da associação ou efeito, através dos odds ratios, risco relativo e da diferença de risco. Nos capítulos
finais, aborda-se a parte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivência, de regressão de Cox e regressão de Poisson.
O livro termina com uma referência à meta-análise, principalmente no que toca à sua
representação gráfica (forest plot).
Capítulo 1
Conceitos básicos da estatística
e da análise exploratória
dos dados
1.1. Introdução
O objetivo deste capítulo é tratar da organização, condensação e apresentação da
informação extraída de um conjunto de dados, de forma a caracterizar quantitativamente
o objetivo do estudo. Nisto consiste a estatística descritiva, etapa indispensável à inferência estatística, que, como veremos adiante, integra um conjunto de técnicas que
permitem tirar ilações acerca das características da população.
1.2. Conceitos básicos
Variável, é uma característica que muda de pessoa para pessoa, de local para local,
de instante para instante. Como exemplo, podemos referir a pressão sanguínea diastólica.
Variáveis quantitativas, são aquelas que podem ser medidas no sentido usual do
termo. Por exemplo, podemos medir as alturas de crianças numa escola, conhecer as
idades de doentes numa clínica, avaliar o teor em ácido úrico, etc.
Variáveis qualitativas, são aquelas que são identificadas apenas pela atribuição de
um nome que designa uma classe, podendo estas classes ser ou não ordenáveis. Como
exemplo podemos referir a cor dos olhos das pessoas, as classificações de muito bom,
22
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
bom, suficiente, medíocre e mau, obtidas por alunos em testes. Evidentemente será
depois possível fazer contagens nas diferentes categorias.
Variável aleatória, é aquela que, antecipadamente, não pode ser exatamente predita. É o caso, por exemplo, da altura de um adulto.
Variável aleatória discreta, é aquela que apresenta interrupções nos valores que
pode assumir. Por exemplo, o número de doentes que deram entrada na urgência de
um hospital é traduzido por números inteiros como 0, 1, 2, etc., mas nunca poderá ser,
por exemplo, 1,2 ou 3,8, etc.
Variável aleatória contínua, é aquela que, ao contrário da anterior, não apresenta
interrupções nos seus valores, podendo assumir qualquer valor dentro de determinado
intervalo. É o caso, por exemplo, da altura de um indivíduo, já que podemos teoricamente encontrar outra pessoa com altura inferior ou superior à dada.
População, é uma coleção de entidades para as quais estamos interessados num
determinado tempo. Por exemplo, a população estudantil que frequentou em 2009 o
ensino básico na cidade de Lisboa. As populações podem ser finitas ou infinitas.
Amostra, é um subconjunto de uma população, selecionada com o objetivo de estudar propriedades particulares da população de interesse.
1.3. Medição e escalas de medição
Quando dispomos dos valores de uma variável usa-se uma escala de medição apropriada. A escala de medição permite atribuir números com significado, de acordo com
regras específicas, aos elementos em estudo. Deve analisar-se cuidadosamente o tipo
de escala a utilizar, pois as operações aritméticas não são válidas para todas as escalas.
Na Escala nominal, incluem-se as variáveis cujas modalidades ou categorias quantitativas são mutuamente exclusivas e não hierarquizáveis. Quando se atribuem números às diferentes classes, estes são utilizados como se fossem simples nomes, não
gozam de qualquer tipo de propriedade aritmética. Apenas se podem fazer contagens
dentro do mesmo código da categoria.
Na Escala ordinal, as diferentes modalidades da variável podem ser ordenadas de
acordo com determinado critério. Não é igualmente possível efetuar, com os números
de uma escala ordinal, qualquer operação aritmética.
Na Escala intervalar, são válidas relações de ordem e as operações de soma e
subtração. Como a origem da escala é arbitrária, não são legítimas as operações de
multiplicação e divisão. A temperatura é um exemplo de variável de escala intervalar.
CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS
23
Na Escala de razão, são possíveis todas as operações aritméticas, já que a origem
é fixa correspondendo sempre ao valor zero, que representa a ausência total da variável
medida. São exemplo de escalas de razão, o tempo, o peso, etc.
1.4. Ordenação dos dados
O primeiro passo na organização dos dados é a preparação de um quadro ordenado, isto é, uma lista de valores da coleção (população ou amostra) ordenados por
ordem de grandeza, do mais baixo ao mais elevado, tarefa facilitada pelo uso de um
computador.
1.5. Dados agrupados: distribuição
de frequências
A principal finalidade de agrupamento dos dados é a sua sumarização, tornando
mais fácil determinar a natureza da informação.
Para agrupar um conjunto de observações, devemos selecionar um conjunto de
intervalos contíguos e não sobrepostos, de forna a que cada valor do conjunto das
observações possa ser colocado apenas num só intervalo. Estes intervalos são designados por intervalos de classe.
O número de intervalos de classe deve, em princípio, oscilar entre 5 e 15. A fórmula
de Sturges deve guiar-nos na escolha do número K de classes. Esta fórmula diz-nos
que K = 1 + 3, 322 × log10 n sendo n o número total de valores observados.
Outra grandeza a calcular é a amplitude da classe, que designamos por a, e se
aconselha ser constante para todas as classes. A amplitude da classe pode ser deterR
, onde
minada dividindo a amplitude total da variação pelo número de classes: a =
K
a é a amplitude da classe, R é a amplitude total da variação (diferença entre o maior e o
menor valor dos dados) e K o número de classes.
24
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
EXEMPLO 1.1
Suponhamos conhecida a pressão arterial sistólica de 40 indivíduos apresentada no Quadro 1.1.
Agrupar os dados em classes e construir a tabela de distribuição de frequências.
Quadro 1.1. Pressão arterial sistólica de 40 indivíduos
Indivíduo
Pressão
arterial
(mmHg)
Indivíduo
Pressão
arterial
(mmHg)
1
122
21
107
2
119
22
112
3
107
23
123
4
118
24
108
5
111
25
102
6
120
26
107
7
133
27
110
8
129
28
118
9
118
29
115
10
121
30
119
11
124
31
118
12
116
32
113
13
119
33
108
14
119
34
105
15
117
35
112
16
111
36
116
17
116
37
109
18
104
38
116
19
122
39
104
20
111
40
113
Resolução
Para termos uma ideia sobre o número de classes a usar, podemos aplicar a regra de Sturges:
K = 1 + 3, 322 × log10 n = 6, 3 . Como a amplitude total dos dados é 133 − 102 = 31, temos,
31
= 5,17 . Podemos optar por 7 classes com uma amplitude de classe de 5, como se apre6
senta no Quadro 1.2.
a =
25
CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS
Quadro 1.2. Distribuição dos indivíduos pelas classes
Número da classe
Classe
Frequência
1
[100; 105[
3
2
[105; 110[
7
3
[110; 115[
8
4
[115; 120[
14
5
[120; 125[
6
6
[125; 130[
1
7
[130; 135[
1
Total
40
FIM
DE
EXEMPLO
Frequência relativa. Por vezes, é útil conhecer, não o número de valores que pertencem a cada classe, mas sim a sua proporção. Para tal, dividimos o número de valores de cada classe (chamado frequência absoluta) pelo número total de valores. Assim,
para a primeira classe teríamos 3 40 ou seja 0,075 (ou em percentagem 7,5%). Este
valor é designado frequência relativa.
Podemos agora construir a tabela, apresentada no Quadro 1.3, com as frequências
absolutas acumuladas, frequências relativas e frequências relativas acumuladas, respeitantes ao Exemplo 1.1.
Histograma. No caso de variáveis contínuas, as distribuições de frequências são
representadas através de histogramas, que são gráficos constituídos por retângulos
adjacentes, cujas bases e áreas representam, respetivamente as amplitudes e as frequências das classes.
O centro das classes ou ponto médio da classe determina-se calculando a média
limite inferior + limite superior
aritmética dos limites das classes, ou seja C =
. Para
2
100 + 105
= 102, 5 .
a primeira classe teríamos, portanto, C1 =
2
26
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
Quadro 1.3. Frequências referentes ao Exemplo 1.1
Número
da classe
Classe
Frequências
absolutas
Frequências
absolutas
acumuladas
Frequências
relativas
Frequências
relativas
acumuladas
1
[100; 105[
3
3
0,075
0,075
2
[105; 110[
7
10
0,175
0,250
3
[110; 115[
8
18
0,200
0,450
4
[115; 120[
14
32
0,350
0,800
5
[120; 125[
6
38
0,150
0,950
6
[125; 130[
1
39
0,025
0,975
7
[130; 135[
1
40
0,025
1,000
Total
40
1,000
Na Figura 1.1 indicamos o histograma relativo aos dados do Exemplo 1.1.
Figura 1.1. Histograma relativo aos dados do Exemplo 1.1
Histograma
12,5
Frequência
10,0
7,5
5,0
2,5
0,0
1
2
3
4
5
6
7
Classes de pressão arterial sistólica (mmHg)
CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS
27
Polígono de Frequências. A distribuição de frequências pode ser representada
graficamente dum outro modo, pelo polígono de frequências. Para a sua construção
devem criar-se duas classes adicionais com a mesma amplitude e de frequência nula,
uma em cada extremo do histograma. O polígono de frequências obtém-se unindo os
pontos médios dos topos dos retângulos através de segmentos de reta. Na Figura 1.2
apresenta-se o polígono de frequências relativo aos dados do Exemplo 1.1. A área total
sob o polígono de frequências é igual à área total correspondente ao histograma.
Figura 1.2. Polígono de frequências relativo aos dados do Exemplo 1.1
Polígono de frequências
Frequência
15
10
5
0
95
100
105
110
115
120
125
130
135
140
Classes de pressão arterial sistólica (mmHg)
Diagrama de caule e folhas. É também frequente utilizar-se o diagrama de «caule e
folhas» composto por duas colunas designadas por «caule» e «folhas». Normalmente,
no caule representam-se os algarismos das unidades de cada observação e, à frente de
cada valor, inscrevem-se nas folhas os algarismos representativos da primeira casa
decimal de cada observação.
Para os dados do Exemplo 1.1, optámos por tomar para a unidade do caule o
número 10 e para a unidade das folhas o número 1. Assim, o 10 que se lê na primeira
linha do caule significa 100, o 11 que se lê na segunda linha significa 110, etc.
Uma vantagem do diagrama de «caule e folhas» sobre o histograma consiste no
facto de ele preservar a informação contida nas medidas individuais.
Na Figura 1.3 indicamos o diagrama de «caule e folhas» relativo aos dados do
Exemplo 1.1.
28
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
Figura 1.3. Diagrama de «caule e folhas» relativo aos dados do Exemplo 1.1
Caule
Folhas
10
2445777889
11
0111223356666788889999
12
0122349
13
3
Unidade do caule: 10
Unidade da folha: 1
1.6. Estatística descritiva
1.6.1. Medidas de localização
1.6.1.1. Medidas de Tendência Central
A distribuição de frequências e a sua representação gráfica são, sem dúvida, uma
importante etapa na análise de dados. Contudo, situações há em que se requerem
outros tipos de sumarização dos dados, por meio de medidas descritivas. Estas medidas podem ser calculadas a partir dos dados de uma amostra ou de uma população.
Quando a medida descritiva é calculada a partir da amostra chama-se estatística.
Se é calculada a partir dos dados de uma população designa-se parâmetro. As medidas de localização podem ser medidas de tendência central ou medidas de tendência
não central. Vamos estudar as três medidas de tendência central: média, mediana e
moda.
Média aritmética ou simplesmente média, representada por X , para a amostra, e
N
n
 Xi
 Xi
igual a X =
i =1
n
ou, sendo para a população, representada por μ =
i =1
N
.
n
O símbolo

indica a soma de todos os valores desde primeiro (1) até ao último
i =1
(n), e designa-se por somatório.
CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS
29
Média harmónica. É o inverso da média aritmética dos inversos dos valores das
n
observações e é igual a X h =
.
n
1
 Xi
i =1
Média aparada. É uma média aritmética que é calculada após a eliminação de uma
certa percentagem de valores extremos inferiores e superiores. A média aparada a 5% é
calculada eliminando 2,5% das observações em cada extremidade da distribuição. É
vantajoso utilizá-la quando a distribuição da variável contém valores extremos aberrantes.
Mediana. Representa-se por Me e é o centro de posição da distribuição. Corresponde ao valor abaixo e acima do qual se registaram metade das observações. Após a
ordenação das observações por ordem crescente a mediana calcula-se do seguinte
modo:
 X n +1

2

Me =  X n + X

2


2
se n é impar
n
+1
2
se n é par
Considerando os valores ordenados: 0; 2; 8; 14; 30. Como n = 5 é impar, vem que
Me = X 5 +1 = X 3 , significando que o valor central é o terceiro e a mediana é 8.
2
Quando o conjunto tiver um número par de dados, a mediana é a média dos dois
valores centrais. É o caso da série de 4 valores: 1; 4; 8; 100, onde a mediana está na
X 4 + X 4
posição
2
2
2
+1
, ou seja, na posição intermédia entre o 2º e o 3º valores. Cal-
4+8
= 6.
2
Repare-se que a mediana pode ser um valor observado ou não, como neste caso.
cula-se a média entre estes dois valores e a mediana da série é, portanto,
Moda. Representa-se por Mo, é o valor que ocorre com mais frequência. Se todos
os valores são diferentes não existe moda. Por outro lado, pode também existir mais do
que uma moda.
1.6.1.2. Medidas de Tendência Não Central
Quantis. Chamam-se quantis de ordem K aos K – 1 valores que dividem o conjunto
das observações ordenadas em K partes. Se K = 4 , tomam o nome de quartis. Se
K = 10 , temos os decis e se K = 100 designam-se percentis, pois dividem o conjunto
de observações em 100 partes iguais. Para variáveis de escala de razão ou intervalar,
define-se o percentil de ordem p, Pp , como:
30
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
Pp
 X K + X K +1

2
= 
X K
 [ + 1]
np
100
np
se K =
100
se K =
é inteiro
,
não é inteiro
onde p representa a ordem do percentil e [ K + 1] representa a parte inteira de K + 1.
Para variáveis ordinais,
Pp
X
 K
= 
 X K +1
]
 [
np
é inteiro
100
.
np
se K =
não é inteiro
100
se K =
Note-se que a mediana é também um quantil de ordem 2.
EXEMPLO 1.2
Suponhamos a seguinte distribuição de frequências das idades (anos) de 90 indivíduos apresentadas no Quadro 1.4. Calcule P25 e P70 .
Quadro 1.4. Idades (anos) numa amostra de 90 indivíduos do sexo masculino
Idade
Frequência
14
17
15
13
19
20
20
22
30
18
Resolução
Para P25 , K =
np
90 × 25
=
= 22, 5 .
100
100
Como K não é inteiro, o P25 = X [ K +1] = X [ 23,5 ] = X 23 = 15 .
Para P70 , K =
np
90 × 70
=
= 63 .
100
100
Como K é inteiro, o P70 =
X 63 + X 64
2
=
22 + 22
= 22 .
2
FIM
DE
EXEMPLO
31
CONCEITOS BÁSICOS DA ESTATÍSTICA E DA ANÁLISE EXPLORATÓRIA DOS DADOS
Cálculo de quantis para dados contínuos. Se a variável é contínua, estando os
dados agrupados em classes de frequência, podemos determinar o quantil i, Qi , pela
expressão, Qi = l ci +
ni − cum
Fi
Fi −1
aci , onde l ci é o limite inferior da classe que
contém o quantil correspondente, ni é o número de observações, cum
Fi −1 são as fre-
quências acumuladas até à classe anterior à do quantil, Fi é a frequência da classe do
quantil e aci é a amplitude desta classe.
EXEMPLO 1.3
Calcular o 4º decil e o 70º percentil da seguinte distribuição das 40 observações apresentadas no
Quadro 1.5.
Quadro 1.5. Distribuição de frequências de 40 observações
Classe
Fi
cum
Fi − 1
[5; 10[
8
8
[10; 15[
12
20
[15; 20[
17
37
[20; 25[
3
40
Resolução
O 4º decil deve corresponder àquele que acumula
4
× 40 = 16 observações. A classe que contém o
10
16 − 8 
4º decil é [ 10;15 [ . Assim o 4º decil é calculado por Decil4 = 10 + 
× 5 = 13, 33 .
 12

O cálculo do 70º percentil faz-se de modo idêntico. Ele acumula
70
× 40 = 28 observações. Ora a
100
28 − 20 
acumulação das 28 observações cai na classe [ 15; 20 [ , portanto, Percentil70 = 15 + 
 × 5 =
17

= 17, 35 .
FIM
DE
EXEMPLO
1.6.2. Medidas de dispersão
As medidas de localização não são suficientes, por si só, para bem caracterizar a
distribuição de frequências de uma variável, devendo ser complementadas por medidas
que deem uma indicação da dispersão dos valores da variável.
32
MÉTODOS ESTATÍSTICOS PARA O ENSINO E A INVESTIGAÇÃO NAS CIÊNCIAS DA SAÚDE
Amplitude. Também chamada de intervalo de variação, R, é dada pela diferença
entre os valores extremos, isto é, R = Xmáximo – Xmínimo.
Amplitude interquartílica. Uma desvantagem da amplitude, R, é o facto de ser calculada apenas com dois valores, o menor e o maior valor observado. Ora a amplitude
interquartílica não tendo esta desvantagem reflete a variabilidade das 50% observações
centrais e define-se como sendo a diferença entre o terceiro e o primeiro quartil,
AIQ = Q 3 − Q1.
Dispondo do conjunto de observações { 9;10;11;18;19; 23; 30 } vê-se que Q1 = 10 e
Q 3 = 23 , então, AIQ = Q 3 − Q1 = 23 − 10 = 13 .
Variância. Representada por S 2 , é a soma dos quadrados das diferenças entre os
valores observados e a sua média divididos pela dimensão da amostra, ou seja,
n
 ( Xi
S2 =
−X
i =1
n
)2
. Esta fórmula só é válida para amostras grandes. Assim, a
n
variância é usualmente calculada pela expressão, S ′2 =
 ( Xi
i =1
− X
)2
, designandon −1
-se por variância corrigida. A (n – 1) chamamos número de graus de liberdade. Se a
variância é calculada para uma população finita de N elementos, então é designada por
N
 ( Xi
σ2 e o seu valor é dado por, σ2 =
i =1
− μ )2
N −1
.
Desvio padrão. A variância tem o inconveniente de ser expressa no quadrado das
unidades respetivas. O desvio padrão, S, pelo contrário, exprime-se na mesma unidade
de medida das observações e é dado pela raiz quadrada positiva da variância.
O desvio padrão de uma população finita, σ , é obtido extraindo a raiz quadrada à
expressão que fornece σ2 .
Coeficiente de variação. O desvio padrão é uma medida de variação muito útil
quando nos limitamos a observar um determinado conjunto de dados. Porém, quando
desejamos comparar a dispersão em dois conjuntos de dados, deve-se expressar o
desvio padrão em valor relativo à média das observações, numa forma adimensional e
S
× 100 .
geralmente expresso em percentagem, por, CV =
X
Francisco Mercês de Mello
Rita Cabral Guimarães
Curso de Engenheiro Agrónomo
em 1961 (UTL). Bacharelato em
Matemática Aplicada em 1974
(ULM). Doutoramento em
Engenharia Agrícola em 1987
(U. Évora). Professor associado
(aposentado) da Universidade
de Évora.
Licenciatura em Engenharia
Agrícola em 1993 (U. Évora).
Mestrado em Engenharia do Solo
e da Água em 1997 (U. Évora).
Doutoramento em Engenharia dos
Recursos Hídricos em 2005 (U. Évora).
Licenciatura em Engenharia Civil
em 2013 (U. Évora). Professora auxiliar
na Universidade de Évora.
MERCÊS
DE MELLO
•
RITA
GUIMARÃES
FRANCISCO MERCÊS DE MELLO • RITA CABRAL GUIMARÃES
Métodos Estatísticos
Este livro, com evidente cuidado pedagógico, e recorrendo permanentemente a exemplos
práticos, apresenta em 21 capítulos e vários anexos todo o instrumental teórico e prático para
dotar o leitor de tudo o que necessita para enfrentar os obstáculos que poderá encontrar no seu
estudo ou profissão.
Nos primeiros capítulos apresenta os conceitos básicos da Estatística e o ambiente e utilização do software SPSS. Depois aborda a noção de probabilidade, as distribuições amostrais e
os vários tipos de amostragem. Seguidamente trata da comparação de dados categóricos e
dados numéricos em duas ou mais amostras independentes, fazendo intervir o teste do qui-quadrado, o teste t-Student (também para variáveis emparelhadas) e o teste F da análise de
variância (ANOVA). Discute o modelo de regressão e a correlação e os diferentes testes não
paramétricos. Nos capítulos seguintes apresenta as medidas de força da associação ou efeito,
através dos odds ratio, risco relativo e da diferença de risco. Nos capítulos finais apresenta a
parte mais complexa constituída pelos modelos de regressão logística, análise de sobrevivência, regressão de Cox e regressão de Poisson e aborda a meta-análise, principalmente no que
diz respeito à sua representação gráfica (forest plot).
Este livro destina-se pois a todos os estudantes e profissionais que, na sua atividade profissional ou nos seus estudos necessitem de aprender ou consolidar os conceitos teóricos estatísticos e a sua respetiva transposição para a prática.
O presente trabalho escrito com a clareza, que só quem viveu explicando consegue
imprimir, é um auxílio de extrema utilidade, não só para quem se queira envolver na
investigação biomédica, mas também para quem necessita de compreender a linguagem
da maioria dos trabalhos publicados. (...) O recurso aos exemplos reais é sem sombra de
dúvida, mais um dos argumentos que pode justificar a recomendação deste livro aos
profissionais de saúde.
Métodos Estatísticos para o Ensino e a Investigação nas
Ciências da Saúde
Atualmente a estatística é uma ferramenta indispensável para os profissionais na área das
ciências da saúde. Conhecer, interpretar e aplicar a teoria e as técnicas estatísticas é fundamental para uma boa investigação, estudo e práticas esclarecidas.
para o Ensino e a Investigação nas
Ciências da Saúde
Com exemplos extraídos de revistas
e publicações médicas
Apresentação e utilização do SPSS
Favor
tratamento
Favor
placebo
Prof. Alexandre Castro Caldas
Professor Catedrático
– 1.00 0.00
Diretor do Instituto de Ciências da Saúde – Universidade Católica Portuguesa
1.00
2.00
3.00
A publicação desta obra teve o apoio:
506
ISBN 978-972-618-805-6
Prefácio
Prof. Alexandre Castro Caldas
9 789726 188056
EDIÇÕES SÍLABO
Download

Ciências da Saúde