2
Alunos:
Marcelo Marinho DRE: 103109228
Mariana Belmar DRE: 103118138
Thiego Batalha DRE: 104034751
Introdução
A dengue é uma doença infecciosa aguda de curta duração, que possui
gravidade variável, podendo inclusive, em alguns casos, levar à morte.
Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em
áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as
condições do meio ambiente favorecem o seu desenvolvimento e
proliferação.
Descrição do problema
• Com base no banco de dados disponível, referente aos anos de 2001
e 2002, verificar a possibilidade de predizer se o indivíduo possui ou
não dengue através dos dados clínicos.
Caracterização da categoria
•
Para o problema acima descrito, será utilizada uma predição.
Fonte dos dados

Sistema de Informação de Agravos de Notificação (SINAN) do Ministério
da Saúde.
Dados excluídos
A princípio, foram mantidas as variáveis:
• Dados clínicos (todas);
• Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE);
• Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e
CS_ZONA); e
• Conclusão (ID_DG_NOT).
Dados errados
•
•
Observamos erros significativos baseados em cruzamentos
simples de informações entre duas variáveis correlacionadas.
Em alguns casos, tivemos observações com valores absurdos
entre variáveis correlacionadas, que foram corrigidas ou excluídas
da amostra, de acordo com o caso.
Dados faltantes (missings)
•
Na maioria das variáveis mantidas no banco de dados, foi observado
um imenso número de dados faltantes (missings). Em alguns casos,
esse problema pôde ser contornado através de variáveis
correlacionadas presentes no banco. Nos demais casos, foram
considerados “9” (ignorado) os dados faltantes.
Transformação das variáveis
•
•
Nos casos de variáveis de data, foi deixado para a análise do banco
apenas o ano referente, por questões de praticidade.
Foram padronizadas também as datas que apresentavam diferenças
entre si e também as informações fornecidas nos três campos
referentes à especificação do caso “outros”.
Significância das variáveis
•
As variáveis mantiveram um padrão semelhante ao da
distribuição da variável utilizada como parâmetro.
Frequências da variável resposta ID_DG_NOT
Amostra do banco de dados de 2001
100
Percentual de frequências
Percentual de frequências
Banco de dados de 2001
90
80
70
60
50
40
30
20
10
0
1
2
3
4
100
90
80
70
60
50
40
30
20
10
0
1
5
2
100
90
80
70
60
50
40
30
20
10
0
3
Resposta
5
Amostra do banco de dados de 2002
Percentual de frequências
Percentual de frequências
Banco de dados de 2002
2
4
Resposta
Resposta
1
3
4
5
100
90
80
70
60
50
40
30
20
10
0
1
2
3
Resposta
4
5
Evidências de falta de significância
•
Informações presentes em outros campos subseqüentes, o que
torna redundante a informação; e
Falta de informação para a análise, pois a maioria das observações
disponíveis eram missings.
Banco de Dados
•
Após as análises e tratamentos apresentados, nosso banco de
dados final ficou com 20 variáveis, além da variável resposta
ID_DG_NOT. São elas:
DENGUE
ANO
VACINADO
FEBRE
LACO
CEFALEIA
EXANTEMA
DOR
PROSTACAO
MIALGIA
NAUSEAS
ARTRALGIA
EPISTAXE
PETEQUIAS
GENGIVO
ASCITE
PLEURAL
ABDOMINAL
HEPATO
CHOQUE
Seleção do método
•
Utilizou-se o procedimento hierárquico chamado árvore de
classificação, para melhor visualização e entendimento do
modelo; e
•
Dentro deste procedimento foi aplicado o método CART
(Classification Regression Tree).
Ajuste do modelo
•
•
•
•
Tentativas de bondade de ajuste: medida Gini e Qui-quadrado;
Em ambas as tentativas foi utilizada a poda por erro de classificação e a
poda por “deviance”;
Assumiu-se probabilidades a priori estimadas para os resultados da
variável resposta; e
Utilização de uma amostra de 8985 casos extraídos do banco de dados
com os casos de dengue do ano de 2001.
1
2
3
4
5
Tree 1 graph for ID_DG_NOT
Num. of non-terminal nodes: 7, Num. of terminal nodes: 8
ID=1
1N=7147
EXANTEMA
=2
ID=2 1N=4076
= Other(s)
ID=3 1N=3071
LACO
ID=4
=9
1N=1450
= Other(s)
ID=5 1N=2626
PROSTACAO
=2
ID=6 1 N=881
= Other(s)
ID=7 1 N=569
VACINADO
=9
ID=8 1 N=727
= Other(s)
ID=9 1 N=154
ANO
= 1997, ...
ID=10 5 N=8
= Other(s)
ID=11 1 N=719
DOR
=2
ID=12 2
= Other(s)
ID=13 5 N=6
N=2
=2
ID=14 1
ART RALGIA
= Other(s)
N=3
ID=15 5 N=3
Matriz de confusão
Classification matrix 1
Dependent variable: ID_DG_NOT
Options: Categorical response, Tree number 1, Analysis sample
Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001
Lift Chart - Response %
Lift Chart - Response %
Cumulative
Cumulative
Cumulative
Selected category of ID_DG_NOT: 1
Selected category of ID_DG_NOT: 2
Selected category of ID_DG_NOT: 3
85
Lift Chart - Response %
0,14
0,20
0,13
0,12
80
0,15
0,11
0,10
75
0,10
0,09
0,08
65
Response %
Response %
Response %
70
0,07
0,06
0,05
0,05
0,00
0,04
60
0
10
20
30
40
50
60
70
80
90
100
110
0,03
Model
TreeModel
0
10
20
30
Percentile
40
50
60
70
80
90
100
110
Model
TreeModel
-0,05
0
10
20
30
40
Percentile
50
60
70
80
90
Percentile
Lift Chart - Response %
Lift Chart - Response %
Cumulative
Cumulative
Selected category of ID_DG_NOT: 4
Selected category of ID_DG_NOT: 5
0,009
44
0,008
42
0,007
40
38
0,006
36
0,005
34
0,004
32
Response %
Response %
0,003
0,002
0,001
0,000
30
28
26
24
-0,001
0
10
20
30
40
50
60
Percentile
70
80
90
100
110
Model
TreeModel
22
0
10
20
30
40
50
60
Percentile
70
80
90
100
110
Model
TreeModel
100
110
Model
TreeModel
Gráficos de alavancagem obtido usando uma amostra do banco de 2002
Lift Chart - Response %
Lift Chart - Response %
Cumulative
Cumulative
Cumulative
Selected category of ID_DG_NOT: 1
Selected category of ID_DG_NOT: 2
Selected category of ID_DG_NOT: 3
100
Lift Chart - Response %
0,009
1,0
0,008
95
0,9
0,007
90
0,8
0,006
85
0,005
80
0,7
0,004
70
0,6
0,003
Response %
Response %
Response %
75
0,002
0,001
0,5
0,4
65
0,000
60
0
10
20
30
40
50
60
70
80
90
100
110
-0,001
Model
TreeModel
0
10
20
30
Percentile
40
50
60
70
80
90
100
110
Model
TreeModel
0,3
0
10
20
30
40
50
Percentile
60
70
80
90
Percentile
Lift Chart - Response %
Lift Chart - Response %
Cumulative
Cumulative
Selected category of ID_DG_NOT: 4
Selected category of ID_DG_NOT: 5
0,009
5,0
0,008
4,5
0,007
0,006
4,0
0,005
0,004
3,5
Response %
Response %
0,003
0,002
0,001
3,0
2,5
0,000
-0,001
0
10
20
30
40
50
60
Percentile
70
80
90
100
110
Model
TreeModel
2,0
0
10
20
30
40
50
60
Percentile
70
80
90
100
110
Model
TreeModel
100
110
Model
TreeModel
Resultados da validação
Matriz de confusão em valores absolutos
7000
6000
5000
4000
3000
2000
5
1000
3
0
1
2
1
3
4
Valores
observados
5
Valores preditos
Banco de dados de 2002
Percentuais
Resposta
Valores preditos
Valores
observados
1
2
3
4
5
1
99,97
0
0
0,03
0
2
0
0
0
0
0
3
100
0
0
0
0
4
0
0
0
0
0
5
100
0
0
0
0
Total
1
6935
2
0
3
41
4
0
5
251
Total
7227
Implementação
•
•
•
Preparação do modelo para sua utilização;
Modelo ajustado através do método de Árvore de classificação;
Parâmetros da árvore ajustada:
•
•
•
Teste de bondade de ajuste: qui-quadrado;
Poda: erro de classificação; e
Probabilidades a priori para a variável resposta ID_DG_NOT:
estimada.
Implementação


Utilização da amostra de validação com os casos de dengue do ano
de 2002 (7227 casos);
Exclusão de variáveis desnecessárias.
Variáveis de entrada
Variável de saída
EXANTEMA
LACO
PROSTACAO
VACINADO
ID_DG_NOT
ANO
DOR
ARTRALGIA
•
Utilizando o modelo de árvore de classificação escolhido, será feita a
predição se o indivíduo possui dengue ou não, onde o resultado da
predição será apresentado na variável de saída.
Árvore de Classificação escolhida
1
2
3
4
5
Tree 1 graph for ID_DG_NOT
Num. of non-terminal nodes: 7, Num. of terminal nodes: 8
ID=1
1N=7147
EXANT EMA
=2
ID=2 1N=4076
= Other(s)
ID=3 1N=3071
LACO
=9
ID=4 1N=1450
= Other(s)
ID=5 1N=2626
PROST ACAO
=2
ID=6 1 N=881
= Other(s)
ID=7 1 N=569
VACINADO
=9
ID=8 1 N=727
= Other(s)
ID=9 1 N=154
ANO
= 1997, ...
ID=10 5
N=8
= Other(s)
ID=11 1 N=719
DOR
=2
ID=12 2
= Other(s)
ID=13 5
N=6
N=2
=2
ID=14 1
ART RALGIA
= Other(s)
N=3
ID=15 5
N=3
Retorno do Investimento (ROI)
•
•
Avaliação do impacto financeiro do projeto;
ROI: neste caso, o retorno seria uma redução nos custos da
realização de exame de sangue para confirmação do diagnóstico de
dengue;
Cálculo do ROI será baseado utilizando o custo de fazer exame de
sangue para confirmação da doença;
Custo do exame de sangue: R$ 20,00;
Foram calculados três ROI´s:
•
•
•
•
•
•
Considerando a amostra de treinamento do banco de dados com
os casos de dengue do ano de 2001 (7147 casos);
Considerando a amostra de validação do banco de dados com os
casos de dengue do ano de 2001 (1838 casos); e
Considerando a amostra de validação do banco de dados com os
casos de dengue do ano de 2002 (7227 casos).
Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001:
Amostra de treinamento
Observado
1
1
2
3
4
5
5306
3
10
1
1822
1
3
R$ 142.940,00
Custo com o modelo:
R$ 142.880,00
Redução:
4
3
5
Custo sem o modelo:
1
2
Predito
ROI considerando amostra de treinamento do
banco de 2001
0,0420%
Retorno do Investimento (ROI)
Amostra de treinamento do banco de dados de 2001:

Custo sem o modelo:
R$ 20,00 x 7147 = R$ 142.940,00

Custo com o modelo:
R$ 20,00 x 7144 = R$ 142.880,00

ROI: (R$ 142.940,00 – R$ 142.880,00) / R$ 142.940,00 = 0,0420 %
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001:
Amostra de validação banco de 2001
Observado
1
2
3
4
5
ROI considerando amostra de validação do
banco de 2001
1
1346
5
487
Custo sem o modelo:
R$ 36.760,00
Custo com o modelo:
R$ 36.760,00
2
Redução:
Predito
3
4
5
0%
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2001:
•
Custo sem o modelo:
R$ 20,00 x 1838 = R$ 36.760,00
•
Custo com o modelo:
R$ 20,00 x 1838 = R$ 36.760,00
•
ROI: (R$ 36.760,00 – R$ 36.760,00) / R$ 36.760,00 = 0 %
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002:
Amostra de validação banco de 2002
Observado
ROI considerando amostra de validação do
banco de 2002
1
1
6933
Predito
3
5
3
41
4
5
Custo sem o modelo:
R$ 144.540,00
Custo com o modelo:
R$ 144.540,00
251
Redução:
2
4
2
2
0%
Retorno do Investimento (ROI)
Amostra de validação do banco de dados de 2002:
•
Custo sem o modelo:
R$ 20,00 x 7227 = R$ 144.540,00
•
Custo com o modelo:
R$ 20,00 x 7227 = R$ 144.540,00
•
ROI: (R$ 144.540,00 – R$ 144.540,00) / R$ 144.540,00 = 0 %
Download

Amostra de validação do banco de dados de 2001