2 Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751 Introdução A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte. Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as condições do meio ambiente favorecem o seu desenvolvimento e proliferação. Descrição do problema • Com base no banco de dados disponível, referente aos anos de 2001 e 2002, verificar a possibilidade de predizer se o indivíduo possui ou não dengue através dos dados clínicos. Caracterização da categoria • Para o problema acima descrito, será utilizada uma predição. Fonte dos dados Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde. Dados excluídos A princípio, foram mantidas as variáveis: • Dados clínicos (todas); • Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE); • Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e CS_ZONA); e • Conclusão (ID_DG_NOT). Dados errados • • Observamos erros significativos baseados em cruzamentos simples de informações entre duas variáveis correlacionadas. Em alguns casos, tivemos observações com valores absurdos entre variáveis correlacionadas, que foram corrigidas ou excluídas da amostra, de acordo com o caso. Dados faltantes (missings) • Na maioria das variáveis mantidas no banco de dados, foi observado um imenso número de dados faltantes (missings). Em alguns casos, esse problema pôde ser contornado através de variáveis correlacionadas presentes no banco. Nos demais casos, foram considerados “9” (ignorado) os dados faltantes. Transformação das variáveis • • Nos casos de variáveis de data, foi deixado para a análise do banco apenas o ano referente, por questões de praticidade. Foram padronizadas também as datas que apresentavam diferenças entre si e também as informações fornecidas nos três campos referentes à especificação do caso “outros”. Significância das variáveis • As variáveis mantiveram um padrão semelhante ao da distribuição da variável utilizada como parâmetro. Frequências da variável resposta ID_DG_NOT Amostra do banco de dados de 2001 100 Percentual de frequências Percentual de frequências Banco de dados de 2001 90 80 70 60 50 40 30 20 10 0 1 2 3 4 100 90 80 70 60 50 40 30 20 10 0 1 5 2 100 90 80 70 60 50 40 30 20 10 0 3 Resposta 5 Amostra do banco de dados de 2002 Percentual de frequências Percentual de frequências Banco de dados de 2002 2 4 Resposta Resposta 1 3 4 5 100 90 80 70 60 50 40 30 20 10 0 1 2 3 Resposta 4 5 Evidências de falta de significância • Informações presentes em outros campos subseqüentes, o que torna redundante a informação; e Falta de informação para a análise, pois a maioria das observações disponíveis eram missings. Banco de Dados • Após as análises e tratamentos apresentados, nosso banco de dados final ficou com 20 variáveis, além da variável resposta ID_DG_NOT. São elas: DENGUE ANO VACINADO FEBRE LACO CEFALEIA EXANTEMA DOR PROSTACAO MIALGIA NAUSEAS ARTRALGIA EPISTAXE PETEQUIAS GENGIVO ASCITE PLEURAL ABDOMINAL HEPATO CHOQUE Seleção do método • Utilizou-se o procedimento hierárquico chamado árvore de classificação, para melhor visualização e entendimento do modelo; e • Dentro deste procedimento foi aplicado o método CART (Classification Regression Tree). Ajuste do modelo • • • • Tentativas de bondade de ajuste: medida Gini e Qui-quadrado; Em ambas as tentativas foi utilizada a poda por erro de classificação e a poda por “deviance”; Assumiu-se probabilidades a priori estimadas para os resultados da variável resposta; e Utilização de uma amostra de 8985 casos extraídos do banco de dados com os casos de dengue do ano de 2001. 1 2 3 4 5 Tree 1 graph for ID_DG_NOT Num. of non-terminal nodes: 7, Num. of terminal nodes: 8 ID=1 1N=7147 EXANTEMA =2 ID=2 1N=4076 = Other(s) ID=3 1N=3071 LACO ID=4 =9 1N=1450 = Other(s) ID=5 1N=2626 PROSTACAO =2 ID=6 1 N=881 = Other(s) ID=7 1 N=569 VACINADO =9 ID=8 1 N=727 = Other(s) ID=9 1 N=154 ANO = 1997, ... ID=10 5 N=8 = Other(s) ID=11 1 N=719 DOR =2 ID=12 2 = Other(s) ID=13 5 N=6 N=2 =2 ID=14 1 ART RALGIA = Other(s) N=3 ID=15 5 N=3 Matriz de confusão Classification matrix 1 Dependent variable: ID_DG_NOT Options: Categorical response, Tree number 1, Analysis sample Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001 Lift Chart - Response % Lift Chart - Response % Cumulative Cumulative Cumulative Selected category of ID_DG_NOT: 1 Selected category of ID_DG_NOT: 2 Selected category of ID_DG_NOT: 3 85 Lift Chart - Response % 0,14 0,20 0,13 0,12 80 0,15 0,11 0,10 75 0,10 0,09 0,08 65 Response % Response % Response % 70 0,07 0,06 0,05 0,05 0,00 0,04 60 0 10 20 30 40 50 60 70 80 90 100 110 0,03 Model TreeModel 0 10 20 30 Percentile 40 50 60 70 80 90 100 110 Model TreeModel -0,05 0 10 20 30 40 Percentile 50 60 70 80 90 Percentile Lift Chart - Response % Lift Chart - Response % Cumulative Cumulative Selected category of ID_DG_NOT: 4 Selected category of ID_DG_NOT: 5 0,009 44 0,008 42 0,007 40 38 0,006 36 0,005 34 0,004 32 Response % Response % 0,003 0,002 0,001 0,000 30 28 26 24 -0,001 0 10 20 30 40 50 60 Percentile 70 80 90 100 110 Model TreeModel 22 0 10 20 30 40 50 60 Percentile 70 80 90 100 110 Model TreeModel 100 110 Model TreeModel Gráficos de alavancagem obtido usando uma amostra do banco de 2002 Lift Chart - Response % Lift Chart - Response % Cumulative Cumulative Cumulative Selected category of ID_DG_NOT: 1 Selected category of ID_DG_NOT: 2 Selected category of ID_DG_NOT: 3 100 Lift Chart - Response % 0,009 1,0 0,008 95 0,9 0,007 90 0,8 0,006 85 0,005 80 0,7 0,004 70 0,6 0,003 Response % Response % Response % 75 0,002 0,001 0,5 0,4 65 0,000 60 0 10 20 30 40 50 60 70 80 90 100 110 -0,001 Model TreeModel 0 10 20 30 Percentile 40 50 60 70 80 90 100 110 Model TreeModel 0,3 0 10 20 30 40 50 Percentile 60 70 80 90 Percentile Lift Chart - Response % Lift Chart - Response % Cumulative Cumulative Selected category of ID_DG_NOT: 4 Selected category of ID_DG_NOT: 5 0,009 5,0 0,008 4,5 0,007 0,006 4,0 0,005 0,004 3,5 Response % Response % 0,003 0,002 0,001 3,0 2,5 0,000 -0,001 0 10 20 30 40 50 60 Percentile 70 80 90 100 110 Model TreeModel 2,0 0 10 20 30 40 50 60 Percentile 70 80 90 100 110 Model TreeModel 100 110 Model TreeModel Resultados da validação Matriz de confusão em valores absolutos 7000 6000 5000 4000 3000 2000 5 1000 3 0 1 2 1 3 4 Valores observados 5 Valores preditos Banco de dados de 2002 Percentuais Resposta Valores preditos Valores observados 1 2 3 4 5 1 99,97 0 0 0,03 0 2 0 0 0 0 0 3 100 0 0 0 0 4 0 0 0 0 0 5 100 0 0 0 0 Total 1 6935 2 0 3 41 4 0 5 251 Total 7227 Implementação • • • Preparação do modelo para sua utilização; Modelo ajustado através do método de Árvore de classificação; Parâmetros da árvore ajustada: • • • Teste de bondade de ajuste: qui-quadrado; Poda: erro de classificação; e Probabilidades a priori para a variável resposta ID_DG_NOT: estimada. Implementação Utilização da amostra de validação com os casos de dengue do ano de 2002 (7227 casos); Exclusão de variáveis desnecessárias. Variáveis de entrada Variável de saída EXANTEMA LACO PROSTACAO VACINADO ID_DG_NOT ANO DOR ARTRALGIA • Utilizando o modelo de árvore de classificação escolhido, será feita a predição se o indivíduo possui dengue ou não, onde o resultado da predição será apresentado na variável de saída. Árvore de Classificação escolhida 1 2 3 4 5 Tree 1 graph for ID_DG_NOT Num. of non-terminal nodes: 7, Num. of terminal nodes: 8 ID=1 1N=7147 EXANT EMA =2 ID=2 1N=4076 = Other(s) ID=3 1N=3071 LACO =9 ID=4 1N=1450 = Other(s) ID=5 1N=2626 PROST ACAO =2 ID=6 1 N=881 = Other(s) ID=7 1 N=569 VACINADO =9 ID=8 1 N=727 = Other(s) ID=9 1 N=154 ANO = 1997, ... ID=10 5 N=8 = Other(s) ID=11 1 N=719 DOR =2 ID=12 2 = Other(s) ID=13 5 N=6 N=2 =2 ID=14 1 ART RALGIA = Other(s) N=3 ID=15 5 N=3 Retorno do Investimento (ROI) • • Avaliação do impacto financeiro do projeto; ROI: neste caso, o retorno seria uma redução nos custos da realização de exame de sangue para confirmação do diagnóstico de dengue; Cálculo do ROI será baseado utilizando o custo de fazer exame de sangue para confirmação da doença; Custo do exame de sangue: R$ 20,00; Foram calculados três ROI´s: • • • • • • Considerando a amostra de treinamento do banco de dados com os casos de dengue do ano de 2001 (7147 casos); Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2001 (1838 casos); e Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2002 (7227 casos). Retorno do Investimento (ROI) Amostra de treinamento do banco de dados de 2001: Amostra de treinamento Observado 1 1 2 3 4 5 5306 3 10 1 1822 1 3 R$ 142.940,00 Custo com o modelo: R$ 142.880,00 Redução: 4 3 5 Custo sem o modelo: 1 2 Predito ROI considerando amostra de treinamento do banco de 2001 0,0420% Retorno do Investimento (ROI) Amostra de treinamento do banco de dados de 2001: Custo sem o modelo: R$ 20,00 x 7147 = R$ 142.940,00 Custo com o modelo: R$ 20,00 x 7144 = R$ 142.880,00 ROI: (R$ 142.940,00 – R$ 142.880,00) / R$ 142.940,00 = 0,0420 % Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2001: Amostra de validação banco de 2001 Observado 1 2 3 4 5 ROI considerando amostra de validação do banco de 2001 1 1346 5 487 Custo sem o modelo: R$ 36.760,00 Custo com o modelo: R$ 36.760,00 2 Redução: Predito 3 4 5 0% Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2001: • Custo sem o modelo: R$ 20,00 x 1838 = R$ 36.760,00 • Custo com o modelo: R$ 20,00 x 1838 = R$ 36.760,00 • ROI: (R$ 36.760,00 – R$ 36.760,00) / R$ 36.760,00 = 0 % Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2002: Amostra de validação banco de 2002 Observado ROI considerando amostra de validação do banco de 2002 1 1 6933 Predito 3 5 3 41 4 5 Custo sem o modelo: R$ 144.540,00 Custo com o modelo: R$ 144.540,00 251 Redução: 2 4 2 2 0% Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2002: • Custo sem o modelo: R$ 20,00 x 7227 = R$ 144.540,00 • Custo com o modelo: R$ 20,00 x 7227 = R$ 144.540,00 • ROI: (R$ 144.540,00 – R$ 144.540,00) / R$ 144.540,00 = 0 %