Modelo de Estimativa de Risco de
Incidência de Tuberculose em
Municípios Brasileiros
Mineração de Dados
Cleiton Lima ([email protected])
Eric Ferreira ([email protected])
Rossini Bezerra ([email protected])
1
Roteiro










Motivação
Introdução e Caracterização do Problema
Objetivo
Parametrização do Problema
Dados Disponíveis
Pré-processamento dos Dados
Modelagem
Resultados
Conclusões
Referências
2
1. Motivação




A Tuberculose (TB) é um problema de
saúde tão grave hoje quanto no início
do século passado.
Suas taxas de incidência permaneceram
altas nas duas últimas décadas
Estima-se a existência de mais de 42
milhões de infectados no Brasil
112.000 óbitos no período
3
2. Introdução e Caracterização do
Problema (Mundo)
4
3. Introdução e Caracterização do
Problema (Mercado)


A Tuberculose é uma doença que estar
diretamente relacionada com fator
sócio-econômico.
A prevenção, tratamento e erradicação
da Tuberculose não tem sido alvo das
grandes Transnacionais da Área de
Saúde
5
4. Introdução e Caracterização do Problema
(Brasil)
6
5. Introdução e Caracterização do
Problema (PNCT)


Diante do cenário atual de Tuberculose, o Ministério
da Saúde elaborou o Plano Nacional de Controle da
Tuberculose (PNCT).
As principais metas são:





Integrar ações de controle em 100% do território brasileiro
Diagnosticar (até 2001) 90% dos casos de Tuberculose
Curar 85% dos casos já diagnosticados
Reduzir (até 2007) a Incidência de Tuberculose em no
mínimo 50%.
Reduzir (até 2007) em 66%, a Taxa de Mortalidade
7
6. Introdução e Caracterização do
Problema (PNCT)


Não existem, na atualidade, Mecanismos de
Monitoramento das Ações e de Verificação
da Eficácia das Metas aos Determinantes do
Problema.
O Problema do Controle de Tuberculose no
Brasil demanda Ações de Pesquisa,
Monitoramento e Controle Coordenados.
8
7. Objetivo do Trabalho



Integrar Ação de Pesquisa de Tuberculose
(Instituto Ageu Magalhães - Prof Wayner
Souza) com Pesquisadores do Grupo de
Inteligência Computacional (CIN-UFPE)
Parametrizar o Problema da Tuberculose
Propor um Modelo para Estimar o Risco de
Epidemia da Tuberculose em Áreas Urbanas
(Municípios) no Brasil
9
8. Objetivo do Trabalho


Extração de Regras para Avaliação das
Variáveis de Impacto no Risco da
Tuberculose
Estudo inicial de uma Ferramenta de
Suporte às Instituições e Gestores de
Saúde na Investigação e Controle de
Tuberculose
10
9. Parametrização do Problema

Na Parametrização dos Fatores de Risco de
Epidemia da Tuberculose, selecionaram-se
como determinantes:




Fatores Populacionais e Sócio-econômicos
e Fatores de Saúde
Os Dados foram selecionados para os 5.564
Municípios Brasileiros.
Vetor de 42 Características ou Variáveis
(inicial)
11
10. Dados Disponíveis – Descrição e Fontes

Dados Populacionais e Sócio-econômicos:



Extraídos do Censo Demográfico do ano de 2000 do IBGE,
compreendendo População e caracterização Sócio-econômica.
Para períodos superiores utilizou-se Método de Projeção do próprio
IBGE.
Dados de Saúde:

Os dados da Tuberculose, BCG (Vacinas) e Desnutrição foram
extraídos no Sistema de Informações sobre Agravos de Notificação
- SINAN, para o cálculo dos coeficientes anuais de (detecção de
casos)/(setor censitário), entre 2000 a 2006.
12
10. Dados Disponíveis – Descrição e
Fontes

A Ferramenta TabWin:

Foi utilizada para concatenar as duas bases de dados em uma
única base


Após concatenar as duas bases de dados do DATASUS e
IBGE foi criado uma única base de dados


A ferramenta TabWin é disponibilizada no próprio site do DATASUS);
No formato de planilha eletrônica( Excel)
A massa de dados é correspondente aos anos de 20012006
13
11. Dados Disponíveis - Descrição
VARIÁVEL
Casos confirmados
Casos confirmados
Casos confirmados
Casos confirmados
Casos confirmados
Casos confirmados
BCG -2001
BCG -2002
BCG -2003
BCG -2004
BCG -2005
BCG -2006
TIPO
de
de
de
de
de
de
Tuberculose
Tuberculose
Tuberculose
Tuberculose
Tuberculose
Tuberculose
–
–
–
–
–
–
2001
2002
Casos confirmados em um município no
2003
Contínua
período especificado.
2004
2005
2006
Abastecimento de Agua - 2000
População Residente
População Residente
População Residente
População Residente
População Residente
PIB – 2000
PIB Per Capita -2000
PIB – 2001
PIB Per Capita -2001
PIB – 2002
PIB Per Capita -2002
–
–
–
–
–
2001
2003
2004
2005
2006
por
por
por
por
por
Município
Município
Município
Município
Município
Coleta de lixo - 2000
(Desnutrição)
(Desnutrição)
(Desnutrição)
(Desnutrição)
(Desnutrição)
FONTE
DATASUS
Contínua
Vacina contra a tuberculose (Bacilo de
Calmette & Guérin).Dose única.
DATASUS
Contínua
Número de indivíduos com algum tipo de
abastecimento de água.
IBGE
População residente no município.
Contínua Dados projetados a partir do último
censo(2000) pelo IBGE.
IBGE
O Produto Interno Bruto (PIB) representa
Contínua a soma (em valores monetários) de todos IBGE
os bens e serviços finais produzidos,
neste caso, em um município.
Instalações sanitárias - 2000
Óbitos
Óbitos
Óbitos
Óbitos
Óbitos
DESCRIÇÃO
–
–
–
–
–
2001
2002
2003
2004
2005
Contínua
Número de indivíduos com instalações
sanitárias de qualquer tipo.
IBGE
Contínua
Número de óbitos no município por
desnutrição
DATASUS
Contínua
Número de indivíduos com qualquer tipo
de coleta de lixo.
IBGE
14
12. Pré-Processamento dos Dados
(Novo Conjunto de Variáveis)

Normalização das variáveis numéricas:

Para as variáveis numéricas, a normalização foi
realizada tendo como referência a variável
População, ou seja:
= (Variável / População)

Por Exemplo, utilizando a variável BCG2001, o valor
normalizado desta variável irá informar a
porcentagem da população da cidade que foram
vacinadas (BCG) no ano de 2001.
15
12. Pré-Processamento dos Dados
(Novo Conjunto de Variáveis)

Definição da variável Alvo





A = Média de Casos confirmados de Tuberculose nos
anos 2004,2005 e 2006.
B = Média da População nos anos de 2004, 2005 e
2006
Índice-Real nos anos de 2004, 2005 e 2006 (A/B)
Índice Brasileiro – Índice do PNCT: meta de redução de 50% da
média nacional: (25 casos)/ (100.000 habitantes).
Alvo ou Classe (Binária):


1 (S) : Se Índice Município > Índice do PNCT
0 (N): Se Índice Município <= Índice do PNCT
16
13. Modelagem – Classificador Bayesiano



Para o Problema proposto de Estimar o Risco de
Epidemia da Tuberculose nos Municípios Brasileiros
propomos um Classificador Binário baseado em
Redes Bayesianas.
Como Ferramenta de Simulação utilizamos o Weka
para obtenção da Melhor Configuração para Rede
Bayesiana.
Critério de Desempenho da Rede: Poder de
Generalização ou Menor Erro na Fase de Teste.
17
13. Dados Disponíveis – Variáveis
selecionadas para modelo da rede
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Municipio,
TamanhoMunicipio,
PIB-00, PIB-01, PIB-02,
pib_pcap-00, pib_pcap-01, pib_pcap-02,
InstalSanitarias- 2000,
Óbitos2001, Óbitos2002, Óbitos2003, Óbitos2004,
Óbitos2005,
Lixo,
BCG2001, BCG2002, BCG2003, BCG2004, BCG2005,
BCG2006,
AbastAgua,
Alvo
18
14. Modelagem - Classificador

Estratégia de Treinamento: Estratificado




Normalização dos Parâmetros:


Treinamento (50%),
Validação (25%) e
Testes (25%).
Realizada pelo Weka e Normalização
variáveis numéricas (citada anteriormente)
das
Avaliação de Desempenho do Classificador:


Curvas ROC e
KS.
19
15. Modelagem – Extração de Regras


Foram realizados dezenas de Experimentos
para Extração do Conhecimento do
Domínio do Problema
Para Extração de Regras

Foi utilizada a ferramenta Weka


Algoritmo PART
Configuração padrão
20
16. Resultados - Classificador

Foram realizados dezenas de experimentos
utilizando a ferramenta Weka para encontrar:




O Melhor classificador
Os parâmetros ótimos do classificador
Conjunto de regras
Entre as dezenas de configurações, a rede neural
que obteve a maior taxa de acerto (66%) foi:

BayesNet

Estimador: SimpleEstimator – A 0.5

SearchAlgoritm: K2 – P 1-s Bayes
21
16. Resultados – Curva ROC
22
16. Resultados – Distribuição das
Classes - BayesNet
Score
Distribuição das Classes - BayesNet
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Alto Risco
Baixo Risco
1
151
301
451
601
751
901 1051 1201 1351
Municípios
23
16. Resultados – Classificador
Curva KS (Pr(Alta - Baixa))
KS (0.34)
Probabilidade
1
0,8
percAlta
0,6
PercBaixa
0,4
DifPercBaixAlta
0,2
0
1
151
301
451
601
751
901 1051 1201 1351
População
24
16. Resultados - Classificador

Total de Instâncias: 1391



Instâncias Classificadas Corretamente :


S=Alto Risco com 690 Municípios
N=Baixo Risco com 701municípios)
918 – 66.00%

S = 456 (32,78%)

N = 462 (33,22%)
Instâncias Classificadas Incorretamente :

473 – 34.00%


S = 239 (17,18%)
N = 234 (16,82%)
25
16. Resultados - Classificador

Matriz Confusão:
S
N
Classificador/Alvo
456
234
S
239
462
N
26
16. Resultados - Regras



Modelo do Classificador do conjunto de
treinamento
Lista de Decisão PART
Número de regras obtidas:

25 regras condicionais, do tipo:


Se Condicão i and Condição j ...
Então Alvo := (S/N)
27
16. Resultados – Regras (exemplo)

Regra 1
SE
BCG2006 > 0.020375 AND
Óbitos2004 > 0.000016 AND
Óbitos2003 > 0.000276 AND
Óbitos2004 > 0.000135
Então
S (20.0)

Apesar de 2% da população está vacinada, se os óbitos
por desnutrição excederem 0,02% da mesma, temos alto
risco de incidência de tuberculose.
28
16. Resultados – Regras (exemplo)

SE
Regra 2
BCG2006 <= 0.02258 AND
Óbitos2003 <= 0.000297 AND
Óbitos2005 <= 0.000238 AND
InstalSanitarias-2000 > 0.874822 AND
BCG2006 <= 0.017122
Então
N (742.0/231.0)
 Se menos de 2% da população foi vacinada, mas os óbitos
por desnutrição no período não excedem 0,02% e 87,4%
possuir algum tipo de instalação sanitária, temos baixo
risco de incidência de tuberculose
29
16. Resultados – Regras (exemplo)

Regra 3
SE
TamanhoMunicipio <= 6771 AND
Óbitos2003 <= 0.000074 AND
Óbitos2002 <= 0.000074
Então
N (737.0/318.0)
 Para municípios com menos de 6771 habitantes e óbitos
por desnutrição menor que 0,0074% da população, temos
baixo risco de tuberculose.
30
16. Resultados – Regras (exemplo)

Regra 4
SE
Óbitos2004 > 0.000268 AND
Óbitos2003 <= 0.00038 AND
BCG2006 > 0.018103
Então
N (9.0)
 Se a quantidade de óbitos por desnutrição em um
município excede 0,026% da população em 2004 e for
menor que 0,0038% em 2003 e ter mais de 1,8% da
população vacinada, temos baixa probabilidade de
incidência de tuberculose.
31
17. Conclusões



Utilizando a Metodologia de Mineração de
Dados em conjunto com Conhecimento do
Negócio foi possível obter uma Ferramenta de
Suporte a Decisão no Diagnóstico de TB em
Municípios.
Utilização de Extração de Conhecimento
usando Regras permitiu interpretar o Impacto
das Variáveis no Risco de TB.
Constatamos através da Extração das Regras,
que as Variáveis Sócio-econômicas estão
diretamente relacionadas ao Risco de TB.
32
18. Referências








Referências Bibliográficas
[1] Ministério da Saúde. Guia para tratamento da tuberculose para o Programa
de Saúde da Família. Brasília (DF); 2002.
[2] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de
FM de, Andrade ALSS de et al. Vigilância de doenças endêmicas em áreas
urbanas: a interface entre mapas digitais censitários e indicadores
epidemiológicos. Cad Saúde Pública 1999;15:53-61.
[3] Instituto Brasileiro de Geografia e Estatística [IBGE]. Censos demográficos.
Disponível em: <URL:http:// www.ibge.gov.br/ censos>
[4] Ministério da Saúde. Sistema de Informações sobre Mortalidade. Disponível
em: <URL: http://www.datasus.gov.br>
[5] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de
FM de, Andrade ALSS de et al. Tuberculosis in Brazil: construction of a
territorially based surveillance system
Rev Saúde Pública 2005;39(1):82-9
[6] S. Haykin, “Neural Networks a Compreensive Foundation”, 2end ed, Tom
Robbins, Ed. USA, New Jersey: Prentice-Hall, Inc, 1999.
33
Download

Apresentacao[1].ModeloTB.Rossini.Cleiton.Eric