UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA 7CCENDIPET07 AFASTAMENTO DAS ATIVIDADES DE TRABALHO DO PROFESSOR POR MOTIVO DE SAÚDE: UTILIZAÇÃO DE DATA MINING COMO INSTRUMENTO DE AVALIAÇÃO (1) (1) Francisco Dantas Nobre Neto ; Tatiane Cruz de Souza Honório ; Thiago Fernandes Lins (1) (2) (3) de Medeiros ; Rodrigo Cartaxo Marques Duarte ; Leonardo Vidal Batista ; Jaqueline Brito (4) (4) (4) (4) Vidal Batista ;Antonio Souto Coutinho ; Ricardo W. Tavares ; Lia Giraldo Augusto Centro de Educação/Departamento de Engenharia de Produção/FioCruz/ Departamento de Informática/PET Abstract. This work approaches the problem of retirement from the activities of teachers’ jobs caused by health problems. By using data mining techniques, it is possible to extract consistent association rules for analysis, with find out more efficacious and objective solution finality to solve some problems. The Weka (Environment for Knowledge Analysis) tool was used to obtain several rules which optimized tests´ quantity and quality. Resumo. Este trabalho aborda o problema de afastamento das atividades de trabalho do professor por motivo de saúde. Auxiliada pela técnica de mineração de dados, é possível extrair regras de associação consistentes para análise, com a finalidade de encontrar uma solução mais eficaz e objetiva para resolver determinados problemas. A ferramenta utilizada para obtenção das mais variadas regras foi o Weka (Waikato Environment for Knowledge Analysis) que otimizou a qualidade e a quantidade dos testes. Palavraschave: Data Minig, Weka, Afastamento do Trabalho Introdução A saúde do trabalhador, definida por Minayo e Costa [1] como um corpo de práticas teóricas interdisciplinares e interinstitucionais, desenvolvidas por diversos atores situados em lugares sociais diferentes e informados por uma perspectiva comum, tem sido objeto de estudo de várias áreas do conhecimento. No entanto, o aprofundamento desses estudos no Brasil tem seu grande marco nos anos oitenta, ressurgindo com o compromisso de mudar o complicado quadro de saúde da população, e como destaque na luta por democracia, cidadania e liberdade na organização dos trabalhadores [1]. Fazendo um recorte entre as categorias de trabalhadores vinculadas nessa luta, pode se destacar a de professores. Na última década, final do século passado, através de solicitações vindas, em sua maioria, dos sindicatos, a saúde do trabalhador docente tornouse tema de vários estudos e investigações, contribuindo para a formação de grupos e de redes de pesquisadores organizados com esse objetivo. Os principais resultados das pesquisas realizadas nos anos noventa chamam a atenção para as precárias condições do trabalho docente, mostrando sua associação com sintomas mórbidos e a elevada prevalência de afastamentos por motivos de doença na categoria. Observouse, através desses estudos, que as condições sob as quais os docentes mobilizam as suas capacidades físicas, cognitivas e afetivas para atingir o objetivo da produção escolar, podem gerar um grande esforço ou uma exagerada solicitação de suas funções psíquicas e fisiológicas. Não havendo tempo para a recuperação, pode haver o desencadeamento e a precipitação de sintomas clínicos que explicariam os índices de afastamento do trabalho por essa categoria [2]. Um exemplo mais específico da importância desse tipo de pesquisa encontrase em um estudo desenvolvido por Araújo e SilvanyNeto [3]. Eles investigaram as condições de saúde e trabalho de professores de rede particular de ensino do estado da Bahia, destacando uma grande proporção de adoecimento numa população relativamente jovem. Numa tentativa de dar continuidade aos estudos já desenvolvidos e de adquirir conhecimentos para uma melhor compreensão do estado de saúde dos professores (incluindo nessa aquisição a identificação de indicadores, freqüência de doenças, caracterização das principais patologias que afligem uma determinada categoria, dentre outros), viuse a __________________________________________________________________________________________________________________________________________________________ (1) Aluno(a) Bol sista(a); (2) (3) (4) Aluno(a) Voluntári o; Prof(a) Ori entador(a)/Coor denador (a); Prof(a) Colaborador (a) UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA necessidade de investigar novas fontes de informação e trabalhar os resultados de maneira diferenciada. Uma importante fonte de informação pode ser encontrada nos registros das fichas funcionais das Juntas Médicas dos serviços públicos. Analisar as informações encontradas ali pode ajudar a identificar possíveis soluções para problemas de saúde vigentes, além de contribuir para a compreensão da realidade do trabalhador. É isso que está sendo feito na Junta Médica Municipal da Cidade de João Pessoa, PB, onde estão sendo verificados os dados referentes ao afastamento para tratamento de saúde de professores lotados na Secretaria de Educação desse município. Para análise desses dados, estão sendo geradas Regras de Associação através da ferramenta WEKA (Waikato Environment for Knowledge Analysis), considerada eficiente e de fácil manipulação. Metodologia As regras de classificação constituem uma alternativa para as árvores de decisão. A precondição de uma regra é obtida com uma gama de testes semelhante aos que acontecem nos nós da árvore. A conseqüência, ou conclusão, atribui a uma classe a instância coberta pela regra. As precondições, geralmente, são lógicas “AND”, ou seja, todos os testes realizados devem ter êxito. No entanto, em algumas formulações de regras, as precondições podem ser expressões lógicas gerais ao invés de simples conjunções. É comum gerar regras de classificação a partir da obtenção de uma árvore de decisão. Nesse caso, a regra para cada folha é única e gerada percorrendose o caminho do nó raiz até o nó que antecede aquela folha. Toda regra de classificação possui um nível de confiança, que prevê um número de instâncias classificado corretamente. Há ainda a possibilidade de incluir o mecanismo de exceção. Essa técnica é interessante quando acontecem modificações incrementais nos dados a serem classificados, sem a necessidade de refazer todo o arquivo que contém os dados [4]. As regras de associação são muito parecidas com as regras de classificação, mas diferem na possibilidade de poder prever não só classes, mas também atributos ou combinações de atributos. Devido a essa maior generalidade, as regras de associação foram selecionadas no presente trabalho. A ferramenta utilizada para realizar os testes com regras de associação foi o WEKA. A ferramenta é eficiente e facilmente manipulada, pois possui uma interface gráfica de fácil entendimento, e permite incorporar recursos de filtros de forma rápida, otimizando, assim, a quantidade e a qualidade de testes. O WEKA é um software composto por uma coleção de algoritmos de aprendizagem de máquina e mineração de dados. A ferramenta possui três algoritmos para formar regras de associação: Apriori, Predictive Apriori e Tertius, descritas a seguir. O algoritmo Apriori apresenta um método que utiliza o mesmo raciocínio da técnica dividirparaconquistar, para encontrar regras de associação para todas as expressões possíveis. Para localizar tais regras, é necessário que se faça uma execução do procedimento de indução de regra (regrainduction) para todas as combinações possíveis de atributos. Predictive Apriori, combina confiança e segurança (cobertura) em uma medida única chamada de Predictive Accuracy e encontra as n melhores regras de associação já ordenadas em sua exibição. Tertius tem semelhança com o algoritmo Apriori, só que difere nas condições para geração de regras, já que utilizam expressões or, agrupados. Pode ser utilizada para predizer uma condição única ou para predeterminar um atributo. Como exemplo, seguese uma saída hipotética gerada pelo Weka, com a utilização do algoritmo Apriori : Tabela 1: Exemplo de saída gerada pelo Weka Best rules found: 1. humidity=normal windy=FALSE 4 ==> play=yes 4 conf:(1) 2. temperature=cool 4 ==> humidity=normal 4 conf:(1) 3. outlook=overcast 4 ==> play=yes 4 conf:(1) 4. temperature=cool play=yes 3 ==> humidity=normal 3 conf:(1) UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA 5. outlook=rainy windy=FALSE 3 ==> play=yes 3 conf:(1) Explanando um pouco mais esse resultado, no lado esquerdo do sinal que representa “então” (==>), estão as precondições verificadas. Considerando a regra 1, por exemplo, o espaço entre as duas precondições representa o conectivo “AND”. O número que aparece imediatamente antes do sinal ==>, é a quantidade de vezes em que estas precondições ocorreram na base de dados. O que prossegue o símbolo ==> são as associações geradas, seguidas por um número que indica quantas vezes a conseqüência “play=yes” ocorreu para as precondições indicadas. O “conf:” fornece um indício sobre o nível de confiança da regra, obtido pela divisão do número de vezes em que as precondições ocorreram pelo número de vezes em que a conseqüência ocorreu. Neste caso, 4/4 = 1. o que significa que todas as vezes que ocorreram que as precondições humidity=normal e windy=FALSE, ocorreu a conseqüência “play=yes”. É possível tanto parametrizar o nível mínimo de confiança aceitável e a quantidade de regras encontradas. Os testes foram utilizados usando o método de geração de regras de associação Apriori, pois a mesma se mostra eficiente e confiável para mineração de dados, entre os três algoritmos suportados pelo Weka. Além disso, uma variedade de filtros é disponibilizada para uma melhor personalização na extração de regras. Os dados utilizados nesse estudo foram coletados através das informações contidas nas fichas individuais de professores da rede municipal da cidade de João PessoaPB, pertencentes à Junta Médica desse município, devidamente autorizada pela direção da mesma. Foi utilizada uma amostra composta por 221 fichas, sendo 211 do sexo feminino e 10 do sexo masculino. É importante destacar que o número superior de fichas do sexo feminino devese ao fato de que existe uma quantidade bem maior de professoras, do que de professores no quando vigente. Depois de coletados os dados, foi feita a aplicação da ferramenta Weka para obtenção das informações descritas. Com relação ao arquivo que fornece a fonte para análise, os atributos considerados relevantes para o problema em questão foram: ano do afastamento, sexo, nível de escolaridade, número de dias de afastamento, CID e idade na época do afastamento. O Código Internacional de Doenças – CID, abordado no presente trabalho, é o da versão 10 (CID10). Será mostrada, a seguir, uma tabela com os CIDs demonstrando a relação das faixas do CID com a categoria de doenças. Tabela 2: Código Internacional de Doenças, versão 10 CID10 Categoria de Doenças A00B99 Certos agentes infecciosos e parasitas C00D48 Neoplasia E00E90 Doenças relacionadas com metabolismo, fator nutricional e endócrino F00F99 Doenças relacionadas com comportamento e mente G00G99 Doenças relacionadas ao sistema nervoso I00I99 Doenças relacionadas ao sistema circulatório J00J99 Doenças relacionadas ao sistema respiratório K00K93 Doenças relacionadas ao sistema digestivo L00L99 Doenças relacionadas com a pele e o tecido subcutâneo M00M99 Doenças relacionadas com sistema locomotor e tecido conectivo N00N99 Doenças relacionadas com sistema genital O00O99 Gravidez, parto e período pósparto P00P96 Condições originadas no período prénatal R00R99 Veredicto laboratorial de sintomas e indícios incomuns S00T98 Intoxicação, ferimento e outras conseqüências de causas externas Z00Z99 Fatores que influenciam a saúde e contato com serviços médicos UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA Resultados Alguns gráficos foram feitos com a finalidade de facilitar a extração de conhecimento. O gráfico a seguir mostra em quais faixas de CID10 estão as doenças que mais afastam, em média de dias, por sexo. Figura 1: Média em dias das doenças que mais afastam O gráfico a seguir mostra o número de dias de afastamento por idade do solicitante. Figura 2: Número de dias de afastamento por idade O gráfico a seguir mostra qual categoria de CID foi o maior responsável pela quantidade de dias de afastamento. Figura 3: Categoria de CID que mais afasta UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA Com o gráfico a seguir pode ser visualizado a quantidade de dias de afastamento em cada ano. Figura 4: Total de dias de afastamento por ano Após o processamento dos dados na ferramenta Weka, para encontrar regras de associações, a saída foi: Tabela 3: Melhores regras encontradas após o processamento Best rules found: 1. nivel=M dias_afas=15 45 ==> sexo=F 45 conf:(1) 2. cid=N00N99 25 ==> sexo=F 25 conf:(1) 3. ano_afast=2001 23 ==> sexo=F 23 conf:(1) 4. data_nasc=1945 dias_afas=15 22 ==> sexo=F 22 conf:(1) 5. data_nasc=1945 59 ==> sexo=F 58 conf:(0.98) 6. data_nasc=1945 nivel=M 53 ==> sexo=F 52 conf:(0.98) 7. nivel=M 164 ==> sexo=F 159 conf:(0.97) 8. data_nasc=1948 27 ==> nivel=M 26 conf:(0.96) 9. dias_afas=60 27 ==> sexo=F 26 conf:(0.96) 10. nivel=M dias_afas=30 53 ==> sexo=F 51 conf:(0.96) 11. cid=S00T98 26 ==> sexo=F 25 conf:(0.96) 12. sexo=F data_nasc=1948 24 ==> nivel=M 23 conf:(0.96) 13. dias_afas=30 70 ==> sexo=F 67 conf:(0.96) 14. dias_afas=15 58 ==> sexo=F 55 conf:(0.95) 15. cid=M00M99 28 ==> sexo=F 26 conf:(0.93) 16. nivel=S 57 ==> sexo=F 52 conf:(0.91) 17. data_nasc=1945 59 ==> nivel=M 53 conf:(0.9) 18. sexo=F data_nasc=1945 58 ==> nivel=M 52 conf:(0.9) 19. data_nasc=1948 27 ==> sexo=F 24 conf:(0.89) 20. data_nasc=1948 nivel=M 26 ==> sexo=F 23 conf:(0.88) Conclusão A ferramenta Weka se mostrou uma excelente opção para auxiliar no processo para encontrar regras de associação. No entanto, algumas regras geradas não foram interessantes e nem aproveitadas. Essa tarefa de identificar tais regras depende essencialmente do problema abordado. Como o problema levantado aqui é identificar quais doenças levam a um afastamento, em dias, maior, algumas das regras geradas foram descartadas. No entanto, a segunda regra gerada disponível na Tabela 3, foi significativa, já que ela identifica uma ocorrência de 25 vezes do CID na faixa N00N99 (Doenças relacionadas com sistema genital ) e para toda ocorrência dessa faixa de CID, informa sexo feminino, apresentando, assim, um índice de confiança máximo. Há ainda pelo menos outras duas regras consistentes para análise no domínio do problema. Uma foi a regra 11 da Tabela 3, informando que 96% das pessoas que apresentam UFPB – PRG _____________________________________________________________X ENCONTRO DE INICIAÇÃO À DOCÊNCIA doenças na faixa do CID S00T98 (Intoxicação, ferimento e outras conseqüências de causas externas) são do sexo feminino. Já outra regra observada foi a décima quinta, que apresenta uma maior ocorrência no sexo feminino, exatos 93%, de doenças que estão na faixa do CID M00M99 (Doenças relacionadas com sistema locomotor e tecido conectivo). É importante chamar a atenção para a utilidade das informações adquiridas através dos resultados descritos acima. Através dos resultados podese visualizar de maneira objetiva e confiável a realidade da saúde dos professores das escolas municipais da cidade de João Pessoa. Sabendo qual a faixa etária em que se observa mais afastamento das atividades (Figura 2), a doença que mais afasta, inclusive em cada sexo (Figura 1), a quantidade de dias de inatividade por motivo de saúde (Figura 3), entre outras informações, medidas de profilaxia e um planejamento adequado se tornarão mais fáceis e seguros. É claro que os dados de afastamento não podem expressar, em sua totalidade, os problemas de saúde vividos pelos servidores; tampouco é possível estabelecer associações diretas desses problemas com o trabalho por eles desenvolvidos. Contudo, os resultados adquiridos nesse estudo são indicadores que permitem elaborar hipóteses articuladas aos dados da literatura especializada. Ou seja, os resultados das pesquisas isoladas, quando analisados em conjunto, mostram coerência entre os seus achados e permitem a elaboração de hipóteses de pesquisa que visem a identificar associações do adoecimento com as características das escolas e as condições de trabalho vividas em suas dependências, ao mesmo tempo em que demonstram o interesse em contribuir com uma possível melhora para as condições de saúde do trabalhador/professor. Referências [1] Minayo, C & TerdimCosta, S. (1997) A construção do campo da saúde do trabalhador: percurso e dilemas. Cad Saúde Pública, Rio de Janeiro, 13, suppl. 2,pp. 2132. [2] Souza, K. R. et al. Trajetória do Sindicato Estadual dos Profissionais da Educação do Rio de Janeiro (SEPERJ) na luta pela saúde no trabalho. Ciência e Saúde Coletiva, v. 8, n. 4, p. 10571068, 2003. [3] Araújo, T. M.; SilvanyNeto, A. M. (Orgs.). Condições Trabalho e Saúde dos Professores da Rede Particular de Ensino. Sindicato dos Professores no Estado da Bahia/ Universidade Federal da Bahia/ Confederação Nacional dos Trabalhadores em Estabelecimentos de Ensino, Salvador, set. 1998, pp. 542. [4] Witten, Ian H.; Frank, Eibe. Data mining: practical machine learning tools and techniques. San Francisco: Morgan Kaufmann, 2005. [5] Pyle, Dorian; Data preparation for data mining. San Diego: Morgan Kaufmann, 1999.