Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil . {jim; ramices} @das.ufsc.br Agenda Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão Introdução O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico causa um grande desperdício de recursos – – – Custo: consome tempo de processamento e espaço de armazenamento Fraude: facilita o uso de fraude Destituição do e-mail normal Justificativa Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas. Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários. Justificativa Uma solução é a utilização de filtro de spam – – Automáticos Semi-automáticos Amplamente utilizados por ISP´s(provedores) O problema em utilizar esses filtros é que não se consegue obter 100% de precisão na taxa de detecção de spam Com isso vários métodos têm sido propostos para a implementação de filtros de spam Justificativa O maior interesse tem sido no uso de técnicas de aprendizado de máquina. – – – – – – Naive Bayes Árvores de Decisão Redes Neurais Sistemas Nebulosos (Fuzzy) Support Vector Machine – SVM Sistemas Imunológicos Artificiais Justificativa Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho. Precisava-se comparar técnicas para definir qual tem o melhor desempenho Objetivo O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP. Detecção de Spam - Fatores Fatores que contribuem para envio de spam – Facilidade no envio de e-mail: alguns programas permitem enviar centenas de mensagens de email e adquirir, milhares de contas válidas – Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente Detecção de Spam - Técnicas Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes Detecção de Spam - Filtros Definidos pelos usuários: permitem a criação de regras pelos usuários Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail. E o problema do image spam? Técnicas de Inteligência Redes Neurais – As Redes Neurais além fornecem um caminho mais fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam. Técnicas de Inteligência Redes Neurais – – A propriedade mais importante das redes neurais é a habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento. Aprendizado supervisionado, não supervisionado e híbrido Técnicas de Inteligência Neuro-Fuzzy – – Fuzzy: (sistema de lógica nebulosa) é uma generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade. Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados. A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy Resultados Foram realizadas comparações com diferentes algoritmos: – – – Neuro-Fuzzy com taxa ótima de aprendizado Redes Neurais utilizando Perceptron Redes Neurais utilizando MLP. A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab. Resultados Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total). Foram processados utilizando a base de dados completa e Com a mesma configuração, após a seleção dos atributos de maior relevância Resultados Os resultados foram analisados de acordo com: – – – os valores das taxas de acertos; falsos positivos; e falsos negativos. Resultados Neuro-Fuzzy – O treinamento Neuro-Fuzzy após a aplicação dos coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência. Neuro-Fuzzy (Sem correlação) Neuro-Fuzzy (com correlação) Neuro-Fuzzy (com X sem correlação) Resultados Perceptron Simples – – – Para esta técnica foram feitos dois experimentos Também se considerou a base completa e a base reduzida de acordo com a análise de correlação Observou-se a diminuição do tempo de treinamento em função da diminuição do número de neurônios de entrada da rede Perceptron Simples(sem correlação) Perceptron Simples(com correlação) Perceptron (com X sem correlação) Resultados MPL – A observação dos resultados obtidos pelo treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%. MPL (sem correlação) MPL (com correlação) MPL (com X sem correlação) Análise Comparativa Conclusão Dificuldade com a implementação dos algoritmos propostos Descoberta do comportamento destes algoritmos Várias execuções dos algoritmos, para diferentes definições dos parâmetros Foram executados no mínimo seis vezes O trabalho foi facilitado pelas implementações de redes neurais do Matlab Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam ? Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil . {jim; ramices} @das.ufsc.br