Análise Comparativa de Técnicas de Inteligência
Computacional para a Detecção de Spam
Jim Lau; Ramices dos Santos Silva
DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .
{jim; ramices} @das.ufsc.br
Agenda







Introdução
Justificativa
Objetivo
Detecção de Spam
Técnicas de Inteligência
Comparação de Resultados
Conclusão
Introdução


O spam pode ser definido como o envio
abusivo e não solicitado de mensagens de
correio eletrônico
causa um grande desperdício de recursos
–
–
–
Custo: consome tempo de processamento e
espaço de armazenamento
Fraude: facilita o uso de fraude
Destituição do e-mail normal
Justificativa



Quando o spam é recebido em pequenas
quantidades, pode causar aborrecimento aos
destinatários
Para o recebimento de grandes quantidades de
e-mail, o spam consome tempo e dificulta a
descoberta de mensagens legítimas.
Freqüentemente possui conteúdo de linguagem
pornográfica,que ofende a muitos destinatários.
Justificativa

Uma solução é a utilização de filtro de spam
–
–



Automáticos
Semi-automáticos
Amplamente utilizados por ISP´s(provedores)
O problema em utilizar esses filtros é que não
se consegue obter 100% de precisão na taxa
de detecção de spam
Com isso vários métodos têm sido propostos
para a implementação de filtros de spam
Justificativa

O maior interesse tem sido no uso de técnicas
de aprendizado de máquina.
–
–
–
–
–
–
Naive Bayes
Árvores de Decisão
Redes Neurais
Sistemas Nebulosos (Fuzzy)
Support Vector Machine – SVM
Sistemas Imunológicos Artificiais
Justificativa


Como conceito básico e comum a estes
métodos é que os classificadores utilizam
treinamento supervisionado de dados,
realizado manualmente, que resulta em um
melhor desempenho.
Precisava-se comparar técnicas para definir
qual tem o melhor desempenho
Objetivo

O objetivo do trabalho estudado foi realizar
uma análise comparativa do desempenho de
diversas técnicas de Aprendizado de
Máquina para uso em filtros de detecção de
spam baseados em conteúdo As técnicas
escolhidas foram: Neuro-Fuzzy, Redes
Neurais utilizando Perceptron e MLP.
Detecção de Spam - Fatores

Fatores que contribuem para envio de spam
–
Facilidade no envio de e-mail: alguns programas
permitem enviar centenas de mensagens de email e adquirir, milhares de contas válidas
–
Endereços são de fácil obtenção: A maior parte
das técnicas para filtragem de e-mail indesejado
envolve filtros de mensagens baseadas no
endereço do remetente
Detecção de Spam - Técnicas



Utilização de Filtros: As soluções automáticas
removem o e-mail suspeito, enquanto que
soluções semi-automáticas deixam que o usuário
detecte
Medidas de contra ataque: Usuários podem
responder às mensagens de spam para
bombardear
Treinamento de Usuários: Uma das soluções
existentes está relacionada ao gerenciamento de
spam e treinamento de usuários sobre as opções
existentes
Detecção de Spam - Filtros




Definidos pelos usuários: permitem a criação
de regras pelos usuários
Cabeçalhos: analisam os cabeçalhos para
detectar se são falsificados ou não
Conteúdo: tipo de filtro mais comum,
verificam a ocorrência de palavras no corpo
do e-mail.
E o problema do image spam?
Técnicas de Inteligência

Redes Neurais
–
As Redes Neurais além fornecem um caminho mais
fácil para modelar relações complexas, também
oferecem adaptabilidade e habilidade de
aprendizagem implícita. O fato das Redes Neurais
funcionarem bem para Classificação de Textos
implica em confiança para a aplicação em filtros de
spam.
Técnicas de Inteligência

Redes Neurais
–
–
A propriedade mais importante das redes neurais é a
habilidade de aprender de seu ambiente e com isso
melhorar seu desempenho. Isso é feito através de um
processo iterativo de ajustes aplicado a seus pesos: o
treinamento.
Aprendizado supervisionado, não supervisionado e
híbrido
Técnicas de Inteligência

Neuro-Fuzzy
–
–

Fuzzy: (sistema de lógica nebulosa) é uma
generalização da teoria dos conjuntos clássica e visa
implementar uma forma de pensamento humano na
máquina. Porém tem o problema da adaptabilidade.
Já as Redes Neurais são eficientes para a detecção
de padrões, entretanto não são boas para explicar
como estes padrões são alcançados.
A limitação destas técnicas impulsionou a
criação de sistemas neuro-fuzzy
Resultados

Foram realizadas comparações com
diferentes algoritmos:
–
–
–

Neuro-Fuzzy com taxa ótima de aprendizado
Redes Neurais utilizando Perceptron
Redes Neurais utilizando MLP.
A ferramenta utilizada nesta comparação
entre esses algoritmos foi o Matlab.
Resultados




Foi utilizado como base de dados um
repositório de aprendizado de maquina da
Universidade da Califórnia Irvine
Utilizou-se a mesma quantidade de padrões
de treinamento (3500 padrões, 76%) e de
validação (1101 padrões, 24% do total).
Foram processados utilizando a base de
dados completa e
Com a mesma configuração, após a seleção
dos atributos de maior relevância
Resultados

Os resultados foram analisados de acordo
com:
–
–
–
os valores das taxas de acertos;
falsos positivos; e
falsos negativos.
Resultados

Neuro-Fuzzy
–
O treinamento Neuro-Fuzzy após a aplicação dos
coeficientes da correlação, os algoritmos foram
processados novamente pela variação do
número de funções de pertinência.
Neuro-Fuzzy (Sem correlação)
Neuro-Fuzzy (com correlação)
Neuro-Fuzzy (com X sem correlação)
Resultados

Perceptron Simples
–
–
–
Para esta técnica foram feitos dois experimentos
Também se considerou a base completa e a base
reduzida de acordo com a análise de correlação
Observou-se a diminuição do tempo de
treinamento em função da diminuição do número
de neurônios de entrada da rede
Perceptron Simples(sem correlação)
Perceptron Simples(com correlação)
Perceptron (com X sem correlação)
Resultados

MPL
–
A observação dos resultados obtidos pelo
treinamento da rede MLP, mostra que a aplicação
dos coeficientes de correlação acarretou em um
aumento dos valores dos falsos positivos de uma
média de 3,96% para uma média de 4,29%.
MPL (sem correlação)
MPL (com correlação)
MPL (com X sem correlação)
Análise Comparativa
Conclusão





Dificuldade com a implementação dos
algoritmos propostos
Descoberta do comportamento destes
algoritmos
Várias execuções dos algoritmos, para
diferentes definições dos parâmetros
Foram executados no mínimo seis vezes
O trabalho foi facilitado pelas implementações
de redes neurais do Matlab
Análise Comparativa de Técnicas de Inteligência
Computacional para a Detecção de Spam
?
Jim Lau; Ramices dos Santos Silva
DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .
{jim; ramices} @das.ufsc.br
Download

Detecção de Spam