Um Agente de Filtragem de
Correio Electrónico Indesejado
José Campos
Dep. de Informática
Edmundo Monteiro
Dep. de Eng. Informática
Escola Sup. Tecnologia de Viseu
Universidade de Coimbra
E-mail: [email protected]
CRC ‘98 - 9 e 10 de Novembro de 1998
E-mail: [email protected]
Sumário
•
•
•
•
•
•
•
•
Abordagem tradicional
Abordagem baseada em agentes
Arquitectura do sistema
Concepção do sistema
Implementação
Experiências
Resultados
Conclusões e trabalho futuro
CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem tradicional
• Spam: e-mail não solicitado e fraudulento
• Programas anti-spam: baseado em regras
• Regras: verificação do subject, from, etc.
• Os programas anti-spam:
• são eficazes, mas...
• requerem demasiado empenho do utilizador
CRC ‘98 - 9 e 10 de Novembro de 1998
Abordagem baseada em agentes
• O que é um agente?
• Entidade autónoma
• Entidade semi-inteligente
• O agente:
• analisa mensagens e extrai padrões
• classifica mensagens e elimina as indesejadas
• Vantagem: Não requer configuração (regras)
CRC ‘98 - 9 e 10 de Novembro de 1998
Arquitectura do sistema
SMTP
Cliente
email
Mailbox 1
...
Mailbox N
máquina local
POP3
Agente Anti-Spam
Perfil 1
...
servidor remoto
CRC ‘98 - 9 e 10 de Novembro de 1998
Perfil N
Representação do conhecimento
• Mensagens e perfil mapeados em vectores
mensagem

perfil
•   proximidade entre mensagem e perfil
CRC ‘98 - 9 e 10 de Novembro de 1998
Mensagens/Perfil  Vectores
HEADERS
TERMOS
VECTORES
PERFIL
TEXTO
TERMOS
EXTRACÇÃO DE
PALAVRAS RELEVANTES
CRC ‘98 - 9 e 10 de Novembro de 1998
VECTOR
ATRIBUIÇÃO DE PESOS
Cálculo dos pesos
• Pressuposto: os termos mais frequentes são
os mais relevantes
frequencia ( t )
peso ( t ) 
NúmeroTerm os( D )
em que t é um termo
D é o documento em análise
CRC ‘98 - 9 e 10 de Novembro de 1998
Filtragem de mensagens
• Cálculo da semelhança entre mensagem e
perfil
S( m, p ) 

S(Vi m ,Vi p ).peso i
i
• A semelhança entre vectores é dada pelo
produto escalar
• Os vectores devem estar normalizados
CRC ‘98 - 9 e 10 de Novembro de 1998
Selecção das mensagens spam
• Pela definição de produto escalar
 = arcos(S(mensagem, perfil))
• Mensagens boas:  deve tender para 90º
• Mensagens spam:  deve tender para 0º
• Selecção: utilização de threshold (“do-it”)
CRC ‘98 - 9 e 10 de Novembro de 1998
Aprendizagem
• Perfil inicial vazio
• Perfil é enriquecido ao longo do tempo
P : P  f    M
em que P
M
f
é o perfil
é a mensagens
é o feedback (positivo ou negativo)

é a sensibilidade da aprendizagem
CRC ‘98 - 9 e 10 de Novembro de 1998
Implementação
• Agente desenvolvido em PERL
• Campos considerados:
• texto com peso 25%
• subject com peso 75%
• Threshold “do-it” colocado a 20% (=72º)
CRC ‘98 - 9 e 10 de Novembro de 1998
Experiências
• Mensagens em quatro categorias
Categoria
Tamanho
Língua
1) PC WORLD’S Windows 95 Shareware
Pick of the day
> 600 palavras
Inglês
2) PC WORLD'S Game Picks of the Day
> 600 palavras
Inglês
3) The GeoCities World Report
> 600 palavras
Inglês
9
NÃO
4) Emails pessoais
< 250 palavras
Português
281
NÃO
CRC ‘98 - 9 e 10 de Novembro de 1998
Quantidade
Spam
SIM
91
SIM
Treino do agente
• Treino: 29 mensagens indesejadas
• O agente
• errou nas 2 primeiras mensagens da GeoCities
• nunca classificou mal uma mensagem pessoal
CRC ‘98 - 9 e 10 de Novembro de 1998
Resultados
• O agente gerou um perfil com 2226 termos
• Top 20:
0.5
0.4
0.3
0.2
0.1
CRC ‘98 - 9 e 10 de Novembro de 1998
delivered
inc
third
bin
online
id
free
sharew are
pcw orld
new s
games
net
new
pc
w orld
html
arts
cgi
tipw orld
http
www
0
Classificação
Resultados
100
90
80
70
60
50
40
30
20
10
0
1
10
19
28
37
46
55
64
73
82
91 100 109 118 127 136 145
mensagens boas
Classificação das mensagens boas
CRC ‘98 - 9 e 10 de Novembro de 1998
Classificação
Resultados
100
90
80
70
60
50
40
30
20
10
0
1
5
9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89
mensagens spam
Classificação das mensagens indesejadas
CRC ‘98 - 9 e 10 de Novembro de 1998
Conclusões e trabalho futuro
• Conclusões:
• O threshold “do-it” mostrou ser adequado
• O mecanismo de aprendizagem, apesar de
simples, atingiu os objectivos
• O cálculo dos pesos demonstrou ser adequado
• Trabalho futuro:
• Testar outras alternativas ao cálculo dos pesos
• Aumentar o número de experiências
• Testar vários perfis diferentes
CRC ‘98 - 9 e 10 de Novembro de 1998
Download

Um agente de filtragem de correio electrónico indesejado