Um Agente de Filtragem de Correio Electrónico Indesejado José Campos Dep. de Informática Edmundo Monteiro Dep. de Eng. Informática Escola Sup. Tecnologia de Viseu Universidade de Coimbra E-mail: [email protected] CRC ‘98 - 9 e 10 de Novembro de 1998 E-mail: [email protected] Sumário • • • • • • • • Abordagem tradicional Abordagem baseada em agentes Arquitectura do sistema Concepção do sistema Implementação Experiências Resultados Conclusões e trabalho futuro CRC ‘98 - 9 e 10 de Novembro de 1998 Abordagem tradicional • Spam: e-mail não solicitado e fraudulento • Programas anti-spam: baseado em regras • Regras: verificação do subject, from, etc. • Os programas anti-spam: • são eficazes, mas... • requerem demasiado empenho do utilizador CRC ‘98 - 9 e 10 de Novembro de 1998 Abordagem baseada em agentes • O que é um agente? • Entidade autónoma • Entidade semi-inteligente • O agente: • analisa mensagens e extrai padrões • classifica mensagens e elimina as indesejadas • Vantagem: Não requer configuração (regras) CRC ‘98 - 9 e 10 de Novembro de 1998 Arquitectura do sistema SMTP Cliente email Mailbox 1 ... Mailbox N máquina local POP3 Agente Anti-Spam Perfil 1 ... servidor remoto CRC ‘98 - 9 e 10 de Novembro de 1998 Perfil N Representação do conhecimento • Mensagens e perfil mapeados em vectores mensagem perfil • proximidade entre mensagem e perfil CRC ‘98 - 9 e 10 de Novembro de 1998 Mensagens/Perfil Vectores HEADERS TERMOS VECTORES PERFIL TEXTO TERMOS EXTRACÇÃO DE PALAVRAS RELEVANTES CRC ‘98 - 9 e 10 de Novembro de 1998 VECTOR ATRIBUIÇÃO DE PESOS Cálculo dos pesos • Pressuposto: os termos mais frequentes são os mais relevantes frequencia ( t ) peso ( t ) NúmeroTerm os( D ) em que t é um termo D é o documento em análise CRC ‘98 - 9 e 10 de Novembro de 1998 Filtragem de mensagens • Cálculo da semelhança entre mensagem e perfil S( m, p ) S(Vi m ,Vi p ).peso i i • A semelhança entre vectores é dada pelo produto escalar • Os vectores devem estar normalizados CRC ‘98 - 9 e 10 de Novembro de 1998 Selecção das mensagens spam • Pela definição de produto escalar = arcos(S(mensagem, perfil)) • Mensagens boas: deve tender para 90º • Mensagens spam: deve tender para 0º • Selecção: utilização de threshold (“do-it”) CRC ‘98 - 9 e 10 de Novembro de 1998 Aprendizagem • Perfil inicial vazio • Perfil é enriquecido ao longo do tempo P : P f M em que P M f é o perfil é a mensagens é o feedback (positivo ou negativo) é a sensibilidade da aprendizagem CRC ‘98 - 9 e 10 de Novembro de 1998 Implementação • Agente desenvolvido em PERL • Campos considerados: • texto com peso 25% • subject com peso 75% • Threshold “do-it” colocado a 20% (=72º) CRC ‘98 - 9 e 10 de Novembro de 1998 Experiências • Mensagens em quatro categorias Categoria Tamanho Língua 1) PC WORLD’S Windows 95 Shareware Pick of the day > 600 palavras Inglês 2) PC WORLD'S Game Picks of the Day > 600 palavras Inglês 3) The GeoCities World Report > 600 palavras Inglês 9 NÃO 4) Emails pessoais < 250 palavras Português 281 NÃO CRC ‘98 - 9 e 10 de Novembro de 1998 Quantidade Spam SIM 91 SIM Treino do agente • Treino: 29 mensagens indesejadas • O agente • errou nas 2 primeiras mensagens da GeoCities • nunca classificou mal uma mensagem pessoal CRC ‘98 - 9 e 10 de Novembro de 1998 Resultados • O agente gerou um perfil com 2226 termos • Top 20: 0.5 0.4 0.3 0.2 0.1 CRC ‘98 - 9 e 10 de Novembro de 1998 delivered inc third bin online id free sharew are pcw orld new s games net new pc w orld html arts cgi tipw orld http www 0 Classificação Resultados 100 90 80 70 60 50 40 30 20 10 0 1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145 mensagens boas Classificação das mensagens boas CRC ‘98 - 9 e 10 de Novembro de 1998 Classificação Resultados 100 90 80 70 60 50 40 30 20 10 0 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 mensagens spam Classificação das mensagens indesejadas CRC ‘98 - 9 e 10 de Novembro de 1998 Conclusões e trabalho futuro • Conclusões: • O threshold “do-it” mostrou ser adequado • O mecanismo de aprendizagem, apesar de simples, atingiu os objectivos • O cálculo dos pesos demonstrou ser adequado • Trabalho futuro: • Testar outras alternativas ao cálculo dos pesos • Aumentar o número de experiências • Testar vários perfis diferentes CRC ‘98 - 9 e 10 de Novembro de 1998