Mineração de Textos Luis Paulo Vieira Braga, D.Sc., Mba. [email protected] http://www.dme.im.ufrj.br/braga.html c.p. 2386 20.001-970 Rio de Janeiro, R.J. Mineração de dados • • • • • • • Mineração de dados O que é ? Metodologia básica Mineração de textos Para que serve Como é feita Exemplos Mineração de dados • O que é: • A mineração de dados é uma metodologia para predição e classificação em grandes massas de dados observacionais, sem a tendenciosidade e a limitação de uma análise baseada exclusivamente na experiência do especialista. Mineração de Dados • Armazém de dados • Seleção dos dados de interesse • Pré-processamento • Transformações matemáticas • Classificação ou Previsão Mineração de Dados Mineração de Dados Mineração de Dados Mineração de Dados Mineração de Dados • Classificação NãoSupervisionada: Tem por objetivo a separação das observações em subgrupos ou classes. Segmentação é a criação de classes. Mineração de Dados 5 4 3 2 1 A B C D E Mineração de Dados • Classificação Supervisionada: Determinar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já rotulada. Mineração de Dados 1. Problema: identificar clientes que se interessariam em comprar CDB´s. 2. Dados: amostra de 150.000 clientes dos quais se mediram os seguintes atributos: idade, renda, variáveis demográficas, lucratividade, nível do depósito, freqüência de investimentos, ocasião das aplicações entre outras. 3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário. 4. Modelo : Árvore de decisão Mineração de Dados 5. Avaliação: A árvore explicou 80% do comportamento dos clientes 6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicação em CDB´s 7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores. Mineração de Dados Sexo: 1 (H=1 e M=0) Renda: 2000 Idade: 18 3 Tops 1 3 Tops 2 1 Standard 1 Standard , 2 Tops 1 Standard 6 4 3 Standards 3 2 Standards 5 7 1 Top 2 Tops Mineração de Dados • Análise de Associação: Determinar uma associação significativa entre diferentes observações. Mineração de Dados Caminhos mais percorridos 1 http://www.rocknet.com.br/index.html 2 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/conectar.html 3 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/news.html 4 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html 5 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html http://www.rocknet.com.br/instalando.html total % do total 49,02 8,17 5,87 1,10 0,88 65,06 Fonte: Construção de Websites comerciais, André Valle, FGV-EPGE Mineração de Dados • Predição: Prever o valor de um atributo em função das observações de outros atributos. Mineração de textos • O objetivo da Mineração de Textos é o processamento de informação textual, extraindo índices numéricos significativos a partir do texto e então tornar esta informação acessível para os programas disponíveis nos sistemas de mineração de dados. Mineração de textos • Podem ser analisadas palavras, agrupamentos de palavras, ou mesmo documentos entre si através das suas similaridades ou de suas relações com outras variáveis de interesse num projeto de mineração de textos. Mineração de textos • O objetivo na fase inicial do projeto é “transformar textos em números (índices significativos” , que podem então ser incorporados em outras análises tais como classificação supervisionada ou não supervisionada. Mineração de textos • Algumas aplicações típicas para mineração de textos: • Análise de questões abertas em questionários. • Processamento automático de mensagens, “e-mails”, etc... • Busca de referências em uma coleção de artigos, motores de busca. Mineração de textos • Mais apropriado para um grande número de textos de tamanho médio ou pequeno. • Não deve ser tratado como uma caixa preta. A intervenção do analista é necessária. • Soluções não podem ser importadas de outra língua. Mineração de textos • Etapas em um Projeto de Mineração de Textos: • • • • • • • Entrada dos textos Pré-processamento Cálculo de frequências Indexação Semântica Visualização Classificação Não Supervisionada(“clustering”) Classificação Supervisionada (“preditive data mining”) Mineração de textos • Entrada dos textos m1 Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobre os aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menor risco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SA CSN – COMPANHIA SIDERURGICA NACIONAL ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mail ou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI Mineração de textos • Entrada dos textos m2 Visitar Bordeaux, uma das regiões vinícolas mais importantes do mundo, já é um privilégio. Imagine ter a honra de participar de uma degustação com o Sommelier pessoal da Baronesa Philippine de Rothschild , tendo como pano de fundo o lendário Château Mouton Rothschild. Quer visitar um dos maiores museus da história do vinho e jantar no restaurante Saint Julien? Participando desta promoção você ganha cupons para concorrer a esta mágica viagem, com direito a acompanhante. Acompanhe o roteiro da viagem: Dia 1: Viagem a Paris Dia 2: Trem TGV com destino a Bordeaux. Dia 3: Visita ao Chatêau Mouton Rothschild Visita ao Museu, caves e salas de barricas; Degustação com o sommelier pessoal da Baronesa Philippina Almoço no Restaurante Saint Julien Dia4: Visita a Saint Emillion Dia5: Retorno a Paris / Brasil. Mineração de textos • Entrada dos textos m3 Cursos via Internet Calendario de cursos de Outubro de 2007 Curso Básico de Segurança em Instalações e Serviços em Eletricidade - NR 10 De: 20/10/2007 à 18/12/2007 Eletricistas, Eletrotécnicos, Operadores, Técnicos, Supervisores, Auxiliares de Manutenção, Mecânicos de Refrigeração, Engenheiros, Gerentes de Construção, Operação e Manutenção; Membros da CIPA, Técnicos e Engenheiros de Segurança e outros interessados responsáveis pela área elétrica e de segurança das instituições em geral. Proteger os trabalhadores que interagem com instalações elétricas, inclusive os que atuam em suas proximidades para fins de ...Saiba mais... Acompanhamento Os participantes terão o acompanhamento do engenheiro de segurança do trabalho habilitado, Sr. Benedito Lázaro Belut, durante todo o curso, para dirimir suas dúvidas. Formação do Tutor: ENGENHARIA DE AVALIAÇÕES - 2000 ENGENHARIA DE SEGURANÇA DO TRABALHO - 1995 ENGENHARIA ELÉTRICA UNESP – (FUNDAÇÃO EDUCACIONAL) – BAURU/SP - 1983 TECNOLOGIA DE SISTEMAS ELÉTRICOS – FUNDAÇÃO EDUCACIONAL – BAURU/SP - 1980 TÉCNICO ELETROTÉCNICA / COLÉGIO TÉCNICO INDUSTRIAL DE BOTUCATU/SP – 1976 37 Cursos de atualização áreas de: Elétrica, Informática, Segurança, Qualidade e Gestão. Investimento de R$ 666,00 por R$ 499,00 (quatrocentos e noventa e nove reais ). Mineração de textos • Textos agrupados em uma planilha 1 2 3 4 5 6 7 8 C:\Documents C:\Documents C:\Documents C:\Documents C:\Documents C:\Documents C:\Documents C:\Documents 1 URLs and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My and Settings\Owner\My Documents\letras\m1.txt Documents\letras\m2.txt Documents\letras\m3.txt Documents\letras\m4.txt Documents\letras\m5.txt Documents\letras\m6.txt Documents\letras\m7.txt Documents\letras\m8.txt 3 2 Reference Root Page Mineração de textos • Pré-processamento: • 1) Exclusão de palavras e números, baseada no tamanho, nas letras inicial e final ou outros critérios. • 2) Manutenção ou exclusão de palavras baseada em uma lista previamente definida. • 3) Identificação de sinônimos e antônimos. • 4) Determinação de radicais Mineração de textos • Pré-processamento: • 1) Exclusão de palavras e números, baseada no tamanho, nas letras inicial e final ou outros critérios. Caracteres válidos: letras latinas e algarismos arábicos Tamanho mínimo da palavra, tamanho máximo, número máximo de consoantes, etc... Mineração de textos • Pré-processamento: • 2) Manutenção de palavras (lista de inclusão) e eliminação de palavras (lista de exclusão). Há também uma lista de “multipalavras” para inclusão. Lista de inclusão: curso, treinamento, atualização, especialização... Lista de exclusão: o, de, para, até, ser, estarei, estarei, ter, haver... Lista de multipalavras: estado da arte, mineração de dados... Mineração de textos • Pré-processamento: • 3) Identificação de sinônimos e antônimos. Lista de sinônimos: profissional=técnico=executivo=empregado Lista de antônimos: junior x senior Mineração de textos • Pré-processamento: • 4) Determinação de radicais Lista de radicais: arquia- autarquia, monarquia Mineração de textos • • • • Cálculo de frequências: 1) Log-frequências 2) Frequências binárias 3) Frequências relativas a textos • 4) Frequências de palavras • 5) Frequências inversas Mineração de textos • Cálculo de frequências: • 2) Frequências binárias 1 2 3 4 5 6 7 8 desenvolvimento curso professor engenharia programas tecnologia vendas viagem 1 profissional 1 0 0 0 0 0 1 0 2 0 0 0 0 0 0 0 1 3 0 1 0 1 0 1 0 0 4 0 0 0 0 0 0 0 0 5 0 0 0 0 1 0 0 0 6 1 1 0 0 0 0 0 0 7 1 1 0 0 0 0 0 0 8 0 0 1 0 0 0 0 0 Mineração de textos • Indexação Semântica: • Decomposição em Valores Singulares Mineração de textos • Decomposição em Valores Singulares curso desenvolvimento desenvolvimento profissional engenharia professor profissional programas tecnologia vendas viagem SVD Word importance (Spreadsheet21 in binario) Importance 99,0760 100,0000 100,0000 56,1194 50,7966 100,0000 60,7360 56,1194 50,9661 70,8412 Mineração de textos • Decomposição em Valores Singulares Singular values 40 35 Singular value % explained 30 25 20 15 10 5 0 1 2 3 4 Component 5 6 7 Mineração de textos • Classificação Não Supervisionada Cluster members (binario) Number of clusters: 2 Total number of training cases: 8 Final desenvolvimento Case No. classification profissional 1 1 2 2 3 2 4 2 5 2 6 2 7 2 8 2 curso professor engenharia 1 0 0 0 0 1 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 1 programas 0 0 1 0 0 0 0 0 tecnologia 0 0 0 0 1 0 0 0 vendas 0 0 1 0 0 0 0 0 viagem 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 Distance to centroid 2,000000 2,000000 0,000000 1,732051 2,000000 1,732051 1,732051 2,000000 Mineração de textos Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobre os aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menor risco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SA CSN – COMPANHIA SIDERURGICA NACIONAL ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mail ou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI Mineração de textos f1: deposit the cash and check in the bank f2: the river boat is on the bank f3: borrow based on credit f4: river boat floats up the river f5: boat is by the dock near the bank f6: with credit, I can borrow cash from the bank f7: boat floats by dock near the river bank f8: check the parade route to see the floats f9: along the parade route Mineração de textos 1 the 1 2 3 4 5 6 7 8 9 2 cash 2 2 0 1 2 1 1 2 1 3 check 1 0 0 0 0 1 0 0 0 4 bank 1 0 0 0 0 0 0 1 0 5 river 1 1 0 0 1 1 1 0 0 6 boat 0 1 0 2 0 0 1 0 0 7 be 0 1 0 1 1 0 1 0 0 8 on 0 1 0 0 1 0 0 0 0 9 borrow 0 1 1 0 0 0 0 0 0 10 credit 0 0 1 0 0 1 0 0 0 1-2 do que 1-3 11 float 0 0 1 0 0 1 0 0 0 12 by 0 0 0 1 0 0 1 1 0 13 dock 0 0 0 0 1 0 1 0 0 14 near 0 0 0 0 1 0 1 0 0 15 parade 0 0 0 0 1 0 1 0 0 16 route 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 1 17 parade route 0 0 0 0 0 0 0 1 Mineração de textos Projection of the cases on the factor-plane ( 1 x 2) Cases w ith sum of cosine square >= 0,00 5 4 3 6 3 Factor 2: 25,10% 2 1 2 1 0 4 7 -1 5 9 -2 8 -3 -4 -5 -5 -4 -3 -2 -1 0 1 Factor 1: 32,49% 2 3 4 5 6 Active