Mineração de Textos
Luis Paulo Vieira Braga, D.Sc., Mba.
[email protected]
http://www.dme.im.ufrj.br/braga.html
c.p. 2386
20.001-970 Rio de Janeiro, R.J.
Mineração de dados
•
•
•
•
•
•
•
Mineração de dados
O que é ?
Metodologia básica
Mineração de textos
Para que serve
Como é feita
Exemplos
Mineração de dados
• O que é:
• A mineração de dados é uma metodologia
para predição e classificação em grandes
massas de dados observacionais, sem a
tendenciosidade e a limitação de uma
análise baseada exclusivamente na
experiência do especialista.
Mineração de Dados
• Armazém de dados
• Seleção dos dados de
interesse
• Pré-processamento
• Transformações
matemáticas
• Classificação ou
Previsão
Mineração de Dados
Mineração de Dados
Mineração de Dados
Mineração de Dados
Mineração de Dados
• Classificação NãoSupervisionada: Tem
por objetivo a separação
das observações em subgrupos ou classes.
Segmentação é a criação
de classes.
Mineração de Dados
5
4
3
2
1
A
B
C
D
E
Mineração de Dados
• Classificação
Supervisionada:
Determinar uma regra que
possa ser usada para
classificar, de forma
otimizada, uma nova
observação a uma classe já
rotulada.
Mineração de Dados
1. Problema: identificar clientes que se interessariam em comprar
CDB´s.
2. Dados: amostra de 150.000 clientes dos quais se mediram os
seguintes atributos: idade, renda, variáveis demográficas,
lucratividade, nível do depósito, freqüência de investimentos,
ocasião das aplicações entre outras.
3. Extração de características : considerar apenas os atributos
relacionados à recência, freqüência e fator monetário.
4. Modelo : Árvore de decisão
Mineração de Dados
5. Avaliação: A árvore explicou 80% do comportamento dos
clientes
6. Implementação: Baseado na árvore foram enviados
convites para parte da totalidade dos clientes do Banco
propondo a aplicação em CDB´s
7. Retorno do Investimento: Gastou-se 30% a menos em
divulgação porque ao contrário de outras promoções o
contato só foi feito com parte dos clientes. A resposta foi
50% melhor do que em promoções anteriores.
Mineração de Dados
Sexo:
 1 (H=1 e M=0)
Renda:  2000
Idade:
 18
3 Tops
1
3 Tops
2
1 Standard
1 Standard , 2 Tops
1 Standard
6
4
3 Standards
3
2 Standards
5
7
1 Top
2 Tops
Mineração de Dados
• Análise de Associação:
Determinar uma associação
significativa entre
diferentes observações.
Mineração de Dados
Caminhos mais percorridos
1 http://www.rocknet.com.br/index.html
2 http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/conectar.html
3 http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/news.html
4 http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/como.html
5 http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/como.html
http://www.rocknet.com.br/instalando.html
total
% do
total
49,02
8,17
5,87
1,10
0,88
65,06
Fonte: Construção de Websites comerciais, André Valle, FGV-EPGE
Mineração de Dados
• Predição: Prever o valor de
um atributo em função das
observações de outros
atributos.
Mineração de textos
• O objetivo da Mineração de
Textos é o processamento de
informação textual, extraindo
índices numéricos significativos
a partir do texto e então tornar
esta informação acessível para
os programas disponíveis nos
sistemas de mineração de dados.
Mineração de textos
• Podem ser analisadas
palavras, agrupamentos de
palavras, ou mesmo
documentos entre si através
das suas similaridades ou de
suas relações com outras
variáveis de interesse num
projeto de mineração de
textos.
Mineração de textos
• O objetivo na fase inicial do
projeto é “transformar textos
em números (índices
significativos” , que podem
então ser incorporados em
outras análises tais como
classificação supervisionada
ou não supervisionada.
Mineração de textos
• Algumas aplicações típicas
para mineração de textos:
• Análise de questões abertas
em questionários.
• Processamento automático de
mensagens, “e-mails”, etc...
• Busca de referências em uma
coleção de artigos, motores de
busca.
Mineração de textos
• Mais apropriado para um grande número de
textos de tamanho médio ou pequeno.
• Não deve ser tratado como uma caixa preta.
A intervenção do analista é necessária.
• Soluções não podem ser importadas de outra
língua.
Mineração de textos
• Etapas em um Projeto de Mineração de Textos:
•
•
•
•
•
•
•
Entrada dos textos
Pré-processamento
Cálculo de frequências
Indexação Semântica
Visualização
Classificação Não Supervisionada(“clustering”)
Classificação Supervisionada (“preditive data mining”)
Mineração de textos
• Entrada dos textos
m1
Academia de Desenvolvimento Profissional e Organizacional
Como evitar riscos com a TERCEIRIZAÇÃO
24 e 25 de Outubro de 2007
Elegemos uma equipe de profissionais capacitados para debater sobre
os aspectosestratégicos, legais e burocráticos da terceirização.
Saiba como sua empresa pode obter maior produtividade, com menor
risco além de altos níveis de competitividade com a Terceirização.
Serão abordados, entre outros, temas como:
Como identificar uma terceirização ilícita
A competitividade através do outsourcing
A visão do judiciário com relação ao trabalho terceirizado
Prevenindo riscos trabalhistas decorrentes da terceirização
Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros
Participação Especial:
GRAN SAPORE BRASIL SA
CSN – COMPANHIA SIDERURGICA NACIONAL
ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL
SOLICITE PROGRAMAÇÃO COMPLETA!
Informe-se por e-mail
ou ligue 11 3031-6777
Se deseja excluir seu email de nosso mailing, CLIQUE AQUI
Mineração de textos
• Entrada dos textos
m2
Visitar Bordeaux, uma das regiões vinícolas mais importantes do mundo, já é um privilégio.
Imagine ter a honra de participar de uma degustação com o Sommelier pessoal da Baronesa Philippine de
Rothschild ,
tendo como pano de fundo o lendário Château Mouton Rothschild.
Quer visitar um dos maiores museus da história do vinho e jantar no restaurante Saint Julien?
Participando desta promoção você ganha cupons para concorrer a esta mágica viagem, com direito a
acompanhante.
Acompanhe o roteiro da viagem:
Dia 1: Viagem a Paris
Dia 2: Trem TGV com destino a Bordeaux.
Dia 3: Visita ao Chatêau Mouton Rothschild
Visita ao Museu, caves e salas de barricas;
Degustação com o sommelier pessoal da Baronesa Philippina
Almoço no Restaurante Saint Julien
Dia4: Visita a Saint Emillion
Dia5: Retorno a Paris / Brasil.
Mineração de textos
• Entrada dos textos
m3
Cursos via Internet
Calendario de cursos de Outubro de 2007
Curso Básico de Segurança em Instalações e Serviços em Eletricidade - NR 10
De: 20/10/2007 à 18/12/2007
Eletricistas, Eletrotécnicos, Operadores, Técnicos, Supervisores, Auxiliares de Manutenção, Mecânicos de Refrigeração, Engenheiros,
Gerentes de Construção, Operação e Manutenção; Membros da CIPA, Técnicos e Engenheiros de Segurança e outros interessados
responsáveis pela área elétrica e de segurança das instituições em geral.
Proteger os trabalhadores que interagem com instalações elétricas, inclusive os que atuam em suas proximidades para fins de ...Saiba
mais...
Acompanhamento
Os participantes terão o acompanhamento do engenheiro de segurança do trabalho habilitado, Sr. Benedito Lázaro Belut, durante todo o
curso, para dirimir suas dúvidas.
Formação do Tutor:
ENGENHARIA DE AVALIAÇÕES - 2000
ENGENHARIA DE SEGURANÇA DO TRABALHO - 1995
ENGENHARIA ELÉTRICA UNESP – (FUNDAÇÃO EDUCACIONAL) – BAURU/SP - 1983
TECNOLOGIA DE SISTEMAS ELÉTRICOS – FUNDAÇÃO EDUCACIONAL – BAURU/SP - 1980
TÉCNICO ELETROTÉCNICA / COLÉGIO TÉCNICO INDUSTRIAL DE BOTUCATU/SP – 1976
37 Cursos de atualização áreas de: Elétrica, Informática, Segurança, Qualidade e Gestão.
Investimento
de R$ 666,00
por R$ 499,00 (quatrocentos e noventa e nove reais ).
Mineração de textos
• Textos agrupados em uma planilha
1
2
3
4
5
6
7
8
C:\Documents
C:\Documents
C:\Documents
C:\Documents
C:\Documents
C:\Documents
C:\Documents
C:\Documents
1
URLs
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
and Settings\Owner\My
Documents\letras\m1.txt
Documents\letras\m2.txt
Documents\letras\m3.txt
Documents\letras\m4.txt
Documents\letras\m5.txt
Documents\letras\m6.txt
Documents\letras\m7.txt
Documents\letras\m8.txt
3
2
Reference
Root
Page
Mineração de textos
• Pré-processamento:
• 1) Exclusão de palavras e números, baseada no
tamanho, nas letras inicial e final ou outros critérios.
• 2) Manutenção ou exclusão de palavras baseada em
uma lista previamente definida.
• 3) Identificação de sinônimos e antônimos.
• 4) Determinação de radicais
Mineração de textos
• Pré-processamento:
• 1) Exclusão de palavras e números, baseada no
tamanho, nas letras inicial e final ou outros critérios.
Caracteres válidos: letras latinas e algarismos arábicos
Tamanho mínimo da palavra, tamanho máximo,
número máximo de consoantes, etc...
Mineração de textos
• Pré-processamento:
• 2) Manutenção de palavras (lista de inclusão) e
eliminação de palavras (lista de exclusão). Há também
uma lista de “multipalavras” para inclusão.
Lista de inclusão: curso, treinamento, atualização, especialização...
Lista de exclusão: o, de, para, até, ser, estarei, estarei, ter, haver...
Lista de multipalavras: estado da arte, mineração de dados...
Mineração de textos
• Pré-processamento:
• 3) Identificação de sinônimos e antônimos.
Lista de sinônimos: profissional=técnico=executivo=empregado
Lista de antônimos: junior x senior
Mineração de textos
• Pré-processamento:
• 4) Determinação de radicais
Lista de radicais: arquia- autarquia, monarquia
Mineração de textos
•
•
•
•
Cálculo de frequências:
1) Log-frequências
2) Frequências binárias
3) Frequências relativas a
textos
• 4) Frequências de palavras
• 5) Frequências inversas
Mineração de textos
• Cálculo de frequências:
• 2) Frequências binárias
1
2
3
4
5
6
7
8
desenvolvimento
curso professor engenharia programas tecnologia vendas viagem
1
profissional
1
0
0
0
0
0
1
0
2
0
0
0
0
0
0
0
1
3
0
1
0
1
0
1
0
0
4
0
0
0
0
0
0
0
0
5
0
0
0
0
1
0
0
0
6
1
1
0
0
0
0
0
0
7
1
1
0
0
0
0
0
0
8
0
0
1
0
0
0
0
0
Mineração de textos
• Indexação Semântica:
• Decomposição em Valores
Singulares
Mineração de textos
• Decomposição em Valores Singulares
curso
desenvolvimento
desenvolvimento profissional
engenharia
professor
profissional
programas
tecnologia
vendas
viagem
SVD Word importance (Spreadsheet21 in binario)
Importance
99,0760
100,0000
100,0000
56,1194
50,7966
100,0000
60,7360
56,1194
50,9661
70,8412
Mineração de textos
• Decomposição em Valores Singulares
Singular values
40
35
Singular value % explained
30
25
20
15
10
5
0
1
2
3
4
Component
5
6
7
Mineração de textos
• Classificação Não Supervisionada
Cluster members (binario)
Number of clusters: 2
Total number of training cases: 8
Final
desenvolvimento
Case No. classification
profissional
1
1
2
2
3
2
4
2
5
2
6
2
7
2
8
2
curso professor engenharia
1
0
0
0
0
1
1
0
0
0
1
0
0
1
1
0
0
0
0
0
0
0
0
1
programas
0
0
1
0
0
0
0
0
tecnologia
0
0
0
0
1
0
0
0
vendas
0
0
1
0
0
0
0
0
viagem
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
Distance to
centroid
2,000000
2,000000
0,000000
1,732051
2,000000
1,732051
1,732051
2,000000
Mineração de textos
Academia de Desenvolvimento Profissional e Organizacional
Como evitar riscos com a TERCEIRIZAÇÃO
24 e 25 de Outubro de 2007
Elegemos uma equipe de profissionais capacitados para debater sobre
os aspectosestratégicos, legais e burocráticos da terceirização.
Saiba como sua empresa pode obter maior produtividade, com menor
risco além de altos níveis de competitividade com a Terceirização.
Serão abordados, entre outros, temas como:
Como identificar uma terceirização ilícita
A competitividade através do outsourcing
A visão do judiciário com relação ao trabalho terceirizado
Prevenindo riscos trabalhistas decorrentes da terceirização
Como minimizar riscos na contratação e gestão de prestação de
serviços de terceiros
Participação Especial:
GRAN SAPORE BRASIL SA
CSN – COMPANHIA SIDERURGICA NACIONAL
ADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E
MARKETING DO BRASIL
SOLICITE PROGRAMAÇÃO COMPLETA!
Informe-se por e-mail
ou ligue 11 3031-6777
Se deseja excluir seu email de nosso mailing, CLIQUE AQUI
Mineração de textos
f1: deposit the cash and check in the bank
f2: the river boat is on the bank
f3: borrow based on credit
f4: river boat floats up the river
f5: boat is by the dock near the bank
f6: with credit, I can borrow cash from the bank
f7: boat floats by dock near the river bank
f8: check the parade route to see the floats
f9: along the parade route
Mineração de textos
1
the
1
2
3
4
5
6
7
8
9
2
cash
2
2
0
1
2
1
1
2
1
3
check
1
0
0
0
0
1
0
0
0
4
bank
1
0
0
0
0
0
0
1
0
5
river
1
1
0
0
1
1
1
0
0
6
boat
0
1
0
2
0
0
1
0
0
7
be
0
1
0
1
1
0
1
0
0
8
on
0
1
0
0
1
0
0
0
0
9
borrow
0
1
1
0
0
0
0
0
0
10
credit
0
0
1
0
0
1
0
0
0
1-2 do que 1-3
11
float
0
0
1
0
0
1
0
0
0
12
by
0
0
0
1
0
0
1
1
0
13
dock
0
0
0
0
1
0
1
0
0
14
near
0
0
0
0
1
0
1
0
0
15
parade
0
0
0
0
1
0
1
0
0
16
route
0
0
0
0
0
0
0
1
1
0
0
0
0
0
0
0
1
1
17
parade
route
0
0
0
0
0
0
0
1
Mineração de textos
Projection of the cases on the factor-plane ( 1 x 2)
Cases w ith sum of cosine square >= 0,00
5
4
3
6
3
Factor 2: 25,10%
2
1
2
1
0
4
7
-1
5
9
-2
8
-3
-4
-5
-5
-4
-3
-2
-1
0
1
Factor 1: 32,49%
2
3
4
5
6
Active
Download

Mineração de textos - Instituto de Matemática