Curso de Pós-Graduação em Engenharia da Informação
Dissertação de Mestrado
RAFAEL ANTONANGELO MOLINA
COMUNICAÇÃO DE CATÁSTROFES: MODELAGEM
LINGUÍSTICA DE RELATOS SOBRE O TERREMOTO DO HAITI
E CHILE
Santo André - SP
2012
Curso de Pós-Graduação em Engenharia da Informação
Dissertação de Mestrado
RAFAEL ANTONANGELO MOLINA
COMUNICAÇÃO DE CATÁSTROFES: MODELAGEM
LINGUÍSTICA DE RELATOS SOBRE O TERREMOTO DO HAITI
E CHILE
Trabalho apresentado como requisito parcial para
obtenção do título de Mestre em Engenharia da
Informação, sob orientação da Professora
Doutora Margarethe Born Steinberger-Elias.
Santo André - SP
2012
Nome: MOLINA, Rafael Antonangelo
Título: Comunicação de Catástrofes: Modelagem Linguística de relatos sobre o terremoto do
Haiti e Chile.
Trabalho
apresentado como
requisito
parcial
para
obtenção do título de Mestre em Engenharia da
Informação
Exame Realizado em:
Banca Examinadora
Prof. Dr. _____________
Instituição: ______________
Julgamento: ___________
Assinatura: ______________
Prof. Dr. _____________
Instituição: ______________
Julgamento: ___________
Assinatura: ______________
Prof. Dr. _____________
Instituição: ______________
Julgamento: ___________
Assinatura: ______________
Este exemplar foi revisado e alterado em relação à versão original, de acordo com
as observações levantadas pela banca no dia da defesa, sob responsabilidade única
do autor e com a anuência de sua orientadora.
Santo André, 26 de Agosto de 2012.
Assinatura do autor:_________________________________________________
Assinatura da orientadora:____________________________________________
Agradecimentos
Agradeço a Deus, que por intercessão do Divino Espírito Santo me iluminou pelos
caminhos que segui até aqui.
Agradeço também a minha orientadora Profa. Dra. Margarethe Born SteinbergerElias que por meio de longas discussões e conversas sempre me mostrou novas
alternativas e caminhos, novas visões sobre um mesmo problema e suas
abordagens. Neste agradecimento a minha orientadora cabe também a
oportunidade que me proporcionou com este projeto, em termos de formação e
realização pessoal.
À UFABC pela oferta de um ambiente acadêmico tão rico em trânsito de
conhecimento que muito contribuiu para meu ingresso e execução de projeto neste
mestrado.
À minha família (meu pai Isaque de Paiva Molina, minha mãe Rosely Antonangelo
Molina e minha irmã Isabella Antonangelo Molina) que sempre me deu a base para
tudo que busquei, por meio de conversas, compartilhamento de opiniões,
compreensão, ajuda com a rotina imposta pela necessidade da execução do projeto,
apoio, carinho e amor. Não tenho dúvidas que, sem esta base familiar maravilhosa
que recebi, não estaria em condições de sequer ingressar em um programa de
mestrado.
À minha namorada Juliana Sá Teles de Oliveira por todo o apoio que me deu
durante a execução dos trabalhos de mestrado, verdadeiramente se envolvendo e
mesmo frequentando eventos da área comigo, pelo simples prazer de estarmos
juntos. Por ter me ajudado com leituras e com confiança sobre meu trabalho, por me
ouvir em momentos de dificuldades, sendo minha companheira, cúmplice de
dilemas, dúvidas, alegrias e conquistas. Por todo amor que sempre me proporciona
e felicidade que traz a minha vida.
Aos meus amigos que se mostraram interessados com minhas atividades e
compreenderam minhas ausências decorrentes destas.
Obrigado a todos que se sintam felizes com esta minha conquista!
Esta dissertação contou com o suporte financeiro da Fundação Universidade
Federal do ABC (UFABC) e da Coordenação de Aperfeiçoamento de Pessoal de
Nível Superior (CAPES).
"Comunicação é mais que informação; informação subsidia,
atualiza, nivela conhecimento. A comunicação sela pactos e
educa"
Emílio Odebrecht
“Parece-me que na escala das medidas universais há um
ponto em que a imaginação e o conhecimento se cruzam, um
ponto em que se atinge a diminuição das coisas grandes e o
aumento das coisas pequenas: é o ponto da arte.”
Vladimir Nabokov
“Pois quando a sabedoria entrar no teu coração, e o
conhecimento for agradável à tua alma,
O bom siso te guardará e a inteligência te conservará.”
Salomão
“Posso todas as coisas em Cristo que me fortalece.”
Filipenses, 4:13
Resumo
Este trabalho faz parte de um esforço mundial para integração de informações sobre
catástrofes naturais. Bancos de dados sobre ocorrências na América Latina ainda
não estão integrados ao ponto de garantir uma comunicação rápida e eficiente em
situações de emergência. Alguns gargalos estão na representação, organização e
recuperação das informações. Buscou-se nesta pesquisa compreender como são
representadas em língua portuguesa as informações sobre ações emergenciais de
prestação de ajuda em períodos pós-catástrofe. Assumiu-se com Steinberger que o
espaço de atuação das entidades que prestam auxílio pode ser tratado como o de
um sistema social e, portanto, como um sistema comunicativo. Partiu-se então da
hipótese de que a modelagem linguística de relatos noticiosos sobre desastres não
só permite identificar automaticamente as entidades que participam dos socorros,
como também cria condições para recuperar, através de redes discursivas, o
conhecimento a elas associado que seja relevante para a comunicação de
emergência. A análise tomou-se os terremotos do Haiti e Chile (2010) como
referência
e
aplicou
métodos
de
modelagem
linguística
e
técnicas
de
Processamento de Informação em Línguas Naturais (PLN) a um corpus de notícias
do jornal Folha de S.Paulo.
Buscou-se identificar os fluxos de comunicação
envolvendo entidades e compor redes léxico-semânticas representativas de suas
ações. Com apoio de ferramentas computacionais adaptadas para a representação
estruturada de ações por meio de etiquetas externas (VISL) dentro do pacote
Natural Language Toolkit (NLTK), o resultado principal foi a geração automática de
redes descritivas sobre o cenário geral da catástrofe e sobre a atuação de entidades
assistenciais no momento pós-catástrofe. Com o apoio adicional de métricas
próprias da análise de redes sociais, também tornou-se possível comparar o papel
das entidades nos dois terremotos estudados.
Palavras-chave:
Modelagem
Linguística;
informação jornalística; terremotos; Português
PLN;
comunicação
de
desastres;
Abstract
This research work is part of a worldwide effort to integrate information about natural
disasters. Databases on events in Latin America are not yet integrated to the point
they can ensure fast and efficient communication in emergency situations. Some
bottlenecks must be fixed in representation, organization and retrieval of information.
Here we sought to understand how emergency actions that provide assistance in
post-disaster can be represented in Portuguese. It was assumed with Steinberger
that the aid space of entities can be treated as a social system and, therefore, as a
communicative system. Following Steinberger hypothesis, language modeling
of
news reports on disasters not only would allow to automatically identify entities that
participate in the aid, but also would create conditions to recover, through discourse
networks, associated knowledge that is relevant for emergency communication. The
analysis took the earthquakes in Haiti and Chile (2010) as reference to apply
language modeling methods and techniques of Natural Language Processing (NLP)
to a corpus of news stories from Folha de S. Paulo. We sought to identify
communication flows involving entities and to compose lexical-semantic networks
representing their shares. We adapted computational tools to generate structured
representation of actions by external tags (VISL) inside the package Natural
Language Toolkit (NLTK). The main result was the automatic generation of
descriptive networks on the overall picture of the disaster and on the role of charities
in the post-disaster. It also became possible to compare the role of entities in the two
earthquakes studied with additional support of metrics of social network analysis.
Keywords: Language Modeling; NLP; disaster communication; news stories
information; earthquakes; Portuguese
Lista de figuras
Figura 1. Níveis entre Text e Meaning [11].
16
Figura 2. Correspondência entre lexemas e significados [11].
16
Figura 3. Perfil acumulativo de número de reportagens do Haiti dentro dos períodos
especificados.
32
Figura 4. Distribuição de reportagens do Haiti por seções.
32
Figura 5. Perfil acumulativo de número de reportagens do Chile dentro dos períodos
especificados.
33
Figura 6. Distribuição de reportagens do Chile por seções.
33
Figura 7. Desambiguando entidades para exemplos.
39
Figura 8. Mapeamento de conhecimento para exemplo da Cruz Vermelha.
40
Figura 9. Grafo conceitual para exemplo de Cruz Vermelha.
41
Figura 10. Perfil acumulativo das 200 palavras mais frequentes no corpus do Haiti.
50
Figura 11. Extração de Informação partindo de texto bruto até uma lista de tuplas do
tipo (entidade, relação de entidade) [10].
55
Figura 12. Rede VP para o Haiti.
80
Figura 13. Rede VP clusterizada pelo algoritmo 1 para o Haiti.
82
Figura 14. Rede VP clusterizada pelo algoritmo 2 para o Haiti.
84
Figura 15. Rede VE para o Haiti.
86
Figura 16. Rede VE clusterizada pelo algoritmo 1 para o Haiti.
88
Figura 17. Rede VE clusterizada pelo algoritmo 2 para o Haiti.
89
Figura 18. Rede VP para o Chile.
92
Figura 19. Rede VP clusterizada pelo algoritmo 1 para o Chile.
93
Figura 20. Rede VP clusterizada pelo algoritmo 2 para o Chile.
95
Figura 21. Rede VE para o Chile.
97
Figura 22. Rede VE clusterizada pelo algoritmo 1 para o Chile.
98
Figura 23. Rede VE clusterizada pelo algoritmo 2 para o Chile.
100
Figura 24. Rede VPS para o Haiti.
103
Figura 25. Rede VEA para o Haiti.
105
Figura 26. Rede VPA para o Haiti.
107
Figura 27. Rede VPS para o Chile.
109
Figura 28. Rede VEA para o Chile.
111
Figura 29. Rede VPA para o Chile.
113
Lista de tabelas
Tabela 1. Trecho de estruturação de dados sobre corpus do terremoto do Haiti em
planilha eletrônica.
31
Tabela 2. Reportagens para exemplificar objetivo e método de pesquisa.
35
Tabela 3. Marcação de entidades e ações.
36
Tabela 4. Categorizando ações por entidades
40
Tabela 5. Dados de aplicações de filtros sobre 100 primeiras ocorrências em frequência.
44
Tabela 6. Dados de aplicações sobre frequências de collocations.
48
Tabela 7. Dados sobre 63 collocations entre bigramas e trigramas.
51
Tabela 8. Busca de raízes nas 200 palavras mais frequentes.
52
Tabela 9. Sentença original e etiquetada que exemplifica anotação “PROP”.
66
Tabela 10. Etiquetas semânticas e seus dados.
59
Tabela 11. Trecho representativo de matriz de cruzamento de ocorrência entre itens
lexicais marcados por etiquetas semânticas e textos do corpus Haiti.
73
Tabela 12. Trecho representativo de matriz de cruzamento de ocorrência entre itens
lexicais marcados por etiquetas semânticas e arquivos com sentenças de etiquetas
semânticas.
73
Tabela 13. Trecho representativo de matriz de cruzamento de ocorrência entre itens
lexicais marcados por PROP e textos do corpus Haiti.
74
Tabela 14. Trecho representativo de matriz de cruzamento de ocorrência entre itens
lexicais marcados por PROP e arquivos com sentenças de etiquetas semânticas.
74
Tabela 15. Valores de números de itens lexicais utilizados na composição de redes.
77
Tabela 16. Métricas de rede VP.
80
Tabela 17. Métricas para rede VP clusterizada pelo algoritmo 1 para o Haiti.
82
Tabela 18. Métricas para rede VP clusterizada pelo algoritmo 2 para o Haiti.
84
Tabela 19. Métricas de rede VE.
87
Tabela 20. Métricas para rede VE clusterizada pelo algoritmo 1 para o Haiti.
88
Tabela 21. Métricas para rede VE clusterizada pelo algoritmo 2 para o Haiti.
89
Tabela 22. Métricas de rede VP.
92
Tabela 23. Métricas para rede VP clusterizada pelo algoritmo 1 para o Chile.
94
Tabela 24. Métricas para rede VP clusterizada pelo algoritmo 2 para o Chile.
95
Tabela 25. Métricas de rede VE.
97
Tabela 26. Métricas para rede VE clusterizada pelo algoritmo 1 para o Chile.
99
Tabela 27. Métricas para rede VE clusterizada pelo algoritmo 2 para o Chile.
100
Tabela 28. Métricas para rede VPS para o Haiti.
103
Tabela 29. Métricas para rede VEA para o Haiti.
105
Tabela 30. Métricas para rede VPA para o Haiti.
107
Tabela 31. Métricas para rede VPS para o Chile.
109
Tabela 32. Métricas para rede VEA para o Chile.
111
Tabela 33. Métricas para rede VPA para o Chile.
113
Tabela 34. Valores de Elementos mais Relevantes para Métricas para redes VP.
117
Tabela 35. Valores de Elementos com Valores Médios para Métricas das redes VP.
118
Tabela 36. Valores de Elementos mais Relevantes para Métricas para redes VE.
126
Tabela 37. Valores de Elementos com Valores Médios para Métricas das redes VE.
127
Tabela 38. Valores de Elementos mais Relevantes para Métricas para redes VPS.
133
Tabela 39. Verbos em Redes de Métodos Supervisionados.
134
Tabela 40. Valores de Elementos mais Relevantes para Métricas para redes VPA.
140
Tabela 41. Nomes Próprios em Redes VPA.
141
SUMÁRIO
1. INTRODUÇÃO
1.1. Tema
1.1.1. Tema Específico
1.2. Delimitação de Problema
2. FUNDAMENTAÇÃO TEÓRICA
01
2.1. Processamento de Linguagem Natural
2.2. Modelagem em Linguagem Natural
2.3. Aplicação de Estatística sobre Modelagem Linguística
2.4. Modelos de Difusão de Informação e Conhecimento
2.5. Pesquisas sobre Interações Sociais e Desastres
3. METODOLOGIA
3.1. Composição do Corpus
3.2. Demonstração de metodologia frente ao objetivo
3.3. Aplicação de NLTK
3.3.1. Descrição do Corpus do Haiti
3.3.2. Trabalho com Collocations
3.3.3. Tratamento de Unidades Léxico-Semânticas
3.3.4. Etiquetagem de Corpus
4. RECONHECIMENTO DE ENTIDADES MENCIONADAS
4.1. Origem e Definições
4.2. Aplicação sobre Temas Diversos
4.3. Trabalhos em Diferentes Línguas
4.4. NER por Etiquetas nos Corpora de Trabalho
4.4.1. Etiqueta PROP
4.4.2. Etiquetas Semânticas
4.4.3. Verbos
4.4.4. Busca por Resultados para Análise
5. RESULTADOS
5.1. Método Não Supervisionado
5.1.1. Haiti
5.1.1.1.Rede VP
5.1.1.2. Rede VE
08
5.1.2. Chile
91
02
05
05
08
14
18
20
26
29
30
35
42
43
46
50
54
57
57
61
63
65
67
68
71
72
78
79
79
79
86
5.1.2.1. Rede VP
5.1.2.2. Rede VE
5.2. Método Supervisionado
5.2.1. Haiti
5.2.1.1. Rede VPS
5.2.1.2. Rede VEA
5.2.1.3. Rede VPA
5.2.2. Chile
5.2.2.1. Rede VPS
5.2.2.2. Rede VEA
5.2.2.3. Rede VPA
6. DISCUSSÃO
6.1. Método Não Supervisionado
6.1.1. Redes VP
91
96
101
102
102
104
106
108
109
110
112
114
114
115
6.1.1.1. Agrupamento
6.1.2. Redes VE
6.1.2.1. Agrupamento
6.2. Método Supervisionado
119
6.2.1. Redes VPS
6.2.2. Redes VEA
6.2.3. Redes VPA
7. CONCLUSÃO
8. REFERÊNCIAS BIBLIOGRÁFICAS
APÊNDICE A – Comandos para Corpus Chile em Método Não
Supervisionado
APÊNDICE B – Comandos para Corpus Haiti em Método Não
Supervisionado
131
APÊNDICE C – Comandos para Corpus Chile em Método
Supervisionados
APÊNDICE D – Comandos para Corpus Haiti em Método
Supervisionados
APÊNDICE E – Metadados de textos do corpus do Chile com itens
lexicais mais frequentes em cada grupo de etiquetas
APÊNDICE F – Metadados de textos do corpus do Haiti com itens
lexicais mais frequentes em cada grupo de etiquetas
125
127
130
137
139
151
154
165
175
190
204
230
245
1. INTRODUÇÃO
Este trabalho toma como domínio a aplicação de uma modelagem, chamada
Modelagem Linguística, baseada no Processamento de Informação em Línguas
Naturais (PLN). A Modelagem Linguística é a proposta para a verificação de uma
hipótese de que a caracterização da atuação de entidades no momento póscatástrofe é possível por meio de busca de estruturação de informações e
conhecimentos
expressos
em
linguagem
natural,
dentre
as
modelagens
apresentadas neste trabalho. Esta escolha respalda-se na proposta de Steinberger
em aplicar a ciência de redes às redes de comunicação em situação de desastres
que, em sua dimensão Linguística, são por esta autora chamadas de redes
discursivas [84]. Ela propõe o uso de recursos de PLN para o estudo de redes
discursivas, baseando-se nos seus estudos em [83] de redes discursivas que se
evidenciaram em textos jornalísticos sobre os atentados terroristas de Onze de
Setembro. Assim, a constatação de que “uma representação de conhecimento é um
meio de expressão, isto é, uma linguagem na qual se pode dizer coisas sobre o
mundo. (...) Uma representação é a linguagem na qual nos comunicamos e, assim,
devemos ser capazes de falar sem esforço heroico.” [15] ganha desdobramentos
muito maiores que uma simples constatação, prevendo uso das chamadas
Tecnologias da Linguagem para respaldar o processo de organização de
informações não-estruturadas que é a linguagem [85].
A aplicação desta modelagem depende da definição de “estado de
informação”. Este é um conceito proposto por Steinberger em [85] para descrever a
dinâmica das formas Linguísticas nos fluxos de comunicação, sobre o qual se
assentam estudos sobre a definição de temáticas que representam a informação
estudada, identificação de variáveis que possam vir a afetá-la (e por consequência
afetar as relações entre nós na ideia de fluxo em rede) e tendências que podem ser
utilizadas para a identificação de estabelecimento de ligações ou fim de
determinados arcos [85]. Trata-se a modelagem, então, de aplicar uma metodologia
1
que atue sobre representações de conhecimento e estados de informação para a
construção de uma representação de inteligência social emergente utilizada na
organização de entidades assistenciais nos eventos estudados.
1.1. Tema
O ano de 2010 acumulou mais de 300 mil mortos em desastres naturais e um
prejuízo de 110 bilhões de dólares decorrente [19]. Catástrofes naturais de grande
impacto mobilizam governos, organismos internacionais, defesas civis locais,
voluntariado, entre outras entidades, na busca por soluções gerais de prevenção e
reestruturação pós-desastres. O tsunami que atingiu o sudeste asiático no fim de
2004 levou a realização da II Conferência Mundial sobre a Redução de Desastres
(promovida pela ONU em Kobe – 2005: renovação do Plano de Ação para um
Mundo mais Seguro e Declaração de Hyogo). O resultado foi a definição de um
programa de esforços para a busca, compartilhamento, interação e partilha de
informações entre países e regiões do globo [41].
De fato, a busca por meios de organizar a informação sobre desastres
naturais em nível global já vinha sendo tratada mesmo antes de tais definições. Em
2002 foi introduzido o GLIDE (identificador único desastre global), que torna o
sistema de construção de um banco de dados internacional de desastres em níveis
nacionais e intra-nacionais muito mais fáceis e mais transparentes, por meio de uma
definição internacional de codificação para a identificação destes [92][36]. A validade
de tal esforço está em buscar a integração, em um só banco de dados, informações
espaçadas sob diferentes organizações que usam nomes diferentes para mesma
catástrofe, tornando a busca mais difícil [92].
2
Dentro do espaço latino-americano, duas instituições possuem destaque no
que tange a integração de suas bases de dados à base GLIDE: a “Agência de
Gerenciamento de Emergências em Desastres no Caribe” (Caribbean Disaster
Emergency Management Agency – CDEMA) e “A Rede de Estudos Sociais em
Prevenção de Desastres na América Latina” (La Red de Estudios Sociales en
Prevención de Desastres en América Latina - La Red). O CDEMA é a entidade da
região do Caribe de gestão de desastres anteriormente conhecido como CDERA
(Agência de Resposta a Emergência em Desastres Caribenhos), sendo a mudança
ocorrida em 2009 de forma a delegar a esta instituição o uso de princípios e práticas
da Gestão Global de Desastres (MDL), que visa reduzir os riscos e perdas
associados a riscos naturais e tecnológicos e os efeitos da mudança climática para
promover o desenvolvimento regional sustentável [18]. Já o La Red foi criado em
1992 por 16 especialistas em desastres de diversas instituições governamentais,
ONGs e universidades em sete países (Brasil, Canadá, Colômbia, Costa Rica,
Equador, México e Peru), funcionando como ponto de encontro para centenas de
pessoas e instituições envolvidas na gestão de riscos e catástrofes em países
diferentes América Latina e no Caribe, além de outras latitudes, e proporcionando,
portanto, uma referência essencial para a investigação, informação, educação,
formação e desenvolvimento de iniciativas políticas relacionadas com a questão do
desastre [45].
O La Red é reconhecido como pelo relatório “Redução do risco de desastres:
um desafio para o desenvolvimento”, elaborado pelo Programa das Nações Unidas
para o Desenvolvimento (PNUD) como uma das redes de reforço de capacidades
internacional, representando a atuação latino-americana [92]. Um de seus projetos,
o Sistema de Inventário de Desastres (DesInventar), é apontado neste mesmo
trabalho como uma das três iniciativas em nível nacional de composição de banco
de dados [92][45]. O DesInventar, criado em 1994, tem seus dados obtidos a partir
da mídia e bancos de dados existentes em agências governamentais, com
verificação em nível nacional para garantia de consistência [92].
O relatório elaborado pelo PNUD coloca, porém, que o desafio de
uniformidade entre as bases de dados permanece ao se observar o DesInventar,
3
limitando a capacidade para comparações internacionais [92] e ressalta que, no que
diz respeito à situação de bases de dados na América Latina e o Caribe, “Bases de
dados de desastres nacionais têm uma cobertura relativamente boa na América
Latina e no Caribe, ainda que menor se comparada a de outras regiões. (...)
apresentação regular de perdas econômicas em situações de desastre é irregular e
não confiável. Problemas de compatibilidade de dados e definições são abundantes.
No entanto, o potencial de melhorar a informação sobre risco (...) é tão grande que é
claro que esta é uma área em que grandes investimentos são justificados e
necessários” [92].
Em contrapartida, um documento lançado pelo Centro de Pesquisa sobre
Epidemiologia dos Desastres (CRED – criado em 1971 e centro colaborador da
Organização Mundial da Saúde desde 1980), o “Annual Disaster Statistical Review
2009”, aponta a presença de países como Brasil, México, Guatemala, Peru,
Honduras, El Salvador e Costa Rica entre os países com maiores ocorrências de
vítimas frente a fenômenos geofísicos, hidrológicos, meteorológicos e climatológicos,
de acordo com a classificação de desastres naturais dada pela EM-DAT (base de
dados mundial sobre catástrofes que contém dados básicos essenciais sobre a
ocorrência e impacto de mais de 18 mil desastres no mundo desde 1900 até os dias
de hoje, criada pelo CRED em 1988) [97]. Este mesmo documento revela que,
embora o número de catástrofes tenha diminuído em relação à média dos anos
2000-2008, seus efeitos econômicos e em número de pessoas vitimadas cresceu
[97].
Isto demonstra, então, que existe uma necessidade latente de estruturação de
dados de maneira a permitir tal integração, comportar o grande volume de
informação necessária a qualquer ação que tome por base tais registros e que
possa ser continuamente abastecida por novas cargas de dados, convergindo para
uma estruturação comum. Tal estruturação deve focar na atuação de entidades no
desastre natural, minimizando os efeitos adversos crescentes apontados acima.
4
1.1.1. Tema Específico
O terremoto ocorrido no Haiti em 12 de janeiro de 2010, que matou mais de
220 mil pessoas, e o do Chile em 26 de fevereiro do mesmo ano (mais de 700
mortos), demonstram a necessidade de superação dos problemas apontados acima
quanto a integração de formas de representação de informações em desastres
naturais na América Latina. A atuação de entidades assistenciais e a forma como se
organizaram à medida que as necessidades apareciam, e não de acordo com um
planejamento prévio de ação, evidenciou a falta de um mecanismo capaz de
compatibilizar ações em ambos os casos. Esta situação serve para ilustrar o que é o
conceito de Inteligência Social, isto é, uma inteligência repartida entre instâncias do
coletivo social, valorizada constantemente, coordenada no tempo real, que conduz a
uma mobilização efetiva das competências [46][94]. Nesta perspectiva, onde o social
é tomado como coletivo e a inteligência social é a inteligência coletiva, dois ou mais
indivíduos independentes coletam informações que são processadas através da
interação social e fornecem a solução de um problema que não estaria disponível
individualmente [43]
1.2. Delimitação de Problema
O que se busca, então, é um retrato destas ações que organize a informação
sobre estes eventos, entendendo que para isto se deve modelá-los como
expressões de inteligência social e, por consequência, tomando o espaço de
atuação de entidades como um sistema social, pela definição de Maturana
“membros de um conjunto de seres vivos que constituem com sua conduta uma rede
5
de interações que opera como meio para que existam como seres vivos e
conservem sua organização e adaptação, participando de uma co-deriva contingente
à rede de interações da qual fazem parte” [54].
A escolha pelos terremotos se deve à busca de uma estruturação da nova
dinâmica de informações sobre estes, emergente nos casos delimitados na
subseção de tema específico. Esta dinâmica se caracterizada por ampla difusão em
todo o globo de conhecimentos acerca da catástrofe e mobilização expressiva de
entidades de todo o mundo no auxílio após o ocorrido. Outra questão levada em
conta foi a persistência de limitações técnicas que impedem uma previsão deste tipo
de desastre, com a antecedência necessária para atenuar seus impactos. O máximo
que se pode, no momento, é realizar uma estimativa probabilística da ocorrência de
terremotos frente à disponibilidade de alguns sinais, como Dehbozorgi e Farokhi
demonstram em [26], onde um classificador fuzzy em uma arquitetura de rede neural
é treinado por meio de sinais de teste (vapores e gases emitidos pela atividade
sísmica) filtrados e caracterizados quantitativamente, chegando a uma precisão de
82,8571%, 5 minutos antes da ocorrência, dentro destas condições. Já Zuji et al.
apresentam em seu estudo um panorama em que, dentro de 11 anos (a contar da
publicação do artigo em 2009), será possível realizar previsões de curto prazo para
a ocorrência de terremotos por meio de um sistema de monitoramento remoto por
satélite que captam radiação térmica infravermelha, derivada também de sinais
emitidos previamente pela atividade sísmica latente [101].
Steinberger mostra que a configuração do espaço geográfico tem uma
contrapartida simbólica em campos de estruturação de discurso [83]. Dentro de um
espaço definido, segundo Steinberger [84], o estudo desses fenômenos pode então
assumir diferentes vertentes: de cunho histórico (tentando entender como diferentes
povos, em diferentes períodos, interagiam com as catástrofes naturais, por meio de
relatos e registros), tecnológica (levantando-se que meios de propagação de
informação
têm
sido
relevantes
para
a
transmissão
de
informações
e
conhecimentos, remetendo as tecnologias de informação e comunicação – TICs), de
gestão (preocupada em integrar e coordenar os fluxos de comunicação para a
obtenção de melhores resultados), documental (preocupada em entender como se
6
dão os registros e documentações técnicas, para fins de padronização, por exemplo)
e comunicativa (podendo ser retratada pelos fluxos de conhecimento através de
arcos e promotores/receptores como nós, isto é, uma representação em rede –
conjunto de dispositivos interligados uns aos outros [99], sobre os quais é possível a
determinação de regras de relacionamento). Para o estudo de comunicação em
situações de desastres, Steinberger propõe em [84] a adoção da Ciência de Redes
criadas por Duncan Watts. Assim, a hipótese assumida por esta pesquisa é de que é
possível caracterizar com aplicações de Processamento de Linguagem Natural e
Linguística de Corpus as ações emergenciais e as entidades associadas a estas
ações, gerando automaticamente redes léxico-semânticas que representem o
campo da ação assistencial em uma catástrofe do tipo estudado.
O papel da Engenharia da Informação na caracterização destes registros é o
de fornecer métodos para o levantamento de registros e seu tratamento, de modo a
passar a informação e conhecimento ali embutidos de forma não estruturada a uma
organização que permita a visualização clara de entidades assistenciais e suas
ações frente a necessidades pós-catástrofe. Dito de outra maneira, que permita a
modelagem da expressão de inteligência social apresentada pelas ações de
entidades assistenciais para os casos dos terremotos do Haiti e Chile por meio de
Extração de Informação. Neste trabalho será adotado, então, um tratamento de
informação em formato de linguagem natural, partindo de dados não estruturados
(textos de notícias jornalísticas sobre o terremoto do Haiti e do Chile). Ao utilizar os
conceitos de aplicação desta Modelagem Linguística (melhor detalhada na
sequência) para demarcar a forma de tratamento e manipulação do levantado,
espera-se ter como resultado um retrato de uma rede dinâmica já presente de
entidades assistenciais (tais como as governamentais e centros de estudo, por
exemplo) e sua atuação por meio de ações no momento pós-catástrofe, no recorte
especificado de tempo. Este tipo de pesquisa fornece subsídios para a criação de
aplicativos capazes de organizar automaticamente planos de ação compatíveis com
as situações de desastres linguisticamente modelados. Apesar de se concentrar no
caso específico dos terremotos haitiano e chileno, o resultado pode ser utilizado em
outros terremotos de grande porte, ou mesmo outras tipologias de desastres
7
naturais que demandem atuação conjunta de entidades assistenciais no momento
pós-catástrofes. Assim, o trabalho ganha relevância não só no plano de atuações
em terremotos, mas também em eventos mais próximos a realidade brasileira, como
inundações, deslizamentos de terra e queimadas, muito embora terremotos em
menor escala ocorram no Brasil, como registra o Observatório Sismológico (Obsis),
do Instituto de Geociências da Universidade de Brasília [93]. E o projeto justifica-se,
tanto pela sua contribuição dentro do domínio específico de respaldo a ações dentro
do espaço social pós-catástrofe, como dentro do uso de conhecimentos pertinentes
ao programa de pós-graduação em Engenharia da Informação, concebido como
uma modelagem que busca caracterizar a inteligência social emergente em duas
situações pontuais de catástrofes naturais.
2. FUNDAMENTAÇÃO TEÓRICA
2.1. Processamento de Linguagem Natural
O Processamento de Linguagem Natural (PLN, NLP em inglês) é um campo
de pesquisa interdisciplinar que reúne competências da Linguística e da Informática
na aplicação de algoritmos de análise e geração de textos em um determinado
idioma (língua natural) com apoio de ferramentas computacionais [10]. Esta
definição pode ser tomada de forma simplificada, colocando PLN como qualquer tipo
de manipulação por computador de linguagem natural, desde uma contagem de
frequências de palavras para comparar diferentes estilos de escrita até busca pela
"compreensão" completa expressões humanas [49][78]. PLN também pode ser
8
tomado como um método computadorizado para análise de texto que se baseia em
um conjunto de teorias e um conjunto de tecnologias, isto é, uma gama de técnicas
computacionais, teoricamente motivada, para análise e representação natural de
textos em um ou mais níveis de análise Linguística para o fim de atingir seres
humanos como processamento de linguagem para uma série de tarefas ou
aplicações [78], tais como tradução automatizada de textos, melhoria na interação
homem-máquina no sentido de elevação da taxa de respostas satisfatórias,
compilação de texto em linguagem natural, sumarização de textos, extração e
recuperação de informação de um texto, entre outras [31]. A aplicação sobre uma
amostra de textos permite um trabalho sobre dados de frequência de expressões
com base na estatística. Aplicações quantitativas como estas permitem então a
obtenção de um modelo que represente de forma bastante satisfatória o real, já que
sua construção se condiciona a uma mensuração de como é o comportamento de
uma linguagem natural em um uso ou situação estudado. Sua utilização pode estar
em uma quantificação sobre a significância de determinadas expressões para um
conhecimento de uma localidade, determinando se esta expressão encontra-se no
corpus correspondente inserido de forma casual ou determinante para aquele
conhecimento.
Ao se falar em linguagem natural, restringe-se a atuação do PLN sobre a
linguagem que é usada para a comunicação diária pelos seres humanos (como
Inglês, Espanhol, Hindi, ou Português), excluindo, portanto, as chamadas línguas
artificiais, como as linguagens de programação (como Java, Python, C++ ou
Assembly) e notações matemáticas (como funções, equações de descrição de
eventos, sistema de coordenadas ou vetores) [10]. A diferença básica entre estes
dois tipos de linguagem está no caráter dinâmico mais preponderante das línguas
naturais frente às artificiais, bem como a dificuldade na definição de regras explícitas
para descrição do comportamento do primeiro tipo se comparado ao segundo.
A origem dos estudos em PLN está na busca por uma máquina de tradução
nos anos 1940, com o uso das rotinas de quebra de código inimigo desenvolvidas na
Segunda Guerra Mundial para este fim, baseadas em criptografia e teoria da
informação [78]. Trabalhos a partir daí começaram a adotar a transição de uma
9
língua para outra como uma questão de similaridade de vocabulário e ordem de
palavras, quem considerar questões como a ambiguidade de palavras, por exemplo,
o que não permitiu o alcance de grandes resultados. Somente em 1957, com a
publicação de Noam Chomsky (Syntactic Structures) que introduziu a chamada
gramática gerativa, que determina agrupamentos sintáticos permissíveis em uma
língua por um falante nativo [78]; as pesquisas começaram a estruturar uma base
mais sólida para se apoiar, além de permitir o surgimento de outras áreas, como a
de reconhecimento de sentenças [49]. Foi também neste período que os trabalhos
em PLN irão contrapor-se em dois extremos: a gramática gerativa e a Linguística
teórica (de Chomsky) em oposição aos métodos estatísticos e a teoria da
informação estatística (formalizados mais tarde por Michael Halliday, sob uma
tradição empirista [78]). Alinhada as pesquisas em Inteligência Artificial Forte
(representação da máquina como pessoa), alguns destes princípios se sintetizaram
sobre experimentos emblemáticos, como o ELIZA (de Joseph Weizenbaum, 1966),
que simulava, por meio de uma máquina, um psicanalista, na tentativa de, ao utilizar
a linguagem própria deste profissional, levar um "paciente" a entender a máquina
como uma pessoa real.
Devido a um corte de financiamento no ano de 1966, já que o aplicado até
então não obteve retornos significativos, as pesquisas em PLN reduziram-se
bastante dentro dos EUA [78]. Ainda sim, houve avanços nas questões ligadas a
representação de significado e desenvolvimento de soluções computacionais. Porém
a grande questão é que até este momento os estudos estavam muito orientados
pela sintaxe, o que impedia, a principio, abordagens semânticas, o que reverteu
mais tarde para a busca de explicações de anomalias sintáticas pela construção de
representações semânticas [78]. Os anos 1970 apresentaram pesquisas que
abordaram questões semânticas, fenômenos de discurso e relações deste com
tarefas e planos de comunicação, além da geração automática de respostas por
máquina pelo uso de respostas curtas. O avanço tecnológico e consequente
disponibilidade de recursos computacionais presentes a partir dos anos 1980
permitiu o aumento de pesquisas em PLN (bem como de outras pesquisas ligadas a
sistemas inteligentes por meio da corrente de Inteligência Artificial Fraca, que
10
explora a capacidade de processamento do computador para tarefas maçantes ao
ser humano), havendo uma aproximação no sentido de complementação entre as
correntes estatística e simbólica [78]. Desde então, o aumento vertiginoso no
número de textos eletrônicos, melhores recursos computacionais e surgimento da
Internet têm permitido explorar cada vez mais o PLN, precisando para isto lançar
mão de uso de estatística (para permitir a análise de grande número de textos),
etiquetadores (estruturando sintaticamente a sentença por etiquetas que remetem a
partes típicas catalogadas, diminuindo ambiguidades e permitindo lidar com a
variabilidade semântica) [49] [78].
Existem entraves à aplicação plena de PLN, onde atuam as várias pesquisas
do gênero. Os gargalos na aplicação deste campo de pesquisa em geral se ligam a
questões de ambiguidade de textos, complexidade no processamento neural de
informações,
não-concordância
entre
termos
em
traduções,
distinção
de
informações implícitas em uma mensagem, uso do conhecimento para definição de
uma informação, diferenciação de nuances referentes a estados de humor do
interlocutor, diferentes abordagens das regras gramaticais são algumas das
dificuldades enfrentadas. Entretanto, existem já métodos de aplicações provenientes
de PLN que garantem certa robustez em análises, métodos estes levados em conta
para a proposta deste trabalho.
Em termos de Informática, o que se tem de presente é a forma de
manipulação dos dados provenientes dos registros que se estuda. O uso de
programação para análises linguísticas e elaboração de gráficos e redes permite a
manipulação de um volume grande de dados, o que não seria possível ou viável
através de análises manuais. Já a Linguística se faz presente nos estudos de PLN
com a “etiquetação” de expressões de forma que padrões sintáticos sejam definidos
e, a partir disto, análises semânticas possam ocorrer através de, por exemplo,
identificação de qual “etiqueta” encabeça o sentido de uma sentença [49]. A
composição da amostra sobre a qual as análises atuam e o uso intensivo de
estatísticas para extração de informações também são parâmetros de PLN advindos
da Linguística.
11
A Linguística como ciência estrutura-se pela atuação conjunta de muitos subcampos de pesquisa, onde a Linguística geral ocupa posição central e há interface
entre sub-campos como Psicolinguística e Matemática, por exemplo [11].
A
Linguística Computacional é a parte da ciência linguística que se preocupa com o
tratamento computacional da linguagem natural. A
ênfase maior recai sobre o
estudo de fenômenos linguísticos e sua ocorrência em grandes amostras de uma
determinada língua ou de uma variedade, dialeto ou modalidade Linguística,
encontrando aplicações que englobam programas como tradutores automáticos,
chatterbots, corretores ortográficos e gramaticais, parsers, entre outros [85]. Em uma
simplificação que auxilia na definição de ações e histórico evolutivo, a Linguística
Computacional é tomada como Processamento de Línguas Naturais (PLN) e estes
como subsistemas que auxiliam a Inteligência Artificial [11].
Um dos métodos de Linguística Computacional é a aplicação da chamada
Linguística de Corpus [84]. A Linguística de Corpus baseia-se no uso de corpora
computadorizados (coletâneas de textos, escritos ou de transcrições de fala,
mantidas em arquivo de computador) [78]. Corpus é um conjunto de dados
linguísticos,
sistematizados
segundo
determinados
critérios,
suficientemente
extensos em amplitude e profundidade, de maneira que sejam representativos da
totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo
que possam ser processados por computador, com a finalidade de propiciar
resultados vários e úteis para a descrição e análise [78]. O trabalho com corpus
aponta como requisitos básicos a capacidade de processamento em nível de
hardware, definição concisa do corpus ou dos corpora (amostra representativa,
extraída e trabalhada através de fontes de etiquetagem relevantes e balanceadas,
de forma que “cubra” os valores do discurso analisado) e uso de softwares que
deem suporte a uma análise como esta (trabalhando com expressões regulares
dentro de linguagens regulares e fazendo uso de recursos de editores de texto
eletrônicos) [49]. A Linguística de Corpus ocupa-se, então, da coleta e exploração de
corpus/corpora, ou conjuntos de dados linguísticos textuais tratados com rigor e
geralmente em grande escala, com o propósito de servirem para investigar uma
12
língua ou variedade Linguística [78].
Como tal, dedica-se à exploração da
linguagem por meio de evidências empíricas, extraídas por computador [78].
A análise de um corpus com tal volume de informação é inviável
manualmente, exigindo PLN e aplicações computacionais , o que garante rigor (e
robustez) à análise, além de eliminação de parcialidades inerentes a análises
manuais. Mesmo guiada por critérios bem definidos, a variabilidade de suas
aplicações não pode ser calculada na máquina pela aplicação de uma rotina padrão
Isto delimita os recursos e funcionalidades do software de execução, como é o caso
do NLTK aplicado nesta pesquisa. Para a caracterização e o mapeamento de ações
de entidades assistenciais, o software escolhido foi o pacote NLTK, que realiza o
processamento de linguagem natural em Python (linguagem de programação
excelente funcionalidade para processamento de dados linguísticos) [10]. NLTK foi
concebido em 2001 como parte de um curso de Linguística Computacional no
Departamento de Ciência da Computação e Informação da Universidade da
Pensilvânia [10]. Devido a seu caráter de software aberto e gratuito, tem sido
desenvolvido e ampliado com a ajuda de dezenas de colaboradores, pelo seu uso e
concepção de módulos de análise linguística. Cada funcionalidade se concentra na
execução de um módulo por meio de linhas de comando em Python digitadas em
uma interface gráfica chamada Interactive DeveLopment Environment (IDLE). Entre
as funcionalidades que estes módulos permitem estão o acesso aos corpora,
processamento de strings, busca de collocations, etiquetagem morfossintática,
classificação, chunking, parsing, realização de interpretação semântica e obtenção
de métricas de avaliação, probabilidade e estimativas [10].
13
2.2. Modelagem em Linguagem Natural
Com o uso de recursos de PLN, Linguística Computacional e Linguística de
Corpus, é possível mapear linguisticamente domínios de conhecimento e modelos
de uso desse conhecimento para fins específicos, ou seja, construir uma modelagem
Linguística que promova uma investigação única sobre associações e preferências
de linguagem e mesmo sobre a indução de conhecimento por meio desta [49]. Na
verdade, esta linha de raciocínio segue a mesma lógica de linguagens estabelecidas
utilizadas para outras modelagens já conhecidas, tal como a aplicação da linguagem
de Diagramas Entidade-Relação ou UML para modelagens conceituais (descrição
concisa dos requisitos de dados dos usuários e de tipos entidades, relacionamentos
e restrições [30]) muito utilizadas em construção de bancos de dados. São exemplos
desta modelagem em linguagem natural os modelos neurolinguísticos (busca
relações entre o processo de comunicação em linguagem natural com as atividades
correspondentes a este evento no cérebro), modelos psicolinguísticos (investiga as
atividades da fala humana, incluindo a percepção e formação de expressões,
através de métodos da Psicologia) e modelos funcionais de linguagem (tomada da
linguagem natural como caixa preta testada ao modo de Turing por meio de
perguntas feitas pelo pesquisador e verificação das respostas de saída) [11].
Os modelos funcionais têm provado ser o modelo linguístico mais satisfatório,
por se basearem em dados reais, acessíveis e disponíveis, tomando como principal
método, além da observação de entradas e saídas, a intuição e introspecção, para a
representação do dispositivo de análise e de sintetização da linguagem natural a
partir do conhecimento de significado a ser expresso em texto escrito ou falado [11].
Assim, a linguagem natural é tomada como uma ferramenta para transformar uma
destas formas de representação na outra: significado em palavras quando se
fala/escreve e palavras em significado quando se ouve/lê [11]. A modelagem desta
ferramenta de transição iniciou-se com os trabalhos de Chomsky de Gramática
14
Gerativa [11]. A esta foi se acrescentando a adoção de regras de combinação
morfossintáticas na Gramática Livre de Contexto, a obtenção de frases
interrogativas e negativas por meio da afirmativa pela Gramática Transformacional, a
definição de Valências no cálculo de probabilidade de aparecimento ao
complemento de um verbo, e o uso de Restrições como de gênero e número na
complementação entre palavras em uma sentença [11]. Por fim, tal conceito
culminou na chamada Head-Driven Phrase Structure Grammar (HPSG) em que uma
palavra/expressão principal direciona toda a sentença como seu complemento,
como uma herança, e existe a ideia de composição de um dicionário HPSG em que,
para cada palavra, é fornecida a informação semântica que permite combinar os
significados de palavras separadas em uma estrutura coerente de conjunto
semântico [11]. Esta evolução histórica permite ver o início das modelagens
Linguísticas na busca por regras universais de geração de sentenças em linguagem
natural para modelos que passam a levar em conta a unidade mais primitiva de
informação semântica: o lexema. Por definição lexemas são diferentes formas de
expressão em linguagem de uma entidade comum, um conjunto que apresenta
significado semântico único, tais como “livros” e “livro”, ou “devolver”, “devolvo”,
“devolve” (e outras conjugações) [11]. O trabalho com lexemas impede a busca por
definições universais, já que estes se expressam em formas de palavras e seu
estudo se atrela, portanto, a amostras da linguagem natural estudada.
É com base nesta ideia que foi concebida a Meaning  Text Theory (MTT),
um sistema de representação sobre expressões (sentenças ou conjuntos destes)
apresentada como um conjunto de estruturas, que podem representar sete níveis
entre o significado (meaning) e o texto (text): o semântico (SemR) , o de
profundidade sintática (DSyntR), o de superfície sintática (SSyntR), os de
profundidade e superfície morfológica (DMorphR e SMorphR) e fonológica (DPhonR
e SPhonR) [55]. Estes níveis são representados na Figura 1, sem os detalhamentos
dos níveis de profundidade e superfície, mas sim tomando-se os macro níveis entre
Text e Meaning, apontando o fluxo de transição entre níveis que permite a
correspondência de um mesmo significado expresso por duas línguas diferentes.
15
Figura 1. Níveis entre Text e Meaning [11].
A transição entre estes níveis (que pela definição acima exposta é a própria
linguagem natural, aqui modelada pelo Meaning – Text Model) se dá por meio de
componentes que possuem como propriedades a boa formatação de regras no nível
de origem e no de destino. Propriedades também são reveladas por regras de
transição (os dois primeiros para checagem e a aplicação do último). Esta
delimitação da representação do lexema nos diferentes níveis e
as
formas de passar de uma apresentação a outra mantendo seu valor semântico exige
o uso de um léxico formal que expressa o lexema e suas ligações [55], em um
movimento de correspondência entre este léxico e seus significados, de forma não
exclusiva e multidirecional, como mostra a Figura 2.
Figura 2. Correspondência entre lexemas e significados [11].
16
Já Harris definiu restrições que explicitamente ligam estrutura Linguística com
regularidade distribucional envolvendo frequências de diferentes configurações
estruturais (gramática lexicalizada), onde cada restrição envolve converter escolhas
para a linguagem do usuário: definição de tipos para itens lexicais, escolhas léxicas
de acordo com a seleção de probabilidades, escolhas de redução de acordo com a
estatística distribucional e escolhas de linearização [72]. Tanto a gramática
lexicalizada quanto os bags-of-words (abordagem que usa as frequências de
palavras em documentos estudados para recuperação de informação) representam
associações estatísticas entre palavras e uma determinada configuração, de
modelam a linguagem como uma Linguística realista [72].
Dada a necessidade de uma modelagem que de conta da representação do
conhecimento e possibilite a recuperação de informações de um arranjo tipo ao
expresso pela atuação da Inteligência Social, emerge a chamada Modelagem
Linguística. Este é um método de tratamento da informação que prevê o estudo de
expressões Linguísticas por frequência e de suas conexões em redes semânticas a
partir de seus significados, partindo do pressuposto que a trajetória do conhecimento
em um domínio de saber é retratada através de linguagens (palavras, ou números,
ou imagens, ou códigos, etc.) [84].
Esta modelagem parte do pressuposto que a comunicação se dá
essencialmente por meio de linguagens bem estabelecidas para os envolvidos [84].
Assim, pode a modelagem atuar de forma a mapear um conhecimento por meio de
frequências lexicais e mensuração de ligações entre expressões, apontando
ligações entre temáticas de conhecimento e tendências de fluxo deste de forma
quantitativa por meio de cálculos estatísticos. O uso da estatística no PLN requer um
recorte de trabalho (delimitado pelo corpus). Seu uso está presente tanto na corrente
racionalista (ou gerativa) das teorias da linguagem como na corrente empirista. A
primeira envolve aplicação e descrição de uma competência linguística inata dos
falantes. A segunda envolve uma performance linguística, ou seja, descreve o uso
efetivo da linguagem em situações em que ela é afetada por limitações ou ambiente
externo [49], sugerindo que possa estar alinhada com o tipo de modelagem
praticada, por exemplo,
por Zellig Harris no sentido de estreitar a divisão
17
metodológica dos estudos linguísticos. A categorização de apresentações e de tipos
de sentença promove uma investigação única sobre associações e preferências de
linguagem e também sobre a indução de conhecimento por meio desta [49], tal
como buscado nesta pesquisa.. Dado que o conhecimento é expresso por meio da
linguagem, é rápido concluir que as identificações quantitativas levam a um
mapeamento mensurável do conhecimento, que pode ser então objetivamente
comparado a outro. Assim, este tipo de tratamento linguístico da informação pode vir
a alicerçar conclusões sobre como o conhecimento social se organiza a respeito da
situação narrada, isto é, como categoriza linguisticamente a experiência em
situações de desastres naturais.
2.3. Aplicação de Estatística sobre Modelagem Linguística
A estatística de frequência pode ter várias aplicações em modelagem
linguística, por exemplo,
para detectar concordanciação entre palavras. Nesta
aplicação, identificam-se etiquetagens possíveis para um termo de acordo com a
análise e distribuição de elementos gramaticais mais frequentes no entorno desse
termo de interesse (palavra, expressão lexical ou raiz) [49][78]. É possível calcular a
probabilidade de um evento condicionado à ocorrência de outro desde que o espaço
probabilístico de ambos os eventos analisados apresente intersecção.
Se os
eventos em questão forem tomados como ocorrência de expressões lexicais em
sentenças, pode-se validar estatisticamente a ocorrência de concordâncias como
eventos dependentes [49].
Pode-se, assim, investigar o aparecimento de expressões linguísticas que se
combinam e que probabilisticamente se encaixam em padrões reconhecidos como
18
recorrentes que recebem o nome de collocations. Um exemplo seria “Buenos Aires”,
onde a ocorrência de “Buenos” na cadeia linear de uma sentença pode ter alta
probabilidade de ser seguida pela ocorrência do item lexical “Aires”. As collocations,
entretanto, não se limitam a relações de contiguidade imediata apenas entre duas
expressões (é o caso de bigramas), podendo combinar também expressões a
intervalos regulares maiores ( n-gramas).
O teorema de Bayes permite calcular probabilidades de eventos dependentes
em uma dada ordem por meio de uma regra da cadeia própria de eventos com
probabilidades que se interceptam [49], o que permite calcular a probabilidade
condicional de um evento dada a ocorrência de outro (sendo também este outro
condicionado a uma probabilidade) [51]. Em geral, para que a construção de uma
sentença faça sentido, as palavras tendem a apresentar alguma dependência em
relação a elementos anteriores na cadeia linear [49].
A estatística não se limita a uma simples composição amostral. Sua principal
aplicação está em análises quantitativas pelo uso de coeficientes derivados das
frequências de expressões no corpus estudado. Sua utilização pode estar em uma
quantificação sobre a significância de determinadas expressões para um
conhecimento de uma localidade, determinando se esta expressão encontra-se no
corpus correspondente inserido de forma casual ou determinante para aquele
conhecimento.
Isto se dá pela determinação de significância tomando-se uma
probabilidade de erro de limiar típica de estudos linguísticos fixado em 0,05 e
fazendo uso de cálculos distributivos de t-student e seu índice qui-quadrado [16].
Pode-se ainda pensar no uso do coeficiente que distingue o crescimento linear de
tokens do curvilíneo de types e lemas. A diferença deste coeficiente K indica o quão
denso é o léxico para um contexto [16].
A busca de padrões em comportamentos discursivos associados a situações
de desastres pode facilitar na identificação da forma como a sociedade vê o
desastre. Assim, para narrar a ocorrência de um desastre é preciso que ele seja
categorizado linguisticamente de tal modo, que seu tipo e circunstâncias possam
revelar-se através desta etiquetagem. O arranjo de combinação entre os termos
19
presentes em uma sentença (sintaxe) e destes com termos ausentes que também
poderiam encaixar-se nas mesmas posições permite identificar relações de
dependência entre partes da sentença (regras semânticas). Isto sendo aplicado em
um corpus de textos jornalísticos sobre desastres, por exemplo, possibilita identificar
e descrever como o posicionamento de entidades assistenciais é descrito nesse
gênero de textos. Entidades como ONU, Cruz Vermelha ou Anistia Internacional
podem ser identificadas como nomes próprios, associados, por exemplo, às ações
que executam. A relação com as ações excecutadas por outras entidades ou
instituições permitirá detectar entidades que eventualmente estejam se ocupando da
mesma ação/ ações análogas. O uso desta metodologia permite colher dados de
relacionamento que permitam a estruturação de uma representação tabular de
relações a ser convertida em uma rede discursiva pelos programas cabíveis,
delineando a aplicação de Ciência de Redes à comunicação de desastres tal como
proposta por Steinberger [85].
2.4. Modelos de Difusão de Informação e Conhecimento
Os chamados Modelos de Difusão de Informação e Conhecimento são
representações de como se dá o fluxo de informações e conhecimento, dentro de
uma determinada linguagem suportada por uma estrutura de canal. Em geral, a
relação entre interlocutor e receptor, em uma perspectiva clássica do tema, é
tomada por uma representação gráfica de nós e arcos. À medida que se somam
interlocutores e receptores na emissão e recepção de fluxos de uma informação ou
conhecimento sobre uma mesma temática, esta representação se adensa a ponto
de formar o que é conhecido por rede. A modelagem Linguística aqui aplicada atua
sobre um modelo de difusão de informação e conhecimento sobre catástrofes
20
naturais.
Pode-se restringir os estudos de modelo de difusão de informação e
conhecimento em três campos básicos: Ciência de Redes, Ciência da Informação e
Comunicação, Processamento de Linguagem Natural (este último já bem detalhada
acima por ser substrato principal para as aplicações deste projeto de pesquisa).
A Ciência de Redes é o estudo de redes que remete a suas expressões
gerais por meio de grafos, iniciadas por Euler em 1736 [99]. Porém, a ciência de
redes dá funcionalidade a estas representações por meio de estudos de como se
agregam os comportamentos individuais e coletivos de elementos em uma rede [99].
Assim, dependendo do campo de estudo, dá física a sociologia, é possível formar
uma ciência de redes específica de forma a compreender fenômenos pertinentes a
cada disciplina. Porém, o mais interessante está quando as diversas disciplinas se
juntam para correlacionar os eventos descobertos individualmente, permitindo a
observação de mecanismos de compreensão de uma ciência de redes isoladas para
uma mais geral, que cobre genericamente todo tipo de rede, desde átomos com
spins alinhados em um imã até uma rede social para a promoção de um novo
produto [99].
São pertinentes a esta ciência a interdisciplinaridade, a representação gráfica
por laços/arcos (conexões) e nós (conectores), o estudo sobre a ocorrência de
agrupamentos de nós e a relação entre estes grupos onde existe a aglomeração de
nós atingidos por uma informação ou conhecimento, seja por laços bem conectados
que transpõem o limiar médio dos nós entre os dois grupos (conectores de
Gladwell), seja pela presença de laços que não se encaixam bem em nenhum dos
grupos e funcionam como pontes entre estes (laços fracos de Granovetter) [99].
Pode receber tanto uma abordagem estática, de retrato de um instante de
interferência em um momento, como dinâmica, onde se busca definições sobre
como as interferências e conexões se formam (ou deixam de existir) [99]. Os
estudos sobre Redes Livres de Escala de Barabási e Albert (desenvolvimento autoorganizado, que se dá de forma natural e simples) e o paralelo entre contágio
biológico ao que se denominou contágio social ilustram estas abordagens [99]. Muito
embora as descobertas e aplicações se deem sobre todo tipo de rede, esta ciência
está bastante atrelada ao estudo de redes sociais. Isto porque, foi de aplicações de
21
técnicas e formalismos de ciências exatas sobre as humanas que se começou a
vislumbrar um caminho como o demarcado hoje para estudos de redes [99].
A Ciência da Informação e Comunicação (CIC) é um campo de estudo que
carrega em si resultados gerados desde o início de estudos no período pós Segunda
Guerra Mundial. Porém suas aplicações e relevância apontam para um período bem
mais curto, calhando com o surgimento da internet e disseminação de computadores
pessoais. É definido como um campo dedicado às questões científicas e à prática
profissional, voltadas para os problemas da efetiva comunicação do conhecimento e
de seus registros entre os seres humanos, no contexto social, institucional ou
individual do uso e das necessidades de informação [13]. Isto é, estuda como o
crescente número de informação e criação de canais de comunicação atinge o todo
e chega aos interessados, procurando formas mais efetivas para que isto ocorra.
Como se pode concluir, esta ciência tem como foco entender questões relacionadas
à propagação de informação e conhecimento, desde a criação destes até sua
aplicação para a realização de ações. Seus estudos concentram-se ao mundo
empírico, por meio de medições e pesquisas que buscam padrões de
comportamento, delimitação de confiança e relevância para os diferentes atingidos.
A ideia de rede é intuitiva aqui após o apresentado, com a informação sendo a
interferência de um nó no outro por meio dos arcos (canais de comunicação). Estas
redes, por terem atribuídos aos seus nós e arcos valores bem delimitados para o
estudo são redes semânticas, isto é, redes de conceitos que se apresentam
estruturados de alguma forma que seja compreensível aos nós e levam a um
entendimento coletivo por meio do estabelecimento do consenso por meio da
comunicação colaborativa.
Com o uso de recursos de PLN, tendo em vista os conhecimentos de modelos
de difusão de informação e conhecimento, é possível conceber-se modelagens
sobre um espaço de conhecimento, de forma a mapeá-lo. O interesse em delimitar
as potencialidades deste tripé dos Modelos de Difusão de Informação e
Conhecimento está em fazer uso de seus recursos de forma a descrever a presença
enredada de entidades assistencialistas nos relatos de catástrofes e avaliar seu
papel. Isto porque é necessária uma atuação conjunta de instituições em eventos
22
como este que demandam uma economia de esforços de forma que se consiga
realizar o máximo possível com o mínimo disponível, dada a escassez de recursos
própria de uma situação como esta. Também a tomada das notícias sobre eventos
estudados como registros linguísticos do conhecimento para a análise e o
entendimento de que estes se distribuem longo do tempo em uma curva em S, como
no caso das inovações descritas por Rogers, assim como ocorre para os canais
interpessoais e meios de comunicação social. Tais padrões comuns de difusão de
eventos de notícia foram encontrados por estudiosos na tradição de pesquisa de
notícias de difusão, demonstrando que "o processo de difusão é muito mais regular
do que já suspeitávamos" [74]. Uma diferença a partir da difusão de inovações é que
outros eventos noticiados se espalham muito mais rapidamente. Essa rapidez de
difusão de notícias ocorre porque o indivíduo só precisa adquirir conhecimento
consciência de notícias do evento, enquanto que a adoção de uma inovação
tecnológica
consiste
no
conhecimento,
persuasão,
decisão
e
fases
de
implementação no processo de decisão-inovação. Ao contrário de inovações
tecnológicas, eventos, notícias são ideias que não têm uma base material. Uma das
importantes contribuições dos estudos de difusão de notícias de eventos tem sido a
de estabelecer as condições em que os meios de comunicação de massa são
relativamente mais importantes que os canais de comunicação interpessoal na
difusão de uma ideia nova. O uso destes conceitos apresentados e a perspectiva em
rede do conhecimento sobre a atuação das entidades (expressa em linguagem
natural) é justificável por apresentar exemplo de realizações análogas, como Watts
apresenta em sua literatura a respeito de Redes de Mundo Pequeno para uma rede
elétrica, onde o estudo desta é realizado para a identificação de como se
desencadeavam falhas, de forma a evitá-las e tornar o sistema mais robusto não
pelo acréscimo de elementos, mas sim pelo uso econômico dos recursos e ligações
já existentes [99]. Parte-se então com a hipótese de que a comunicação entre
instituições facilita a assistência em ocorrências de catástrofes naturais, levando a
uma forma mais econômica de prestar ajuda que se alinha a perspectiva de menor
esforço da Lei de Zipf [49]. Esta lei aponta que as pessoas agem de forma a
minimizar sua taxa média provável de trabalho (atual e futuro) [49]. A linguagem
inclui-se nesta economia, apoiada por distribuições estatísticas de seu uso, que
23
demonstram que palavras mais frequentemente utilizadas possuem um amplo
número de significados e palavras pouco utilizadas significados mais restritos, sendo
estas utilizadas na desambiguação de significados daquelas de forma a se ter um
uso racional da linguagem [49].
A difusão de informações é estudada sobre o chamado sistema social. Este é
definido como um conjunto de unidades inter-relacionadas que estão engajadas em
resolução conjunta de problemas para alcançar um objetivo comum. Os membros ou
unidades de um sistema social podem ser indivíduos, grupos informais,
organizações, e / ou subsistemas. A estrutura social do sistema afeta a difusão da
inovação de diversas maneiras. O sistema social constitui um limite dentro do qual
uma informação se difunde. A estrutura de um sistema social pode facilitar ou
dificultar a difusão de inovações. O impacto da estrutura social sobre a difusão é de
especial interesse para os sociólogos e psicólogos sociais, e da maneira em que a
estrutura de comunicação de um sistema afeta a difusão é, particularmente, tópico
interessante para os estudiosos da comunicação.
A aplicação de redes aqui, sobre o sistema social, se ancora nas definições
dos eventos estudados como expressões de inteligência social. Isto aponta para
redes de atuação de entidades como Redes Descentralizadas, que não apresentam
um nó que dita a sequência de eventos ou centraliza conexões de forma que todas
as informações tenham, necessariamente que passar por ele [99]. Assim a atuação
das entidades assistencialistas só se faz possível pela ocorrência da comunicação
aqui estudada, em seu sentido como um processo no qual os participantes criam e
compartilham informações entre si, a fim de chegar a um entendimento mútuo [99].
Rogers define como Análise de Redes de Comunicação um método de pesquisa
para identificar a estrutura de comunicação em um sistema, no qual os dados
relacionais sobre os fluxos de comunicação são analisadas por meio de algum tipo
de relação interpessoal como unidade de análise, sendo que a análise de redes
permite a compreensão da estrutura de comunicação como canais do processo de
difusão [74]. Este é justamente o propósito desta pesquisa, tomando a estrutura de
comunicação como a rede discursiva sobre a atuação de entidades, os dados
24
relacionais é o corpus composto por notícias sobre o evento estudado, a unidade
relacional são as palavras e expressões e a análise a modelagem Linguística.
Cancho e Solé demonstram quantitativamente que uma rede baseada em
expressões lexicais (as palavras existentes em um determinado idioma [50]) de uma
língua natural, estruturada por meio de co-ocorrências em um recorte da sentença
em que se insere, possui o comportamento de uma Rede de Mundo Pequeno [14],
citada acima como exemplo. Esta rede é uma hipótese proposta por Stanley Milgran
em 1967 onde o mundo é visto como uma enorme rede de relações sociais (rede
social) que em certo sentido o leva a ser pequeno [99]. Neste entendimento,
qualquer pessoa no mundo podia se conectar a outra em apenas alguns passos
[99]. Isto permite uma série de análises, pela forma de estruturação e pela
constatação de redes lexicais como redes sociais. A estruturação por co-ocorrência
já possui algumas modelagens realizadas, como o modelo DM (Dorogovtsev e
Mendes) para o acréscimo de palavras novas a rede e o trabalho de Markošová
baseado no modelo DM, mas considerando algumas variáveis adicionais nesse
dimensionamento: a exclusão do nó aleatório, a religação preferencial das
extremidades do nó escolhido e o poder de mudança de uma palavra quanto ao seu
significado ou contexto dentro de uma determinada frase [50]. Esta estruturação foi
utilizada por Stevanak et. al., por exemplo, no desenvolvimento de um algoritmo de
classificação de tipo de texto (noticioso ou de ficção) [87]. Existem outros tipos de
estruturação de léxico, como a promovida por Arbesman et. al. para estudo de redes
fonológicas, realizada por meio de proximidade dos fonemas dos itens lexicais [4].
Pode-se ainda montar redes de disseminação de léxico, como realizou Altmann et.
al. em seu estudo sobre como se criavam nicho de palavras realizadas a grupos de
usuários e tópicos específicos de discussão [2].
25
2.5. Pesquisas sobre Interações Sociais e Desastres
Dentro do domínio geral, na temática de interações sociais e desastres,
Beaudoin promove uma investigação pós-catástrofe entre mídia de massa e capital
social (recursos intangíveis das relações sociais e redes sociais que podem
ser acessados e mobilizados na ação intencional) na difusão de informações sobre
saúde, segurança, limpeza, estresse e depressão a comunidade afro-americana (no
domínio específico do Furacão Katrina de 2005)[6]. Murphy também trabalha o
conceito de capital social, distinguindo a atuação de dois tipos de gestão de
emergência: um governamental e outro comunitário, sendo que neste último o
capital social é apontado como de extrema importância para delinear caminhos de
atuação social [65].
Abbasi et al. restringem a comunidade de sua modelagem, descrevendo
relacionamentos entre bombeiros como uma rede social que permite aplicações em
coordenação de pessoas e gestão de organização e emergências [1] . Sugimoto et
al. construíram redes sociais úteis na educação pós-catástrofe pela modelagem de
três processos de coordenação e análise de ajuda no momento após o domínio
específico do Tsunami no Oceano Índico de 2004 [88]. Trabalhando com serviços de
redes sociais móveis, Zhou et al. apresentam resultados positivos de assistência
psicológica no pós-catástrofe do terremoto de Sichuan (China-2008). Também em
redes sociais, Hossain e Kuti apontam a ideia de composição de uma rede social
previamente articulada de coordenação em situação de desastre, destacando uma
correlação positiva entre conexões e potencial de coordenação, além da atuação de
subgrupos sociais ligados por laços fracos [40].
Bedford e Faust estudam o uso e sustentação de redes eletrônicas sociais
focadas na disseminação de informações no pós-catástrofe, identificando para o
domínio específico do terremoto do Haiti (2010) que a mídia social bem empregada
facilita
o
compartilhamento
de
conhecimento,
mal
empregada
acrescenta
26
complexidade desnecessária ao sistema, e que estas mídias possuem o problema
de não uso de informações de fora de comunidades em que se formalizam [7].
Também neste domínio, Yates e Paquette realizam um estudo de caso sobre o uso
de sistemas de Gestão de Conhecimento (GC) na partilha de conhecimento, reuso e
tomada de decisão para o terremoto em questão, apontando as tecnologias de
mídias sociais como promessas no abastecimento de sistemas deste tipo com foco
na recuperação pós-catástrofe [100].
Dentro de pesquisas em mídias eletrônicas, Kim e Park tratam da atuação de
tecnologias utilizadas em governo eletrônico (e-Gov) e o uso deste na gestão de
emergências por fundamentos de continuidade de negócios e recuperação de
desastres em tecnologia de informação centrada [42]. Takazawa aborda como a
mídia YouTube afeta o entendimento social do conceito de catástrofe, passando de
um evento temporal para um contínuo, como uma memória de imersão que leva o
desastre a pessoas que, a princípio, não são afetadas, englobando-as no coletivo
que respalda ações [89]. Já Vieweg et al. analisaram mensagens no Twitter de
pessoas em situação de emergência em um incêndio e uma inundação ocorridos
nos EUA (2009), para delimitação da consciência situacional e extração de
informações [96].
Em outra abordagem, Dilmaghani e Rao promovem o estudo sobre estruturas
de comunicação (sem fio, mensagem de texto, páginas webs) no repasse e
atualização de informações no momento pós-catástrofe [28][29].
Ebert et al. expõe a gestão de riscos voltado ao planejamento urbano por
meio da definição de um índice de Vulnerabilidade Social composto por 47 variáveis
advindas de um Sistema de Informação Geográfico (SIG). Braga et al. segue o
mesmo caminho ao buscar definir metodologias de mensuração de riscos a
vulnerabilidades de eventos naturais adversos por meio de indicadores provindos de
fluxos de comunicação, registros e bancos de dados [13]. Christofoletti demonstra
em sua literatura que uma série de modelagens pode ser realizada para diferentes
instrumentos pré-concebidos de tratamento de informações do meio ambiente, de
forma a extrair informações e conhecimentos novos, ocultas ou de forma mais
27
eficiente e rápida, com aplicação de modelagens na concepção de SIG [24]. Para a
modelagem nestes casos se apresentam noções de resiliência, sensibilidade, teoria
das catástrofes e criticalidade auto-organizada, permitindo a identificação de fatores
físicos controladores e as mudanças que acarretam, conjuntamente com fatores de
impacto humano, históricos e de influência climática [24].
Mais próximo da ideia de uma inteligência social presente em situações de
desastres está o trabalho de Palen et al. estudam a integração das funções do
coletivo social nos softwares de acompanhamento de desastres, formação de massa
crítica de emergência e cobertura de atividades pela distribuição de informações à
sociedade [71].
Centrada sobre a busca desta interação de esforços entre os trabalhos de
ajuda na assistência de desastres naturais na América Latina, Hermelin identificou
esforços de caracterização por formas de prevenção por meio de estudos de como a
mídia atua neste processo [39]. O distrito de Tunjuelito (Bogotá - Colômbia)
identificou como forma de atuação a execução de planos desenvolvimentos locais
[91]. Para o domínio específico do Haiti tem-se a “Comissão Interina de recuperação
do Haiti”, formada em 15 de abril de 2010 com vigência de 18 meses, tendo em vista
o planejamento estratégico, coordenação e execução sobre recursos de doadores
bilaterais e multilaterais, organizações não-governamentais e do setor empresarial,
de forma a otimizar os investimentos e contribuições destas entidades [73]. Já no
Chile, o ONEMI - Oficina Nacional de Emergência do Ministério do Interior é um
organismo permanente que se apoia no tripé prevenção, emergência e recuperação,
frente às situações de risco coletivo, emergências, desastres e catástrofes de origem
natural ou provocado pela ação humana, através da coordenação do Sistema
Nacional de Proteção Civil para a proteção das pessoas, bens e meio ambiente [23].
Estes trabalhos apontam para a ocorrência de oito tipos de abordagens para
o tratamento de questões sociais por meio de modelagens de desastres: abordagem
sobre o capital social, rede social para coordenação do momento pós-catástrofe,
aplicação de tecnologias no compartilhamento de conhecimento sobre desastres,
aplicação de tecnologias de internet na gestão de desastres, abordagem por meio
28
de índices geográficos e SIG à ocorrência de catástrofe (foco na prevenção),
coletivo social, e planejamento e execução por meio de órgãos locais. Assim, a
diferença básica destas pesquisas para a executada o projeto aqui demonstrado é o
uso da Linguística para fins de descrição do que ocorre em termos de atuação de
entidades e seus arranjos promovidos pela emersão de inteligência social, o que
pode respaldar a criação de aplicações futuras em termos de integração de
padronização de registros sobre desastres naturais que auxiliem no entendimento de
como se dá a assistência em momentos de desastres naturais e poderão ser
aplicados no processo de tomada de decisão no pré, durante e pós-catástrofe.
Existem sim algumas similaridades com algumas abordagens, como o uso de
conceitos de rede social, embora as redes utilizadas tomem elementos da sociedade
para a estruturação por outros meios que não o léxico em que são expressos, e
também quanto às abordagens de capital social e coletivo social, onde a primeira
abordagem não pode ser colocada como a dada aqui por conta de seu estudo na
disseminação e não tratamento de informações, e no segundo o processo tem foco
na difusão de informações e comportamentos em ambiente virtual e não na
descrição do evento ocorrido em rede e emersão de inteligência social.
3. METODOLOGIA
O método de pesquisa guia-se por investigar como os métodos de PLN
podem ser mobilizados para o estudo de catástrofes naturais (em especial os
terremotos citados) de forma a verificar a hipótese, tendo em vista criar um método
com ajuda de análises de discurso que seja capaz de reconhecer automaticamente
em um corpus de notícias de desastres quais são os atores envolvidos nesse
cenário emergencial e quais papéis e ações que eles podem desempenhar. Em
29
especial ações pertinentes para o contexto latino-americano, considerando que não
há protocolos estabelecidos de intercomunicação nos diferentes países e nas
entidades assistenciais que atuam nestes.
3.1. Composição do Corpus
Existem algumas análises que perpassam todo o desenvolvimento do projeto.
Primeiro a análise do material levantado para a identificação de sua aplicabilidade
frente aos objetivos de Modelagem Linguística para os fins apontados, bem como
sua coleta e estruturação de metadados sobre sua composição que auxilie nas
análises; isto é, a composição do corpus. O corpus adotado nesta pesquisa
constitui-se de textos jornalísticos extraídos da Folha de São Paulo no período de
12/01/2010 à 12/02/2011 para a busca “Haiti” e de 26/02/2010 à 26/03/2011 para a
busca “terremoto Chile” (inclusão do termo terremoto para dissociação do caso dos
mineiros soterrados no Chile em 05/08/2010), de forma a se ter um ano e um mês
de reportagens após a ocorrência dos desastres. Foram levantadas 842 reportagens
sobre o terremoto haitiano e 144 para o chileno. Estas reportagens tiveram o seu
corpo de texto salvo em formato txt (compatível com os programas de análise em
PLN apresentado na sequência) e os dados de Identidade do Evento (ID),
Identidade Numérica (Nº), Data, Título da Matéria, Subtítulo, Link, Instituição,
Autoria, Seção, Local, Figura e Legenda organizados em uma planilha. Além disto,
foi realizada uma classificação por cor onde: branco - reportagens pertinentes,
amarelo - reportagens não pertinentes, verde - reportagens parcialmente
pertinentes, azul - reportagens que demonstram interface com outras catástrofes. A
tabela 1 apresenta um trecho desta planilha onde de pode observar a estrutura de
dado montada entre as reportagens 437 e 440 para o primeiro terremoto.
30
Tabela 1. Trecho de estruturação de dados sobre corpus do terremoto do Haiti em planilha eletrônica.
ID
Nº
Data
Título da Matéria
TH
26 de
437 fevereiro
de 2010
TH
Governo detém
cidadãos que
queriam participar
de funeral, no leste
da ilha, de
militante morto na
terça após greve
http://www1.
REDAÇÃO
26 de
Ativista cubano é
de fome. Ao deixar folha.uol.com.br
Com
438 fevereiro enterrado sob cerco
Havana, Lula não
/fsp/mundo/
agências
de 2010
militar
volta a comentar ft2602201001.htm internacionais
episódio, mas
reitera apelo a
Obama para que
ponha fim ao
embargo
econômico a Cuba
TH
26 de
439 fevereiro
de 2010
Burns, Hillary,
Obama
TH
27 de
440 fevereiro
de 2010
TERREMOTO:
Forte tremor na
costa japonesa não
faz vítimas
No Haiti, Lula pede
perdão da dívida e
elogia missão do
Brasil
Subtítulo
Em 1ª visita após
terremoto,
presidente se
emociona ao
discursar a
militares
Link
Instituição
Autoria
Seção
Local
http://www1.
folha.uol.com.br
/fsp/mundo/
ft2602201004.htm
ENVIADA
ESPECIAL
SIMONE
IGLESIAS
Mundo
PORTO
PRÍNCIPE
SIMONE
IGLESIAS
Mundo
Havana
Figura
Legenda
Dissidentes
cubanos
organizam
vigília em
Havana em
homenagem
a preso
http://www1.
político
folha.uol.com.br
Orlando
/fsp/images/
Zapata
e2602201001.jpg
Tamayo,
morto na
terça-feira
após 85
dias de
greve de
fome
http://www1.
folha.uol.com.br
ELIANE
Opinião BRASÍLIA
/fsp/opiniao/
CANTANHÊDE
fz2602201004.htm
http://www1.
REDAÇÃO
folha.uol.com.br
Com
Mundo
/fsp/mundo/
agências
ft2702201010.htm internacionais
31
A Figura 3 demonstra o perfil acumulativo de número de reportagens dentro
do período para o recorte feito na composição do corpus do Haiti e a Figura 4 a
distribuição destas reportagens nas seções do jornal. Analogamente, as Figuras 5 e
6 apresentam os correspondentes para o corpus do Chile.
Figura 3. Perfil acumulativo de número de reportagens do Haiti dentro dos períodos especificados.
Figura 4. Distribuição de reportagens do Haiti por seções.
32
Figura 5. Perfil acumulativo de número de reportagens do Chile dentro dos períodos especificados.
Figura 6. Distribuição de reportagens do Chile por seções.
33
Estes resultados provenientes da etapa de coleta e análise dos corpora são
relevantes na verificação da hipótese por permitir visualizar se as informações e
conhecimentos inseridos na reportagem se disseminam no tempo conforme prevê a
ciência de redes e os modelos de difusão de informação.
Os perfis demonstram que, tanto nas categorias que dividem as notícias
(elaboradas pelos autores de acordo com seus esquemas de distinção e
conhecimento sobre o evento) como na composição total, a cronologia das
reportagens caracteriza-se por uma frequência ascendente no início e estabilização
nos últimos períodos. Este também é o perfil descrito por Rogers [74] para a difusão
de informações sobre novos eventos/coisas em um meio, quando define como
centro do processo de difusão as trocas interpessoais em rede e a modelagem
social entre os indivíduos que já detinham conhecimento sobre a informação e
aqueles que, em seguida, tomariam contato.
Esta é chamada de uma rede de comunicação, composta por indivíduos
interligados que estão ligados por fluxos de informação padronizada; ou redes
interpessoais, que ligam os membros de um sistema e determinar quem interage
com quem e em que circunstâncias [74]. Isto se alinha com a definição apresentada
de rede dos Watts [99], mais ainda, está de acordo com as abordagens sobre rede
social dadas pelo mesmo autor, como uma estrutura de rede correspondente a uma
estrutura social, onde os indivíduos podem ser diferenciados por sua participação
em grupo ou por papéis socialmente distintos; ou tomando rede como canal de
propagação de informações ou exercício de influência [99].
Assim, estudar notícias de jornais sobre o terremoto é entender como os
conhecimentos sobre a inteligência social utilizada em situações de catástrofe são
difundidos e estabelecidos como padrões comportamentais na sociedade, tomando
esta como uma rede.
34
3.2. Demonstração de metodologia frente ao objetivo
Para deixar claro o objetivo e o método de pesquisa adotados, tomou-se
como exemplo dos textos nº60 e nº84 levantados para o terremoto do Haiti. A tabela
2 mostra os dados referentes a estas duas reportagens.
Tabela 2. Reportagens para exemplificar objetivo e método de pesquisa.
Nº
Título da
Matéria
Data
60
15 de
janeiro
de
2010
Cruz
Vermelha
estima
mortos em
até 50 mil
84
16 de
janeiro
de
2010
ONU
suspende
pedido por
equipes de
resgate
Subtítulo
Link
Instituição
Autoria
Número é o
primeiro baseado
em observações
de campo,
realizadas por
voluntários da
organização,
desde o
http://www1.
"New York
terremoto.
folha.uol.co
Times",
LUCIANA
Funcionária da
m.br/fsp/mu
agências
COELHO
ONU, porém,
ndo/ft15012 internacionais
considera
01006.htm e REDAÇÃO
estimativa de 100
mil "coerente';
missão eleva
para 36 seus
mortos e alerta
para a crescente
tensão local
http://www1.
folha.uol.co
m.br/fsp/mu
ndo/ft16012
01008.htm
Redação
LUCIANA
COELHO
e PAULA
ADAMO
IDOETA
Seção
Local
Mundo
Genebra
Mundo
Genebra
O passo seguinte foi então promover, manualmente para este exemplo, a
identificação de quais palavras nomeiam as entidades assistencialistas que podem
ser extraídas e quais ações e funções estão associadas a essas entidades. Assim, é
possível a verificação de superposições (entidades acumulam as mesmas funções)
e lacunas (há funções que não são desempenhadas especificamente por nenhuma
35
das entidades). As marcações em vermelho na tabela 3 expressam a referência a
entidades e em verde as necessidades e ações executadas por estas.
Tabela 3. Marcação de entidades e ações.
Reportagem 60
A Cruz Vermelha estimou ontem em 45 mil a 50 mil os mortos no terremoto da última terçafeira no Haiti, no primeiro número consolidado, desde a tragédia, a partir de observações de campo,
realizadas por voluntários da organização anteontem em Porto Príncipe. "Continua sendo uma
estimativa da Cruz Vermelha. Mas nós acreditamos que seja uma boa estimativa da situação até
agora", disse Jean-Luc Martinage, porta-voz do Comitê Internacional da Cruz Vermelha (CICV) e
Crescente Vermelho.
Martinage afirmou ainda que o número está sendo utilizado por autoridades haitianas.
Anteontem, o presidente do Haiti, René Préval, dissera ter "ouvido" falar em até 50 mil mortos. O
premiê, Jean-Max Bellerive, por sua vez, estimara em "centenas de milhares" os mortos.
A representante permanente do Programa de Desenvolvimento da ONU (Pnud) no Haiti, Kim
Bolduc, disse que o processo de avaliação do estrago e do saldo de mortos está apenas começando.
Mas, indagada sobre o número de 100 mil, base da estimativa de Bellerive, disse ser uma estimativa
coerente. Segundo Préval, 7.000 vítimas do tremor já foram enterradas pelos próprios haitianos.
A Cruz Vermelha manteve também a estimativa de cerca de 3 milhões de atingidos pelo
sismo, entre feridos e desabrigados, ou um terço de toda a população do país. Na capital haitiana e
arredores -a apenas 15 km do epicentro do tremor- vivem 4 milhões de pessoas.
A ONG britânica Save the Children alertou ainda para a possibilidade de até 2 milhões de
crianças e adolescentes haitianos se encontrarem em condição de risco no país. Muitos, disse a
organização, podem estar tendo que sobreviver sozinhos, feridos e traumatizados.
A ONU elevou ontem para 36 a contabilidade dos mortos entre membros da Minustah -a
missão de estabilização criada em 2004 e liderada pelo Brasil-, o que representa a maior tragédia em
perda humana em um único evento desde a sua fundação, há mais de 60 anos.
De acordo com David Winhurst, porta-voz da Minustah, entre os mortos confirmados estão 19
soldados de manutenção de paz -14 deles brasileiros-, 13 membros civis e quatro policiais da ONU.
Os desaparecidos chegam a 150.
Entre eles está o chefe diplomático da Minustah, o tunisiano Hedi Annabi, e seu vice, o
brasileiro Luiz Carlos da Costa. Anteontem, Préval dera Annabi como morto -o que não foi, porém,
confirmado pela ONU. Estão desaparecidos também quatro militares brasileiros.
Tensão crescente
Segundo Winhurst, a precariedade das condições das forças de segurança e as carências no
atendimento à população estão gerando impaciência na população. "Eles [os haitianos] estão cada
vez mais irritados." Segundo alguns relatos, haitianos começaram a erguer barricadas com corpos
das vítimas em ruas da capital em protesto contra a demora no socorro aos flagelados. A polícia
36
haitiana, segundo Winhurst, desapareceu das ruas. "Estamos todos cientes de que a situação está
ficando mais tensa", disse.
"Eles querem que providenciemos ajuda, o que, é claro, é o que nós queremos fazer", disse o
porta-voz. "A coisa está ficando muito feia por lá. As pessoas estão cansando de não ser atendidas",
relatou um repórter da revista Time à agência Reuters. A demora é agravada pelo excesso de tráfego
de aviões carregados de suprimentos, que congestionou o aeroporto da capital. À tarde, 11
aeronaves chegaram a sobrevoar simultaneamente a região sem licença de pouso, e autoridades
desviavam voos para a República Dominicana temendo que o combustível acabasse na espera.
O "pesadelo logístico", na definição da ONU, levou os EUA a suspenderem voos civis ao Haiti
e, mais tarde, a assumirem o controle do terminal, de acordo com a Chancelaria americana. "O
problema não é na distribuição [da ajuda humanitária], é na capacidade do aeroporto.
Ele não está acostumado a receber esse volume de aviões", disse John Holmes,
subsecretário da ONU para ajuda humanitária, de Nova York. Holmes descreveu dificuldades para o
descarregamento dos aviões.
Reportagem 84
A ONU suspendeu o pedido por equipes de resgate no Haiti, exceto pelas dez que estavam a
caminho ontem -outras 17 já trabalham em campo. No fim da tarde, expirou o prazo de 72 horas após
o qual a expectativa de achar sobreviventes sob os escombros cai drasticamente.
"Não precisamos mais de equipes de resgate", disse John Holmes, subsecretário-geral da
ONU para Questões Humanitárias, via webcast de Nova York. As buscas, no entanto, serão mantidas
por ora.
No mesmo dia, o organismo lançou apelo para arrecadar US$ 560 milhões em doações para
o Haiti, metade dos quais será usada em comida.
Até agora, cerca de US$ 360 milhões em fundos e suprimentos foram prometidos por
governos, empresas, agências e ONGs. Menos da metade desse montante foi de fato doada ou
proposta em acordos de peso legal, mas nem tudo será entregue às mãos da ONU e nem tudo é para
operações imediatas.
Segundo as agências humanitárias em Genebra, o grande problema em campo continua a
ser a distribuição de suprimentos -que chegam ao Haiti por ar e por terra, mas nem sempre às mãos
das vítimas. Bases logísticas foram criadas na República Dominicana e no Panamá. Ontem o
secretário-geral da ONU, Ban Ki-moon, queixou-se da falta de coordenação entre as agências
internacionais e as de governos doadores. Já Holmes citou problema com a distribuição de
suprimentos.
A logística é também o maior obstáculo à aceleração das buscas por sobreviventes. "Os
esforços de resgate não estão sendo abandonados, longe disso", respondeu Holmes a uma repórter
que citou haitianos escavando os escombros com as mãos. "Mas tem sido um problema para as
equipes. Primeiro chegar no aeroporto, depois encontrar veículos para usar nas operações."
Cirurgias e saúde pública
37
No lado médico, a prioridade é o atendimento cirúrgico aos feridos, disse por telefone o chefe
no Haiti da ONG Médicos Sem Fronteiras, Stefano Zannini. "Há milhares de pessoas esperando
cirurgia, a maioria com fraturas expostas que requerem atenção imediata."
Até ontem, a MSF estimava ter tratado 2.000 feridos, em dois centros cirúrgicos em Cité
Soleil, favela de Porto Príncipe. Previa-se que equipamentos para hospitais de campanha chegassem
ontem.
Dos corpos espalhados nas ruas do país, parte estava sendo coletada por autoridades locais,
disse a MSF, minimizando o risco de disseminação de epidemias -que, segundo a ONG, é raro em
situações como a vivida no Haiti, já que as causas das mortes não são infecções.
Como se pode observar, as entidades se mostram pela sua referência direta
(nomes), representação por seus membros, localidades próprias e pronomes. Estas
podem ser agrupadas, para estas reportagens, em Cruz, Vermelha, Autoridades
Haitianas, ONU (e seus órgãos), ONG Save the Children, Minustah, População
Haitiana, Polícia Local, Mídia, Aeroporto, EUA, Bases Logísticas, Equipes de
Resgate, Médicos Sem-Fronteiras e Gerais (governos, empresas, ONGs e agências
humanitárias sobre as quais não se definiram nomes). Já em termos de ações a
uma divisão entre o que foi feito e o que deixou de ser (até o momento de
publicação da reportagem). No primeiro caso está a estimativa de mortos e estragos,
observação e avaliação da destruição, alertas de perigo, constatação sobre
precariedade, promessas de ajuda, carregamento e distribuição de suprimentos,
temor sobre situação logística, controle de áreas, trabalho de campo (resgate e
ajuda), atendimento cirúrgico e coleta de corpos. No segundo (lacunas em aberto)
estão protestos, socorro, falta de policiamento, não atendimento a vítimas,
suspensão de serviços, busca por sobreviventes, disseminação de epidemias,
comida, dinheiro e coordenação. Cada ação (ou falta de) pode ser associada a uma
entidade acima, pelo significado que cada uma tem em termos de atuação, mas
também pela forma como isto é expresso em formato de texto, como co-ocorrência
de entidade/ação em uma sentença. Assim, busca-se realizar estas identificações
das unidades entidades e ações, seus relacionamentos (como Médicos SemFronteira e atendimento cirúrgico), de forma a compor uma rede de atuação de
entidades assistencialistas para todo o corpus representativo de um evento natural
adverso. Isto pode ser feito, por meio de grafos conceituais, grafo rotulado onde nós
de conceito são conectados por nós de relação, como define Sowa, que cunhou este
38
termo [82], ou em uma definição mais geral, um grafo finito, conectado e bipartido
consistindo de um conjunto de etiquetas de nós representativos de conceitos, um
conjunto de etiquetas de nós que representam relações e um conjunto dirigido de
arcos ligando os nós de conceitos e relações [48]. Trabalhando com composições de
entidades ligadas a suas ações na forma de árvores que podem ser comparadas
umas às outras delimitando sobreposições ou especializações destas entidades em
sua forma de atuação. Tomando-se como exemplo as reportagens 60 e 84 realizouse a identificação de entidades e ações ou referências a estes, atribuindo-se
etiquetas as entidades encontradas de forma que se trabalhe com um número
reduzido de referências que categorizam todas as ocorrências lexicais remetentes a
entidades. De forma a demonstrar de que isto se dá, a Figura 7 mostra a
desambiguação de três destas etiquetas por suas ocorrências.
Figura 7. Desambiguando entidades para exemplos.
Dada a importância das ações que cada entidade desempenha na delimitação
do papel de cada uma na atuação no desastre estudado, para as mesmas entidades
realizou-se o levantamento de ações de forma a identificar padrões que possam ser
aplicados no todo do corpus, como mostrado na Tabela 4.
39
Tabela 4. Categorizando ações por entidades
Cruz Vermelha
Médicos Sem
Fronteiras
ONU
• Estima mortos
• Realiza observações
de campo
• Mantém estimativa de
atingidos
• Acredita ser boa a
estimativa de mortos
• Diz que estimativa
continua sendo da cruz
Vermelha
• Estima número de
tratados
• Diz que prioridade é
atendimento cirúrgico e
saúde pública
• Diz que corpos são
coletados (em parte)
por autoridades
haitianas
• Diz que disseminação
de epidemias é rara
nesta situação
• Prevê chegada de
equipamentos para
hospitais
• Suspende pedido por equipes de
resgate
• Lança apelo para arrecadar verba
• Define “pesadelo logístico”
• Descreve problema de capacidade de
aeroporto
• Diz que problema não é distribuição
• Eleva contabilidade de membros
mortos
• Não confirma morte de chefe
diplomático
• Diz que processo de avaliação de saldo
de mortos e estragos está começando
• Queixa-se de falta de coordenação de
governos e agências internacionais
Com foco maior na entidade da Cruz Vermelha, para as aplicações seguintes,
realizou-se a confecção de um mapa do conhecimento centrado nesta entidade
(referências em azul), o que abrange suas ações (vermelho) e atributos (verde),
como mostra a Figura 8.
Figura 8. Mapeamento de conhecimento para exemplo da Cruz Vermelha.
Uma representação como esta é detalhada demais para o processamento em
máquina, porém ajuda na determinação de padrões e composição de Grafos
40
Conceituais que por meio das informações que traz que auxiliam a supervisão do
processo. A Figura 9 mostra o Grafo Conceitual de Cruz Vermelha.
Figura 9. Grafo conceitual para exemplo de Cruz Vermelha.
Como é possível observar, as ações (em vermelho) sempre partem de
representações da entidade, e que os atributos se aplicam a estas representações
ou às ações que executam. Também se pode, morfossintaticamente, apontar a
entidades como substantivos/sujeitos, ações como verbos e atributos como
advérbios, objetos de verbos e adjetivos. Isto é bastante importante, pois demonstra
que, por meio de etiquetagens é possível categorizar todo o item lexical que possui
valor semântico. A partir desta categorização, a observação de subcategorias
também é possível pela aplicação de filtros de padrões (como a identificação de
nomes próprios no caso de entidades), verbos de dizer no caso de ações e a própria
divisão de complemento, advérbio e advérbio no léxico de atributos. A composição
de redes se dá, a partir daí, por co-ocorrência em sentenças, um método bottom-up
de observar como emergem os arranjos entre estas categorias. Isto permite verificar
o comportamento desta rede na determinação desta como de Mundo Pequeno, Livre
de Escala, entre outras possibilidades, além de permitir a obtenção de dados
importante sobre a atuação de entidades, por meio da determinação de passos
necessários na partir de uma a outra, auxiliando na observação de atuações em
41
conjunto. A composição de Grafos Conceituais com raiz na etiqueta de entidade é
possível, o que dá margem para comparações de similaridade deste grafo com o de
outras entidades levantadas no texto, determinando sobreposição de ações, ações
executadas exclusivamente por determinadas entidades e ações não executadas.
3.3. Aplicação de NLTK
A análise dos corpora em suas totalidades exige, como já citado, o uso do
PLN em aplicações computacionais, no caso o pacote NLTK. O estudo de literaturas
de composição e trabalho com corpus [78], como em análise de dados linguísticos
[49] e uso do programa de análise utilizado [10][67] permitiram familiaridade com os
corpora e o programa de análise (pacote NLTK). A partir disto, as implementações
realizadas puderam mostrar padrões básicos de aplicações de módulos sobre
variáveis representativas do corpus (ou um recorte deste) criado para o estudo,
dados alguns condicionantes básicos, aplicando-se a praticamente todo comando
executado no pacote NLTK, onde a dificuldade fica em obter a variável no formato
correspondente ao requerido pelo módulo (lista, string, tupla, texto, distribuição de
frequência, entre outras opções):
>>> variável.módulo(condicionantes)
O estudo das funcionalidades deste pacote pela literatura de Bird et. al [10] e
de aplicações de PLN sobre análises de Manning et. al. [49] permitiu as primeiras
execuções com o corpus de textos sobre o terremoto do Haiti. Estas se referem à
própria composição do corpus em termos de frequência de palavras obtidas
executando-se os comandos para reconhecer os textos no prompt do IDLE e
42
converter as palavras em listas, distribuições de frequência e única string (para a
apresentação codificada para o português).
3.3.1. Descrição do Corpus do Haiti
Nesta linha de aplicação de comandos, promoveu-se a aplicação de filtros na
ordenação destas palavras, em trabalhos com recortes das primeiras 100
expressões em ocorrência dentro de cada um dos diferentes filtros (promovidos por
comandos de eliminação de determinados padrões no corpus, como a eliminação de
stopwords - palavras de classes fechadas como preposições e conjunções). Depois
isto, categorizou-se as 100 primeiras ocorrências dentro de dois filtros apresentados,
com a finalidade de delimitar elementos com alto valor semântico do corpus
(Eliminando stopwords maiúsculos e minúsculos e tomando somente alfabéticos) e
potenciais referências a entidades assistenciais (Maiúscula sem estar após “.” e sem
stopwords). Na categorização fez-se útil a familiaridade com o corpus para
determinar as categorias e a inclusão dos elementos em cada uma destas, bem
como o comando de concordância e conhecimentos próprios.
Procurou-se primeiramente caracterizar o texto quanto a características
gerais: número de tokens (429.135), total de types (34.788), expressões sem
diferenciação de maiúscula (332.397), caracteres (2.244.234) e sentenças (19.802).
A Tabela 5 apresenta os filtros aplicados, o número total de ocorrências (em types e
tokens), densidade lexical (tokens/types), número de ocorrências acumuladas das
100 primeiras expressões, a porcentagem destas com relação ao todo e a
quantidade de palavras acrescida à lista de 100 mais ocorrentes com relação ao
filtro anterior.
43
Tabela 5. Dados de aplicações de filtros sobre 100 primeiras ocorrências em frequência.
Filtro
Nenhum
Eliminando
stopwords
(Filtro1)
Filtro1 +
tomando
somente
alfabéticos
(Filtro 2)
Filtro 2 +
eliminando
stopwords
com letra
inicial
maiúscula
(Filtro 3)
Maiúscula
sem estar
após “.”
(Filtro 4)
Filtro 4 +
sem
stopwords
(Filtro 5)
12,34
Nº de
ocorrências
acumuladas
208255
Representação
do recorte
sobre o total
48,53%
Acréscimo
de novas
palavras
-
34643
8,88
106156
34,52%
39
234355
33456
7,00
49786
21,24%
21
222019
33347
6,66
44224
19,92%
13
46712
8425
5,54
16931
36,25%
-
42394
8328
5,09
14549
34,32%
16
Nº de
tokens
Nº de
types
Densidade
lexical
429135
34788
307559
A aplicação do filtro 3, e consequente eliminação das stopwords (maiúsculas
e minúsculas) e tomada de apenas elementos alfabéticos permite a visualização de
um perfil de itens lexicais que possuem alto conteúdo semântico (como substantivos
e verbos, por exemplo). Levando em conta que dentro dos resultados deste filtro é
que
se
encontram
as
informações
buscadas,
os
resultados
apontam
aproximadamente 1/5 desta se concentra nas 100 primeiras ocorrências, podendo
se localizar dentro deste grupo categorias de localização (Haiti, Brasil, país, EUA,
São, Porto, Paulo, Príncipe, países, internacional, mundo, onde, Rio, cidade, capital,
SP, Estado), personalidades de atuação política (presidente, Lula, ministro),
entidades (militares, brasileiro, brasileiros, brasileira, americanos, ONU, governo,
Minustah, haitiano, Exército, política), referências à mídia (Folha, Segundo, disse,
diz), referências temporais (anos, ontem, ano, dia, segundo, desde, dias, vez, agora,
hoje, semana, tempo, primeiro), desastre (terremoto, pessoas, ajuda, R, US, missão,
milhões, haitianos, água, contra, mil, outros, todos, grande, menos, maior, parte,
bem, apenas, só, dois, duas, três, cerca, trabalho, dinheiro, situação, porque), ações
44
e estados (ser, está, são, há, É, estão, ter, pode, fazer, vai, será, deve, têm) e outros
itens que passaram pelo filtro por não estarem inclusos no filtro de stopwords (não,
é, à, já, sobre, também, ainda, até, Não, às, após).
A aplicação dos filtros que selecionam maiúsculas que não estejam após
pontos apresentou retornos válidos em termos de identificação de entidades
assistenciais. No filtro mais aprimorado realizado aqui, onde além do citado
anteriormente
também
se
eliminou
stopwords,
os
resultados
podem
ser
categorizados em localização (Haiti, Brasil, Porto, São, Príncipe, Paulo, Estado, Rio,
Estados, República, América, Sul, Mundo, Unidos, China, Chile, África, Dominicana,
Irã, Washington, Brasília, Cuba, Venezuela, Latina, York, França, Nova, Colômbia,
Argentina, Soleil), personalidades de atuação política (Lula, Dilma, Jean, Zilda,
Obama, José, Préval, Arns, Amorim, Clinton, Aristide, Luiz, René, Rousseff, Santos,
Carlos, Jobim, Serra, Doc, Duvalier, Hillary, Costa, Celso, Silva), entidades
(Minustah, Exército, Defesa, Nacional, Nações, Ministério, Unidas, Pastoral,
Conselho, Mundial, Presidência, Criança, Justiça, Congresso, Itamaraty, Polícia,
Segurança, Saúde, Organização, Programa, Universidade, Forças, Igreja, Relações,
Google, Departamento, Cruz), referências a mídia (Folha, News, The, Globo, Jornal,
World, Record, New), referências temporais (Copa, Hora, Guerra, Janeiro), ajuda (R,
Deus, Casa, Vida, Jesus) e outros itens que passaram pelo filtro por possuírem letra
maiúscula (É, Não).
A descrição da composição do corpus permite visualizar como este se
distribuiu quantitativamente, o que dá margem para entender que a abordagem já
exposta de Steinberger [83][84] é útil para obter uma representação do
conhecimento sobre o evento estudado. Além disto, permite identificar categorias
associadas ao domínio específico estudado e reconhecer instanciações destas
categorias em linguagem natural. Observa-se a manutenção de categorias com a
mudança de filtro, mas os valores que preenchem cada uma mudam muito,
apontando para a validade do uso dos filtros na identificação de determinados
valores semânticos. Isto auxilia na determinação de etiquetas semânticas que vão
compor a rede pretendida. Os filtros possuem o papel de segregar palavras e
expressões quanto a características padrões, que podem ser colocadas em uma
45
lista de palavras e, consequentemente em uma distribuição de frequência, para a
impressão em arquivo de etiquetas léxico-gramaticais, enquanto a determinação de
categorias determina as etiquetas semânticas a serem aplicadas. O estudo das
frequências demonstra que, à medida que os filtros são aplicados na busca por
palavras com alto valor semântico, as palavras tendem a ter uma distribuição de
frequência
mais
uniforme,
possível
de
se
visualizar
pela
medida
de
representatividade percentual das 100 primeiras ocorrências sobre o recorte maior
dado pelo filtro, que decai a cada filtro mais específico aplicado. Isto se alinha a ideia
que palavras com frequências mais baixas possuem significado mais bem definido
que o contrário. Segundo a Lei de Zipf [49] o número de significados possíveis de
uma palavra/expressão é proporcional a raiz quadrada de sua frequência. Assim, a
aplicação de filtros na determinação de que palavras possuem alto valor semântico é
validada, por demonstrar que, ao passo em que são aplicados, as frequências entre
palavras se tornam mais uniformes e os seus significados mais bem definidos.
Também o alto número de entidades resgatadas pelo filtro com este fim, seja como
entidades, propriamente dito, ou por meio de referências a governos (por localização
ou governantes) ou mídia (entidades difusoras de informação), é um bom resultado.
Isto porque somente 11 de 100 elementos categorizados não foram colocados
dentro de categorias como a que correspondem entidades demonstradas, o que
aponta que um simples método de aplicação de filtros por comandos de busca de
padrões retorna 89% de eficácia.
3.3.2. Trabalho com Collocations
Criando-se uma variável que corresponde ao conjunto de textos sob o formato
Text, foi possível executar um comando de identificação de collocations no corpus
46
do Haiti. Estas combinações são tipos especiais de expressões multi-palavras
(multiword expression), um pequeno conjunto lexical que possui significado e
propriedades não possíveis de serem expressas pela soma dos significados e
propriedades de suas partes [5]. Através de comandos de contabilização de itens e
contagem de expressões foi possível levantar dados de frequência de aparecimento
no texto dos itens lexicais que compõem a concordância, calcular probabilidades e
medidas estatísticas de validação da collocation de forma a demonstrar que os
retornos obtidos representam associações não aleatórias dos itens, tais como a
razão Observado/Esperado (O/E), Informação Mútua (I) e o Escore T (T), além da
importante informação sobre intervalo médio de ocorrência da palavra no corpus
estudado. O valor de O/E deve ser interpretado como quantas vezes um valor é
maior que o esperado probabilisticamente, enquanto um valor de I maior que 3 e/ou
de T maior que 2 indicam associações não aleatórias entre palavras, sendo que
quanto maior os valores, mais forte é a associação entre o nódulo (A) e o colocado
(B) [78]. A investigação sobre as collocations se estende no sentido de promover
uma tomada mais abrangente sobre o corpus estudado do que possibilita o default
do comando (que retorna apenas nos primeiros vinte resultados para collocations
entre bigramas - pares de palavras presente sequencialmente no texto).
Com o corpus composto e descrito, tratado em termos de filtros e delimitadas
as collocations, parte-se para o tratamento das unidades léxico-semânticas
(expressões que apresentam valor semântico). Para isto, toma-se aqui as 200
palavras mais frequentes no conjunto resultante do filtro 3, descrito na tabela 2, e os
retornos das buscas pelas 50 collocations em bigramas e trigramas (devido a sua
apresentação combinada este passo configura o trabalho com 61 unidades léxicosemânticas). Estas escolhas se devem, no primeiro caso, ao fato de que os filtros
aplicados eliminaram 48,26% de ocorrências acumuladas – tokens e 4,14% das
ocorrências exclusivas – types. Estes valores levados juntamente ao de palavras
que ocorre apenas uma vez (hapax legomena [78]) sobem para 52,04% e 7,92%,
respectivamente. Assim, em termos do conjunto de expressões resultante, as 200
primeiras ocorrências representam 26,71% dos tokens (ou 13,82% do total). Já a
quantia de collocations foi guiada pela frequência destas. Considerando que a 200ª
47
palavra mais frequente possui 122 ocorrências, que uma collocation é composta por
duas palavras e que se pode então duplicar a frequência de collocations em termos
de cada uma de suas partes; um conjunto “collocation” de análise em que cada
retorno tem, no mínimo, uma ocorrência, para se igualar a última palavra das listas
das mais ocorrentes, deve ter 122/2 entradas, ou 61 entradas, o que se obteve da
forma descrita acima.
Os comandos na busca por collocations retornaram: Porto Príncipe; São
Paulo; Nações Unidas; dos EUA; Estados Unidos; Zilda Arns; República
Dominicana; René Préval; América Latina; Dilma Rousseff; direitos humanos; Celso
Amorim; semana passada; Forças Armadas; ajuda humanitária; das Nações;
comunidade internacional; Cité Soleil; ano passado; Nova York. A Tabela 6
apresenta estes resultados e os correspondentes valores de índices de validação,
intervalos médios de ocorrência e frequência.
Tabela 6. Dados de aplicações sobre frequências de collocations.
Concordância
(A+B)
f(A|B)
f(A)
f(B)
Intervalo
médio de
ocorrência
O/E
I
(Informação Escore T
Mútua)
Porto Príncipe
382
406
386
1123,3901
1046,03
10,0307079 19,52614
São Paulo
331
440
393
1296,4804 821,4416 9,68201424 18,17126
Nações Unidas
98
107
99
4378,9286 3970,096 11,9549583 9,897001
dos EUA
231
1823
624
1857,7273 87,14343 6,44532002 15,02427
Estados Unidos
95
157
98
4517,2105
Zilda Arns
101
181
122
4248,8614 1962,804 10,9387003 10,04476
República
Dominicana
90
141
91
4768,1667 3010,065 11,5555791 9,483681
René Préval
76
84
131
5646,5132 2963,855 11,5332591 8,714857
América Latina
73
132
73
5878,5616 3251,023 11,6666779 8,541376
Dilma Rousseff
73
177
78
5878,5616 2269,075 11,1478888 8,540238
direitos
humanos
67
103
97
Celso Amorim
62
67
123
6921,5323 3228,537 11,6566647 7,871569
semana
passada
69
198
85
6219,3478 1759,377 10,7808489 8,301903
Forças
Armadas
49
56
49
8757,8571 7663,125 12,9037171 6,999087
ajuda
humanitária
73
363
113
5878,5616 763,7157
6405
2649,67
11,3715971 9,743116
2877,795 11,4907479 8,182508
9,5768919
8,532816
48
das Nações
83
1225
107
5170,3012 271,7391 8,08607846 9,076907
comunidade
internacional
63
96
214
6811,6667 1315,981 10,3619225 7,931222
Cité Soleil
44
47
51
9753,0682 7877,322 12,9434895 6,632408
ano passado
72
363
154
5960,2083 552,7122 9,11038477 8,469929
Nova York
51
101
80
8414,4118 2708,649 11,4033578 7,138792
Transpassando os vinte primeiros retornos apresentados por definição na
execução do comando collocations, por meio da especificação do número de
retornos pretendido e janela de busca (2 para entre bigramas, 3 entre trigramas, n
para n-gramas) foram realizadas consultas para quantificar as ocorrências deste
fenômeno. Para collocations imediatas (entre bigramas) o pacote retorna 16389
ocorrências, enquanto que para a ocorrência padrão intermediada por uma palavra
entre a collocation (busca entre trigramas) existem 16222 ocorrências. Para buscas
em distâncias maiores do que estas não houve retorno.
Estes trabalhos foram executados pensando-se em realizar classificações dos
itens como grupos em uma rede discursiva, definir discretamente (nós) itens lexicais
que concentram significado e propriedade próprios, seja individualmente ou por
combinações
sob
o
formato
aqui
apresentado
(desde
que
validado
quantitativamente). Dentre as collocations apresentadas, observa-se que, se
categorizadas, resultaram em algo como localização, personalidades de atuação
política, entidade, ajuda, tempo e outros, o que aponta para a persistência das
categorias apresentadas na aplicação de filtros exposta anteriormente e demonstra
que, as categorias com combinações que possuem combinações de real valor
semântico podem ser diferenciadas quantitativamente pelos índices de validação,
como indica a análise do O/E, que para collocations com valores abaixo de 800
determina a presença nas categorias de tempo e outros. Todas as collocations
apresentadas foram validadas pelos índices com este propósito e devem ser
tratadas, no momento das etiquetagens, como elementos únicos. A quantificação
geral aponta o horizonte de atuação sobre collocations e, conjuntamente com a
descrição do corpus dentro do filtro estudado, de determinação dos nós sobre a rede
pretendida.
49
Obviamente que as collocations selecionadas possuem bem mais que uma
entrada, o que leva que as análises aqui ocorrentes possuem maior cobertura do
que o esperado pelo mecanismo que delimitou a quantidade de collocations,
tornando os resultados mais robustos e havendo margem para perdas derivadas do
tratamento mostrado. Para este tratamento, buscou-se a aplicação dos comandos
de delimitação de raiz e lematização.
3.3.3. Tratamento de Unidades Léxico-Semânticas
Tendo como foco a busca de padrões em redes de co-ocorrência que
permitam a aplicação dos conceitos até aqui apontado e verificação do uso de
análises pertinentes ao PLN para a caracterização da expressão da inteligência
social em desastres naturais, pelo caso estudado, um conjunto é tomado como
amostra (como já detalhado) para tratamento e posterior inferência de padrões. A
Figura 10 mostra a evolução das primeiras 200 palavras mais frequentes
acumulativamente no corpus do Haiti.
Figura 10. Perfil acumulativo das 200 palavras mais frequentes no corpus do Haiti.
50
As collocations são mostradas na tabela 7, bem como sua frequência.
Tabela 7. Dados sobre 63 collocations entre bigramas e trigramas.
Representatividade de Collocation
ID
Concordância (A+B)
sobre Tokens [2*f(A|B)]
1
Porto Príncipe
764
2
São Paulo
662
3
Nações Unidas
196
f(A|B)
382
331
98
4
5
6
7
8
9
10
11
12
13
14
15
dos EUA
Estados Unidos
Zilda Arns
República Dominicana
René Préval
Pastoral (da) Criança
América Latina
Dilma Rousseff
direitos humanos
Celso Amorim
semana passada
Forças Armadas
462
190
202
180
152
162
146
146
134
124
138
98
231
95
101
90
76
81
73
73
67
62
69
49
16
17
18
19
20
21
que () não
ajuda humanitária
das (Nações) Unidas
das Nações
comunidade internacional
Rio (de) Janeiro
622
146
166
166
126
114
311
73
83
83
63
57
22
23
24
Cité Soleil
ano passado
Cima () Hora
88
144
92
44
72
46
25
disse () que
366
183
26
secretário (- ou direto) geral
186
93
27
28
29
30
porta (-) voz
Nova York
Relações Exteriores
nos últimos
100
102
80
138
50
51
40
69
31
Hillary Clinton
100
50
32
Direitos H (h) umanos
86
43
33
Barack Obama
90
45
34
Cruz Vermelha
74
37
35
segundo turno
110
55
36
Nelson Jobim
80
40
37
Floriano Peixoto
68
34
39
40
41
Baby Doc
governo haitiano
pode ser
74
146
148
37
73
74
43
pelo menos
138
69
51
44
longo prazo
74
37
45
Luiz Inácio
64
32
46
acordo com
142
71
47
governo brasileiro
128
64
48
Bertrand Aristide
58
29
49
dos Estados
462
231
50
cada vez
88
44
51
por exemplo
118
59
52
militares brasileiros
96
48
53
Bel Air
44
22
54
União Européia
50
25
55
World News
66
33
56
Além disso
68
34
57
por causa
106
53
58
nos EUA
132
66
59
após (o) terremoto
<286
<143
60
paz (da) ONU
134
67
61
Conselho (de) Segurança
106
53
62
missão (de) paz
<160
<80
63
últimos anos
48
24
TOTAL
9490
4745
As collocations de identificação 59 e 62 não puderam ter suas frequências
contabilizadas até o momento, por dificuldades em obter estes dados pelos
comandos do pacote NLTK, já que os “candidatos” a assumirem a intermediação
entre as palavras que as forma são bastante comuns nos textos colhidos, o que
inviabiliza, por hora, sua contagem (conta palavra por palavra). Assim, nos
tratamentos apresentados na sequência estas serão desconsideradas.
O tratamento pelo pacote NLTK para identificação de raízes de palavras por
meio dos lematizadores Porter e Lancaster são mostrados para as 200 palavras
mais frequentes na Tabela 8.
Tabela 8. Busca de raízes nas 200 palavras mais frequentes.
não é Haiti Brasil à país governo terremoto disse ser ONU presidente está EUA anos já
sobre são há ontem também ainda pessoas É mil São até estão Porto Paulo só Não
Príncipe países onde diz às Lula ajuda ano dia segundo após dois mundo ter pode
Sem
Estado militares R brasileiro maior hoje missão US milhões parte menos Folha haitianos
tratamento
Minustah fazer Segundo haitiano vai bem capital apenas Rio cidade contra será grande
desde deve três outros política todos SP Exército dias água agora internacional têm vez
brasileiros cerca primeiro porque americanos dinheiro brasileira situação semana duas
52
Porter
Lancaster
ministro tempo trabalho militar paz ex segurança afirmou vítimas lado população antes
vida grupo todo caso Zilda crianças havia cada mortos Dilma novo número primeira
haitiana meio outro região outras sido tropas sob força assim tragédia janeiro Estados
local Obama reconstrução tudo Jean aqui passado conta meses Há FOLHA sendo casa
TV podem história melhor general geral lugar José quase sempre República americana
News alguns cinco momento Nacional acordo lá pouco soldados comando América
poder Já Préval faz além americano nada vezes Irã crise fez ajudar muitos outra centro
falta forma quatro relação ruas exemplo fato Amorim eleições violência Arns ações
morte projeto
não é Haiti Brasil à paí governo terremoto diss ser ONU president está EUA ano já sobr
são há ontem também ainda pessoa É mil São até estão Porto Paulo só Não Príncipe
país ond diz às Lula ajuda ano dia segundo apó doi mundo ter pode Estado militar R
brasileiro maior hoje missão US milhõ part meno Folha haitiano Minustah fazer Segundo
haitiano vai bem capit apena Rio cidad contra será grand desd deve trê outro política
todo SP Exército dia água agora internacion têm vez brasileiro cerca primeiro porqu
americano dinheiro brasileira situação semana dua ministro tempo trabalho militar paz
ex segurança afirm vítima lado população ant vida grupo todo caso Zilda criança havia
cada morto Dilma novo número primeira haitiana meio outro região outra sido tropa sob
força assim tragédia janeiro Estado local Obama reconstrução tudo Jean aqui passado
conta mese Há FOLHA sendo casa TV podem história melhor gener geral lugar José
quas sempr República americana News algun cinco momento Nacion acordo lá pouco
soldado comando América poder Já Préval faz além americano nada veze Irã crise fez
ajudar muito outra centro falta forma quatro relação rua exemplo fato Amorim eleiçõ
violência Arn açõ mort projeto
não é hait brasil à paí governo terremoto diss ser onu presid está eu ano já sobr são há
ontem também aind pessoa é mil são até estão porto paulo só não príncipe país ond diz
às lul ajud ano dia segundo apó doi mundo ter pod estado milit r brasileiro mai hoj
missão us milhõ part meno folh haitiano minustah faz segundo haitiano vai bem capit
apena rio cidad contr será grand desd dev três outro polític todo sp exército dia águ agor
internac têm vez brasileiro cerc primeiro porqu americano dinheiro brasileir situação
seman dua ministro tempo trabalho milit paz ex seguranç afirmou vítimas lado
população ant vid grupo todo caso zild criança hav cad morto dilm novo número primeir
haitian meio outro região outra sido tropa sob forç assim tragéd janeiro estado loc obam
reconstrução tudo jean aqu passado cont mes há folh sendo cas tv podem histór melh
gen ger lug josé quas sempr repúblic american new algun cinco momento nac acordo lá
pouco soldado comando améric pod já préval faz além americano nad vez irã cris fez
ajud muito outr centro falt form quatro relação rua exemplo fato amorim eleiçõ violênc
arn açõ mort projeto
Já a aplicação do comando WordNet Lemmatizer para a lematização, que é
mostrado como associado ao comando de tokenização (divisão automática de
expressões), não apresenta nenhum resultado que possa ser apresentado, além da
própria separação promovida por tal comando:
n ã o é Haiti Brasil à pa í s governo terremoto disse ser ONU presidente est á EUA anos j á
sobre s ã o h á ontem tamb é m ainda pessoas É mil S ã o at é est ã o Porto Paulo s ó N ã o Pr í
ncipe pa í ses onde diz à s Lula ajuda ano dia segundo ap ó s dois mundo ter pode Estado militares R
brasileiro maior hoje miss ã o US milh õ es parte menos Folha haitianos Minustah fazer Segundo
haitiano vai bem capital apenas Rio cidade contra ser á grande desde deve tr ê s outros pol í tica
todos SP Ex é rcito dias á gua agora internacional t ê m vez brasileiros cerca primeiro porque
americanos dinheiro brasileira situa ç ã o semana duas ministro tempo trabalho militar paz ex seguran
ç a afirmou v í timas lado popula ç ã o antes vida grupo todo caso Zilda crian ç as havia cada mortos
Dilma novo n ú mero primeira haitiana meio outro regi ã o outras sido tropas sob for ç a assim trag é
dia janeiro Estados local Obama reconstru ç ã o tudo Jean aqui passado conta meses H á FOLHA
sendo casa TV podem hist ó ria melhor general geral lugar Jos é quase sempre Rep ú blica
53
americana News alguns cinco momento Nacional acordo l á pouco soldados comando Am é rica
poder J á Pr é val faz al é m americano nada vezes Ir ã crise fez ajudar muitos outra centro falta
forma quatro rela ç ã o ruas exemplo fato Amorim elei ç õ es viol ê ncia Arns a ç õ es morte projeto
Em resumo, essas últimas tarefas buscaram a delimitação sobre uma amostra
de trabalho para a confecção das primeiras redes para análise, na tentativa de
execução de tratamentos que padronizem as expressões mais ocorrentes, e
permitam também a padronização das collocations delimitadas para estudo, por
meio do pacote NLTK. Como a visualização dos resultados deste tratamento permite
observar, não houve bons resultados que permitissem avanças a partir daí. A
limitação dos comandos aplicados para este fim se dá em grande parte pelo foco na
língua inglesa que o pacote NLTK apresenta. As saídas para este problema estão no
tratamento manual dos dados (para estudos com número reduzido de dados), busca
de comandos em módulos em linguagem Python que executem o tratamento com
foco no português ou a busca por padrões por meio de etiquetagem do corpus.
3.3.4. Etiquetagem de Corpus
A utilização do pacote NLTK mostrou-se útil na composição do corpus, sua
descrição, na verificação de collocations e, principalmente, na demonstração da
possibilidade de trabalhos em língua portuguesa para tanto. O prosseguimento do
trabalho mostra que este pacote se faz muito útil no respaldo a composição de redes
discursivas por meio da quantificação de ligações e ocorrências de expressões de
referência a entidades assistenciais, bem como respaldando a discretização de
conjuntos lexicais para análise, como sentenças ou arquivos dentro do corpus. Para
usos além destes por aplicações do NLTK nesta pesquisa, Bird et. al. [10] aponta ser
possível a realização de etiquetagem do corpus (permite a busca por padrões de
ações de entidades em sentenças) e mesmo a identificação de entidades (acesso
54
direta a informação semântica de presença de entidades e seu relacionamento),
ações de extrema afinidade com a busca aqui empreendida e que segue a lógica de
Extração de Informação em textos brutos para formatos estruturados, o que passa
pela segmentação de sentenças, tokenização, etiquetagem, reconhecimento de
entidades e suas relações, como mostra esta literatura e ilustra a Figura 11 [10].
Figura 11. Extração de Informação partindo de texto bruto até uma lista de tuplas do tipo (entidade,
relação de entidade) [10].
Nesta primeira tarefa, a etiquetagem se mostra dependente da execução do
comando de tokenização, aplicando-se após a separação de expressões lexicais
comandos de busca de similaridade tendo como referência um corpus da língua
estudada já etiquetado que faça parte do pacote [10]. Ocorre que, como mostrado
acima, o comando de tokenização aplicado ao português não apresenta bons
resultados. Além disto, os corpora de referência para o português dentro do NLTK
são o “Floresta” e o “Mac_morpho” [10], cuja aplicação sobre textos importados na
comparação não se mostrou possível. Uma saída apontada para isto via NLTK seria
a identificação de padrões da língua natural estudada (no caso o português) e a
criação de regras por meio de funções que imprimiriam no corpus a etiqueta
correspondente ao padrão ao localizá-lo em um item lexical [10]. A de se convir,
entretanto, que o levantamento destes padrões na concepção de um etiquetador
55
para o português, incluindo busca por superação do problema da tokenização que
se não levada em conta acaba por separar expressões de collocations, representa
por si só um trabalho de pesquisa, não sendo objetivo deste trabalho.
Para superar este problema, utilizou-se um recurso on-line de etiquetagem
em língua portuguesa (entre outros recursos de apoio, principalmente ao ensino
[47]) criados dentro de um projeto chamado Visual Interactive Syntax Learning
(VISL) [9]. Este projeto promove a pesquisa e desenvolvimento de ferramentas na
internet baseada na educação e pesquisa sobre gramática [9], realizada pelo
Institute of Language and Communication (ISK) na University of Southern Denmark
(SDU) desde setembro de 1996 [9]. Especialmente no módulo em português utilizase a máquina analisadora de sentenças, subindo os arquivos que compõe o corpus
de análise para o retorno destes em etiquetados por meio de uma segmentação total
morfossintática, que atribuí etiquetas semânticas, o que se faz muito útil para esta
pesquisa. Com isto, é possível utilizar o NLTK aplicado aos corpora etiquetados, o
que o torna uma ferramenta de gerenciamento e manipulação de corpus para este
trabalho, permitindo o acesso ao conjunto léxico de estudo, aplicação de filtros com
base um determinado padrão e determinação de ligações da rede buscada pela
quantificação de dados sobre a ocorrência de itens lexicais de referência a entidades
assistenciais nos textos e por etiquetas.
A questão passa a ser então que etiquetas se associam as entidades
assistenciais, permitindo o reconhecimento destas. Em termos de reconhecimento
de entidade Bird et. al. [10] aponta que é esta uma das finalidades da aplicação de
recursos para estruturação de dados e extração de informação em linguagem
natural. Para isto, se faz necessária a execução do particionamento das sentenças
do corpus em porções nominais e verbais (chunking), o que obviamente depende da
etiquetagem do corpus, na composição de árvores que demonstram que elementos
lexicais atuam de que forma sobre que outros elementos, sendo comum a
apresentação em árvore [10]. O que atravanca a aplicação por meio do NLTK nesta
tarefa é a necessidade de uma etiquetagem que siga o corpus de referência para a
língua estudada, o que fica explícito na execução de comandos de identificação de
entidades e suas relações que levam em conta relações de entidades já
56
estabelecidas por árvores de relacionamento de itens lexicais etiquetados. Outro
problema está no chunking, também dependente da etiquetagem e concebido para a
língua inglesa, o que leva a resultados não pertinentes assim como a tokenização.
Assim, ganha importância a associação etiqueta-entidade para o trabalho aqui
realizado. Entendendo que a tarefa de reconhecimento de entidades por meio das
etiquetas é essencial para o objetivo de extrair as entidades assistenciais e suas
relações na concepção de uma rede léxico-semântica, para o tema apresentado,
apresenta-se na próxima seção informações sobre esta tarefa relevante para esta
pesquisa, o Reconhecimento de Entidade Mencionada.
4. RECONHECIMENTO DE ENTIDADES MENCIONADAS
4.1. Origem e Definições
O Reconhecimento de Entidades Mencionadas (Named Entity RecognitionNER) foi concebido para extração de informações estruturadas de textos não
estruturados, como artigos de jornal, sobre atividades de companhias e relacionados
à defesa, sendo que os primeiros trabalhos neste sentido surgiram em 1991, com
extração e reconhecimento de nomes de companhias baseados em regras
heurísticas [66]. O termo Named Entity (amplamente usado em PLN) foi cunhado na
6ª Conferência de Entendimento de Mensagem (Sixth Message Understanding
Conference – MUC-6) em 1996, inicialmente cobrindo nomes de pessoas, locais,
organizações e expressões numéricas (hora/ data/ dinheiro/percentual) [79], o que
57
permite o uso prático de extração de informações, aplicado a amplos domínios
independentes, automaticamente e com alta acurácia, primeiro objetivo do MUC-6
[38]. Desde então tem se mostrado como uma importante subárea da Extração de
Informações, chamado também de Named Entity Recognition and Classification
(NERC) [79]. A ideia principal que perpassa aplicações de NERC é restringir em um
nome expressões de entidade que realizem a mesma atividade (o que implica em
consequente categorização) [66].
Uma das técnicas de NERC é o reconhecimento de nomes próprios, em que
se abordam pessoas, locais e organizações (“enamex”), onde cada um pode ser
mais bem refinado [66]. Além destas, outras entidades reconhecidas são produtos,
tempo, dinheiro, porcentagem (estas três últimas dentro da categoria “numex”), além
de algumas específicas aplicadas a estudo de domínios, como proteínas, DNA,
RNA, tipo de célula, entre outras em aplicações de bioinformática, por exemplo [66].
Existem esforços no sentido de desenvolver sistemas de extração de entidade
independente do domínio, cobrindo uma grande parte dos refinamentos possíveis
mais frequentes, alcançando cerca de 200 categorias [66]. Busca-se também a
aplicação de NERC no processamento de informação multimídia, como também
abordagens semi e não supervisionadas para coleções muito grandes de texto e
categorias de NE [66].
Porém o método mais difundido é a aprendizagem supervisionada baseada
em regras de sistema ou início de algoritmo de etiquetagem em sequência a partir
de um conjunto de treinamento [66]. Este método exige um grande corpus anotado
para captura de instâncias de determinados tipos de entidades por meio de regras
[66]. A indisponibilidade e custo deste corpus anotado levam a buscar as soluções
semi e não estruturadas [66]. Técnicas para aplicação de aprendizagem
supervisionada incluem Modelos Ocultos de Markov, árvores de decisão, modelos
de máxima entropia, Suport Vector Machine (SVM) e campo aleatório condicional;
isto é, técnicas de aprendizado de máquina que desambiguam e memorizam
entidades em um grande corpus anotado para posterior identificação em textos fora
deste [66]. A medição de desempenho fica por conta de uma taxa de recall
58
(entidades identificadas em relação ao total presente em um texto) para palavrasteste sem repetição em um texto [66].
Modelos de aprendizagem semi-supervisionados se baseiam na entrada de
alguns exemplos de entidade buscada, identificando padrões de aparecimento
destes exemplos no texto e procurando outras ocorrências que se enquadram em tal
padrão [66]. Estes padrões podem ser regras fixas de controle lexical, restrições
impostas, nomes próprios, similaridade ou técnicas de test stropping, por exemplo
[66]. Há o registro em pares de contexto ortográfico e a ortografia correspondente
(pode ser alguns destes pares entrada para o sistema onde as entidades são
classificadas) e as ocorrências mais frequentes se transformam em conjuntos de
regras contextuais, aplicadas a busca de novas regras ortográficas, refinando o
processo [66].
Por fim o método não supervisionado, que se baseia na busca de padrões em
corpus não anotado em termos lexicais e/ou estatísticos, com destaque na aplicação
de clusterização, havendo também pesquisas que trabalham com conceitos de
hipo/hiperônimos (com marcação de entidades vinda do WordNet) e co-ocorrência
de palavras em recortes sentenciais [66].
Como atributos de referência para NERC existem os de níveis de palavras,
incluindo o de caixa (alta ou baixa), pontuação e caractere (mapeamento de padrões
por código), dígito (importante para entidades de números e tempo), morfologia
(afixos
e
raízes
na
determinação
de
profissões,
nacionalidade/língua
e
organizações), partes do discurso e função (aplicação de não alfabéticos e n-gramas
na formação de nomes de entidades) [66]. Também existem os atributos com
relação à apresentação em lista de entidades e seus significados, concebido pela
frequência no corpus de análise, podendo ser uma lista geral (permite
desambiguação), de entidade (palavras que se agregam formando nomes de
organizações, como Association ou General, por exemplo) ou de “pistas” desta
(palavras que demarcam contexto, permitindo inferir padrões de ocorrência de
entidades por sua forma normatizada); podendo também ser aplicada como
tratamentos que padronizam pequenas variações de palavras e som [66]. Além
59
destes, existem as atributos referentes aos documentos e ao corpus utilizados como
recurso a aplicação de NERC, que dizem respeito à múltipla ocorrência
(contabilização de ocorrências maiúsculas e minúsculas), localização sintática
(identificação de entidade e demarcação semântica), meta informação (identificação
de entidades em cabeçalhos de início de notícias) e frequência de corpus (palavras
raras e longas em maiúscula, além de cálculo de “vida” da palavra - comparativo de
suas várias aparições no corpus) [66].
A avaliação de NERC é um ponto importante, contrapondo a saída de
linguistas que trabalham com linguagem natural e máquinas [66]. Existem três tipos
principais de avaliação [66]. A avaliação MUC trabalha com uma média harmônica
de precisão e recall baseados na contabilização de tipos de entidades encontradas e
texto atribuído para cada nome dentro da entidade [66]. Já a avaliação de
correspondência exata usa uma medida de micro-média que analisa o percentual de
acerto conforme a correspondência exata da entidade como solução [66]. Por fim, a
avaliação ACE, mais complexa por trabalhar com subtipos e classes atribuindo
pesos a estas na composição de grupos de entidades que tem seus erros
descontados do valor 100%, o Valor de Reconhecimento e Detecção de Entidades
[66].
O NERC é aplicado para a delimitação de entidades que se prestam como
respostas em sistemas de pergunta-resposta [61], criação de sistemas multilíngues
[8], transposição de conhecimento entre línguas [81] e respaldo a mapeamentos de
conhecimento e tomadas de decisão, como ficará mais claro na próxima seção
sobre aplicações em determinados domínios. Aplicado a problemática definida na
apresentação do domínio, o NERC identifica as entidades presentes em um corpus
de referência a notícias sobre os terremotos estudados, permitindo, a marcação
semântica destes que leva a composição de um mapeamento do conhecimento
sobre suas ações em termos de integração, sobreposição, diferenças e omissões.
Para tanto, é preciso observar o que se tem em trabalhos delimitados a domínios e,
especialmente, ao domínio de entidades geográficas, na qual se subscreve o
domínio de entidades de desastres naturais, entre elas algumas das entidades
assistenciais buscadas. Também o que se tem desenvolvido para o português é algo
60
relevante, uma vez que os textos que compõe os corpora para análise estão nesta
língua.
4.2. Aplicação sobre Temas Diversos
Dentro do trabalho de NERC uma das definições básicas está no domínio de
aplicação, para levantamento de trabalhos naquela linguagem natural e de que
método permite o reconhecimento das entidades, uma vez que com o domínio, varia
o quadro geral que permite a delimitação de um contexto específico, e assim, variam
também as entidades a serem identificadas.
Um
domínio
que
se
destaca
na
aplicação
de
NERC
e
mesmo
desenvolvimento desta tarefa é o das ciências biológicas [66]. Isto porque a
abundância de documentos (textos, patentes, relatórios de indústria e artigos
científicos [95]) leva a necessidade de aplicação de técnicas de mineração de dados
no domínio biológico [3]. A aplicação de NERC em avanços na identificação de
genes e células mencionadas é uma das mais comuns, dividindo espaço com usos
em motores de busca e identificação de tendência no espaço midiático [66].
Em especial há o interesse em determinar entidades biológicas e suas
relações em artigos científicos [3]. As dificuldades estão no volume a ser analisado,
na dinâmica própria de inclusão de novas entidades e descarte de outras, diferentes
usos e variantes de uma entidade por diferentes comunidades dentro da grande
área de ciências biológicas [3]. O trabalho com NERC em ciências biológicas passa
pela construção de corpus e aplicação de técnicas de aprendizado de máquinas
para reconhecer, classificar e identificar entidades biológicas [3].
61
As técnicas combinam correspondência de padrões, tokenização, marcação
baseada em Modelos Ocultos de Markov, desambiguação heurística, SVM,
similaridade
semântica,
classificadores
bayesianos
ingênuos
e/ou
análise
morfológica [3]. Estas são aplicadas na determinação de nomes de genes,
proteínas, abreviaturas biomédicas, composição de dicionários e gerenciamento de
ontologias [3], entidades químicas (drogas) e sua correspondência com estruturas
reconhecidas por computador para desenvolvimento de medicamentos [95],
doenças, sintomas e diagnósticos realizados [27]. A busca pelo reconhecimento
destes nomes culminou no projeto GENIA [66]. Este projeto busca a construção de
ontologia e corpus simultaneamente por meio de resumo de pesquisas no banco de
dados MEDLINE (dedicado a ciências biológicas), para aplicação de tecnologia de
PLN na extração de informações sobre genoma (especificamente biologia molecular)
de seu grande volume não-estruturado [69]. Anotou-se entidades por meio de NER
que tem por base a ontologia, fontes, anotação do corpus, cumprindo um dos
objetivos deste projeto [69].
O destaque a este domínio se dá por conta de que os trabalhos sobre impacto
de gênero textual e sobre domínios específicos são negligenciados pela literatura de
NERC, se restringindo a trabalhos com e-mails, textos científicos, textos religiosos e
boletins eletrônicos de notícias [66].
Outro domínio, de interesse para esta pesquisa, é o de entidades geográficas.
Neste caso, dentro da possibilidade de aplicação dos mesmos métodos
apresentados acima, realiza-se a identificação de entidades que se baseiam na
existência de um espaço, mais especificamente o geográfico, como Países, Estados,
Municípios, Distritos, Bairros, Rios, Planícies, Propriedades Territoriais [21],
Povoados, Demarcadores Culturais ou Sociais, Religiões [22], entre outros. Isto é,
realiza-se um maior refinamento a partir de uma das entidades básicas
determinadas para marcação no início dos trabalhos de NERC, a de locais [53].
Dada a especificidade e o interesse nas tarefas de NERC aplicadas a este
domínio, é considerada uma sub-tarefa, o Reconhecimento de Entidade Geográfica
(Geographic Entity Recognition – GER) [80], que se insere em pesquisas de
62
Extração de Informações Geográficas [17]. Isto permite a integração de
conhecimentos geográficos, compilação de diferentes referências na composição de
uma ontologia dedicada ou pareamento de palavras de diferentes línguas e
construção de bases de conhecimento que sirvam a sistemas de pergunta-resposta
[21], classificadores de documentos de acordo com seu âmbito geográfico, criação
de interfaces de recolhimento de informação para consultas geográficas e interfaces
XML para consultas a almanaques geo-temporais [20]. A ideia é que os textos estão
para GER assim como dados estruturados e geo-referenciados estão para Sistemas
de Informação Geográfica (SIG) [52].
4.3. Trabalhos em Diferentes Línguas
Como citado acima, outro fator relevante na aplicação de NERC é a língua
abordada. Grande parte dos trabalhos é realizada para o inglês, embora o alemão,
holandês, espanhol e japonês tenham ganhado destaque em uma das mais
importantes conferências da área (CoNLL – Conference on Computational Natural
Language Learning) [66]. Um grande volume de trabalhos tem sido realizado em
chinês, grego, francês, português, italiano e árabe [66].
No português, os trabalhos em NERC ocorrem de forma mais maciça por
meio de uma plataforma de recursos para o Processamento Computacional de
Língua Portuguesa, chamada Linguateca. Este centro de recurso surgiu de um
projeto chamado Processamento Computacional do Português ocorrido entre 1998 e
2000, que buscava a melhoria da qualidade do processamento que dá nome ao
projeto, por meio da produção de recursos sofisticados, monitoramento e
disseminação da área, e organização de iniciativas condizentes a avaliação da
63
atividade e dos sistemas existentes [47]. Atualmente a Linguateca se presta a
facilitar o acesso aos recursos já existentes (por meio de rede), desenvolver os
recursos considerados mais urgentes em colaboração com os interessados, e
organizar avaliações conjuntas que envolvam a comunidade como um todo [47].
Dentro desta central de recursos uma dos temas que desencadeou avaliação
conjunta de pesquisadores foi o NERC para português, culminando no HAREM,
acrônimo para “Avaliação de Reconhecimento de Entidades Mencionadas” [62]. Este
é o trabalho de destaque em português na área de reconhecimento de entidades
mencionadas [66]. Com organização iniciada em 2005, o HAREM se inspirou no
MUC e veio a suprir uma demanda por formas de NERC em português padronizadas
e automatizadas [75]. A ideia do HAREM é a de um grande projeto que engloba a
formação de um conjunto de textos dos mais diferentes gêneros (Coleção HAREM –
CH) para aplicação de anotações semânticas sobre as entidades realizadas por
humanos seguindo determinados padrões (Coleção Dourada – CD, disponível pelo
projeto Acesso a Corpora/Disponibilização de Corpora – AC/DC) [75]. Esse conjunto
é utilizado depois, dentro da metodologia e terminologia definida pelo HAREM para a
comparação com textos não anotados para a classificação, isto é, um modelo de
avaliação de sistemas automáticos de NERC para o português [75]. O HAREM
estabelece, portanto, um padrão de NERC em português e uma forma de avaliação,
que engloba hoje a comparação e o uso de parâmetros estatísticos (já na versão
mini-HAREM), mantendo-se fiel ao MUC, para sistemas como CaGE (Grupo XLDB,
Universidade de Lisboa), Cortex (PUC-Rio/CLIC), ELLE e SMELL (Pólo da
Linguateca no LabEL), Malinche (INAOE), NERUA (Universidade de Alicante),
PALAVRAS-NER (University of Southern Denmark), RENA (Universidade do Minho),
RSN-NILC (NILC), SIEMÊS 1 e 2 (Pólo do Porto da Linguateca), Stencil/NooJ (IST e
LASELDI, Université de Franche-Comté) [75].
Já se trabalha atualmente com conceito de Segundo HAREM, seguindo a
mesma lógica do primeiro, mas incluindo duas novas tarefas/pistas: a de
reconhecimento e normalização de expressões temporais e a de reconhecimento de
relações semânticas entre entidades mencionadas, o ReRelEM (Reconhecimento de
Relações entre Entidades Mencionadas) [62]. Seguindo este conceito atualizado
64
aponta-se
os
(PORtuguese
sistemas
Temporal
CaGE
(Capturing
EXpressions
Tool),
Geographic
Priberam,
Entities),
R3M,
PorTexTO
REMBRANDT
(Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise
Detalhada do Texto), REMMA (Reconhecimento de Entidades Mencionadas do
MedAlert), SEI-Geo (Sistema de Extração, Anotação e Integração de Conhecimento
Geográfico) e SeRELeP (Sistema de reconhecimento de RElações em textos de
Língua Portuguesa) [62].
O conhecimento desta terminologia adotada pelo HAREM e os sistemas que
por ele são avaliados é de fundamental interesse desta pesquisa, na determinação
de padrões que permitam o reconhecimento das entidades assistenciais como
pretendido e avaliação de sistemas presentes e estabelecidos para tanto,
contraposto a ideia de realizar a tarefa por conta própria, utilizando uma metodologia
baseada na modelagem Linguística já descrita.
4.4. NER por Etiquetas nos Corpora de Trabalho
Apresentados os conceitos de NER e as limitações do trabalho (impostas pelo
pacote NLTK) que levam a busca por meio de etiquetas de entidades assistenciais,
é o momento de se apresentar o trabalho com etiquetas. Seguindo a demonstração
manual apresentada na metodologia e o trabalho com filtros que buscou entidades
por caixa alta (seção 2.3.1) o caminho a ser seguido primeiramente é de busca de
uma etiqueta que marque nomes próprios. Para a anotação no VISL realizada a
etiqueta que isto indica é “PROP”, como se demonstra no exemplo de sentença da
Tabela 9, onde Haiti, Comitê Internacional, Cruz Vermelha e CICV são nomes
próprios marcados por “PROP” (grifo verde).
65
Tabela 9. Sentença original e etiquetada que exemplifica anotação “PROP”.
Sentença Original
O acesso limitado a água, comida e
atendimento médico tem elevado as
tensões no Haiti e deixado as pessoas
“mais agressivas” na luta pela
sobrevivência, passada uma semana
desde
o
terremoto
,
informa
comunicado do Comitê Internacional
da Cruz Vermelha ( CICV )
Sentença Etiquetada
O [ o ] <*> < artd > < dem > DET M S [ ele ] <*>
PERS M 3S ACC [ o ] <*> < ac - sign > N M S [ O ]
<*> N M S acesso [ acesso ] < event > < Lpath > < f right > N M S [ acessar ] < vt > V PR 1S IND VFIN
limitado [ limitado ] ADJ M S [ limitar ] < vt > V PCP
M S a [ o ] < artd > < dem > DET F S [ ela ] PERS F
3S ACC [ a ] PRP [ a ] < ac - sign > N M S Ã ¡ gua [ Ã
¡ gua ] < cm - liq > < drink > < f - q > N F S [ aguar ] <
vt > < vi > V IMP 2S VFIN [ aguar ] < vt > < vi > V PR
3S IND VFIN \, comida [ comida ] < food - h > < occ >
N F S [ comer ] < vt > < vi > V PCP F S e [ e ] KC [ e
] < ac - sign > N M S atendimento [ atendimento ] <
act > N M S mà © dico [ mà © dico ] ADJ M S [ mÃ
© dico ] < Hprof > N M S tem [ ter ] < vt > V IMP 2S
VFIN [ ter ] < vt > V PR 3S IND VFIN elevado [
elevado ] ADJ M S [ elevado ] < Lpath > N M S [
elevar ] < vt > V PCP M S as [ o ] < artd > < dem >
DET F P [ elas ] PERS F 3P ACC [ a ] < ac - sign > N
M P tensões [ tensà £ o ] < f - q > < percep - f > N F
P em [ em ] < sam -> PRP o [ o ] <- sam > < artd >
DET M S Haiti [ Haiti ] <*> PROP M S e [ e ] KC [ e ]
< ac - sign > N M S deixado [ deixar ] < vt > < vtK > V
PCP M S as [ o ] < artd > < dem > DET F P [ elas ]
PERS F 3P ACC [ a ] < ac - sign > N M P pessoas [
pessoa ] < H > N F P mais [ mais ] <* 1 > < atemp >
ADV [ mais ] <* 1 > < kc > ADV [ muito ] <* 1 > <
quant > < KOMP > ADV [ muito ] <* 1 > < quant > <
KOMP > DET M / F S / P agressivas [ agressivo ] <*
2 > ADJ F P em [ em ] < sam -> PRP a [ o ] <- sam >
< artd > DET F S luta [ luta ] < fight > N F S [ lutar ] <
vi > < vt > V IMP 2S VFIN [ lutar ] < vi > < vt > V PR
3S IND VFIN por [ por ] < sam -> PRP a [ o ] <- sam
> < artd > DET F S sobrevivência [ sobrevivência ]
N F S \, passada [ passada ] < act - d > N F S [
passado ] ADJ F S [ passar ] < ve > < vt > V PCP F S
uma [ um ] < quant > < arti > DET F S [ um ] < card >
NUM F S semana [ semana ] < dur > N F S desde [
desde ] KS [ desde ] PRP o [ o ] < artd > < dem >
DET M S [ ele ] PERS M 3S ACC [ o ] < ac - sign > N
M S terremoto [ terremoto ] < occ > N M S \, informa [
informar ] < vt > V IMP 2S VFIN [ informar ] < vt > V
PR 3S IND VFIN comunicado [ comunicado ] < sem r > N M S [ comunicar ] < vt > < vi > V PCP M S de [
de ] < sam -> PRP o [ o ] <- sam > < artd > DET M S
Comitê = Internacional [ Comitê = Internacional ]
<*> PROP M / F S / P de [ de ] < sam -> PRP a [ o ]
<- sam > < artd > DET F S Cruz = Vermelha [ Cruz =
Vermelha ] <*> PROP F S .- CICV [ CICV ] <*>
PROP M / F S / P -.
Também é interessante buscar referências a entidades que não o seu nome,
e isto se mostrou possível por uma série de etiquetas semânticas utilizadas pelo
VISL na marcação adotada. Isto porque, além de se criar redes que relacione
66
referenciais a ações (verbos) com nomes próprios por sentença, é possível também
manter redes com outras referências a estas entidades. Mais ainda, uma rede de coocorrência destes dois conjuntos léxicos em textos limitaria os possíveis valores dos
itens lexicais marcados por etiquetas semânticas dentro dos nomes próprios coocorrentes.
As
próximas
subseções
detalham
estes
dois
estágios
de
reconhecimento de entidades, bem como o de verbos (também colhidos por meio de
marcação aplicada pelo VISL).
4.4.1. Etiqueta PROP
Identificada a etiqueta PROP para nomes próprios, desenvolveu-se um
algoritmo aplicado ao IDLE do NLTK para isolar, primeiramente as sentenças que
continham esta marcação. Este algoritmo envolveu a criação de laços onde um
comando de sentenças identificava se uma sentença continha “PROP” e gravava em
uma lista, que então era gravada em um arquivo txt. O conteúdo deste arquivo foi
então copiado e aplicado em um editor de texto uma substituição de forma que cada
item lexical ficasse em uma linha (tomando como referência o marcador “[”). Estas
linhas então foram filtradas em uma planilha eletrônica para que somente o léxico
contendo a marcação “PROP” fosse isolado (destaque para uma falha ocorrida em
uma primeira tentativa que fez o filtro ser aplicado somente a primeira sentença,
causando uma distorção notável nos dados que levou a necessidade de uma
correção em um momento seguinte, aplicando-se o filtro a todas as sentenças), e
então este léxico marcado foi isolado em um arquivo em txt. Pode-se assim,
novamente com o pacote NLTK, por meio de comandos que permitiram criar uma
lista de itens lexicais de nomes próprios por meio do último arquivo criado, da
67
frequência condicional e de filtros isolar os nomes próprios para os diferentes
corpora.
4.4.2. Etiquetas Semânticas
Dentro da determinação de etiquetas semânticas do VISL existem
marcadores para protótipos de animais, plantas, humanos, lugares e espaços,
veículos, protótipos abstratos, anatômicos, sobre objetos, sustâncias, vestimentas,
protótipos coletivos, de tempo e evento, de características, comida, conceito, sobre
partes, percepções, produtos semânticos, estado das coisas, ferramentas e clima.
Existem ainda as etiquetas semânticas que marcam categorias, como categoria
pessoa, organização ou grupo, lugar, evento, trabalho de arte, categoria abstrata,
sobre objetos, tempo e valor numérico. A escolha entre as etiquetas disponíveis e
ocorrentes se deu direcionada pela definição de tipos mais ocorrentes de entidades
por Bird et. al. (organização, entidade geopolítica, pessoa, localização, data, tempo e
dinheiro [10]) e também pela busca por definir léxicos que permitam localizar as
entidades assistenciais e o cenário no qual se enquadram (o que levou a inclusão de
etiquetas com referência a evento). A Tabela 10 apresenta estas etiquetas e seus
dados: categoria atribuída para este trabalho, presença de correspondente no
HAREM, etiqueta e categoria no HAREM (caso possua correspondência). Embora
levantados, os dados sobre as correspondências das etiquetas trabalhadas com o
HAREM não tiveram grande interferência neste trabalho, já que as etiquetas HAREM
não são utilizadas na marcação imposta ao corpus. Estes dados são então,
indicativos de convergência entre a etiquetagem utilizada e o projeto HAREM.
68
Tabela 10. Etiquetas semânticas e seus dados.
Etiqueta
Categoria atribuída
HAREM
Etiqueta HAREM
Categoria HAREM
Descrição
inst
Organization/
GPE/
Location
x
EMPRESA
ORGANIZACAO
Instituição
admin
Organization/
GPE
x
ADMINISTRACAO/O
RG
ORGANIZACAO
Corpo
administrativo
org
Organization/
GPE
x
INSTITUICAO/
EMPRESA
ORGANIZACAO
Organização
media
Organization/
GPE
x
EMPRESA
ORGANIZACAO
Mídia
party
Organization/
GPE
x
INSTITUICAO
ORGANIZACAO
Partido
suborg
Organization/
GPE
x
SUB
ORGANIZACAO
Suborganização
company
Organization/
GPE
x
EMPRESA
ORGANIZACAO
Companhia
group
Organization/
GPE
ORGANIZACAO
Grupo
groupind
Organization/
GPE
x
GROUPOIND
ORGANIZACAO
Grupo particular
groupoffici
al
Organization/
GPE
x
GROUPOCARGO
ORGANIZACAO
Grupo oficial
grouporg
Organization/
GPE
x
GROUPOMEMBRO
ORGANIZACAO
Grupo de
encontro social
H
Person
Humanos
HH
Person
Grupos
Hattr
Hbio
Person
Person
Atributos
Critério biológico
Hfam
Person
Relação familiar
Hideo
Person
Ideologia
Hmyth
Person
Mito
Hnat
Person
Nacionalidade
Hprof
Person
Profissional
Hsick
Person
Doença
Htit
Person
Título de pessoa
pos-na
Person
Posição
anatômica
pos-soc
Person
Posição social
69
hum
Person
x
INDIVIDUAL
PESSOA
Nome de pessoa
official
Person
x
CARGO
PESSOA
Função oficial
member
Person
x
MEMBRO
PESSOA
Membro
L
Location
Lugares
Labs
Location
Lugares abstratos
Lciv
Location
Civilização
Lcover
Location
Coberturas
Lh
Location
Lugares
funcionais
Lopening
Location
Abertura
Lpath
Location
Caminho
Lstar
Location
Objetos estelares
Lsurf
Location
Superfície
Ltip
Location
Lugares em topos
e abismos
Ltop
Location
Lugares
geográficos
naturais
Ltrap
Location
Armadilha
Lwater
Location
Lugares de água
bar
Location
Obstáculo
build
Location
Construção
top
Location
x
GEOGRAFICO
LOCAL
Localização
geográfica
civ
Location
x
ADMINISTRACAO/L
OC
LOCAL
Civilização
address
Location
x
CORREIO
LOCAL
Endereço
site
Location
x
ALARGADO
LOCAL
Lugares
funcionais
virtual
Location
x
VIRTUAL
LOCAL
Lugares virtuais
astro
Location
x
OBJECTO
LOCAL
Astros
road
Location
x
ALARGADO
LOCAL
Rodovias
dur
per
temp
unit
Time/
Date
Time/
Date
Time/
Date
Time/
Date/
Money
Duração
Período
Tempo
Unidade de
dinheiro ou tempo
70
month
date
hour
period
Time/
Date
Time/
Date
Time/
Date
Time/
Date
Mês
x
DATA
COISA/TEMPO
Data
x
HORA
COISA/TEMPO
Hora
x
PERIODO
COISA/TEMPO
Período
x
CICLICO
COISA/TEMPO
Tempo cíclico
cyclic
Time/
Date
mon
Money
Dinheiro
cur
Money
Moeda
currency
Money
x
MOEDA
COISA/VALOR
occ
Event
x
ORGANIZADO
ACONTECIMENTO
event
Event
x
EVENTO
ACONTECIMENTO
history
Event
x
EFEMERIDE
ACONTECIMENTO
Moeda
Evento
organizado
Evento não
organizado
Tempo histórico
de ocorrência
Escolhidas as etiquetas, executaram-se as mesmas rotinas realizadas para a
etiqueta “PROP”, para cada uma das etiquetas escolhidas que não apresentaram
contabilização igual à zero, em um dos corpora. A diferença aqui fica por conta da
identificação de alguns marcadores no grupo final de léxico obtido, o que exigiu a
filtragem destes também para obtenção de itens lexicais que realmente
expressavam os tipos de entidades etiquetadas.
4.4.3. Verbos
A localização dos verbos nos corpora de estudo se faz necessária aqui como
demonstrativa de ações desempenhadas pelas entidades buscadas. Isto se deu por
meio de etiquetas de valência de referência a verbos na marcação do VISL aplicada
(do tipo <v*). Assim, tomando cada um dos corpora como um conjunto de palavras
71
(por um comando específico no NLTK), buscou-se palavras que se enquadrassem
na apresentação entre colchetes normalizada e que eram sucedidas por marcações
dentro do padrão das aplicadas a verbos. A lista resultante foi então, para cada
corpus, tokenizada, submetida a filtros e colocada em uma nova lista que pudesse
ser utilizada em processos subsequentes. É importante notar que os itens lexicais
obtidos pela busca por essas etiquetas foram os únicos não gravados em um
arquivo txt (embora seja possível fazê-lo facilmente). A explicação para isto está no
método de captação deste item lexical, que não demandou uma posterior “limpeza”
dos dados levantados no momento de seu uso em processamentos seguintes (para
extração de etiquetas e isolamento de item lexical, como foi no uso do léxico
identificado pelas etiquetas PROP e Semânticas), resultante do padrão de aplicação
das etiquetas <v* pelo texto.
4.4.4. Busca por Resultados para Análise
Tendo as etiquetas e seus itens lexicais correspondentes, partiu-se para as
ações com estas utilizando-se o NLTK, tomando ainda apenas o corpus do Haiti. A
primeira abordagem neste sentido foi buscar dados sobre co-ocorrência de itens
lexicais correspondentes as etiquetas semânticas remanescentes em textos (Tabela
11) e co-ocorrência entre itens lexicais e etiquetas, que determina como cada item
lexical está marcado (Tabela 12). Também se realizou um cruzamento por
frequência condicional entre os itens lexicais anotados pela etiqueta PROP e as
sentenças que possuem marcações com as etiquetas semânticas (Tabela 13) e o
cruzamento de itens lexicais PROP com textos (Tabela 14). Isto segue uma lógica
na qual se buscou, quantitativamente, dentre as etiquetas semânticas, aquelas que
são correspondências a entidades assistenciais, pela co-ocorrência com outras
72
referências sabidamente de entidades deste tipo (de nome próprio), bem como
organizar a informação de co-ocorrência em textos das entidades etiquetadas e itens
lexicais marcados com PROP. Este dados de co-ocorrência foram organizados em
matrizes, representados para cada um dos casos conforme mostram as Tabelas
abaixo.
Tabela 11. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais
marcados por etiquetas semânticas e textos do corpus Haiti.
Item lexical
1.txt
10.txt
100.txt
101.txt
102.txt
103.txt
104.txt
panamÃ
0
1
0
0
0
0
0
tratar
0
0
0
5
0
0
0
tupiniquim
0
0
0
0
0
0
0
velório
0
0
14
2
0
0
0
barragem
0
0
0
0
0
0
0
nega
0
0
0
0
0
0
0
seguimento
0
0
0
0
0
0
0
respeitar
0
0
0
0
0
0
0
entÃ
2
0
0
0
0
0
0
React
0
0
0
0
0
0
0
ordinÃ
0
0
0
0
0
0
0
acadêmico
0
0
0
0
0
0
0
presente
0
0
0
0
0
0
0
prazo
0
1
0
0
2
0
0
Tabela 12. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais
marcados por etiquetas semânticas e arquivos com sentenças de etiquetas semânticas.
Item lexical
H.txt
HH.txt
Hattr.txt
Hbio.txt
Hfam.txt
Hideo.txt Hnat.txt
sobrado
0
0
0
0
0
0
0
panamÃ
0
1
0
0
0
0
0
infrator
0
0
1
0
0
0
0
saver
0
2
0
0
0
0
0
asiÃ
0
0
0
0
0
0
9
magistrado
0
0
0
0
0
0
0
tratar
1
0
0
0
0
0
0
tupiniquim
0
1
0
0
0
0
3
10
2
0
0
0
0
0
seguimento
0
2
0
0
0
0
0
respeitar
0
1
0
0
0
0
0
entÃ
0
5
0
0
0
1
0
React
0
0
0
2
0
0
0
51
0
0
0
1
0
0
nega
presente
73
Tabela 13. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais
marcados por PROP e textos do corpus Haiti.
Item lexical
1.txt
187.txt
191.txt
208.txt
266.txt
278.txt
279.txt
Welcome
0
2
0
0
0
0
0
Worst
0
0
0
0
0
0
0
Wilson
0
0
0
0
0
0
0
Wandinha
0
0
2
0
0
0
0
Vanessa
0
0
0
0
0
0
0
Vh1
0
0
0
0
0
0
4
Edison
0
0
0
0
2
0
0
Califórnia
0
0
0
0
0
2
0
Caraguatatuba
0
0
0
0
0
0
0
Lavalas
0
0
0
0
0
0
0
Rocha
0
0
0
0
0
0
0
Tribilasyon
0
0
0
0
0
0
0
KELLES
0
0
0
2
0
0
0
Toledo
0
0
0
0
0
0
0
Tabela 14. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais
marcados por PROP e arquivos com sentenças de etiquetas semânticas.
Item lexical
H.txt
HH.txt
Hideo.txt Hmyth.txt Hnat.txt
Hprof.txt
Htit.txt
Welcome
0
0
0
0
0
2
0
Worst
2
2
0
0
0
0
0
Wilson
2
2
0
0
0
2
0
Wandinha
0
0
0
2
0
0
2
Vanessa
2
0
2
0
0
2
0
Vh1
2
0
0
0
2
0
0
Edison
2
0
0
0
0
6
2
12
10
0
0
6
18
6
Caraguatatuba
2
0
0
0
0
0
0
Lavalas
6
10
0
0
0
16
0
Rocha
4
4
0
0
0
14
2
Tribilasyon
0
0
0
0
0
2
0
KELLES
0
0
0
0
0
2
0
Toledo
8
0
0
0
2
8
0
Califórnia
A partir destes dados buscou-se então obterem-se representações em rede,
onde itens lexicais etiquetados como entidades e outros marcados com PROP se
ligariam por estarem presentes em um mesmo texto. Para este formato matricial o
UCINET aparece como uma interessante. O UCINET é um pacote de software para
a análise de dados de redes sociais com a ferramenta de visualização da rede em
74
um programa chamado NetDraw, ambos desenvolvidos por pesquisadores de
tecnologias de análise da Universidade de Harvard e voltados para aplicações no
sistema operacional Windows [12]. Porém o problema para a aplicação é que este
programa prevê matrizes que explicitem diretamente as relações (uma matriz binária
entre itens lexicais marcados por PROP e etiquetados semânticos presentes no
mesmo texto). O processamento utilizando o NLTK para obter estes dados não é
trivial. De fato, o cruzamento por frequência condicional entre os itens lexicais é
inviável (cruza lista de itens lexicais com arquivos de texto). A solução seria então
buscar laços iterativos, que pelo volume de operações e iterações tornou inviável
operacionalmente a obtenção de dados no modo requerido pelo UCINET.
Por meio de comandos no pacote NLTK, envolvendo laços, contadores de
indexação de sentenças e palavras e uso de marcadores, obteve-se então uma
forma de promover a associações de itens lexicais por co-ocorrência que
permitissem a confecção e estudo em redes em um suplemento do Excel chamado
NodeXL. Este suplemento foi concebido para a execução de representações
gráficas de redes sociais, bem como sua análise em diferentes aspectos e
exportação de dados para outros programas de análise de redes sociais, como o
Pajek [56]. Nele as relações são descritas por duas colunas de vértices, onde o valor
à direita está ligado ao valor imediatamente à esquerda. Este foi então a opção
escolhida para a confecção das redes e realização de cálculos métricos sobre estas,
suas relações e agrupamentos automáticos. Para organização de dados sobre as
redes buscadas foi utilizada, como consequência da saída dos dados no NLTK e da
entrada no NodeXL, a planilha eletrônica Excel.
Neste momento idealizou-se a confecção de três redes (englobando também
os itens lexicais marcados como verbos), a saber: rede de ligação entre verbos e
nomes próprios (rede VP), rede de ligação entre verbos e palavras etiquetadas como
entidades (rede VE) e rede de ligação entre nomes próprios e palavras etiquetadas
como entidades pelo VISL (rede PE). Os dados para as redes VP e VE foram
levantados em maiores problemas. Já para a rede PE, após 18 horas do início da
execução das linhas de comandos no NLTK, foram relacionadas apenas 33 palavras
etiquetadas com seus respectivos nomes próprios, passo seguido de um erro. A
75
limitação aqui está na capacidade de processamento do pacote NLTK e
complexidade da operação, uma dificuldade já exposta acima. Diferentemente das
associações VP e VE, onde a coocorrência é buscada em sentenças, para a
associação PE só faz sentido coocorrências em textos, já que a ideia de buscar essa
associação é determinar outras referências de organizações que não o nome
próprio. Isto leva a composição de um laço onde cada uma das palavras etiquetadas
é buscada pelos 842 textos de reportagens referentes ao terremoto do Haiti, e
quando encontrada em um texto, busca todos os nomes próprios ali presentes, isto
é, são duas buscas. Com isso o tempo de processamento aumenta muito e a
exigência de processamento ultrapassa a disponível pelo pacote NLTK. Como este
seria um resultado que se ligaria a estudos de correferência (outra referência lexical
a um mesmo conceito) e estes estudos não são abordados neste trabalho, focou-se
a partir daí nas associações VE e VP.
Com a confecção das primeiras redes e com a manipulação do volume de
dados entendeu-se que as filtragens para uso de itens lexicais isolados referentes
aos três tipos de etiquetas utilizados deveriam atuar de forma mais relevantes, já
que o algoritmo de identificação utilizado, por si só, não foi capaz de “barrar”
algumas expressões sem qualquer informação relevantes para o estudo aqui
executado. Novas filtragens foram aplicadas de forma a excluir estas expressões
que, se não são muitas, com sua alta frequência destorcem os resultados. Assim,
filtrou-se, partindo de conjuntos lexicais já delimitados como apresentou as
subseções anteriores (para cada tipo de marcação), stopwords (inclusive em
apresentação como título), marcações identificadas como léxico pertencente a um
grupo etiquetado, itens lexicais com menos de dois caracteres e expressões
numéricas ou símbolos. Este levantamento, mais maduro, obtido para o corpus do
Haiti, foi então aplicado ao corpus do Chile, resultando nos valores de números de
itens lexicais utilizados na composição de redes, para cada um dos grupos de
etiquetas dentro de cada um dos corpora, apresentados pela Tabela 15 (para o
corpus do Haiti apresenta-se também o percentual de redução com as novas
filtragens).
76
Tabela 15. Valores de números de itens lexicais utilizados na composição de redes.
Grupos de Etiquetas
Chile
Haiti
% Redução no Corpus do Haiti
PROP
1608
5118
0,49
Etiquetas Semânticas
1353
3655
5,04
Verbos
1394
2635
0,11
O apêndice A apresenta, para o corpus do Chile, os comandos utilizados no
pacote NLTK para chegar a estes resultados, bem como as associações para VP e
VE e o levantamento de itens lexicais mais frequentes em cada texto (levantados
para análises e apresentadas no apêndice E para o Chile e no F para o Haiti). O
apêndice B é o análogo ao A para o corpus do Haiti.
Baseado nestes comandos, itens lexicais correspondentes a cada grupo de
etiquetas e dados de associação entre estes se elaborou redes para análise. Estas
redes compõem descrevem em si as entidades e ações que compõem o cenário
apresentado por cada uma das catástrofes estudadas. Até este momento todas as
aplicações se deram de modo não supervisionado, isto é, não houve nenhuma
implicação manual, escolha ou filtro realizado, mas sim a aplicação de comandos na
totalidade de registros que compõe os corpora. Mas a dissociação das entidades
assistenciais e suas ações, em meio a outras identificadas, mostrou-se inviável
desta forma. Partiu-se então, frente a identificação dos limites de aplicação de
métodos não supervisionados, para uma abordagem supervisionada que toma como
base resultados da primeira aplicação, caracterizando a utilização deste trabalho dos
chamados métodos combinados.
O método aplicado aqui foi o de partir de um conjunto de nomes próprios que
façam referência a entidades assistenciais e identificar os verbos que se associam
em cada sentença. Este conjunto foi extraído para cada corpus dentre os dez mais
frequentes de cada texto, que após a identificação foram analisados de forma a
apenas trabalhar-se com os nomes próprios que referenciem a entidades
assistenciais. Após a identificação dos verbos associados, buscou-se as entidades
etiquetadas a estes associados e também promoveu-se o caminho de volta,
buscando nomes próprios que associam-se também a estes verbos, no todo e não
77
apenas no recorte inicial. O objetivo destas ações foi o de, primeiro, identificar as
entidades assistenciais e suas ações, para os cenários estudados e, segundo,
buscar padrões dentre estes resultados que permitam a aplicação de métodos
totalmente automatizados de identificação de entidades. O resultado para estas
ações forma, para cada um dos corpora, uma rede entre nomes próprios de
referência a entidades assistenciais (supervisionados) e verbos associados em
sentenças (rede VPS), outra entre estes verbos remanescentes e as entidades
etiquetadas (rede VEA) e também entre os mesmos verbos e todos os nomes
próprios (rede VPA). Os comandos para geração destas redes são apresentados
nos apêndices C e D (para Chile e Haiti, respectivamente).
5. RESULTADOS
As subseções seguintes, pertinentes a apresentação de resultados, são
divididos em dois grandes blocos referentes à supervisão ou não explicitadas acima.
Assim, as contribuições tanto em nível de entidades totais do cenário como as
assistenciais em específico podem ser apresentadas e discutidas, bem como ficará
mais evidente as limitações de métodos não supervisionados nesta busca pelas
entidades assistenciais.
78
5.1. Método Não Supervisionado
Os resultados apresentados nesta subseção são compostos pelas redes VP e
VE elaboradas para cada uma dos corpora, bem como suas métricas e identificação
de grupos, elaborada na busca por grupos que fossem compostos por entidades
assistenciais e suas ações.
5.1.1. Haiti
5.1.1.1.Rede VP
A primeira rede produzida por meio dos dados levantados e com o uso do
NodeXL foi a VP para o Haiti, conforme é apresentado na Figura 12. Nesta rede, e
em todas as seguintes, o tamanho do vértice varia com o número de ligações que
apresenta com outros (quanto mais ligações, maior é).
79
Figura 12. Rede VP para o Haiti.
Como é simples notar, o volume de informação impede qualquer arranjo que
permita uma análise qualitativa sobre a rede apresentada. Para qualquer análise
aqui, então, é necessário apoiar-se em dados quantitativos, apresentados pelas
métricas de tal rede. Estes dados são mostrados na Tabela 16, onde os nomes em
inglês destas métricas espelha as saídas do NodeXL.
Tabela 16. Métricas de rede VP.
Métrica
Valor
Vertices
7311
Unique Edges
108101
Edges With Duplicates
4
Total Edges
108105
Self-Loops
0
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
7311
Maximum Edges in a Connected Component
108105
80
Maximum Geodesic Distance (Diameter)
8
Average Geodesic Distance
2,998743
Graph Density
0,004045513
Minimum Degree
1
Maximum Degree
2734
Average Degree
29,573
Median Degree
9,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
4781065,610
Average Betweenness Centrality
7306,904
Median Betweenness Centrality
222,822
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,000
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,003
Average Eigenvector Centrality
0,000
Median Eigenvector Centrality
0,000
Minimum PageRank
0,174
Maximum PageRank
102,293
Average PageRank
1,000
Median PageRank
0,412
Buscou-se então dados de agrupamento dos vértices inerentes a aplicação de
algoritmos próprios para a isso apoiados nas métricas de rede (clusterização). O
NodeXL oferece três opções de algoritmos para isto, mas somente dois puderam ser
aplicados aqui devido as dimensões da rede: Clauset-Newman-Moore (Algoritmo 1)
e Wakita-Tsurumi (Algoritmo 2). Esta seção se limitará a apresentar os resultados da
aplicação destes algoritmos, sendo o seu funcionamento detalhado na seção de
discussão.
O primeiro algoritmo resultou em 41 grupos, dissociados na representação
gráfica por cores e formatos dos vértices. A Figura 13 apresenta esta representação
(sem os nomes de cada vértice para melhor apresentação).
81
Figura 13. Rede VP clusterizada pelo algoritmo 1 para o Haiti.
Igualmente a rede inicial, esta também não apresenta uma visualização que
colabore para análises possíveis em redes menores. Porém a dissociação de
vértices pela cor e visualização de sua representatividade em ligações (pelo
tamanho) permite identificar elementos importantes no cenário descrito e dentro do
grupo, sejam entidades ou ações, motivo pelo qual se apresenta esta rede como um
resultado para a análise. A rede clusterizada apresenta também métricas próprias,
referentes aos grupos identificados. Para o algoritmo 1 estas métricas são
mostradas na Tabela 17. Os valores de Cor e Forma são mostrados em inglês, como
a saída do NodeXL, e são citados aqui de forma a ajudar na localização gráfica dos
grupos.
Tabela 17. Métricas para rede VP clusterizada pelo algoritmo 1 para o Haiti.
33345
Maior
Distância
Geodésica
6
Distância
Geodésica
Média
2,957
222
11
4,501
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
2464
G2
Orange
Disk
175
Densidade
0,011
0,015
82
G3
Lime
Disk
1495
5432
7
3,351
0,005
G4
Magenta
Disk
2808
20877
6
2,981
0,005
G5
Yellow
Disk
4
3
2
1,125
0,500
G6
Cyan
5
4
4
1,600
0,400
G7
Blue
138
173
11
4,067
0,018
G8
Orange
6
5
3
1,556
0,333
G9
Lime
3
2
2
0,889
0,667
G10
Magenta
8
7
2
1,531
0,250
G11
Yellow
15
17
6
2,702
0,162
G12
Cyan
4
3
3
1,250
0,500
G13
Blue
50
55
9
3,768
0,045
G14
Orange
3
2
2
0,889
0,667
G15
Lime
19
21
6
2,825
0,123
G16
Magenta
4
3
2
1,125
0,500
G17
Yellow
3
2
2
0,889
0,667
G18
Cyan
4
3
3
1,250
0,500
G19
Blue
8
7
4
2,063
0,250
G20
Orange
7
6
5
2,041
0,286
G21
Lime
10
11
6
2,360
0,244
G22
Magenta
4
3
2
1,125
0,500
G23
Yellow
3
2
2
0,889
0,667
G24
Cyan
8
8
4
1,875
0,286
G25
Blue
Disk
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Sphere
10
10
6
2,400
0,222
G26
Orange
Sphere
4
3
2
1,125
0,500
G27
Lime
Sphere
16
16
6
2,961
0,133
G28
Magenta
Sphere
2
1
1
0,500
1,000
G29
Yellow
Sphere
2
1
1
0,500
1,000
G30
Cyan
Sphere
4
3
3
1,250
0,500
G31
Blue
Circle
3
2
2
0,889
0,667
G32
Orange
Circle
2
1
1
0,500
1,000
G33
Lime
Circle
2
1
1
0,500
1,000
G34
Magenta
Circle
2
1
1
0,500
1,000
G35
Yellow
Circle
2
1
1
0,500
1,000
83
G36
Cyan
Circle
2
1
1
0,500
1,000
G37
Blue
Square
4
3
3
1,250
0,500
G38
Orange
Square
2
1
1
0,500
1,000
G39
Lime
Square
2
1
1
0,500
1,000
G40
Magenta
Square
2
1
1
0,500
1,000
G41
Yellow
Square
2
1
1
0,500
1,000
Igualmente, para o segundo algoritmo apresenta-se na Figura 14 a
representação gráfica da rede e na Tabela 18 suas métricas, incidente nos 36
grupos emergentes.
Figura 14. Rede VP clusterizada pelo algoritmo 2 para o Haiti.
Tabela 18. Métricas para rede VP clusterizada pelo algoritmo 2 para o Haiti.
21
Maior
Distância
Geodésica
5
Distância
Geodésica
Média
2,186
14
13
4
2,204
0,143
Disk
32
35
6
2,793
0,071
Magenta
Disk
77
103
6
2,956
0,035
Yellow
Disk
127
199
8
3,127
0,025
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
21
G2
Orange
Disk
G3
Lime
G4
G5
Densidade
0,100
84
G6
Cyan
G7
Blue
G8
Orange
G9
Lime
G10
Magenta
G11
Yellow
G12
Cyan
G13
Blue
G14
Orange
G15
Lime
G16
Magenta
G17
Yellow
G18
Cyan
G19
Blue
G20
Orange
G21
Lime
G22
Magenta
G23
Yellow
G24
Cyan
G25
Blue
Disk
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Sphere
86
110
6
2,732
0,030
239
708
7
3,321
0,025
307
795
6
2,973
0,017
262
1078
6
3,105
0,032
13
12
5
2,391
0,154
260
784
7
3,239
0,023
438
1659
6
3,085
0,017
77
81
7
2,963
0,028
93
93
6
2,184
0,022
329
1120
8
3,163
0,021
659
3546
6
2,670
0,016
77
86
6
2,535
0,029
252
684
7
3,175
0,022
84
100
8
3,298
0,029
145
160
6
2,442
0,015
365
2168
7
2,963
0,033
254
753
6
3,107
0,023
180
316
6
2,746
0,020
213
509
8
3,355
0,023
496
852
6
2,269
0,007
G26
Orange
Sphere
271
629
6
2,819
0,017
G27
Lime
Sphere
208
416
7
3,443
0,019
G28
Magenta
Sphere
75
86
5
2,267
0,031
G29
Yellow
Sphere
76
83
9
3,226
0,029
G30
Cyan
Sphere
33
36
8
3,185
0,068
G31
Blue
Circle
68
83
7
2,881
0,036
G32
Orange
Circle
230
631
8
3,519
0,024
G33
Lime
Circle
118
228
8
3,504
0,033
G34
Magenta
Circle
1022
7328
8
2,974
0,014
G35
Yellow
Circle
50
66
7
3,006
0,054
G36
Cyan
Circle
60
67
6
2,877
0,038
85
5.1.1.2. Rede VE
Para a rede de associação entre verbos e itens lexicais etiquetados como
entidades (VE), a sequência de resultados apresentados é análoga a de rede VP.
Assim, a rede inicial é apresentada na Figura 15.
Figura 15. Rede VE para o Haiti.
Embora aqui tenha se aplicado outro modo de arranjo dos nós, persiste o
problema de analisar-se a rede pela sua simples observação. A Tabela 19 aponta
então as métricas para esta rede que permitam maiores discussões.
86
Tabela 19. Métricas de rede VE.
Métrica
Valor
Vertices
5907
Unique Edges
311974
Edges With Duplicates
40912
Total Edges
352886
Self-Loops
405
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
5907
Maximum Edges in a Connected Component
352886
Maximum Geodesic Distance (Diameter)
5
Average Geodesic Distance
2,158619
Graph Density
0,019034452
Minimum Degree
1
Maximum Degree
4658
Average Degree
112,5545962
Median Degree
35
Minimum Betweenness Centrality
0
Maximum Betweenness Centrality
3408836,205
Average Betweenness Centrality
3422,482648
Median Betweenness Centrality
22,056173
Minimum Closeness Centrality
0,000044
Maximum Closeness Centrality
0,00014
Average Closeness Centrality
7,91615E-05
Median Closeness Centrality
0,000081
Minimum Eigenvector Centrality
0
Maximum Eigenvector Centrality
0,00233
Average Eigenvector Centrality
0,000169292
Median Eigenvector Centrality
0,000073
Minimum PageRank
0,156594
Maximum PageRank
55,655977
Average PageRank
0,99999991
Median PageRank
0,409182
Para esta rede também foram aplicados os algoritmos de clusterização
apresentados acima. A Figura 16 e Tabela 20 apresentam a rede gráfica e métricas
dos 8 grupos identificados pelo algoritmo 1 e a Figura 17 e Tabela 21 apontam o
mesmo para os 49 grupos localizados na aplicação do algoritmo 2.
87
Figura 16. Rede VE clusterizada pelo algoritmo 1 para o Haiti.
Tabela 20. Métricas para rede VE clusterizada pelo algoritmo 1 para o Haiti.
13070
Maior
Distância
Geodésica
4
Distância
Geodésica
Média
2,247
57770
5
2,287
0,029
1966
94058
5
2,197
0,046
Disk
46
46
5
2,571
0,044
Red
Disk
3
2
2
0,889
0,667
G6
Orange
Disk
2
1
1
0,500
1,000
G7
Yellow
Disk
3
2
2
0,889
0,667
G8
Lime
Disk
2
1
1
0,500
1,000
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
1950
G2
Cyan
Disk
1935
G3
Dark green
Disk
G4
Light green
G5
Densidade
0,007
88
Figura 17. Rede VE clusterizada pelo algoritmo 2 para o Haiti.
Tabela 21. Métricas para rede VE clusterizada pelo algoritmo 2 para o Haiti.
4
Maior
Distância
Geodésica
Not
Applicable
2
Distância
Geodésica
Média
Not
Applicable
1,280
43
73
6
2,806
0,079
Disk
23
33
4
2,457
0,130
Red
Disk
25
33
6
2,810
0,110
G6
Orange
Disk
6
5
3
1,611
0,333
G7
Yellow
Disk
17
20
4
2,228
0,147
G8
Lime
Disk
272
1923
5
2,327
0,049
G9
Magenta
Disk
265
2334
5
2,269
0,063
G10
Purple
Disk
52
114
6
2,640
0,083
G11
Lilac
Disk
7
6
3
1,633
0,286
G12
Steel blue
19
23
5
2,526
0,135
G13
Blue
Disk
Solid
Square
48
96
6
2,743
0,083
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
1
0
G2
Cyan
Disk
5
G3
Dark green
Disk
G4
Light green
G5
Densidade
Not
Applicable
0,400
89
G14
Cyan
G15
Dark green
G16
Light green
G17
Red
G18
Orange
G19
Yellow
G20
Lime
G21
Magenta
G22
Purple
G23
Lilac
G24
Steel blue
G25
Blue
G26
Cyan
G27
Dark green
G28
Light green
G29
Red
G30
Orange
G31
Yellow
G32
Lime
G33
Magenta
G34
Purple
G35
Lilac
G36
Steel blue
G37
Blue
G38
Cyan
G39
Dark green
G40
Light green
G41
Red
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
18
21
5
2,426
0,131
7
6
2
1,469
0,286
4
3
3
1,250
0,500
8
8
3
1,781
0,250
80
234
4
2,417
0,072
138
704
5
2,418
0,072
10
10
4
2,020
0,222
220
2109
5
2,172
0,082
118
545
5
2,379
0,076
62
118
6
3,008
0,062
11
10
5
2,149
0,182
109
424
5
2,519
0,069
116
487
6
2,393
0,071
182
978
6
2,512
0,057
299
3461
4
2,213
0,070
225
1516
4
2,404
0,056
856
5489
4
2,080
0,015
285
1882
5
2,397
0,043
245
1521
4
2,260
0,048
83
273
6
2,583
0,078
123
702
4
2,322
0,087
365
4260
4
2,297
0,057
130
594
5
2,227
0,068
167
612
5
2,218
0,043
295
1971
4
2,180
0,043
264
1819
5
2,361
0,048
28
46
5
2,452
0,119
51
84
5
2,517
0,064
90
G42
Orange
G43
Yellow
G44
Lime
G45
Magenta
G46
Purple
G47
Lilac
G48
Steel blue
G49
Blue
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Sphere
19
24
5
2,360
0,140
137
642
4
2,477
0,066
303
1503
5
2,175
0,032
45
108
4
2,353
0,104
12
11
5
2,486
0,167
15
16
4
2,009
0,152
60
158
5
2,638
0,088
34
57
6
2,651
0,102
5.1.2. Chile
5.1.2.1. Rede VP
As os trabalhos com o Haiti, os comandos formam reaplicados, agora para o
corpus do Chile etiquetado. Como resultado, primeiramente para a rede VP,
identificou-se o arranjo mostrado na Figura 18, e as métricas para esta rede estão
na Tabela 22.
91
Figura 18. Rede VP para o Chile.
Tabela 22. Métricas de rede VP.
Métrica
Valor
Vertices
2755
Unique Edges
19467
Edges With Duplicates
0
Total Edges
19467
Self-Loops
1
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
2755
Maximum Edges in a Connected Component
19467
Maximum Geodesic Distance (Diameter)
7
Average Geodesic Distance
3,171811
Graph Density
0,005131226
Minimum Degree
1
Maximum Degree
825
Average Degree
14,132
Median Degree
6,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
803837,798
92
Average Betweenness Centrality
2992,170
Median Betweenness Centrality
171,609
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,000
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,007
Average Eigenvector Centrality
0,000
Median Eigenvector Centrality
0,000
Minimum PageRank
0,200
Maximum PageRank
54,100
Average PageRank
1,000
Median PageRank
0,527
Também aqui foram aplicados os algoritmos de clusterização. Para o
algoritmo 1 tem-se a rede com 23 grupos da Figura 19 e as métricas da Tabela 23.
Já para o algoritmo 2, com 29 grupos, está na Figura 20 e a Tabela 24 mostram as
métricas correspondentes.
Figura 19. Rede VP clusterizada pelo algoritmo 1 para o Chile.
93
Tabela 23. Métricas para rede VP clusterizada pelo algoritmo 1 para o Chile.
13
Maior
Distância
Geodésica
5
Distância
Geodésica
Média
2,520
893
5205
6
3,074
0,013
594
2691
7
3,228
0,015
Disk
524
1528
7
3,133
0,011
Yellow
Disk
343
618
9
3,911
0,011
G6
Cyan
108
142
8
3,368
0,025
G7
Blue
127
309
8
3,051
0,039
G8
Orange
13
15
5
2,249
0,192
G9
Lime
14
15
7
2,837
0,165
G10
Magenta
60
60
9
3,732
0,034
G11
Yellow
6
5
3
1,611
0,333
G12
Cyan
12
11
6
2,486
0,167
G13
Blue
5
4
2
1,280
0,400
G14
Orange
12
16
6
2,528
0,242
G15
Lime
2
1
1
0,500
1,000
G16
Magenta
8
10
4
1,656
0,357
G17
Yellow
7
6
3
1,633
0,286
G18
Cyan
2
1
1
0,500
1,000
G19
Blue
2
1
1
0,500
1,000
G20
Orange
2
1
1
0,500
1,000
G21
Lime
2
1
1
0,500
1,000
G22
Magenta
3
2
2
0,889
0,667
G23
Yellow
Disk
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
2
1
1
0,500
1,000
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
14
G2
Orange
Disk
G3
Lime
Disk
G4
Magenta
G5
Densidade
0,143
94
Figura 20. Rede VP clusterizada pelo algoritmo 2 para o Chile.
Tabela 24. Métricas para rede VP clusterizada pelo algoritmo 2 para o Chile.
2
Maior
Distância
Geodésica
2
Distância
Geodésica
Média
0,889
4
3
3
1,250
0,500
Disk
6
6
4
1,611
0,400
Magenta
Disk
15
14
7
2,684
0,133
G5
Yellow
Disk
56
178
5
2,099
0,116
G6
Cyan
Disk
24
33
7
3,017
0,120
G7
Blue
Solid Square
229
768
6
2,752
0,029
G8
Orange
Solid Square
160
448
7
3,149
0,035
G9
Lime
Solid Square
81
151
7
3,152
0,047
G10
Magenta
Solid Square
142
297
6
2,998
0,030
G11
Yellow
Solid Square
155
480
6
2,959
0,040
G12
Cyan
101
431
5
2,601
0,085
G13
Blue
55
71
7
3,144
0,048
G14
Orange
103
191
8
3,598
0,036
G15
Lime
Solid Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
150
369
7
3,414
0,033
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
3
G2
Orange
Disk
G3
Lime
G4
Densidade
0,667
95
G25
Blue
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Solid
Triangle
Sphere
71
111
10
3,787
0,045
G26
Orange
Sphere
155
454
8
3,273
0,038
G27
Lime
Sphere
64
79
10
4,026
0,039
G28
Magenta
Sphere
161
344
8
3,598
0,027
G29
Yellow
Sphere
61
94
8
3,536
0,051
G16
Magenta
G17
Yellow
G18
Cyan
G19
Blue
G20
Orange
G21
Lime
G22
Magenta
G23
Yellow
G24
Cyan
26
26
6
3,160
0,080
91
266
7
2,957
0,065
35
43
10
4,075
0,072
172
448
8
2,977
0,030
136
347
7
3,074
0,038
174
502
6
3,111
0,033
64
94
6
2,962
0,047
161
228
7
2,735
0,018
100
145
7
3,043
0,029
5.1.2.2. Rede VE
Similarmente ao feito para o Haiti, no corpus do Chile também houve a
confecção de rede VE, que é mostrada na Figura 21 e tem suas métricas expostas
na Tabela 25.
96
Figura 21. Rede VE para o Chile.
Tabela 25. Métricas de rede VE.
Métricas
Valor
Vertices
2764
Unique Edges
42598
Edges With Duplicates
30
Total Edges
42628
Self-Loops
11
Connected Components
2
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
2762
Maximum Edges in a Connected Component
42627
Maximum Geodesic Distance (Diameter)
6
Average Geodesic Distance
2,416168
Graph Density
0,149797
Minimum Degree
1
Maximum Degree
1945
Average Degree
30,834
Median Degree
14,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
1837234,494
97
Average Betweenness Centrality
1954,813
Median Betweenness Centrality
54,542
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
1,000
Average Closeness Centrality
0,001
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,009
Average Eigenvector Centrality
0,000
Median Eigenvector Centrality
0,000
Minimum PageRank
0,174
Maximum PageRank
64,855
Average PageRank
1,000
Median PageRank
0,532
Na aplicação dos algoritmos de clusterização obteve-se 27 grupos para o
primeiro e 31 para o segundo, sendo estes descritos pelas Figuras 22 e 23 e pelas
Tabelas 26 e 27, respectivamente.
Figura 22. Rede VE clusterizada pelo algoritmo 1 para o Chile.
98
Tabela 26. Métricas para rede VE clusterizada pelo algoritmo 1 para o Chile.
3226
Maior
Distância
Geodésica
7
Distância
Geodésica
Média
3,118
895
8570
5
2,249
0,021
842
8148
6
2,677
0,023
Disk
196
280
10
3,713
0,015
Red
Disk
29
30
7
3,420
0,074
G6
Orange
Disk
2
1
1
0,500
1,000
G7
Yellow
Disk
5
4
3
1,440
0,400
G8
Lime
Disk
6
7
3
1,389
0,467
Grupo
Cor
Forma
Vértices
Laços
G1
Blue
Disk
714
G2
Cyan
Disk
G3
Dark green
Disk
G4
Light green
G5
Densidade
0,013
G9
Magenta
Disk
7
8
3
1,551
0,381
G10
Purple
Disk
12
15
4
2,042
0,227
G11
Lilac
Disk
5
4
2
1,280
0,400
G12
Steel blue
Disk
2
1
1
0,500
1,000
G13
Blue
Solid Square
3
2
2
0,889
0,667
G14
Cyan
Solid Square
4
3
2
1,125
0,500
G15
Dark green
Solid Square
5
5
3
1,280
0,500
G16
Light green
Solid Square
2
1
1
0,500
1,000
G17
Red
Solid Square
5
4
3
1,440
0,400
G18
Orange
Solid Square
2
1
1
0,500
1,000
G19
Yellow
Solid Square
3
2
2
0,889
0,667
G20
Lime
Solid Square
8
8
4
1,938
0,286
G21
Magenta
Solid Square
2
1
1
0,500
1,000
G22
Purple
Solid Square
2
1
1
0,500
1,000
G23
Lilac
Solid Square
3
2
2
0,889
0,667
G24
Steel blue
3
2
2
0,889
0,667
G25
Blue
3
2
2
0,889
0,667
G26
Cyan
2
1
1
0,500
1,000
G27
Dark green
Solid Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
2
1
1
0,500
1,000
99
Figura 23. Rede VE clusterizada pelo algoritmo 2 para o Chile.
Tabela 27. Métricas para rede VE clusterizada pelo algoritmo 2 para o Chile.
1
Maior
Distância
Geodésica
1
Distância
Geodésica
Média
0,500
14
6
2,403
0,212
140
442
6
2,958
0,045
Disk
9
8
5
2,420
0,222
Red
Disk
19
20
7
2,748
0,117
G6
Orange
Disk
13
12
4
2,059
0,154
G7
Yellow
Disk
164
728
5
2,694
0,054
G8
Lime
Disk
111
227
7
3,044
0,037
G9
Magenta
Disk
33
48
6
2,949
0,089
G10
Purple
Disk
67
119
6
2,867
0,054
G11
Lilac
Disk
133
451
6
2,878
0,051
G12
Steel blue
Disk
67
117
6
2,788
0,053
G13
Blue
Solid Square
232
1045
4
2,043
0,039
G14
Cyan
Solid Square
135
370
7
2,883
0,041
G15
Dark green
Solid Square
56
84
6
2,867
0,055
G16
Light green
Solid Square
27
36
5
2,392
0,103
Grupo
Cor
Forma
Vértices
G1
Blue
Disk
2
G2
Cyan
Disk
12
G3
Dark green
Disk
G4
Light green
G5
Laços
Densidade
1,000
100
G17
Red
Solid Square
172
442
7
3,115
0,030
G18
Orange
Solid Square
141
487
6
2,848
0,049
G19
Yellow
Solid Square
106
278
7
3,005
0,050
G20
Lime
Solid Square
16
16
5
2,422
0,133
G21
Magenta
Solid Square
113
284
7
2,941
0,045
G22
Purple
Solid Square
156
677
6
2,658
0,056
G23
Lilac
Solid Square
119
439
6
2,794
0,063
G24
Steel blue
51
77
6
3,037
0,060
G25
Blue
185
804
5
2,492
0,047
G26
Cyan
84
178
6
2,963
0,051
G27
Dark green
30
37
8
3,500
0,085
G28
Light green
121
294
6
3,017
0,040
G29
Red
27
28
5
2,348
0,080
G30
Orange
173
876
6
2,641
0,059
G31
Yellow
Solid Square
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
Solid
Diamond
50
62
6
2,704
0,051
5.2. Método Supervisionado
Feitos os trabalhos sem nenhuma supervisão e apresentados seus resultados
partiu-se, como descrito anteriormente, para busca de resultados supervisionando
nomes próprios (marcados pela etiqueta PROP) que referenciassem entidades
assistenciais. Os resultados abaixo apontam as redes obtidas nestas execuções
para os corpora do Haiti e Chile.
101
5.2.1. Haiti
A supervisão dos nomes próprios no corpus do Haiti permitiu identificar como
referências a entidades assistenciais 42 itens lexicais, na seguinte forma: 'Unidas',
'POUPEX', 'Defesa', 'Western', 'ONG', 'ONU', 'Europeia', 'PNH', 'Itamaraty', 'OMS',
'CICV', 'Unesco', 'Minustah', 'Marinha', 'Defesa', 'MSF', 'UE', 'CGFome', 'Unicef',
'Pastoral', 'Fronteiras', 'Cruz', 'BID', ‘FMI’, 'CIRH', 'CIDH', 'Comiss\xc3' (Comissão),
'Direitos', 'PAM', 'GBS', 'Instituto', 'Aid', 'HRO', 'Organiza\xc3' (Organização),
'Internacional', 'Usaid', 'FAB', 'Na\xc3' (Nação/Nações), 'Viva', 'Crescente', 'Ocha',
'Comit\xc3\xaa' (Comitê).
5.2.1.1. Rede VPS
Identificados
os
nomes
próprios
a
serem
utilizados
na
aplicação
supervisionada identificou-se a rede associativa destes com verbos em uma mesma
sentença, elaborando-se para tanto a rede VPS par ao corpus do Haiti como mostra
a Figura 25 e suas métricas correspondentes na Tabela 28.
102
Figura 24. Rede VPS para o Haiti.
Tabela 28. Métricas para rede VPS para o Haiti.
Métricas
Valor
Vertices
1139
Unique Edges
3890
Edges With Duplicates
462
Total Edges
4352
Self-Loops
0
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
1139
Maximum Edges in a Connected Component
4352
Maximum Geodesic Distance (Diameter)
6
Average Geodesic Distance
2,847422
Graph Density
0,006358675
Minimum Degree
1
Maximum Degree
740
Average Degree
7,236
103
Median Degree
2,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
356351,204
Average Betweenness Centrality
1052,607
Median Betweenness Centrality
49,003
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,001
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,004
Average Eigenvector Centrality
0,001
Median Eigenvector Centrality
0,001
Minimum PageRank
0,246
Maximum PageRank
111,130
Average PageRank
1,000
Median PageRank
0,389
5.2.1.2. Rede VEA
A partir dos verbos remanescentes do resultado da rede VPS (verbos
presentes em tal rede), elaborou-se a rede VEA que associa estes verbos aos itens
lexicais marcados como entidades pelo VISL, também para uma mesma sentença. A
Figura 25 e a Tabela 29 expõem a rede VEA para o corpus do Haiti.
104
Figura 25. Rede VEA para o Haiti.
Tabela 29. Métricas para rede VEA para o Haiti.
Métricas
Valor
Vertices
4435
Unique Edges
258997
Edges With Duplicates
37380
Total Edges
296377
Self-Loops
335
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
4435
Maximum Edges in a Connected Component
296377
Maximum Geodesic Distance (Diameter)
4
Average Geodesic Distance
2,102139
Graph Density
0,02820798
Minimum Degree
1
Maximum Degree
3710
Average Degree
125,225
105
Median Degree
42,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
1724277,460
Average Betweenness Centrality
2444,492
Median Betweenness Centrality
7,809
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,000
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,002
Average Eigenvector Centrality
0,000
Median Eigenvector Centrality
0,000
Minimum PageRank
0,156
Maximum PageRank
43,803
Average PageRank
1,000
Median PageRank
0,421
5.2.1.3. Rede VPA
Por fim, para aplicações deste método supervisionado sobre o corpus do
Haiti, realizou-se o caminho de volta, tomando os mesmos verbos remanescentes
utilizando nas duas redes anteriores e obtendo-se redes destas com nomes próprios
presentes na mesma sentença, dentre todo o conjunto de nomes próprios do corpus
de aplicação. Assim, os resultados pertinentes à rede VPA estão na Figura 26 e na
Tabela 30.
106
Figura 26. Rede VPA para o Haiti.
Tabela 30. Métricas para rede VPA para o Haiti.
Métricas
Valor
Vertices
6061
Unique Edges
97924
Edges With Duplicates
0
Total Edges
97924
Self-Loops
0
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
6061
Maximum Edges in a Connected Component
97924
Maximum Geodesic Distance (Diameter)
5
Average Geodesic Distance
2,943611
Graph Density
0,005332148
Minimum Degree
1
Maximum Degree
2736
Average Degree
32,313
107
Median Degree
10,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
3899004,822
Average Betweenness Centrality
5890,614
Median Betweenness Centrality
237,214
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,000
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,003
Average Eigenvector Centrality
0,000
Median Eigenvector Centrality
0,000
Minimum PageRank
0,172
Maximum PageRank
99,752
Average PageRank
1,000
Median PageRank
0,401
5.2.2. Chile
Similarmente ao Haiti, para o Chile também ocorreu a supervisão do corpus
visando a identificação de entidades assistenciais entre os 10 nomes próprios mais
ocorrentes em cada texto. Como resultado obteve-se 10 itens lexicais que cumprem
este papel: 'For\xc3' (Força/Forças), 'Cruz', 'ONU', 'Itamaraty', 'Marinha', 'Defesa',
'GSI', 'CGFome', 'MSF', 'Samaritans'.
108
5.2.2.1. Rede VPS
Por meio da identificação acima se elaborou a versão da rede VPS para o
corpus do Chile, mostrada na Figura 27. A Tabela 31 traz as métricas que dão
suporte a sua discussão.
Figura 27. Rede VPS para o Chile.
Tabela 31. Métricas para rede VPS para o Chile.
Métricas
Valor
Vertices
223
Unique Edges
321
Edges With Duplicates
0
Total Edges
321
Self-Loops
0
Connected Components
1
Single-Vertex Connected Components
0
109
Maximum Vertices in a Connected Component
223
Maximum Edges in a Connected Component
321
Maximum Geodesic Distance (Diameter)
6
Average Geodesic Distance
3,214141
Graph Density
0,012968125
Minimum Degree
1
Maximum Degree
87
Average Degree
2,879
Median Degree
1,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
11800,805
Average Betweenness Centrality
247,377
Median Betweenness Centrality
0,000
Minimum Closeness Centrality
0,001
Maximum Closeness Centrality
0,002
Average Closeness Centrality
0,001
Median Closeness Centrality
0,001
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,016
Average Eigenvector Centrality
0,004
Median Eigenvector Centrality
0,003
Minimum PageRank
0,403
Maximum PageRank
29,023
Average PageRank
1,000
Median PageRank
0,434
5.2.2.2. Rede VEA
Seguindo a mesma sequência de passos aplicada ao corpus do Haiti, obtevese também a rede VEA para o corpus do Chile, como mostra a Figura 28. Na Tabela
32 as métricas para esta associação.
110
Figura 28. Rede VEA para o Chile.
Tabela 32. Métricas para rede VEA para o Chile.
Métricas
Valor
Vertices
1583
Unique Edges
19110
Edges With Duplicates
6
Total Edges
19116
Self-Loops
3
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
1583
Maximum Edges in a Connected Component
19116
Maximum Geodesic Distance (Diameter)
5
Average Geodesic Distance
2,329422
Graph Density
0,015261713
Minimum Degree
1,000
Maximum Degree
1167,000
Average Degree
24,148
Median Degree
9,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
592599,715
111
Average Betweenness Centrality
1052,738
Median Betweenness Centrality
13,549
Minimum Closeness Centrality
0,000
Maximum Closeness Centrality
0,001
Average Closeness Centrality
0,000
Median Closeness Centrality
0,000
Minimum Eigenvector Centrality
0,000
Maximum Eigenvector Centrality
0,010986
Average Eigenvector Centrality
0,000631706
Median Eigenvector Centrality
0,000391
Minimum PageRank
0,179989
Maximum PageRank
53,202946
Average PageRank
0,999999676
Median PageRank
0,445241
5.2.2.3. Rede VPA
Como último resultado de aplicações de elaboração de redes apresenta-se a
Figura 29 e as métricas da Tabela 33, que fazem descrevem a rede VPA para o
corpus Chile.
112
Figura 29. Rede VPA para o Chile.
Tabela 33. Métricas para rede VPA para o Chile.
Métricas
Valor
Vertices
1687
Unique Edges
9826
Edges With Duplicates
0
Total Edges
9826
Self-Loops
0
Connected Components
1
Single-Vertex Connected Components
0
Maximum Vertices in a Connected Component
1687
Maximum Edges in a Connected Component
9826
Maximum Geodesic Distance (Diameter)
6
Average Geodesic Distance
3,014355
Graph Density
0,006909301
Minimum Degree
1,000
Maximum Degree
825,000
Average Degree
11,649
Median Degree
5,000
Minimum Betweenness Centrality
0,000
Maximum Betweenness Centrality
487274,912
113
Average Betweenness Centrality
1699,60818
Median Betweenness Centrality
94,006783
Minimum Closeness Centrality
0,000144
Maximum Closeness Centrality
0,000313
Average Closeness Centrality
0,000200723
Median Closeness Centrality
0,000207
Minimum Eigenvector Centrality
0,000002
Maximum Eigenvector Centrality
0,005592
Average Eigenvector Centrality
0,000592787
Median Eigenvector Centrality
0,000457
Minimum PageRank
0,209908
Maximum PageRank
73,107809
Average PageRank
0,999999678
Median PageRank
0,470791
6. DISCUSSÃO
6.1. Método Não Supervisionado
Os resultados apresentados na subseção de aplicação de método não
supervisionado apresentam a limitação deste frente ao objetivo deste trabalho de
extrair entidades assistenciais e suas relações em rede, por meio de suas ações.
Pelo próprio conjunto de ações empreendidas na sua composição, as redes VP e VE
para ambos os corpora possuem referenciais a entidades (dentre as quais as
assistenciais) e ações (dentre as quais ações de entidades assistenciais) ocorrentes
em cada desastre estudado. São estas redes, portanto, um registro do
114
conhecimento repassado `a sociedade sobre o cenário, manifestado pelo arranjo
emergente de diferentes atores a partir dos dias de tremor, em cada caso.
Esta estruturação a partir de comandos consolidados (pacote NLTK) e uma
marcação de texto definida (VISL) permitem, então, estruturar informações e
conhecimentos sobre entidades e ações expressos em linguagem natural. A
apresentação destes resultados e sua discussão, mais do que a demarcação de um
passo a resultados pertinentes ao objetivo buscado, demonstram a clara emersão de
entidades e ações de todo o conjunto social, e posteriormente, de entidades
assistenciais e suas ações destas (como discutido mais adiante).
Outro ponto importante no qual se apoia a discussão destes primeiros
resultados está no papel que entidades e ações, mesmo as que não são referentes
a assistências, se apresentam como conectores entre estes, o que torna a
comunicação mais econômica na prestação de ajuda. A própria análise de métricas
referente à distância geodésica (número de passos entre dois vértices da rede,
variando em média entre 2,1 e 3,2), densidade da rede (valores baixos que
demonstram alta dispersão do conhecimento por toda a rede) e componentes
conectados (1 ou 2 grupo formando toda a rede) reforça esta ideia.
6.1.1. Redes VP
Para a rede VP observam-se para o Haiti 7311 vértices, o que representa em
média aproximadamente 8,7 elementos (entidades e ações) por texto. Já o Chile
com 2755 vértices possuem, então, 19,1 elementos por texto.
Em termos de
relacionamento entre estes elementos, o Haiti com 108105 tem uma média de 128,4
ligações por texto, enquanto o Chile tem 19467 e média de 135,2 ligações por texto.
115
Isto permite afirmar então que, as entidades referenciadas por nomes próprios e
suas ações estão presentes, em média, durante o tempo de recorte estudado (um
ano e um mês), em maior volume no Chile do que no Haiti. Porém, ao se analisar a
média de ligações por vértices por texto (14,8 para o Haiti e 7,1 para o Chile)
observa-se que os elementos dentro de cada texto são mais conectados entre si
para o Haiti do que para o Chile, o que também mostra o número de grau (degree)
médio apontado nas métricas (29,6 para o Haiti e 14,1 para o Chile). Isto indica
maior interação entre entidades e sobreposição de entidades sobre uma mesma
ação para o evento ocorrido no país caribenho e maior distribuição e independência
de atuação às entidades no caso chileno. Embora próximos, os valores médios de
distância mínima entre dois vértices pela ligação por outros vértices (geodésica)
reforçam esta afirmativa, com valor menor para o Haiti (2,99) do que para o Chile
(3,17). A medida de densidade do gráfico mostra que, entretanto, os vértices da rede
do Haiti exploram menos as conexões disponíveis que as do Chile (0,004<0,005). A
medida de centralidades vitais para a manutenção de componente de rede
(betweennes centrality) com valor médio de 7307 para o Haiti, frente a 2992 para o
Chile permite interpretar ainda que estas conexões mais presentes em média nos
vértices da rede VP do Haiti tornam a rede mais compacta e, portanto, permitem um
ganho em termos de tempo nas ações das entidades presentes no cenário que
descreve (em poucos passos se alcança qualquer nó na rede pela presença
elementos funcionando como distribuidores, hubs). Por fim, em termos de métricas
gerais para redes VP tem-se que o valor mais elevado da mediana do PageRank
para a rede do Chile do que para a do Haiti, demonstrando que a rede haitiana
possui uma tendência central de ter maior número de elementos de menor
importância que a do Chile, isto é, menor peso do que tange a afetar as ligações que
um vértice alcançado possui e sua contribuição como representativo do conjunto. É
válido alinha esta métrica ao citado acima, com relação à distribuição de ações por
entidades, onde se estas estão bem distribuídas, todos possuem peso maior para a
rede, e não o contrário, onde o peso se concentra em ações superatendidas e
entidades centralizadoras, levando a carência de importância para a rede de outros
elementos.
116
Pontualmente as métricas apontam valores importantes a determinados
elementos, demonstrando a importância destes a rede. A Tabela 34 mostra os três
valores com medida mais relevante para cada métrica discutida, dentro das redes
VP.
Tabela 34. Valores de Elementos mais Relevantes para Métricas das redes VP.
Métrica
Tipo de Elemento
Haiti
Chile
Verbo
Grau
Nome Próprio
Betweenness Centrality
Verbo
Nome Próprio
PageRank
Verbo
Nome Próprio
ser
Haiti
ser
Haiti
ser
Haiti
ir
Brasil
ir
Brasil
ir
Brasil
ter
EUA
ter
EUA
ter
EUA
ser
Chile
ser
Chile
ser
Chile
ir
Brasil
ir
Brasil
ir
Brasil
ter
Piñera
ter
Piñera
ter
Piñera
Observa-se que o verbo “ser” é o que apresenta os valores mais relevantes
de métricas. Provavelmente por serem estas redes descritivas da situação, do
cenário do terremoto. Também demarcam posições e papéis exercidos por
entidades. Os verbos “ir” e “ter” mostram as necessidades de alcance do local
atingido pelo desastre e de posse de elementos.
Para os nomes próprios, as localidades onde ocorreram os eventos são as
mais relevantes em cada caso (pela própria demarcação do sentido singular de cada
evento). “Brasil” aparece muito bem colocado, o que se explica pela proximidade
geográfica e importância geopolítica no contexto latino-americano, bem como bom
relacionamento entre os governos do período entre Brasil e Chile, para o caso
correspondente, e pela presença das Forças Armadas no Haiti e consequente
influência neste país. Para o Haiti um nome próprio bem relevante é “EUA”,
demonstrando também a importância deste país no pós-catástrofe do Haiti em 2010
e sua influencia neste país. Já para o Chile, o caso pontual fica por conta de “Piñera”
(referenciado na rede como “PiÔ), sobrenome do atual presidente chileno, que
tomou posse logo após o terremoto.
A convergência dos valores dos elementos mais importantes com relação às
métricas é algo de destaque nesta observação. Além disto, o levantamento destes
valores demonstra uma limitação latente pertinente à lematização promovida na
117
etiquetação dos corpora. Determinados itens lexicais podem assumir mais de um
valor quando tomados isoladamente e levados a sua forma sem flexão. Um exemplo
é a palavra “como”, que muitas vezes aparece como advérbio, mas pode ser
também flexão do verbo “comer”. O etiquetador utilizado assume todas as
possibilidades, o que faz o verbo comer aparecer entre os mais relevantes, quando
de fato isso não é real. Outro problema está em palavras como “ar” e “BB”,
identificadas como relevantes quando na verdade não se enquadram nem como
verbo e nem como nome próprio (“BB” aqui é uma etiqueta), o que demonstra a
importância do passo de filtragem que leva as listas de verbos e nomes.
Buscando entender não só os elementos mais significativos da rede, mas
também aqueles que se mantêm nos valores médios (para o grau e betweenness
centrality) ou medianos (PageRank) das métricas elaborou-se a Tabela 35.
Tabela 35. Valores de Elementos com Valores Médios para Métricas das redes VP.
Métrica
Haiti
Chile
Grau
Betweenness
Centrality
PageRank
Nicolas STF Emergência Mount Bom Live
Marginal Imagem Lisa acampar Sistema AustrÃ
URSS Cavagnari
AP Tavares Moreira Cayes Jordan Palestina Alex
alternar
YouTube Albert Hariri Guiana Sandra Cunha
GILBERTO
Gilles Leandro Chris Idade Campos Dizem
Cybernet PlantÃ
Vargas Guatemala Casas Vivo Projeto Tira Eliana Uganda Barros
Polishop Diary
Ipea Byrs Day Super Liga Micky Londres Miguel Claude Lucimar
Vezes Luau
Unesco Pai Stone Previdência Barcelona Elite badalar Manger
Momentum
Yahoo Enzo atentar Caio Espà cansar Toda
estilizar
Monsters
Berlusconi colaborar comparecer constatar
Valemont Lenine
consultar cumprimentar diminuir empenhar erguer
Par Supremacia
estreitar fabricar figurar isolar lavar legendar lesar
motorizar pontuar
namorar percorrer poetar recusar reinar
selecionar sortir topar torturar
Governo Grà Anos achar Tendências Vai Bio
Federaà Bruno Cristià France Canadà amentar
Santa DANIEL
GPS GEAN SANINO Ivan Ganso FÃ Salvador
agradecer
Hernan Macondo
PTB Marcos Adriano Gabriel avisar Mineiros
Waikiki
SC detectar
Moacyr Alex Calvin Giorgio Obras citar Lei
Demanda
Arquivo
Investimentos converter Machado dirigir disparar
estradar
Fundamental exportar federar interessar liderar
quebrar vender
mandar marinhar perigar render sentar
Para estes valores observa-se que, no caso do Haiti, existe a preponderância
de nomes próprios identificadores de nações. Especialmente a métrica de grau dos
vértices apresenta muitos valores, sendo que os verbos ali presentes são
118
determinantes de ações de auxílio a vítimas. Já para o Chile se tem nomes próprios
ligados a pessoas e organismos governamentais, como “Governo” e “FederaÔ
(Federação) e os verbos possuem alguns valores ligados a assistência, embora
nesta abordagem os problemas identificados e expostos acima se apresentam de
forma a dificultar análises mais aprofundadas.
6.1.1.1. Agrupamento
A realização de agrupamento, para todas as redes, demonstra que os
diferentes algoritmos resultam em números diferentes de grupos. A razão disto
encontra-se no entendimento de cada algoritmo, em discussão válida para os dois
agrupamentos executados neste trabalho. O algoritmo 1 baseia-se na modularidade
(propriedades de uma rede que determina divisão específica da rede em grupos
levando em conta o grau dos vértices, as ligações entre vértices e todos os laços da
rede), na fração de laços que se liga a um grupo e na fração de laços que liga
vértices em um grupo [25]. A ideia é usar os dois últimos no cálculo do primeiro para
cada par de vértices/grupos correspondentes, tomando o maior valor das linhas da
matriz resultante na formação de uma lista. Depois, toma-se o maior valor desta
lista, juntando-se os vértices/grupos correspondentes (passando estes a ter um
próprio valor de modularidade) [25]. Então se atualiza a matriz de relações e se
repete o processo até que a maior modularidade de qualquer valor da lista seja
menor que 0, obtendo-se grupos de uma rede [25]. Já o algoritmo 2 surgiu da
identificação de um problema de escalabilidade do algoritmo anterior causado pelo
crescimento não uniforme de comunidades [98]. Em vista disto, determinou-se a
taxa de consolidação do grupo (valor mínimo entre a razão do tamanho de dois
grupos i e j, isto é, entre ci/cj e cj/ci) [98]. Esta taxa é multiplicada à modularidade
119
para cada par e o par que apresenta maior valor se junta em um novo grupo [98]. A
iteração recomeça com a atualização dos valores de modularidade e volta a ocorrer
até que esta modularidade, dentre todos os valores, apresente valor máximo
negativo (como algoritmo anterior) [98]. O valor c (tamanho do grupo) pode ser
definido por três heurísticas: pelo grau do grupo com relação a outros grupos, por
meio do grau a partir da segunda iteração, ou pelo número de membros da
comunidade [98]. Em termos de escalabilidade e tempo, a terceira heurística se sai
melhor, seguida da primeira e da segunda [98].
Para o Haiti tem-se no agrupamento realizado pelo algoritmo 1 a observação
que 3 (G1, G3 e G4) dos 41 grupos obtidos concentram 92,5% dos vértices, mas
apenas 55,1% das ligações (conta-se apenas ligações entre componentes do
grupo). São estes grupos também que possuem as densidades mais baixas entre
os grupos (entre 0,005 e 0,011), o que é bastante compreensível frente ao número
de ligações existentes para a quantidade de vértices, e demonstra que carregam a
característica do todo da rede VP para o Haiti, um elevado número de elementos
com baixa conectividade. Pontualmente, a Figura 13 vai visualizar a preponderância
de vértices da cor magenta e forma disk, correspondentes ao grupo G4
(especialmente os nós “ser”, “fazer”, “ter” e “poder”), seguidos dos de cor lime e
forma disk do grupo G3 (nós de destaque “governar”, “dar” e “trabalhar”) e de cor
blue e forma disk do grupo G1 (nó “vir”), justamente os grupos concentradores de
vértices. Um nó de destaque no G4 é “suar”, mais um dos itens lexicais lematizados
de forma errada (na verdade faz referência ao pronome feminino “sua”). O esperado
aqui acontece na presença de nós já apontados acima como relevantes para a rede,
“ser” e “ter”. Outros nós mostram a execução de ações típicas de uma situação póscatástrofe que demanda realização de tarefas (“fazer” e “trabalhar”), possibilidades
de ajuda (“dar”, “vir” e “poder”) e destaque de governança (“governar”). Mais
importante ainda é notar que a maioria das palavras de destaque é verbo de ação,
mostrando as dinâmicas a serem supridas por entidades após um desastre deste
porte. Outro dado de análise importante é a distância geodésica média, em que
grupos com quantias médias de vértices (entre 50 e 175) e ligações (entre 55 e 222)
apresentam maiores medidas. De qualquer forma este número não ultrapassa 5 em
120
nenhum momento, demonstrando que grupos pequenos com baixo valor podem
funcionar como “pontes” entre grupos maiores ou partes destes, tal qual a ideia de
laços fracos de Granovetter em uma rede social [99].
Em contrapartida, o algoritmo 2 apresenta grupos mais homogêneos com
presença de grupos com grande número de ligações. Destes, 5 grupos (G9, G12,
G15, G16 e G34) dos 36 ultrapassam as mil ligações, sendo a soma destes
responsável por 13,6% das ligações e 37,1% dos vértices. Em termos de densidade
também há bastante equilíbrio, onde o grupo com menor densidade é um dos que
mais possui vértices (G25 com 496 vértices e 852 ligações). Por se tratar da mesma
rede os nós a serem destacados são os mesmos. O que muda é a forma como se
distribuem nos grupos. Os itens lexicais “ser” e “ter” estão no G25, “poder” entre
G26, “fazer” em G23, “dar” em G20, “governar” em G15 e “vir” em G6. Esta ampla
distribuição permite uma análise mais de perto sobre tais grupos. O grupo G6 possui
muitas referências ao meio artístico, mas possui também os itens lexicais “CICV”
(Comitê Internacional da Cruz Vermelha), “Aid” (Action Aid) e “Fome” (GCFome),
que são típicos de catástrofes pela atuação de entidades que carregam tais léxicos
em suas denominações. O G15 apresenta palavras mais relacionadas ao contexto
político, com denominação de partidos políticos e governantes brasileiros, o que
exclui a ação “governar” identificada no grupo de ações assistenciais. G20 aponta
vários léxicos de referência a aplicações tecnológicas (especialmente jogos), bem
como léxicos de referência a atores do cenário político, econômico e social
internacional, incluindo itens como “OTAN”, “Bird” e “FAO”. No grupo do item lexical
“fazer” (G23) existe uma série de nomes próprios muito específicos, de referências a
pessoas, mas também muitas referências a países pelo nome, conjuntos de países
(“Bric”, “European”), bem como atores importantes no contexto de assistência como
“MSF” e “Tropas”, além da identificação de ações como “angariar”. G25 tem uma
variedade de léxico muito grande, com referência ao cotidiano brasileiro, esportes e
educação, mas também descritiva da situação do terremoto, tais como “Eurásia”
(referência a placas tectônicas), “Earthquake”, “morrer”, “estragar”, “arruinar”, além
de abranger o verbo “ir” destacado em discussão anterior. Por fim, dentro destes
grupos de análise o G26 demonstra que o item lexical “poder” está associado a
121
expressões de cunho econômico como “Brics” e “Economia”, mas também a
entidades de assistência e pesquisa, como “ONU”, “NASA”, “AAAS”, “UFSC” e
“University”, sendo, portanto um grupo de descrição de possibilidades de assistência
financeira, social e de explicações e estudos sobre o evento. Os valores de distância
geodésica dos grupos seguem o exposto na rede do algoritmo 1, com grupo médio
(agora com valores entre 77 e 496 de vértices) com valores mais elevados,
reforçando a ideia exposta sobre necessidade de vértices que interliguem estes
grupos a outros que diminuam a distância média da rede de forma geral.
Já para o Chile, a rede VP agrupada pelo algoritmo 1, embora apresente certa
concentração de vértices em determinados grupos, demonstra que é mais
distribuída que a sua correspondente para o Haiti. Os grupos G2, G3 e G4
concentram 73% dos vértices e 48,3% das ligações, sendo que estes grupos
também possuem mais baixas densidades e, portanto, potencialidades de relações
entre seus elementos de rede. Como itens lexicais de destaque na rede tem-se os
verbos “ser” e “ter” na cor magenta e forma disk (G4), “dizer” na cor orange e forma
disk (G2), “ir” na cor lime e forma disk (G3) e o nome próprio “Brasil” de cor yellow e
forma disk (G5). O verbo “comer” também aparece em destaque (G7 de cor blue e
forma solid square), incorrendo no mesmo problema já discutido acima, sendo,
portanto, excluído de discussões seguintes. G2 é um grupo que concentra em si
expressões de referência a países, especialmente latino-americanos, como
“Argentina”, “Equador”, “Paraguai”, “Uruguai”, “Haiti”, o próprio “Chile” (e sua capital
“Santiago”), além de outros como “EUA” e “China”. Também estão presentes, neste
grupo, muitas figuras importantes do cenário político do período, como “Lula”,
“Obama”, “Hillary”, “Bachelet” podendo sinalizar que estes foram porta-vozes do
posiconamento de seus países frente ao evento, o que é reforçado pela presença de
muitos verbos com afinidade nos campos de descrição e ajuda a um terremoto,
como “abalar”, “atingir”, “acontecer”, “enfrentar”, “reconstruir”, “reerguer”, “recuperar”,
“recolher”, “vir” e “poder”. Finalizando este grupo aparecem itens lexicais de
referência a entidades de assistência tais como “Marinha”, “FAB”, “Itamaraty”,
“ONU”, “Hospital”, “Fome”, “ProChile” e “Onemi”, o que torna este grupo muito
importante, não só na caracterização do evento, mas também na visualização da
122
estruturação da informação tal como proposta neste trabalho. Em G3 existem muitas
referências a programas televisivos e artistas, com a presença de palavras como
“Dilma”, “Pinochet” e “ruir”, ou seja, com léxicos mais relacionados ao contexto
político e histórico sobre o acontecido. No grupo dos itens “ser” e “ter” (G4) existem
palavras que citam personalidades do meio artístico e esportivo, além de entidades
próprias destes gêneros, com também delineamento claro de um cunho assistencial
pelas ações expressas em “dar”, “encaminhar”, “comprometer”, aliadas a citações de
instituições assistenciais tais como “OrganizaÔ (Organização), “GCFome” e
“Samaritans”, e econômicas, como “Brics” e “OMC”. O grupo onde a expressão
“Brasil” aparece como representante maior (G5) possui léxico intensamente ligado à
política nacional, com a presença dos itens lexicais “votar”, “PSDB”, “DEM”, “Lei” e
“Promessas”, o que permite dizer que este grupo não seria tão relevante no que
tange à delimitação de entidades assistenciais no terremoto do Chile. Com relação
às distâncias geodésicas médias observa-se que para grupos com valores de
vértices e ligações na casa das centenas, estes são maiores, mas as diferenças são
bem mais tênues do que no caso do algoritmo 1 aplicado à rede VP do Haiti.
Na aplicação do algoritmo 2 as relações de verbos e nomes próprios do Chile
novamente há um maior equilíbrio entre os grupos, com a concentração ocorrendo
em cinco deles (G7, G8, G11, G19 e G21) sendo 32,3% dos vértices da rede e
13,6% das ligações. Esta porcentagem de ligações é a mesma dos grupos
concentradores do algoritmo 1, mostrando que para o algoritmo 2 os grupos se
apresentam mais conectados internamente (mesmo número de ligações para porção
menor de vértices). As densidades destes grupos são baixas, mas não as mais
baixas dentre todos os grupos, diferentemente das outras redes agrupadas
discutidas até aqui, o que é reflexo também da presença de grupos concentradores
mais conectados do que os anteriores. Os cinco itens lexicais de destaque
analisados pontualmente junto aos seus grupos no algoritmo 1 apresentam-se em
cinco grupos distintos no algoritmo 2. O item lexical “dizer” encontra-se no grupo G7
(cor blue e forma solid square) que também apresenta itens como “Chile”, “PiÔ
(Piñera), “Obama”, “Bachelet”, “Hillary”, “matar”, “ajudar”, “socorrer”, “BID”, “Onemi”,
“Haiti”, “Katrina”, “matar”, “socorrer”, “ajudar”, “salvar”, entre outros muitos,
123
principalmente de referência a ações. Isto coloca o grupo em um bom
posicionamento tanto na descrição do desastre, como de sua situação frente a
outros desastres, e também de como se portaram os diferentes atores do cenário
político mundial frente ao evento. O grupo G10 (cor magenta e forma solid square) é
o que possui o item “ter”, associado à presença de outros de referência a entidades
de auxilio e assistência, tais como “MSF”, “ONG” e “Defesa”, e de ações típicas
como “evacuar”, “necessitar”, “estabelecer” e “exercer”. Porém estes se encontram
em meio a muitos itens lexicais associados a meio artístico e a notícias sobre
geopolítica mundial. O item “ir” encontra-se no grupo G19 (cor blue e forma solid
triangle) que tem grande preponderância de itens que se ligam a personalidades e
eventos do meio artístico e esportivo, mas também revela afinidade com o terremoto
do Chile em itens como “ReconstruÔ (Reconstrução), “SoluÔ (Solução),
“Presidente”, “solucionar”, “OrganizaÔ (Organização) e “instituir”. O item lexical mais
relevante em termos métricos da rede (“ser”) encontra-se no G23 (cor yellow e forma
solid triangle), unindo-se a itens lexicais de citação a agentes assistenciais e
econômicos, como “CGFome”, “Samaritans” e “Bric”, e ações como “orientar” e
“repor”, que se misturam a itens pertinentes para a sociedade paulistana (pessoas e
locais) e ao meio artístico. Por fim, “Brasil” está no grupo G24 e sua presença é
delimitada da mesma forma que no algoritmo 1, com referências ao cenário político
brasileiro por meio de itens como “votar” e “Tucanês” (Tucanões). As distâncias
geodésicas dos grupos resultantes do algoritmo 2 possuem também maiores valores
médio para grupo médios dentro de seus padrões (entre 24 e 160 vértices),
seguindo o padrão geral de grupos emergentes de aplicação de algoritmos para esta
métrica.
124
6.1.2. Redes VE
A rede VE elaborada sobre o copus do Haiti apresenta um total de 5907
vértices e 352886 ligações, ou 7 vértices por texto e 419 ligações por texto, levando
a uma média de aproximadamente 60 ligações por vértice em cada texto. Já para o
Chile
apresentam-se
2764
vértices
(19,2
por
texto)
e
42598
ligações
(aproximadamente 256 por texto), com média então de 15,4 ligações por vértice em
cada texto. Estes resultados seguem o obtido para as redes VP, com demonstração
de que os elementos de rede são mais conectados no evento do Haiti do que no do
Chile, o que também é refletido pelo grau médio dos vértices calculado pelo
NodeXL: 112,6 para o Haiti e 30,8 para o Chile. Também alinhado com as redes VP
está o fato de os textos do Chile possuírem em média maior número de vértices que
os do Haiti, acarretando nas mesmas implicações sobre a atuação de entidades no
momento pós-catástrofe, seu grau de interação e sobreposição sobre ações, que é o
que indica os dados da rede haitiana, e maior distribuição de ações nas entidades
atuantes no terremoto do Chile. A distância geodésica média também acompanha as
relações mostradas em redes VP, com valores menores para o Haiti do que para o
Chile (2,16<2,42), reflexo claro do grau dos vértices em média para cada caso. A
métrica de densidade gráfica deixa claro que os elementos da rede VE do Chile
exploram muito mais as possibilidades de conexão que as do Haiti, com valor quase
oito vezes maior que esta (0,15 para o Chile contra 0,02 da rede do Haiti), isto é,
entidades e ações presentes na rede chilena se ligam de forma mais distribuída,
mesmo que à custa de um caminho mais longo entre estes, delimitando bem ações
para cada entidade. Para o valor médio de betweennes centrality a rede VE do Haiti
possui um valor de 3422,5, contra 1954,8 do Chile, o que representa a manutenção
com relação ao apresentado pelas redes VP. A métrica PageRank apresenta valores
maiores de mediana para a rede do Chile do que para a do Haiti, desenhando uma
reafirmação sobre a distribuição como característica de ações e entidades no caso
125
chileno, e a concentração no caso haitiano, que acarreta a este último maior peso a
alguns vértices em detrimento de outros.
Assim como para as redes VP, aqui também se apresenta os valores dos
elementos de rede mais relevantes para cada métrica discutida, como mostra a
Tabela 36.
Tabela 36. Valores de Elementos mais Relevantes para Métricas das redes VE.
Métrica
Tipo de Elemento
Haiti
Chile
Grau
Betweenness Centrality
PageRank
Verbo
Entidade
Verbo
Entidade
Verbo
Entidade
ser
Haiti
ser
Haiti
ser
Haiti
ir
país
ir
país
ir
país
ter
Brasil
estar
Brasil
ter
Brasil
ser
terremoto
ser
terremoto
ser
terremoto
poder
país
poder
país
poder
país
ir
dia
ter
ano
ir
dia
Como esperado, os valores de verbos se mantém os mesmos (“ser”, “ir”, “ter”
e “poder”) com relação às redes VP, já que a lista base de verbos, para todas as
redes obtidas em aplicação destes métodos não supervisionados, é mesma.
Também os valores de entidade “Haiti” e “Brasil” se repetem agora para redes VE.
As novidades ficam por conta dos itens lexicais “terremoto”, “país”, “dia” e “ano”, o
que segue a lógica de que estas redes são descritivas do cenário resultante da
catástrofe, existindo a causa, o local e a data deste evento. Mais uma vez surgiram
limitações pela forma de itens lexicais que passaram pelos filtros (como “nÔ
referindo-se a “não”, que deveria ter sido barrado pelo filtro de stopwords) e também
que foram codificados de forma a convergir para uma mesma expressão, mesmo
referindo-se a coisas diferentes, devido a acentuações (como “sÔ que em geral se
refere a “são”, mas também é citado como presente em textos que não possuem
esta palavra pelo NLTK).
Igualmente para as redes VP, também entre os itens lexicais de VE buscouse os que apresentavam valores médios ou medianos para as métricas discutidas, o
que a Tabela 37 apresenta.
126
Tabela 37. Valores de Elementos com Valores Médios para Métricas das redes VE.
Métrica
Haiti
Chile
Grau
taxa ataque acidentar varrer amplo
Bolsa escoltar flagrar narrar
interpretar imprimir desrespeitar
despedir comprovar cessar aliviar
Betweenness Centrality
entà derrubar
escombros permanecer
pois recolher provar
pesar moscar ligar
PageRank
exercà telhar poeira
iraquiano pragmà judeu
divisar compilar
chicotear
Sandra Coreia Dorival Marcelo
amar falar faturar letrar obrar odiar
pagar reunir telefonar
France avaliar discursar
Buenos Aires preparar
valer
ecoar Gatsby
Para ambos os conjuntos o nível de ruídos encontrados devido aos problemas
citados é muito elevado e dificulta a análise. O que se observa é que os elementos
presentes para a métrica de betweenness centrality são representativos do cenário
emergente de um terremoto, tais como “escombros”, “derrubar”, e de auxílio,
expresso pelos itens “avaliar”, “recolher”, “discursar”, “preparar”.
6.1.2.1. Agrupamento
O primeiro agrupamento a ser discutido para redes VE é o promovido pelo
algoritmo 1 à rede VE referente ao corpus do Haiti. A Tabela 20 mostra que dos 8
grupos resultantes, somente três (G1, G2 e G3) correspondem a 99,1% dos vértices
e 46,7% das ligações. Estes são também os grupos com menor densidade, junto ao
grupo G4, que com apenas 46 vértices e ligações possui densidade menor que o G3
com 1966 vértices e 94058 ligações, mostrando que a ineficiência no
aproveitamento das possibilidades de ligações se estendem os grupos médios, nos
padrões desta rede analisada. Com relação a distância geodésica observa-se que
para G4 tem-se o maior valor e a partir deste grupo, com o crescimento do tamanho
do grupo, a distância decresce lentamente, e com a diminuição do tamanho essa
média cai rapidamente, mantendo o padrão geral observado nas redes VP. Em
127
termos de itens lexicais, observa-se na disposição da rede maior distribuição dos
graus, que determina o tamanho do vértice e torna visível ao reconhecimento como
de destaque para a rede. Quantitativamente também é possível identificar então
estes vértices, sendo “ser”, “ir”, “ter” e “estar” os com maior número de conexões.
Todos estes itens lexicais estão no grupo G1 (cor Blue e forma disk). A extrema
concentração de vértices neste grupo torna infrutífera qualquer análise mais
aprofundada sobre seu conteúdo que possa delimitar seu uso nos fins propostos
deste trabalho, exigindo um algoritmos que permita tal análise em grupos resultantes
de uma maior distribuição dos elementos de rede, que é o obtido no algoritmo 2.
Executando-se este algoritmo então se obtém 49 grupos, dos quais cinco (G8,
G21, G28, G30, G35) são os que concentram maior número de ligações, totalizando
5% destas e 34% dos vértices. As densidades destes grupos estão entre as mais
baixas, não sendo absolutamente os menores valores, mas permitindo visualizar que
a eficiência na conexão com outros elementos de rede são passa os 8,2% (G21)
para as redes concentradoras, derrubando a densidade gráfica como um todo nesta
rede VE, ainda que este valor seja maior em na rede VE do Haiti do que na VP
correspondente. Isto indica que referências a entidades por nomes simples são mais
eficientes na conexão com ações. Porém dentro do objetivo do trabalho é importante
ressalvar que boa parte dos nomes próprios é ou pode assumir, dentro de um
contexto, o papel de entidade assistencial, diferentemente de nomes simples, onde
entidades de tempo, por exemplo, são descritivas da situação, e não atuantes de
fato. O que se pode dizer é que um valor de densidade maior representa então
maior descrição de um cenário em uma rede que estrutura informações do póscatástrofe a partir de entidades gerais e verbos coocorrentes em sentenças. O grupo
G30 (cor Orange e forma solid diamond) possui três dos itens lexicais de destaque
na rede VE do Haiti, “ser”, “ir” e “estar”, enquanto em G44 (cor Lime e forma solid
triangle) está o item lexical “ter”. G30 é um grupo que apresenta léxicos ligados a
discussões sobre a resistência a algum auxílio externo ao Haiti que poderia macular
sua soberania, com itens lexicais tais como “imperialista”, “colonizador”, “soberano”,
“invasor”, “antiamericanista”, “nativo”. Também léxicos com relação a características
e eventos subsequentes ao terremoto, como “sacudido”, “incªndio” (incêndio),
128
“rachadura”, “fogo”, “esmagar”, “agitar”, “policiamento”, “guarda”, “executar” e
“suprir”. Está identificação abre margem para idealizar uma identificação de
necessidades emergentes após o desastre pela caracterização do cenário resultante
e cobertura sobre o que atuam as entidades. A distância geodésica apresenta
números bem parecidos entre os grupos, com valores menores aplicados a grupos
menores. A atenção especial fica por conta do grupo G1 com apenas um vértice
(“perdido”), o que não permite a aplicação de nenhuma métrica.
Na aplicação de agrupamento em rede VE correspondente ao Chile, com o
algoritmo 1, obteve-se 27 grupos. Os grupos G1, G2 e G3 concentram em si 88,7%
dos vértices e 46,2% das ligações. Juntamente com o grupo G4, são os que
apresentam densidade gráfica mais baixa, mais uma vez seguindo o padrão geral de
redes agrupadas até aqui onde os valores menores se concentram nos grupos de
tamanho grande e médio. Um perfil parecido é desenhado pela distância geodésica
média, com valores baixos para grupos pequenos, maiores para grupos médios e
levemente menores para grupos grandes. Para a rede VE chilena os itens lexicais
mais destacados são “ser”, “poder”, “ir”, “ter” e “estar”. Estes dois últimos estão no
grupo G1 (cor Blue e forma disk), enquanto que “ser” e “ir” estão em G2 (cor Cyan e
forma disk) e “poder” em G3 (cor Dark green e forma disk). Pela discussão já
promovida para o agrupamento da rede VE do Haiti sobre concentração em poucas
redes e dos papéis que nomes simples podem assumir como entidade, qualquer
análise sobre estes grupos não será de grande valia, já que sua concentração leva o
estudo de um grupo a algo próximo a totalidade da rede como algo único.
O algoritmo 2 possui cinco (G7, G13, G22, G25 e G30) de seus 31 grupos
emergentes concentrando 32,9% dos vértices e 9,7% das ligações. As densidades
destes grupos são baixas se comparadas à densidade de grupos com número de
vértices e ligações na casa das dezenas. A distância geodésica segue a tendência
de crescimento com o tamanho da rede representativa do grupo, atingindo seus
maiores valores em grupos que possuem entre 30 e 172 vértices e entre 37 e 442
ligações, decaindo a partir daí para grupos maiores e concentradores de forma
pouco acelerada. Quanto aos itens lexicais de destaque apontados na aplicação do
algoritmo 1, para o algoritmo 2 cada um se encontra em um grupo. Em G8 (cor Lime
129
e forma disk) encontra-se o item lexical “ir”, sendo um grupo que apresenta itens
lexicais que caracterizam o pós-catástrofe e o auxílio aos atingidos, como “castigar”,
“incªndio” (incêndio), “facilitar”, “montante” e “defesa”. O item lexical “ter” está em
G12 (cor Steel blue e forma disk) que se define como um grupo com traços de
execução de ações por ter também vértices como “exercer”, “organizar” e “lideran”
(liderança). O maior nó da rede, o item lexical “ser” situa-se no grupo G13 (cor Blue
e forma solid square) que tem itens lexicais que se alinham bem com o caráter
descritivo deste verbo, tanto da situação como da ajuda, como “rachar”, “vazar”,
“cortado”, “emergªncia” (emergência), “prestador”, “policial”, “parceria”, “mobilizar”,
“instalar” e “restauraÔ (restauração). Em G23 (cor Lilac e forma solid square) o item
lexical “estar” acompanha itens lexicais pertinentes ao meio escolar, como “aluno” e
“universitÔ (universitário), ao artístico [“músico” (músico), “cinema”, “avatar”,
“show”] e à política brasileira (“eleitorado”, “petista”, “socialista”), não sendo tão
pertinente ao buscado aqui. “poder” está em G25 (cor Blue e forma solid diamond)
que se define com três conjuntos de léxicos principalmente: os de referência a ações
de auxílio com itens como “cooperar” e “assinar”, de prestação de contas e notícias
como “informar” e “manifestar”, e de atores auxiliadores como “alianÔ (aliança),
“doador”,
“autoridade”,
“organismo”,
“instituiÃ"
(instituição)
e
“corporaÔ
(corporação). Dos grupos analisados em redes VE este último foi o mais
interessante por apresentar, reunido em si, muitas referências comuns a entidades
assistenciais e conjunto destas.
6.2. Método Supervisionado
Frente às limitações do método não supervisionado em delimitar claramente
entidades assistenciais e suas ações, como apresentado em seus resultados e
130
discussão, parte-se para a análise dos resultados de um método supervisionado. É
importante ressalvar, entretanto, que a discussão promovida até aqui aponta que,
embora com limitações, o método não supervisionado aplicado mostra a
possibilidade de estruturação da informação geral contida no texto, sendo este
segundo bloco de discussões dedicado a entender como esta metodologia de
estruturação já utilizada pode, com alguma supervisão, alcançar o objetivo
específico
de
estruturar
um
conhecimento
específico
buscado,
no
caso
conhecimento sobre as entidades assistenciais e suas ações nas catástrofes
naturais estudadas.
6.2.1. Redes VPS
Partindo dos nomes próprios mostrados na seção de resultados para a rede
VPS do Haiti obteve-se a relação destes com 1096 verbos, de um total de 2635
(reduzindo a 41,6% os verbos, portanto). Para o Chile este valor foi de 213 entre
1394 (15,3%). Com isto, entende-se que para o evento do Chile as ações de ajuda
estão muito mais delimitadas por entidade do que para o Haiti, onde as entidades
acabam por executar um número de ações maior. Tomando a média de ações de
ajuda por entidade assistencial tem-se que para o Haiti são de aproximadamente 26,
enquanto para o Chile o número cai para 21. Se mantivesse a média do Haiti a rede
VPS para o caso chileno teria 48 elementos a mais (verbos). A rede haitiana
formada apresenta em média 1,35 elementos de rede por texto e 5,17 ligações,
comparada a 1,55 elementos de rede e 2,23 ligações no caso do Chile. Estes dados
permitem concluir então que, em média, cada elemento da rede do Haiti possui 3,83
ligações e no caso do Chile 1,44. Embora também apresentem que o Haiti possui
mais ligações por entidade que o Chile, os valores comparados aos extraídos dos
131
números absolutos de rede e os por texto são bastante divergentes. Como os textos
possuem relação direta com o tempo, fica clara então uma distribuição não uniforme
para os dois casos. Como mostra a Figuras 3 e 5 de distribuição de textos no tempo
para os dois corpora existem um volume muito grande de reportagens logo do início
do recorte estudado (logo após os terremotos), onde existem muitas necessidades
emergentes, sendo neste instante que se apresenta o maior número de ações de
ajuda e entidades, e nos momentos seguintes uma longa cauda onde entidades se
relacionam a poucos verbos. O ganho que se tem com os primeiros dados é a
dissociação dos elementos de rede no cálculo da média, e dos últimos com o estudo
da distribuição destes no tempo.
A mesma equivalência apresentada por estes dados reflete no degree das
redes, com a rede do Haiti apresentando valor 7,2 e do Chile 2,9. Isto é, a média
identificada da métrica de grau da rede para o caso haitiano é maior do que para o
chileno, mostrando que os elementos de rede do país caribenho se conectam mais
vezes que o do andino em média, consequência de um movimento já identificado
nas redes já discutidas de sobreposição de entidades sobre uma mesma ação e
abrangência muito grande de atuação destas no cenário estudado. A distância
geodésica média do Chile maior mostra que a maior discretização de entidades
assistenciais leva a maior distância entre as entidades e suas ações. Assim, se
ganha em customização da ajuda prestada, mas perde-se em flexibilidade de
atuação conjunta de entidades sobre ações. Porém, a densidade de gráfico maior
também para o Chile mostra um aproveitamento maior da possibilidade de ligações,
o que indica que as entidades assistenciais estão relacionadas com as ações
correspondentes de maneira muito mais direta. Em suma, as necessidades
emergentes demonstradas pelas ações são bem cobertas pelas entidades. A
medida de betweenness centrality maior para o Haiti e do que para o Chile (em
média) demonstra a dependência na execução de ações por parte de entidades no
caso haitiano, em que ações cobertas por mais de uma entidade e entidades
cobrindo muitas ações elevam esta medida para estes blocos de elementos para o
qual, em termos estruturais da rede, serve como conector. A nulidade da mediana
desta métrica para o Chile indica que os blocos de ações estão bem distribuídos,
132
sem muita flexibilidade de atuação ou grande número de nós indispensáveis a rede
(na mediana, na ausência de uma entidade outra supriria sua atuação, na ausência
de uma ação duas entidades que atuam em conjunto por meio desta atuam juntos
também por outra). Justamente este peso dos elementos de rede do Chile em suprir
eventuais ausências é o que eleva o valor da mediana do PageRank.
Estas métricas analisadas em conjunto apontam para uma atuação com
traços de planejamento muito forte no Chile: distribuição de ações de maneira rígida
para entidades, relacionamentos entre estas de forma a existirem relacionamentos e
atuações conjuntas, sem indícios de grande sobreposição de ações, arranjo de
atuação que permite cobrir todo o espectro de ações necessárias ou associação de
entidades importante para o sucesso do resgate de forma que a ausência de um
elemento não impacta a rede. Já o Haiti demonstra uma atuação que vai se
constituindo conforme surgem as necessidades, com sobreposição sobre ações e
não exploração das ligações disponíveis (embora haja um volume grande de
ligações), aumentando a concentração de ações sob determinadas entidades que se
tornam indispensáveis na composição do cenário de assistência. Observando as
entidades e ações da rede têm-se os elementos de destaque mostrados na Tabela
38.
Tabela 38. Valores de Elementos mais Relevantes para Métricas para redes VPS.
Métrica
Tipo de Elemento
Haiti
Grau
PageRank
Verbo
Entidade
Verbo
Entidade
Verbo
Entidade
ser
ONU
ser
ONU
ser
ONU
Minustah
ir
Minustah
ir
Minustah
Defesa
ir
ter
Chile
Betweenness Centrality
Defesa
ter
Defesa
ter
ser
Força
ser
Força
ser
Força
ter
Marinha
ter
Marinha
ter
Marinha
ir
ONU
ir
ONU
ir
ONU
Observa-se que, independentemente da métrica, os valores mais relevantes
para os elementos em cada rede são os mesmos. Nos dois casos “ONU” apresenta
destaque, mostrando seu papel atuante em coordenar a assistência no póscatástrofe. As entidades complementares nos dois casos são entidades ligadas a
Forças Armadas que auxiliam na execução de determinadas diretrizes e busca, além
133
de “Defesa” (Civil), que auxilia junto ao tipo anterior na reestabilização da ordem e
zelo pela integridade física de civis. Os verbos, também os mesmos para os dois
casos, mostrando que os textos que compõem os corpora expõem o posicionamento
de entidades sobre suas responsabilidades (“ser”), ações (“ter”) e projeções de
atuação (“ir”).
Aqui a análise mais importante talvez seja a dos verbos relacionados ao
conjunto supervisionado de nomes próprios, que deu continuidade nos trabalhos
para obtenção das redes VEA e VPA. Na Tabela 39 se encontram todos estes
verbos, onde os considerados como referentes a ações assistenciais por esta
discussão estão marcados na cor amarela.
Tabela 39. Verbos em Redes de Métodos Supervisionados.
Chile
abalar acabar acusar admitir adotar afetar afirmar agradecer aguar ajudar alastrar alegar alertar aliar
amplificar analisar anunciar apoiar apontar aprovar ar armar assentar assentir assumir atacar atender
atingir aumentar avaliar bolar buscar cair cancelar casar centrar chegar cincar comandar combater
comer comerciar conseguir considerar construir consultar contatar contestar controlar conviver correr
criticar cruzar culpar cumprimentar curtir dar declarar decolar decretar defender delegar demonstrar
demorar desabrigar descartar descobrir desconfortar destinar deter devastar dever disparar distribuir
divulgar dizer drogar eleger elogiar emitir entrar entregar entrever entrevistar entusiasmar enviar
equipar errar esperar estar estender estimar estudar evacuar exigir exportar expressar falar falhar falir
falsar faltar fazer ferir ficar financiar fomentar fossar fugir futurar gerar governar haver impedir
implementar imprensar indicar informar instalar instaurar instituir ir jogar levar ligar listar livrar mandar
manter marinhar matar mear medir militar ministrar mobilizar montar morrer motivar notar novar oar
ocorrer ofertar olhar ordenar pacificar parecer partir passar pedir perder perigar permitir pesquisar
pilotar podar poder preparar prestar pretender propor proporcionar proteger provar prover publicar
querer recolher reconhecer recorrer recusar redar referir relatar respaldar respeitar responsabilizar
ressaltar restar retornar reunir revelar riscar roubar ruir sacar sair segar seguir ser seriar significar
sobrar sobreviver soterrar suar sustentar telefonar tender tentar ter tirar tocar tomar trabalhar trocar
ver vir visar visitar viver zonar
Haiti
Resultar abaixar abalar abandonar abolir abortar abrigar abrir abster abusar acabar acalentar acalmar
acampar acatar aceitar acelerar acentuar acertar acessar achar acionar aclamar acompanhar
acontecer acordar acostumar acreditar acrescentar acrescer acuar acumular acusar adaptar adequar
adiantar adiar adicionar administrar admirar admitir adotar adquirir advertir advogar afastar afetar
afirmar afrontar agendar agilizar agir agradecer agravar agredir agregar aguar aguardar ajudar alar
alarmar alastrar alegar alertar aliar alimentar aliviar alterar alugar amamentar amanhecer amar
ambientar amentar amigar amontoar amostrar amparar ampliar analisar ancorar andar antever
anunciar apadrinhar aparatar aparecer aparentar apedrejar apelar apelidar aplaudir aplicar apoiar
apontar apor aposentar apostar aprender apresentar aprofundar aprovar aproveitar aproximar apurar
ar argumentar armar arrasar arrastar arrecadar articular artilhar ascender aspar assaltar assassinar
assegurar assentar assentir assessorar assinalar assinar assistir associar assumir assuntar atacar
atar atender atentar ater aterrissar aterrorizar atingir atirar ativar atrair atrapalhar atrasar atravessar
atribuir atualizar atuar aumentar autorizar auxiliar avaliar avisar baixar balar balir bancar banhar barrar
barricar barrir basear bastar batalhar batizar beber beneficiar blindar bloquear bolar bolsar bordar
botar brigar brincar buscar caber cadastrar cair calcular calmar caminhar campar canalizar cancelar
134
cansar capitanear captar capturar carecer carnar carregar casar cascar causar ceder centrar cercar
chamar chancelar checar chefiar chegar cheirar chocar cifrar cincar circular citar clorar cobrar cobrir
cocar colaborar colar coletar colher colocar colorar comandar combater comemorar comentar comer
comerciar cometer comparar comparecer compartimentar compensar compilar complementar
completar complicar compor comprar comprometer comunicar conceder concentrar concertar
conclamar concluir concordar concorrer condecorar condenar condicionar conduzir confessar
confirmar conflagrar conformar confrontar conhecer conquistar conseguir consertar conservar
considerar consolidar constar constituir construir consultar contabilizar contaminar contar contatar
contemplar contender contentar conter contestar contingentar continuar contradizer contrariar
contratar contribuir controlar convencer convencionar conversar converter convidar convocar
coordenar copar coroar correr corresponder corrigir costumar cotar cozinhar credenciar creditar
crescer criar criticar cruzar culpar cultivar cumprimentar cumprir cunhar cursar custar custear danar
danificar dar datar debater debelar debilitar decidir declarar decolar decretar dedicar defender definir
degradar deixar delinear demandar demitir demorar dentar denunciar depauperar depender depor
deputar derivar derrotar derrubar desabar desabrigar desacreditar desafiar desaparecer desarmar
desautorizar descaber descartar descobrir desconfortar desconhecer desconjuntar descrever
desembarcar desempenhar desencadear desenhar desenvolver desesperar desfilar designar desistir
deslocar desmantelar desmoronar desorientar despachar despedir despejar desproteger destacar
destinar destituir destruir desviar detalhar detectar deter deteriorar determinar devastar dever devir
devolver dialogar dificultar difundir digerir diminuir direcionar dirigir discar discordar discursar discutir
disparar dispor disputar disseminar dissuadir distinguir distribuir ditar divergir divulgar dizer doar
dobrar documentar doer dominar dourar drogar duplicar durar ecoar editar efetivar elaborar eleger
elevar eliminar elogiar embarcar embargar emboscar emergir emitir emocionar empenhar emperrar
empregar empresar emprestar enaltecer encaixar encaminhar encampar encarar encarregar encerrar
encomendar encontrar endossar endurecer enfileirar enfraquecer enfrentar enganar engenhar enlatar
enquadrar enraizar ensaiar ensinar entender entoar entrar entregar entrepor entrever entrevistar
enunciar enveredar enviar envolver equilibrar equipar equiparar erguer escalar escapar esclarecer
escolher escoltar esconder escrever esfriar esgotar esmaecer esmagar espalhar especializar esperar
espressar esprimir esquecer estabelecer estabilizar estacionar estar esteirar estender estilar estimar
estimular estivar estocar estourar estradar estragar estrangeirar estrear estreitar estrelar estruturar
estudar esvaziar evitar evoluir exagerar excepcionar executar exemplar exemplificar exercer exibir
exigir exilar existir exortar experimentar explicar explodir explorar expor exportar expressar externar
extremar facilitar falar falecer falhar falir faltar fantasiar farpar fatiar fatorar fazer fechar ferir ficar fichar
filar filhar filiar filmar filtrar financiar finar firmar fixar florar florir focar folgar folhar fomentar forjar
formalizar formar formatar formular fornecer fossar fotografar fracassar fraudar frequentar frutar fugir
funcionar fundar fundir furar futurar ganhar garantir gastar gemer generalizar gerar gerenciar golfar
governar gozar gradar graduar gramar gravar grupar guardar habilitar haiter haitir haver homenagear
honrar idear identificar ignorar ilhar ilustrar imaginar impedir implementar impor importar impostar
imprensar imprimir inaugurar incendiar incentivar inclinar incluir incomodar incorporar incrementar
indagar indenizar indicar indiciar individuar induzir infectar influenciar informar ingressar iniciar insistir
inspirar instalar institucionalizar instrumentar integrar intensificar interceder interessar interferir
intermediar internar interromper intervalar intervir invadir investigar investir ir irritar janelarosser
janelarossir jantar jogar julgar juntar justificar lamentar lanchar languir largar lavar legar legendar
lembrar ler lesar levantar levar liberar lidar liderar ligar limitar limpar listar livrar lixar localizar locar
lotar lucrar lutar madrugar mandar mandatar manifestar manipular manobrar manter marcar marchar
maridar marinhar matar mear medalhar mediar medicinar medir melhorar melindrar memorar
mencionar mercar mesquinhar meter militar minimizar ministrar minutar mobiliar mobilizar modelar
moderar modernizar moldar monitorar montar morar morrer mostrar motivar motorizar mover
movimentar mudar murar nadar nascer negar negociar nomear nortear notar noticiar novar oar
obedecer objetar objetivar obrar obrigar observar obter ocorrer ocupar odiar oferecer ofertar oficializar
oficiar olhar operar opor ordenar organizar orgulhar orientar originar ouvir ovar pacificar pagar pairar
palestrar parar parecer parir parlamentar participar partir passar patinar patrocinar patrulhar pausar
pedir pegar penar pendurar pensar perceber percorrer perder perdoar perguntar perigar permanecer
permitir persistir perspectivar pertencer pesar pesquisar pilar pilotar piorar placar planar planejar
podar poder policiar poluir ponderar pontar popularizar portar posicionar positivar possuir postar
potencializar pousar preceder precipitar precisar preestabelecer preferir pregar prejudicar prender
preocupar preparar prepor prescindir presentar preservar presidir pressionar prestar prestigiar
135
pretender prever priorizar processar procurar produzir profundar prognosticar programar projetar
prolongar prometer promover pronunciar propagandear propor proteger protestar provar prover
provocar publicar pulverizar quadrar qualificar quebrar quedar querer questionar quintar quitar radicar
rasgar ratificar reabrir reafirmar reagir realizar reativar reavaliar rebater recapturar receber
recepcionar recidivar reclamar recolher recompensar recompor reconhecer reconstruir recordar
recorrer recrudescer recrutar recuar recuperar redar redobrar reduzir reeditar reembolsar reerguer
referir reformar registrar regrar regredir regressar regulamentar reiterar rejeitar relacionar relatar
relativizar relembrar relutar remover remunerar rendar render renomear renovar reparar repartir
repassar repetir replicar reportar representar reprimir reprisar requintar reservar resgatar resistir
resolver respaldar respeitar responder responsabilizar responsar ressaltar ressarcir restabelecer
restar restaurar restringir resultar resumir retardar retirar retomar retornar retratar retroceder reunir
revelar rever reverter revestir revisar revistar rezar rir riscar ritmar rodar romper rosar rotar ruir rumar
saber sacar sacrificar sagrar sair saldar saltar salvar sambar saquear saudar secar secretar sedar
sediar segar segredar seguir segurar selecionar sentir separar sequestrar ser serenar seriar serrar
servir significar situar sobrar sobrecarregar sobreviver sobrevoar socorrer sofrer solar soldar solicitar
somar sondar sonhar sortir soterrar suar suavizar subir sublinhar subordinar subsidiar substituir
sugerir sujar superar suplantar supor suportar surgir surpreender surtir suspeitar suspender sustentar
tardar taxar tecer telefonar temer tender tentar ter terminar testar testemunhar tirar titular tomar tornar
torturar trabalhar traduzir tramar transcorrer transferir transformar transmitir transportar transtornar
tratar trazer treinar trocar tumultuar twitter ultrapassar unificar unir urgir urinar usar utilizar vagar vagir
valar valer variar vazar vaziar velar vencer vendar vender ver verificar vestir vetar vezar viajar vincular
violar violentar vir virar visar visitar vivenciar viver vizinhar vociferar voltar volver votar
Esta classificação (assim como similares subsequentes) é feita aqui de forma
qualitativa, tendo como base o conhecimento sobre os corpora acumulado deste sua
captação até a concepção das redes. A apresentação de todos os valores, e não só
os classificados como ações assistenciais visa o contraste dos valores. Para o
conjunto de verbos do Chile identificou-se como ação assistencial 66 (30,98% do
total) e para o Haiti 162 (14,78%). A análise do todo permite visualizar que estes
valores percentuais poderiam ser maiores caso alguns problemas já apontados na
discussão de redes oriundas de métodos não supervisionados, tais como a presença
de léxicos que não são verbos em meio destes conjuntos (itens como “twitter”, “ar”),
de léxicos que derivam de erros de grafia em reportagens que acabaram por ser
lematizados como verbos (como “janelarosser”, “janelarossir”, “oar”, “haitir”, “haiter”)
e principalmente léxicos que são verbos pouco usuais a língua, a redação de textos
jornalísticos ou que não se enquadram aos contextos que aparecem, por não
estarem de fato presentes, mas sim lematizados pelo etiquetador a partir de nomes,
advérbios, adjetivos e outras classes gramaticais de maneira equivocada (como
“comer”, “exortar”, “barrir”, “aparatar”, “languir”, “rotar”, “militar”, “falsar”, “zonar”,
“vezar”, “vociferar”, entre outros). A exclusão destes verbos permitiria dissociar os
verbos remanescentes em três categorias bem delimitadas: verbos de descrição
(estado e localização), de consequências derivadas da ocorrência do terremoto e de
136
assistência (descatados para este último, de interesse na discussão deste trabalho).
A eficiência maior na identificação de ações assistenciais no corpus do Chile se
deve ao seu volume menor com relação ao Haiti. Um corpus grande possui maior
variedade de itens lexicais (como fica claro na comparação promovida na Tabela
15), e pela lei de Zipf, por conta da alta frequência de algumas palavras que
possuem diferentes valores semânticos, o que leva a lematização errônea que cria o
ruído mais prejudicial aos objetivos deste trabalho.
6.2.2. Redes VEA
A rede VEA parte dos verbos emergentes da rede VPS (todo o conjunto
mostrado na Tabela 39), estruturando associações destes com nomes simples
marcados como entidades. Para o Chile foram 1302 as entidades emergentes deste
processo (96,23% do total de entidades etiquetadas representando uma média de
6,11 entidades por ação assistencial), enquanto para o Haiti este número fica em
3573 (97,75% do total com média de 3,3 entidades por ação assistencial emergente
de VPS). Esta redução mínima leva a conclusão de que este método não
supervisionado não é uma abordagem eficiente na busca por filtrar este tipo de
léxico, como foi para os verbos. Também reforça o citado acima sobre a contribuição
destes itens lexicais para a discretização de entidades assistenciais, como bastante
limitado por conta dos problemas identificados. O primeiro deles é promover
associações entre palavras etiquetadas por PROP e etiquetados semânticos, o que
abriria margem para discussões sobre correferência que poderiam levar a caminhos
restrições de valores de entidades sob a forma de nomes simples. Outro é o
espectro de opções que uma entidade pode ser referenciada como nome simples.
Embora o óbvio seja guiar a busca por etiquetas como “inst” e “org”, por exemplo, o
137
estudo do corpus permite entender que as entidades de assistência podem assumir
um volume igualmente, e mesmo mais relevante em outras etiquetas, com de
referencia a espações geográficos e pessoas, por agirem estes como entidades
assistenciais em um determinado período. Além disto, existem os ruídos, tais como
para os verbos (porém com relevância menor para a baixa eficiência do estudo de
entidades do que a apresentada pelos verbos), em que há itens lexicais que
transpusseram os filtros aplicados ou que são acentuados e, por conta de problemas
em codificação destes marcadores, aparecem por convergirem para uma mesma
expressão considerada entidade.
As redes VEA em termos de proporção de métricas na comparação entre as
estruturações realizadas para Chile e Haiti mantêm as mesmas características das já
discutidas para as redes VE. Isto demonstra que a rede VEA tem a mesma
finalidade da rede VE, de descrever o cenário do pós-catastrofe, devendo-se as
diferenças quantitativas de suas métricas ao menor número de elementos de rede
(entidades e principalmente verbos).
Já com relação aos itens lexicais mais relevantes da rede do Chile para cada
tipo de elemento, para todas as métricas os verbos mais relevantes são “ser”, “ir” e
“ter”, também presentes como mais relevantes na rede VE. A única diferença
encontra-se nas entidades semânticas mais relevantes. “terremoto” e “país”
continuam sendo importantes aqui como eram já na em VE, porém os itens lexicais
“dia” e “ano” não aparecem mais tão relevantes, mas sim “presidente”, referência a
uma pessoa que exerce ações assistenciais. Isto indica que, ainda que de maneira
tímida, a eliminação de poucos elementos de rede com esta operação simples eleva
a importância de referências a entidades buscadas dentro da rede resultante, mas
não de forma a permitir uma visualização clara, já que entidades de ocorrência como
“terremoto” se perpetuam como muito influentes e relevantes na rede.
Em discussão análoga para o Haiti, a única diferença para os dados das
redes VEA e VE (deste último apresentados na Tabela 36) é a presença do item
lexical “ONU” em detrimento de “Brasil” entre os itens lexicais mais relevantes no
que tange a betweenness centrality, indicando o mesmo que incida a presença de
138
“presidente” a rede chilena, já que o organismo “ONU” é notoriamente um órgão de
assistência nestas situações estudadas e “Brasil” somente dentro de determinados
contextos.
6.2.3. Redes VPA
A rede VPA elaborada a partir dos verbos remanescentes da rede VPS para o
Haiti possui um total de 4506 nomes próprios relacionados a estes, de acordo com
levantamento realizado no pacote NLTK, o que representa 88% dos nomes próprios
totais levantados para o corpus haitiano. No caso do Chile foram 1403 nomes
próprios (87% do total). Embora aqui também as reduções do conjunto não tenham
sido grandes (como foram para os verbos na rede VPS), uma diferença na casa dos
dois dígitos percentuais é uma evolução, ainda mais em se tratando de referências
diretas a entidades assistenciais que ocorrem sob a forma de nomes próprios. Nesta
nova estruturação existem aproximadamente 4 entidades sobre cada ação na rede
correspondente ao terremoto no Haiti e 7 para o do Chile.
Estes dados se alinham à maior disponibilidade de cobertura de ações
executadas por entidades assistenciais no caso do Chile, o que vai de encontro com
a métrica de betweenness centrality. Isto por mostrar que, em média, a
concentração de ações por uma entidade na rede de forma que sua eliminação
provoque grandes perdas à atuação de assistência é menor para o Chile (ações
distribuídas por várias entidades, cobrindo a totalidade). Por texto o Haiti possui, de
acordo com esta rede, 7,2 vértices e 116,3 ligações (média de 16 ligações por
vértice), enquanto o Chile tem 11,7 vértices e 68,2 ligações (5,8 ligações por vértice)
em média para cada texto. Estes dados demonstram que existe maior uniformidade
139
na distribuição de ações pelas entidades emergentes no caso chileno (média de
ligações por vértice e ligações entre ações e entidade próximas) do que no caso do
Haiti (números bem divergentes devido à atuação de entidade por meio de ações de
maneira desigual no tempo, como discutido para redes VPS). A métrica degree
apresenta em média a mesma proporcionalidade apresentada acima, valor de grau
médio dos elementos de rede maior na rede haitiana, levando as mesmas
conclusões. Por consequência destes números a média da distância geodésica é
maior para a rede do Chile, apontando para uma atuação de entidades assistenciais
de maneira bem delimitada ao seu escopo, e não sobreposta, como os dados
indicam para o Haiti. A eficiência desta delimitação é demonstrada pelo maior valor
de densidade do gráfico, que aponta então que as entidades e ações no caso do
Chile se conectam em número maior dentro das possibilidades, isto é, as
possibilidades, pelo próprio arranjo da rede, determinam delimitação de atuação de
entidades em maior grau do que para as entidades presentes no caso do país
caribenho. Pontualmente a Tabela 40 apresenta os itens lexicais mais relevantes
para cada métrica em discussão.
Tabela 40. Valores de Elementos mais Relevantes para Métricas para redes VPA.
Métrica
Tipo de Elemento
Verbo
ser
Haiti
Chile
ir
Grau
Entidade
Betweenness Centrality
Verbo
Entidade
Haiti
ser
PageRank
Verbo
Entidade
Haiti
ser
Haiti
Brasil
Brasil
ir
Brasil
ir
ter
ONU
ter
ONU
ter
ONU
ser
Chile
ser
Chile
ser
Chile
ir
Brasil
ir
Brasil
ir
Brasil
ter
Piñera
ter
ONU
ter
Piñera
Como se vê os valores são os mesmos para cada tipo de elementos
independente da métrica. Os verbos mantêm-se os mesmos dos identificados para
redes VP e VPS, portanto já discutidos em termos de sua presença na rede. Para a
entidade representada por nome próprio, os valores mudam bem com relação à rede
VPS (valores “Haiti”, “Brasil”, “Chile” e “Piñera” em detrimento de “Minustah”,
“Defesa”, “Força” e “Marinha”). Estes valores são os ocorrentes na rede VP,
apontando a alta relevância destes na prestação de ajuda nos respectivos eventos
que se referem. Nos valores mais relevantes para entidades na rede VP encontra-se
140
ainda “EUA”, que tem o lugar ocupado agora por “ONU”, demonstrando que frente a
uma estruturação promovida com um conjunto de verbos comuns a entidades
assistenciais esta entidade ganha destaque por sua atuação no pós-catastrofe do
Haiti.
Alguns problemas crônicos se perpetuam também para esta rede, como a
análise de seus elementos de rede permite ver. Tais problemas são o de não
filtragem de alguns marcadores de texto como “PR” e “KC”, a consideração como
verbo de palavras que não o são como “ar” e “militar” (não no contexto para este
último) e lematização equivocada como em “comer”.
Igualmente ao trabalho realizado com os verbos nas redes VPS, busca-se
classificar como entidades assistenciais os nomes próprios remanescentes nas
redes VPA, por meio da mesma análise qualitativa promovida naquele momento. A
Tabela 41 apresenta os valores assumidos para entidades na rede VPA e os
marcados em amarelo são os classificados como entidades assistenciais.
Tabela 41. Nomes Próprios em Redes VPA.
Chile
Richter Alà Sebastià Bachelet Hamburgo Haiti Estado Unià Santiago Governo Heine Lula JosÃ
Oncken Forà Grà Nova Stanley Dà Silva Reino Pià Futebol Lorito Michelle Havaà Associaà Luiz San
Pierre BB Sul Chile Felipe Queixa EUA Menezes Monitor Washington HÃ Museu Peru Eduardo
Organizaà Brasil Sà Altman Jocelyn Daniele Casa Telhanorte Canales Poit Arte Prà Angola CaÃ
Bandeira Paulo Moà Plugado Marinha Alfredo Amà Johannesburgo ONU Jerà Kleist Marcus
Companhia Gonzà Edmundo Ministà Defesa Caribe Folha Naà Venezuela Itamaraty UNFPA Fundo
Argentina Mapocho Miriam Exà Maule Uruguai Punta Nurya Nà Adà Pablo Europa Turismo Bric
Jorge Presidência China Vale Vargas Japà Santa Bà US Turquia Francides Financial Bruno Carlos
Fernanda Rio Rodrigo Araya Hillary Paraguai Kacef Gomes Osvaldo Pinto Estrela Solange Jardim
STB Fiesp Bernardita RJ Campos Ismael Kirchner Tendências Estados Brastemp DANIEL Vià EstÃ
IPOs Celina Obama Cristià Boas SIM Gandra Bolsa Michael Loreto El France Mariane Irà Cepal
Moscou TVs Mar Kimmel Palacios GMAC Gusan Santos Zou Comissà Cordero Credit Eguiguren
Relaà Departamento Benjamà SBT Conselho SPTV Beyruti Coreia Hugo Norte Coconut Rià Aguas
Ricardo Valdivia Samaritans Edelnor Reà Grupo Grande Reconstruà Hilo Providência Porto
Emergência Programa Pedro Talca Timor Cuba Bolà Guatemala Barack Provà Brasà MontevidÃ
Quirguistà Guinà Cabo Ushahidi Embaixada Mercosul Sri Sandra Tratado Filipinas Austrà Costa MÃ
Equador Perigo Mundo Buzinaà Canadà Economist The Honduras Indonà Panamà Colà Ar
Hyderabad Onemi Juan Flix Paixà Discovery Gene Co VT News Jesi Cine Bandsports Ben World Live
Guerra Dirty Curta Campeonato Lute Castle Production Law Las CNN Supermotor Clipe Olho Your
Quais Criminal Coisas Larry Pena Bakugan Kid AXN Tieta Cotton Copa Excesso Dia Rodada
Confidential Investigaà Business Criss Pronto Papo Faixa Magazine Miami Cartoon Mestres CSI
Pesaro Casper Psique Driving Los Order NCIS Johnny Vegas VÃ Thundercars Conversa GPS
Alphaville Presidencial Iguatemi ATP Ban Kim JK Distrito Clijsters Davis Orà Palà Riscos Escolhas
Cerro Nicolas St Unasul MSF Rysselberghe Landrino Jacqueline DRH Oriente Deus Luciana Ideb ItÃ
EIU Tarcisio Joà Escola Vaticano Cà Andrà Thomas Desperate Paul Igreja Lyon Quênia La LL
Felicity Will ASSUSTATION Scrubs Natal Jornal Super Hori Júnior Padrinho Coquimbo BBB Sob
141
VMB Comeà Luca Fuà PAC Big Seraphin PSDB Tofoni CDPI RESTART Belle John Rede Direto
Rebolation Georgia Puerto BARANGOLà Hernan Facebook Chris Erick Valparaà PTB Day LHC Tal
Novo Cruz Taà My Antes Especial Segunda FAB Alianà Kinoplex Teatro Ugly Sesctv RC Lúcio
Record Black Demanda Patrick Beverly Alejandro Marcos DF GEAN Harvard Areano Felix Florentino
Programaà Aerosmith Kant Humberto Marcilia Aloizio Dasa FLà Phillip Sergio Morte New Symantec
Dilma Rock Laà ProEcho Elano Ferdinand Instrumental Vai Sebastian Arena Ciro Peas SP Coldplay
Fala Doc Churchill Hinzpeter Moody Notà Globo Sportv Morro Esmir Levantamos Artes Justià Lanza
Monaco Help Urzúa Danà Franco TCM SANINO Lideranà Todo Sonhos Jogo Koba Teen Eyed
Interfood Franz Dià Tà Aà Twitter TV Contenda Zeca Cesar Letelier Ory Beyoncà Green McCartney
Multi Fiuk Imagem Shows Ghost Farias Edson Neymar Baby Guns ITF Fletcher Lima Pai Santo SLW
Everybody Mato PÃ SONY Dorival Seinfeld Pe Cabrera PT Ritmo Campo Lou Ana MTV Melhores
Julio GSI Clube Levantemos Andes Serra Acoording Mercado Atlà Ter Milton Roberto Mayo Luftal
MIT Praga Sorbonne Alencastro Dom Irene Katrina George Adilson Bom Marcelo LAN Luis Primeiro
Ganso Novas Cantagalo Telefà ONG Renda Antonio Famà CTBC Pavà Meninos Adimark Caruaru
Energia Sete Novos Lisboa Tremor GfK Dieese Alexandre Muammer Servià Bingol Marà Curto ClarÃ
ProChile Pernambuco Bariloche Voltaire Vilalva Taquaritinga Okcular Patrà Wilson Elazig Centro
Polinà Adriano Chiloà Instituto Araújo Paradoxal Clia Kress Iraque Marina Cruise Valor Presidente
BM Clinton Baccetti Peter Oportunidade DeShazo Panamericano Center McAfee Francisco Windows
Muricy Harry Mall Google Kissinger Engadget Joel Shlaudeman Ubabef Unica Rafael Reginaldo
Treviso Xynthia Franà CSS MSN Pyongyang Hora National Sonia Calà Obras Ivan Anaconda
Padrinhos Mineiros Bahamas TVZ Torres Saudade Talcahuano Enrique Josh Luan Silvio True Trilhas
Cynthia Pizza Arquivos Bellavista Raúl Cousià Kel Conta ISA Vida Febraban Caraà Drake Neruda
Itacarambi Prefeitura Kenan Robinson Manual Bob Belo Allende Georgina Invasà Joey Nicktoons
Nazca Tayyip Diddy Glamurama Atividade Mustafa Renovaà Auxiliares Dr Information Victor Winston
Kassab Artibonite Economic Vicente Priscila Saint BID Manuel Festival Caixeiro Cristina Condell
Reuters Música Nasa TEPT Vinson Richard USS Belas Cofins Nigà IPVA Gana Rodoanel Canto
Valle Alberto Federaà PELà Marco Miss Joyce Sandro Lay Ribeirà Pinochet Cultura Alemana Braga
Energà Agents Pitty Omegle Claude Reinoso Uganda Anne Chade Datena CVM Golfinho James
Claudio Norton KRISTEN Abba Lei Genebra Difà Responsabilidades Rolex Edgardo Jane Maratona
Augusto Benin Rapesta Oficina Biquinho Investimentos Salim Grant Tancredo Kika CGFome Council
Libà AgBank Musso Charles DJs Carla Veja Andrade Mali Axxion Londres Lola Norberto Queiroz
Espanha Frank Racionar República Brasileira Marisa Burkina FT Gonà Luà Projeto Suà Camila
Jordà Alasca Maria Virada SsangYong Darwin Corpo Esforà Israel Pelaa Milità Vietnà Vemos Le
Conjunto Dantec Núcleo Maxwell Aparecida Secretaria Foreign Polà DEM Nextel Bio Moacyr Alex
Top VTR Calvin Giorgio Fundaà Blade Despertar Telecine Publifolha Maravilhas Prazo Inventos
Dragà Noite Mission Medical Hulk Quantum SVU Controle Miralles Cidades Beethoven Detetives
Tootsie Brothers TNT Shrek Brooke Universal Noivas THC Cidade Julia Reclamaà Federer CBN Artur
LGBT ABGLT Zà FM NYT Vilaà Josefa Lin DBM CQC Bovespa Renzo YouTube Colorado Cabral
BIEBER GNS Fà Administraà Consulado Tonga Nature Beavan Niuatoputapu TechCrunch ABL
Silveira Lukas Rússia Ria Legacy HORACIO Bracelpa Cotas Adriana Piva Ibama Petrobras
Crescente William Eqecat Universidade Operaà Thorne CIA Faria Sendai Maracanà Jacmel Abiec
Alemanha Leogane Evo Tarifa Oliveira Aderbal Arnaldo Lafis Otà Rabobank Santher Abaixo
Papelada Braganà Gerardo Forbes WikiLeaks SMSs Apas Pipoca Codelco Buenos Inglaterra Ocha
Trens Anos Vik Esalq Cem Spiandorin Alexander Christian Barretos Cunha Alckmin Cristo Atton
Gabriel Corinthians Stefano Oscar Cearà Ferreira Louisiana Intercontinental Opus Associated
Orlando Imogen Camargo Roma Eugenio Elizabeth Aires Chega Getting Assembleia Macondo
Machado SC Goulart Dirigentes Geraldo Pequim FPF Fernando Executivo Cone CBAr Esporte Jian
Marfrig Lisa Hasan Boston Fasano Mendoza Ortobom Mariano Michel Colo Tiago Oxana Joice Mano
Abrablin Massachusetts David Pontifà Ernesto Jaime Marta Capità Kathleen Guarda Philipe UstÃ
Ronaldo Miguel Antà Banco Abipecs Good DVD Ano Deluxe Jara Mario Outubro WTA Salvador
Resultados Dezembro GESTà Mairiporà Valparaiso Sym Matilde Snob Kiss Carneiro
Desentendimentos Personal Portugal DSi Autoridade Escravos Rebelià Lilian Manuela Bloomberg
Burundi Kia Sidney Casablanca Andy Roy Schwarcz ICCA Copas Unique PJ Assis Reis
Comunidades Fifa Ipanema Tiger TigerText Wired SMS Fogo Hong Rostov Livres Luigene Inpres
Quase Bamba Minas Tales YOGO Julian Metropolitana Denise Mark NA Bilionà Giovanna Delegacia
Wikipà Covas Toda Boa Esperanza Cap Supremo Fundamental Jay Ipea Retrato OMC Brics Samoa
In MADE BRAZIL Alastair Phoenix SWU Planeta Pixies Hot Cambridge Modelo Rage Promessas
142
Cingapura Kings Queens Mika Scotti ELITE Tropa Bienal Nuno Playlist Chatroulette Josias CroÃ
Rockgol Fez Wagner Lista Randà Studio Ritcher Bento Mamà Itwire Academia ICMBio Sap Titanic
Paris Gatsby Comando Comitê Concha Edu GALFIELD Montes Waikiki Dentinho Chrysler General
Telecomunicaà Tempo Pelluhue Hospital Desfeito Separaà Negrà Mistà Apple Aliado Socopa Yadin
Osmar Boeing Yukari Mediterrà Ibovespa Vara Air Chi Maradona MAX Appaloosa Gonzalo Gabriela
Destino Via Onda Onde Mothern Arquivo Happy Gran SUPLICY Reflexo Patagà SE Saia Angra
Fukushima XGAMES LIV CNPJ Esqueceram Temuco Potsdam Buena Encontro Tabarà Correntes
Frio GNT HBO Andrew Ambiente Starte Show Pacaembu Army Multishow Extreme Nicanor Correa
Carta Deportivo Dias Entrevista MGM Infraero Dawson Onno UFRN Wembley Rob Parceria Itabaiana
Recife Nicarà Garcia Soluà Avenida Diego Codice Xinhua Guido Sexo Tira Jamaica Vila Fashion
Guarulhos RocknRolla Charmed Exterior Kdabra ARTS Cliente Lie Rosemary Marcello Estaà Art Bate
Martin FILM Naked Historinhas Madeline Mitsubishi FOX Sagwa Master Zenith Special Camille ESPN
Sala Clara Sportscenter On Eurofestival Hannity Geraà Uberlà Eurocurtas Cagliari Gatinha Gretchen
Madonna Inconfidência Kenneth West Yes Porfirio Laurence BNDES Lautaro Bank Kovancilar Well
Tracker Libra Shell Rancagua Heinrich Parece Dudi Club Harel Sampa Valpo Ali Nutrin RÃ Guardian
BBC Elasa Gabinete Giannini UE Tamà Edward Jesus Fecomà Transtorno Osama Laden Yolanda
Chilenos PMDB Novak Roger Enem Drudge Ocidente League UEFA Leitura Tarde Infomerciais
Fulham Manhà Superpop RedeTV Piragibe Get Tunà Kick MICASA Saideira Palavra Sevilha Prêmio
JCTV Vino Cruce FEAUSP TVA ADIÃ Tribuna Lucianta RODOLFO Romance Educativas Isabel Ruta
Santuà Welcome Eric EMà Grand SALLE Momentos Receita Terà Mara Amadeo Ibero Inter Insper
Cassino EM Industrializados Depto Leviatà Filhos Treinadores Dialogue AL Limongi Alan Fotorama
Feria Medalhà Novena Maratonando Recessà IDSA Culturais Ally Huffington Agência MercadÃ
MAM Band Sexta Clementina Corà Simone Meio Hu Fome Olivieri Kà Golden Preparaà Movistar
USGS Giovani Houston Fulbright Al\xc3 Nig\xc3 Barquisimeto REGINA Jos\xc3 Valpara\xc3 M\xc3
Programa\xc3 Vi\xc3 F\xc3 Est\xc3 Pi\xc3 Fam\xc3 Reconstru\xc3 PEL\xc3 S\xc3 WANDERLEY
Not\xc3 Britto Panam\xc3 Hava\xc3 Col\xc3 A\xc3 Capit\xc3 Pr\xc3 Minist\xc3 Am\xc3 Sebasti\xc3
Jer\xc3 Organiza\xc3 Presid\xc3\xaancia C\xc3\xbapula Mastercard Na\xc3 VISA D\xc3 Wen Gyegu
Prov\xc3 Vietn\xc3 Bras\xc3 M\xc3\xbasica Fran\xc3 Or\xc3 Pal\xc3 Intercine Ara\xc3\xbajo Ensino
For\xc3 Armadilha Opera\xc3 Telecurso Prepara\xc3 Tempos Jap\xc3 Mo\xc3 B\xc3 V\xc3 Sinh\xc3
Uni\xc3 Gr\xc3
Haiti
AR Alckmin New Viva Ano Nelson Clube Cada Comitê Acton Unidas Naà Cità NYT Mahmoud
Maradona Quà Tom Caribe Shannon Palavra Manigat Lie Gilberto Juanito Paixà Animais FOX
Instituto Destino Romeu Junior WSJ Nicolau EXPN RAQUEL Gero Big Pode Hoffenheim Batista
Dancer Glee HÃ Tasso Igreja Direto Wall Vida Litro Prato CÃ Game Paraguai Juventus News Art
Brenda Michele Noite Martelly Lei Balanà Daily Là Boletim Jean Francisco Alemanha Santos Bola
Inter Burn Smithsonian Bayer Zhu Eurochannel Hope Studio Mr Bom Lipstick Federaà Bate Milan
Iguatemi Tendências Wyclef FILM ESPN Maluf Inità Live Quanto Jude Guerra Lixo Ahmadinejad
Leitura Dà Hollywood Mozart Kirchner Historinhas Três Sarah TV Assembleia Joelson Julieta
Magazine Estados Mundo Messi Cleiton Nota Rosà Segundo Bento Cambiasso Ciência MilÃ
Escolas Pequeno Morte Campeonato Taubatà Real Palmares Cuneo Museu Beirute Và Hoje Jogo
Tesouro Canadà Amor Zanetti Ciro Europa SZAJMAN Brasis Congresso ARTS Dias Marà Saturday
George Celebraà Temptation Hugo Hizbollah Japà Inspetor Edivilson Honduras Perfect Famà French
Sportscenter VERDADEIRO Chà Danà Vamos Nome Mirlande Guanabara Terra Vestida Ibam
Henrique Michel Eragon Copa Coq FT Dia GO The Gerald Gawker Comà Eva Brasileiro Recife At
BARBALHO Fome Eurofestival Vinicius Ninguà Contra Argà Vez Bruxa Higuaà Itamaraty One
Salzburgo Shuqing Marginal Poupex Bradesco Embaixada Olimpà Angola Tegucipalpa Deixando
Opà Cúpula After Stephanes Escolhendo Moisà Tropicà Twitter Eurocurtas Sri Catunda MinistÃ
Cidade Lobo Fecomercio MTV Defesa Roma Sunday Heartland Planeta War Trentino FMI ColeÃ
Penitencià Crusoe Panetone Goià Geraà Porfirio Vaticano NatGeo Futura Washington Terceira
Malvinas Comissà Carlos Democrà Gaza ALVES República Libà Ilustrada Oliveira Congo Osasco
Fashion Wandinha Buenos Militares Aeronà Militar Bellino Organizaà Flà Science Antoine Joà Roth
BBC Universidade Studies PNLD Complexo NGO Uganda Nader Guayaquil Programa Irlanda Pereira
Wim Corte Mostra Especial Ben Milionà Himalaia Isabel Irvine Carolina Aires Rússia Hans Rufino DJ
CSKA Grant Texas Cinema Ruanda Gracyanne EPP Missà Toussaint Imagem Barbosa Al MMPRJ
Comunidade Canal Masp Sodoma Lisa Vietnà Outro Pastoral Xinhua Ideia Fà Brasà OAB Newsweek
PSDB TÃ AÃ Bel PAC Angelania Amazongate Bertrand Jesus Carvalho Zelaya Tirone Paris
143
Rodriguez Mystil Cobranà Marcus Reis Marinha Departamento Gomorra Telegraph Barros CNC
Parece InCor Galileia Exposià Yvio Peixoto Floriano Você Internautas Nepal Izard Rodrigue
EDUARDO Centro CICV Campus Conselho Mano OMS Maykon Domingos Bush James Bieber
Usinas Sisfron Ferreira Inà Dutra Stupar Agora Grace Turgeaut PV Jonas OEA Edwin Israel Gabeira
Nunes Joseph Seguranà Dessalines Michael Morales Unifil Suà UOL Fronteiras URSS Boa Aloysio
CPE Supremo Luiz Sistema Miami Huguette Mackenzy Moda Maicon Presidente Documenta Claude
Duvalier Zaninni Eleià Stefano UE Inflaà Austrà Selic Silveira Central RC Uribe Paul BTS SalÃ
SIDNEI Bolà Antonio CIA AP PMDB Sarney Argentina Traduà Playlist Williams Rockgol Quênia
Natal Giovanna Amano Alphaville Rà Baú Life Facebook Make Global Scrap Fontes Record Reuters
Familiares Right Grand It CPTM Controle ANCHIETA Anhanguera Top Centros Entrevista Notà El
Guardian Filho MVRDV Google France Maket Green Ira Teen Thom Castello David Raposo Sap
Rede Inovaà Abidine Tavares Kurzban Guerlane Ushahidi Amo Nobre Duas Lavalas Turquia Disputa
Jornal Madonna Kara Gama Quico John Planejamento Chaves Sobre Esporte Santo
CHUMSCRUBBER Valà LEWIS Silvio Lopez Macedà AnnCurry Eugenio BASIC Revista Tarde
Uruguai Mesquita Oriente Reinaldo Serge Vigà Harold Beatles Mora Wayne Sr Veja Foreign Marco
Council Aspa Baixando Coisas Fabio Octavio Marie Indonà Protesto Moreira Sob Barà Mulher PSB
Salto Helena Friedman Gore Neto Gara Juliana Bulgà MULET Abraham Poder Primeira McDonald
Julio Coelho CNN Dois FATTON Sangue Afonso MP Clà Justià Hamas Regininha Curitiba Bruijn
Edmond Laurent Lucas Discovery Cely Vale Anna Estudiantes Les Genebra Channel Windows
Cristina Rei Myra Damaris Kipman Adolfo Cayes Mobius Jordan Pimco Boca Shimon Kleist Jobim
Aeronautica Ramos Mark Perplexidade Belimaire Laferrià Pentecostal Desfeita Conferência PCs
Lilla Dany Joanesburgo Jacques Asset Palestina Alan Roseana FAB NEYMAR Apple Mujica PrejuÃ
Globonews Giuliana Linha Brice Tania Laura Jordà FAO Mariana Igor Zero IDC Beken Diana Zanin
Neves Amazonas Abstenà Klein Peter Jerry Bà Makenson Filipinas Armador Bronx Figueiredo PalÃ
Mercado Estrela Mundial Virada Postos Xangai Leo Tal Eletrobrà Portugal Montreal Mil Staten CEOs
Equador Servià Desviar MARQUETà Vieira Deus SPFW Alex Correa Hall Quadro Dzhennets
Marcelinho Sean MAURO Fasano UnB Paolo Ellus Atà Petrobras Random Sans YouTube Floor Penn
Alpes Reagan Manhattan Jorge Jim Jaime Sbardelini Marta Gavioli Aretuza Adriano Wegener Davos
Universal Deu Mercedes Lindsay Adriana Fuvest Músico Skol Avanà Borgela USGS Bohemia Jovem
Odebrecht Procuradoria Energia Teerà Público Nixon Galvà Albert Queiroz Comunidades
Parlamento Petit Rafik Hariri Ramalho Copenhague My Declaraà Camargo Guiana Muricy MatÃ
Pioneira Rodrigo Grande Apae Laà Sandra Iraque Aiea Susan Andrade Tobago Esmir Torres PolÃ
Melhores Caradeux Nardini Norberto Base Trinidad Guantà Jorginho Sonhos Panamà Luiza
Suriname Luis Social Ipanema Norte Baby Sinthoresp Richard Pan Santa Agência Acordo Palestra
Sabin World Ana Ribeiro Sala Inglaterra Fernandez Almaghabi Cassandra Martinage Cunha ETs
Primetime Bacellar Natasha Leonel Juvenal Alencar ODM Fundaà Madame Max MEA Federer
Artibonite Christopher Companhia Urano Garcia Farc Keen Mariza Pesquisa Apolo Amazà Bellerive
Estimativas Confederaà Andrà Faculdade Eletrobras Ahmedinejad Microsoft Inquisià PATRUS AGOP
Morus Houaiss Saca OMC Gates RS Peru Brics Olà Bill Neymaradona Todo Sakineh Holanda Jack
Superior Capiberibe Elio Doutrina Cameron Amapà PPS Warner Jerà Roberval Operaà Zagallo
Amado Tapete Monumental FGTS Janete Doc Tribunal Funcex Zapata Gilles DEM Papa Cosan
Santiago Borges Wendy Kà Munique Faz Congregaà UNpol Gilvam Cirurgia Poupelard MaurÃ
Cansar Rodolfo Lorich Alicerce Priscila TUCA Murilo Land Negro Paà FHC Blaise Kimmelman
Massimo Thomas AeroLula AEROALCKMIN Sandy Castro Belà MPB Fafà RUY Jared Qatar Caricom
Cohen Le Petraeus Roy Mehmet Alain Afeganistà Maxipark Usaid Padre Cultura Alberto Subash
Elton Caminho Carioca Chand Gerdau Trilhos Saúde MEC Skaf Somà Livro TEPT Ocha Bruno
Berzoini PTB Minas Lex Pepe Shah Leandro Lovely Pp Porfà Enem Candidato Marshall SC UNFPA
Troy Deauphin Blumenau Clark Tanto Nuca Allianz Fidel Chico Nicarà Fundo Granja Impà Logo
Recà Salvador FV Està Jamaica Roberto Aramic DALLARI TVs Toledo ESTEVAM Regià Unicamp
Connecticut PUC Campos Cristopher Michaà Moradores Damasio Pacaembu HERMà Ed Samuel
Desvio LUà Pena Martins Campala Júnior Ory Cracolà GISELA Ives FABRà Marger Pedro NigÃ
Cesare Amos Rica Foco Coraà Taleban BNDES Reynald Battisti Mapocho Sebastià Bachelet EscÃ
Martissant Katrina Punta Senger Brad Explosà Carrefour Hamann Crescente Solimões Bernardes
Ajuda Delmas Paquistà Provà Espraiadas Crise Miriam Pià Kraft Summa Stephen Huffington
OTAVIO Christina Spektor Ramà Montrà Rogà CCoPaB Seitenfus Maior Preval Band Epidemia
Chancelaria Bien Marcelo Foer Herath Mello Multiner Rodada Fernandes Eugur Cuà Doha
Grupamento Getúlio Fort Raesa Jardim Cavagnari Itaú Augusto Miranda Giancarlo Ken ItaquerÃ
144
Jon Yves Profecia Bartheloy OAS Jair Marcos Felix Maquiavel Vitor Evan Opep Uzeda Viver FSM
Ney Lippi Simões Quintal Licenà Seguros Louise Especialistas Yushu Tempos Euler Hinche Bataille
Tratz Sensus Boeing Nigel Cancún Thompson Ronald Dizem PDT Gabinete Engenharia Busca
Leclerc Riachuelo Ormà Ngozi Carpegiani Boston Contas Palladini Callahan Michelle Pans Zuccaro
BENONE Dann Cotton Drudge Elito Libertaà Associated Receita Bernard Robert Darcy ConvenÃ
UPP SBT Empresa Lesly Renot Cesar JK Postalis Quase Pelà Energy Siqueira Rita Gonaives Rambo
Patrà Joel Arnaldo Okonjo Oded Perez Nicolà Vargas Abin Lima GBS Paz Fleury PE Ativistas
Greenpeace Rosenthal Jango IEE Hilde Tudo Sichuan BP Gaillot Gleissimar PNDH Alexandra
Interprograma Profissà TVZ Bratz Alternativo Alternativa Parenthood Star Tecnologia Appaloosa
Cardà All Rua Banda Challenge Agenda Hora National Segundos Quarto Onde Crà Obras Assuntos
Bagdà Passagem Literatura Jimmy Amantes Zonas Menina Arquivo Vestà Zoey Matador School
Diferente Josh Arnold Zona Happy Cine Geeks Amorosa Feitià Saia Banca Chanel Guatemala Mile
Aberto Elizabeth Conta Curvas Casas Naked Tropas Peterson Rosas Dr Hairspray Princesa Mercy
Horà Nalu Tamanho Mar HBO Versões Ficar Drake Project Fragmentos Rock Verà Burns William
Conexões GNT Via MGM Umas Stuff Sound Predadores Ei Models Tradià Spoons Morgana
Shakespeare Quebrando Supernanny Mamà Prime Sex Manual Vivo Oliver City Show Rob Beleza
Lugar Multishow Mad Orlando Coco Mulheres IMFC Arte Projeto Jamie Army Batman High Primeiro
Superbonita Mob Sexo LIV Sexy Tira Resident Segredos Bugsy Two Oprah Diddy Unicef Hedi Frei
Editora Massa Infraero Adeus Economist EX REDD Annabi Pulmões Eliana RENZIO Alceu Atoz
Jaboticabal Esalq Ambev Boas CLAUDIA Cepea Maxpress Estadista Mercadotecnia Fadel
SANTANDER Odete Multiplus Ashton Associaà Orlà Paula Alessandra Camila Rhodia Raniero Tebo
Ucrà Antissemitismo Kofaviv Villard Vargem Dorival Malya Bahia Jael Bolsa FC Paramaribo Aramco
Petronas Bing USNS Cantinho Ceci PAM Ilha Vibrio Manaus Reconstruà Reintegraà Mapre Billings
Praga Kirby Miragoane CNDDR Ness Paranà Rosena Sophie Eni Kid Olivenà Eurasia CLAUVIS Care
Kassab Falta Camep Brasileira Guarda LAMERIQUE Gondim Ian Medidas Sylvio Atlà Comfort
Sabesp Garibaldo Alerta Wang Modene Orà Dubai Zà Paus Integraà TUNIN Elisabeth Crowley
Pensa Tim Rochelle Livre Diferentemente Blue Leste Joshua Talca Raúl Timor Scarlett Karel KakÃ
Lassegue Cukier Jeffrey Grandes Antunes Humvee Philippe Dave Barcellos HQs Ensaio Forlà Lubini
Resgate Policarpo Player Kendrick Horas Everlast VIRGÃ Bolduc Ipea Esfera Patrick DF Calc
McKean Champs Joyandet Monte Berto Caritas Pew Guido Armero Heni ESPM Aldofe Semana
Mercadoria Sesc Antà Guinà Plano Quais Armando Delete Constituià Predator Evelyne Islà Hilda
Aneel Joe On Kim Iniesta Sandman Tabarre ADAUTO Parks HOHAGEN Parceria Fundadora Ay
Angelina Baraka Pessoa Padrà Unasul Daniela Quirguistà Guy Byrs Hermano Cap Summer Conab
Guilherme Cabo Firmeza Passa Governador Moà Los Homens Center Quero Gonà Escola Londrina
IBGE Lulafolia Futuro Romero Devassa RR Jefferson Unidade Mangueira Pyongyang Imogen Tratado
Partidà Itaipu Embarcaà PCO Okinawa COP FBI Mudanà Edmundo Save Internet Simon Quantos
CBS Transparência Rubens Agente Flix Abc Rihanna Raising Gene Som Flash Comportamento
Truck Steven Vozes Emile Filme Bandsports Evo NCI Mercadante PRB Curta Production Law
Galatasaray Filmes Clipe AXN Diyarbakirspor Criminal Henry Vegas Bric Papo Scooby Executivos
Cartoon CSI Aliados Caà Vigilante Platoon NCIS Las Lost Faixa Madagascar Arroz Allan Comer
Cityville Estrangeiro Abbassian VICTOR Jonathan Farmville Ser FPF Petrocaribe Geovane Fun Honra
Chris Nagasaki Sebastian Moritz VMB Fuà RESTART Belle Georgia Memà Peas Shows LL Black
Aerosmith Koba Ferdinand Day Coldplay Lanza Niemeyer McCartney Eyed Franz Beyoncà Lucimar
Guns Lou General Sibà Suzana Macau Batalhà Oficina Keller Marques Cursinho Belo Retirada
Baltimore Group Bernice Robertson ICG Terceiro Juno SMS Yasmine Gabriel Ruth Bonfim ARIE
Cristila Torre Silvia Watson Dom Julme Amecia Saint Petithomme Roska Zhouqu Bailong Aparecida
GM Rocha Clifford Claudio Estratà Brasileiros European Jose Outras Regina Gabrielle Interior Mortos
Sacrà Faltou Raymundo Donos Copom Andes Western Amazon Jen TVneja Granma WALTER
Armstrong Liga Faces Dominique Cemei Maguire Tracey Norah Rocky Caspian Sukiyaki Confecom
Head Altas Paraà Estrada MLB Natural Trocas Momentos Rivaldo Fernanda Consuelo Bernardo
Itamar Franco Southwest PDVSA Clijsters Miss Jocelyn Tobey Starte Anivaldo SXSW Strauss Kahn
Nick Irritando Cozinhar CineNews Visita Riscos Aranha Almanaque Música Tiro Aramick Kindle
South Anistia Lassà Lavalà Passeio Letra BBB CAMARGOS KRISTEN Mion Charles Janela Tap
Angra Ecoprà Love Luther AnimaTV Cafà Almagro Sweet Folhateen Evans Murdoch King TucuruÃ
Viola Humoristas HIV Bob Teatro Nardes Roda Lulatube Martin Pagot Marcia Micky Baker Swedish
Johan Plata Ronaldinho Sudeste Ibero Kennedy Everglades PAUNETONE Titide Dama Sirleaf
Empreendedores Prêmio UPPs Unidades Germano Kofi Muro Benedicte Paisagens Galula Valores
145
Dirceu ODA Medellà Professor Eliane Poul Guimarà Telefà Ligaà Raimundo Drà St SOBRA Fabiana
Representantes Guerras Garcà MST Colombo Edison PSTU DRH Focus Rodoanel Bilardo PF PA
Aloizio Alfred Dnit Luciana Facilidades TCU Landrino Akamai Alfonsà Austin Parada Lobà FTI Ideb
Rochitte Mbps Mohamed Oito Vanessa Netinho Racing Perpà Bloomberg Acre Maranhà Fovest
Edvaldo Lorena Corine Bonyads Mohammed Artes Khamenei Manoel Botucatu Sol Fim Rota Viagem
Gutemberg KIDDER Tempo Infomerciais Espaà Jo Dell Shakira Mesa Sonia Vannuchi Anderson CB
Estaà SE Tatit Dalva Aaron PREs CIDH Kevin Correndo Curto Arcade Equus Ricky NY Sabrina Dito
IBC Soundcheck Entrecordas Cantor Walà Ciências Modelo Londres Fanmi Gerson Nobel Ema
Mensalidades Dabliú Abuncare Wilhelm Jennifer FoxNews Acústico Credicard Aracaju Miguel Saad
Melhor Wisnik Estilista Mario Demi Cigana Carole Carlinhos Ensino Emenda SDA MARMO Falklands
Caso Anglo Made Unesco With Mauricio Andre Quartier TELMO Suprema Ponta Holy Fatem Zynga
Raul Agudelo Avaliaà Scrubs Hoover Confirmado Honorà Viena MARCONDES Guarujà Ernest
Weeds Evandro McDonough Septieme Lazzarini Corregedoria Vander Financial Felicity Kat Ilair Alf
Sphere Livraria Cartilha Fuga Poetas SAE Pindamonhangaba Indio ISA Supertucano Cinderela TKM
Praia Willian Super Superliga Hori VT Fight Eike Fugitive Delatour Alexander Cult Jogos Angelo Kuait
Araraquara Guias Organismo Meier Ecos Sportv Conrad Valência Living Union Zeca Seraphin
Hashimi Hildegard Telecine Chuva Drukens Murray Shelter Padrinhos Digg Naha Desafios Soldado
Mustafà Time Cry CT Cessna Datena Blakney Transnordestina Pai Esquadrà Curtas Dragà Hebe
Philip Half Roddick Caco Nexus Ara Conservation Disaster CTEx Freetown Depeche Renato Martha
Otimismo NBB NBA Djokovic Voz Ink Cent Aleijadinho Alejo Donald Lenny Gigante MIGIRO Empire
Louisiana Louverture Atlanta Transamà Winhurst Hannibal Gordimer Valle Red PACINI Crimes
Trujillo Mount Alvin Gerardo Piauà Marketing Fiesp Leslie Tess Makeover SONY SPTrans Raio
AGRELLA Risco Angel IVAN Airbus Luz Hiper Kel Stone Sindicato Atletico Rainha Will Morrer Eric
Brazil Revkin Beverly PressTV Kirstie Kobe Carpentier That Maroon Zepherin Carne Dassault
Andreza Roll Cinco Earthquake Trico Amir Previdência Creu Evodie Vital Madeline ProgramaÃ
Morricone Islande McMillan Month Pacà Kant Ransom Arquiteto Pranked Marcilia Pato Pica Vinci
Dick Mistà Questões JFK Toyota Barcelona Gamma Unesp CQC If United Sesctv Simplesmente
Mayday Mona Micro Reduà Sagwa Extreme Hollyscoop Alfie Maldita Pesadelo Hannity Alca SumÃ
Cybernet Special Leth Veneza Sambistas Instrumental Bartali Medium Speechless ASHA Combate
Videografia Arena Vant Designer Cont Produà Cadillac Robinho American Hegel Debenedetti HeloÃ
Your Fazenda Interlagos Furfles Cid Canaà Fala Grazi Katyn Leis Cearà Capitalismo Uns According
People Diretor GCM Reprise Delegacia Scott Sinai Tarso Kenan Azzurra Arezzo Obra Fiorentina
Lakers Metallica Proteste Minik Pinto Nicholas Cadeiras TCM Lideranà Picardias Snoop Shourd
Chateau Yakult Espanhol Malucos Elite Vampire Rachel Futurama Cold Dezembro Tio Lafuente
Martinho Capità Antena McChrystal Publifolha Natureza Epità Olido Teoria Esvaziado Calà Qin LeilÃ
Moscou Castelle Profissões Holder Schelling Catà CKamura Dià ACS ETeimoso Tokio Firewall Bela
Scratch Melting Pucca Efeito Investigaà Quarteto Camisetas Criaturas Contenda Rockaway Gustavo
State Quatro America Aristidas UFRJ Gênio Rent Estabilizaà Deyvid Fiuk Meninas Pregnant Friends
Ghost Adote Joey MARAVILHA Pesca Wolverine Complexions Anatole Urzúa PSOL Mascotes
OCDE Palermo Matheus Fletcher Lance Tribunais Billie GLO Pequenas Shigeru Seinfeld Broadway
Egito Sportvnews Esperanà Mallorca Kitchen Estrelas ADPM Michà Fahid Ter Patricia Human
Unplugged DVD Holiday Keeping Yahoo Tariq Any Coronel Nosferatu Cristiano Suez Rafale Ordem
Danny GP Third Grey Manuel Gatinha Almir Total Vasos Marinho Brigada Sexarama Gossip Folie
Espanyol Holocausto Reforma Johnny Tommaso Charmed Impacto Paraquedista Desastre Nicktoons
Private Sebrae Giselle Dostoievsky CNPq Copacabana Yeda Toussant Ministro Humvees Enzo
Romà Dzhennet Armadeira Eroshima Darelus Aux Tchechênia Dmitri Ria Ademir Taiwan Voo Royal
We Abreu Najara Lionel Puerto Povos Corral Yele Tunà Teleton Festa Fonkoze Avaà Lakay Zico
Andrea Duque Zito Caxias Istambul Trem Lubit Pequim Voltaire Salvatti Portela Elie Thaà Daniel
Monique Vanderlúcia Advocacia Varejo Vira Tancredo Goulart TAC PPV Contrato Nicole Rivellino
Pat Esquerda Verdà Moacyr Dorothy Xuxa Carpeggiani Adà Parà Perigos Flamengo Sylvinha Aldir
Irene Nestor Temas Esportes Tahiane Loyo HSBC Substituirà BC Meio Revoluà Yeoshua Fanatismo
Arturo Shaterzadeh Cargos Baitullah Barbara IE Sergio Orkut Yvonne Setembro Guangming PCC
Beira Baixada PC Mike Objetivos Garà Corcovado Luanda Madri Phil Marcha Pedrocà Carta Renda
Ubatuba Fifi Cedrick Almirante Jimanà GOUVEA MORADEI Pequenos Muammer Beaumont Gustav
Lisboa Fafibe Caribbean Caio Saudade Lehman Catedral Bope Marc Rotary Bingol Nilo Nargis
Okcular Club Vodu Brothers Dinamarca Elsie Presidenciais Elazig Mato Bandeiras Noruega
Luxemburgo Edith Urbi Doutora Atraà Herrero IPVA Itapira Talitha Emmanuella Altamira Tietê Cotait
146
Schincariol Nestlà Vera Alejandro Alicia Looking Okabe Pitbull Vidda Livestrong Swat Hiato Alabama
Anne Iorubalà Elias Swiss Rolf Vladimir Nikhil Andean Volta Daerp Sydney Tecnosol Benin Bender
Bombeiros Morris Noaa IPCC Gascov IPTU NOS DE Dunga Campanha Ivà Baccetti London
Eugênio Architecture Valor Panamericano Fez Bakontou Inês Andezo Cadyabosou Digitademanbre
Temporà British Gazeta Comandante CNBB Luan BALATOUR Protestos CE Fed Sherlyne Mellon
KAWALL AFA Belas Academia Farofa Morgan Manaquiri Forminha Barretos Kamukama DOS
Nutrimental SDE Sasikala Defensoria Leonardo Henri Mangà Sonho Ti Cambridge Amaral Imdb
OLPC Espà Lygia Fagundes Massachusetts Joaquim Ag Matt Montgomery Vip Ellen Camarote
Cerqueira Cezar Rismond CARLOMANHO BRAZ Piracicaba Coca Cerveja Sacerdote Marchand
Vendemos GPS Map Sally Futsal Caminhos Sessà Pequena Overhaulin Auto Confissões
Destemidos Tenacious Poker Today Zoombido Megaconstruà Indo Avant Ritmo Dupla Loucas
Leões Denizlispor Easy Mythbusters Fenerbahce Larry Eurocopa In Feitos Gà Business Criss
Momento Olhar Goal Harry Inteligado Alma Aventuras Avanti Bielo West Leopoldo Loucademia Ace
GREICE Madoff Conor DVDs Sorocaba Uà ARRUDEIE Boicote Lady Emà Beijing Seul Toyama
Camp Kentaro Membro Dessaiville AES Saved Caroline AFP Humanidades PesquisaObraForm CNT
Swamen Figueroa TBA Tehran STJ Haitis Araguaia Grêmio Esquerdistas Azueie Eletrosuriname
Corpo Bogotà Pra Estadual Galeria Aperto Forest GRELLET Proclamaà BARRETTO Sucursal Tetris
Independência Camarões Natà Pnud Lúcifer Baratos AVPD Tove Dantas Rolling Estocolmo
AUDREY Caixa Fedex Baresi Lc MRE Destruià Fabienne Aerocracia Bellanton Policial Garota
Sacolada Casillas Xavi Emaús Wimbledon Demà Mecanismo Antonin Zimbà CDH Mosley Shane
Firefox Nizan Thatiana Pagung Movimento Philips Renan Globocop Robinson Bin Emerlinda Laden
Seis Loris Plantà Panda Minority Preta Itacarambi Botafogo Jorgen Confronto Polishop RN Rui
Camisa Conexà Lulu Antiquarius THC Sensei Dragonlance Expresso Chapolin AssombraÃ
Catscratch Bebel Amaury Unfabulous Implicated Votatoon Nascido Equilà Romance Ren Changed
Dieu Edemar Ferb Mobilizaà Miúcha Sharon Cougar Ilhas Role Zeke Gaspard Adrenalina
Mariangela Kronk Diary Amil Marido Escorpià Terror UFC Mercenà Quantum Vezes Aquamarine
Nashville Caraà Luau Troca Castle Brà Momentum Noiva Instinto Morando Idade Open Rescue Feira
Trià Quebra What CDHU Prison Mira Detetives Tamanduateà Ugly Monsters Expedià Tayyip Toda
Dawson Propostas Liceu Herões SVU Mega Alta Ivanhoà Palladino Maratona Making Riqueza
Village Princesinha Aventura Valemont Phineas Formiguinhaz Shrek Catania Serginho Ponte Triunfos
Desastres Poltergeist Luta Antecedentes Karku Lenine Par RedeTV TNT Good Waldomiro
Supremacia Cachoeira Friburgo Monsterquest Faà Accidentally Mustafa Kick Kung Pinochet OK
Weisbrot Agências Vara CDC Berlusconi Pondà Malhaà Rupert Jesu Forquilhinha Glà Bon MagrÃ
CEPR Racha UGT Lions Spogli Kwasniewski Don Rajiv Economia Ivam SATYROS CTB Mirabelais
CGTB Putin Payot Wald Jasmin Atuaà Corail Saco Pum Manolo Lucro PRE Marcello Eremildo
Hispaniola Lew Salomon Dean Maico Heleni Skype Helder Espora Zuzu MultiPoint Phorm Kirinda
Core BT Bredi Monia Ibsen Antilhas Gamage TBWA Totti Slashdot Barners Piarroux Renaud Erenice
Edmont Playboy Machu Gadi Lourenà Eqecat Hu Wagner Chappaqua Pioneiro Havaà AMAURI
Sarandi Viamà Hino Aloma NPD Reforà Abdolreza Sales Olayiwola Cerimà Lineu BURGNICH BSB
Tiririca Anacleto Leblon Zaire Iwo FPU Valdivia Tailà Pouca PTI Davi Marinara Temodal Deportivo
Filha Ginette Arimatà Daphne Lemazor Teotà Age Anatel TRANS Baptiste Citou Consenso Wycleaf
Bouille Trà Marechal Pro Jutahy PABLO Natuza Lilia Ordaz CPMF Roberta MURALI Fritz Intel
ROMAN DAN Hirst Superinteressante Gartner Amores Enrà Delcir Comenta DIS MS Kosovo
Eletrosul Luciano Missões Rico Eurides MT Ideli Flyboys Blade Stargate Boudica Gigolà Desperate
Arizona SAG Inventos Submarino Velozes Tempestade Situaà Vinganà Independiente Stop River
Naves Corredor Melrose Indiana Algenor Pecado Chefe Treino Hitler Klute Scarface Diva Drop Pearl
Sujou Contratado Monk Awake Hot Entra Queime Giganto Armadilhas Mick Forrest Ross Grito Jekyll
Cassino Prêmios Collateral Three Raj Malà Desafio Filhos Rules Gatilho Graham Til Stardust
Construindo Monstros Oz Normal Moby Bonanza Paparazzo Next Inside Graus Community Torneio
Dolittle Sai Gary Contador Combates Casanova Mordidas Norbit Corridas Sir Shogun Namoro Hellboy
Torquato Figo Zidane Pauleta Benfica XGAMES Andrew Vicenzo Nida Hiroshima Manger
Bombocados Ralph Omar Dwight Brasileirinhas Klotz Louco Levy AIEX Nair Guarulhos Niger
ImageMagica Etienne Angeli Aprendiz VCP Classmate QG Adnet Lauryn Foster Bertin Napoleà Oi
Sede ROBSON Leibniz Louisdon Amec Juventude Vox Berny Fausto Cerimonial Mats Dar Atari
AnimePro Ariel Gertrude PwC Cemig Damon Mandela Ciloni Oxfam Crawford Pombal Trending Raras
Annual Rebelià CANCELLIERO Santana Racionar Camboja Responda Jeremy Desinteresse
Viaoeste Marat BlackRock Transformaà COF CGFome Sudà Sete Camilla Monica Lado TanzÃ
147
Evenson Dante Weber Carla Arthur Josias Responsabilidades Mangabeira Picasso Contradià Sanctis
Retrà HAROLDO Quisqueya Gorbatchov Mali Josephine CNBC Quatrich Breath Dedo Usiminas
Anjos Je CRECK Foz Rumiana Vagner Alacir Steve Braskem Angie HMU Marsh Berkeley Cepal
Erudito Glenn Revolta PRTB Casemiro Evidente KIKA Markus Jumbor ExpoXangai Burkina Alvarenga
Katherine Angà Reading CEà Tareck Edson Mindlin NA Ermilus JBS Bonitinha RNPP How Cuenca
PhDs Anac Bashir Auschwitz AVOTAR GSI Jesse Bial Imaginaà Exame Friboi Mercosul MAURILIO
Ganso Alfredo Preferencialmente Maitê Claudinei HOELTGEBAUM MARLI Binyamin Nardoni Aipac
Atenas Hamilton Monitor Wings Mirage UTI Linda SITJA Christian UFMG Fortec Kama Vants
Programas Emprego PJ Financeiro Tatuà Medalha Abbasi Carnegie Lang Evita Salve Dezoito
Cristovam Procurados Marassa Ansanm Comida Opportunity CVM Teletime ICIJ Euna Javà Pascal
ITV UFSC Condà Mara Jornalista Eliezer Rodolpho Thimothe LAN Durval Bronca Wilmà TVA
Mundaú Angelus Santuà Encontro Paola Kerigma Feminino Medalhà Euro WTA COB Resultados
Outubro University Esforà Civilizaà Otà McDermott Wisconsin Lawrence Chipre Eusà Reinhold
Manchester Abacha Inas Corà Hayak Spirit Sani MUGGAH Influência Helio Expansà Commodities
Controladoria Jaramillo Independente Aftenposten Sancak Cemile Espanhola Vemos Noivas Mitsui
McPhee Desventuras Saddam Espelhos Caminhoneiros Prenda Maravilhas Babà Nanny AlianÃ
Alasca Madre Gressier Yadin Mares PCB Jaques Metropolitan Wilson Pura Laurentus Valmon Rodini
Yukari Darlene Olibert Inteligência Wipro Luizà Marcio Aid Oceà Franklin Nazilda Fritzner Juma
Raniel Premji Azim Cristiana Oceania Seà Colbert Petra Tucanês Fabiano Malvino Sacconato
Superintendência Sevilla Calabar Lerebours Zhang Clement Tegucigalpa Chrysotile Quixeramobim
Darfour Xique Faktor Júlio Palocci Renata Perasso Boi Juan Mocidade Tuvalu Brahma Fred Abu
Aldo Marquês Illinois Bradley Sapucaà Tiaes Mohsen Vanderlei Perugino MIRELLA Clemente
Jornada CTNBio Lyon Vià Wavin Boardview Videonews Seleà NFL Cone Retratos Bad Monaco
Pague Informerciais Minnesota Helifly Storytellers Kubica Maiores Mikhail Soul Novak Bandas Lola
Amigas Celebrity Linhas Geisy Get Tokitika Djabon Expor Taxista Ibirapuera KOMPA Rap Heinrich
Brooklyn Software FGV Ivor Sylvain Shell Lynn CIRH UPS LEC Matias Crescem Ducange Aelio
CUBAPEDIA Wikipedia Kuala Esso Sanon Robespierre ESTER Mediaset Artur CBN Desafetos
Mianmar Nouriel GZero Enio Homero Darfur Cintia Fillity ZANCO Montevidà Caraguatatuba OtacÃ
Imposto DBM UniFiam Mwalimu Informal Ouanamine Levantamento Planos Concessões SIMONE
Exius Insper Yukiya Armà Francesca Edward Inconfidência Macumba BIC Secretà Selinho
Bambiada Dobradinha Data MJ Slama Catalunha ABDIAS CARMEN Carapicuà LAERTE Plà Leonam
Eletronuclear Jay LAURO Guerrilha LYRIO Tucanagem Thales Romulus Observer BERWANGER
Galeà Hilà LGBT JOSUà Che Kan Zurique Muller DoD Buzz Julius Hungria Puskas Nyerere CTA
Chernobyl Sam Autoridade Columbia Luna Karibe MDB Ferdinando Campeonatos Cebri Toronto
Frantz Climatizada Sutileza Narcisse Motel Eunà Participaram Articulaà Eliot BA KLB Rollemberg
Odair ACM HADDAD Bolinha Ficha Oslo Luisà PSBD NEUMANN Cinemark Forro Vigilantes
Jesimene Pete Ganhe Casos Vrum Kyle Pegadinhas Jequiti Nip Anhangabaú Tuck XY Ratinho
Einstein Fabiane Simpi Osteria Labadee Michelin Ming Transtorno Gazprom Doi Fugees Thermilus
Georgetown Pensilvà NYC Warren Perda Desmatamento Jacob Unilever Krugman Idalbert
Embaixador Hasan Totalmente CGU Lucia Geddel Karl Marx Ilustrà Brunhera Tony CemitÃ
DOLOROSA Bauru Toniko Berners Natalie NK Penetra VALENTIM Borba Braganà Tomie Georg
Rafard Yara SWEIG Clash Takai Silvano Catherine CORRÃ Cairo Cadernos Pagu PSDC Pedrinho
Aposentadorias Ravello SMSs Kleber Dambala Bussunda Othman Maryse Gean Jeanne SulAmÃ
Aquassab Pamela Georgiana Salahadin Gerard Chrisner Burt Affonso Rick Claes Job Vanel Corriere
Luzia Auxiliares Willy Expo Guinle Timothy USA Jukka Stark Bashon Latin Kesner Samba LogÃ
Ramdin Lelly Michella Alentina Eliphet Hammoud Ai DANNER Marisa CBF Gente AEB McGill Fritznel
Bird Daqui Leherke Dalila Otan Bresser OIT Arjun Lunie Lusa Klà HRO Medika Gisele Nadal Roland
Bahamas Caicos Turks Coyote Ibama Coter Cianê Fritura BAPTISTA Villela Coordenaà Noam Dalai
Papda Melbourne Camille Wimhurst Manuela Cavour Noà Secosa Abimilho Sindifranca ESM
Palmeirinthians Indústrias Cial Deloitte Turbo Sysomos Pecuà Rastreado Ernst Esposas
Companheiro GPP Wellington Cantagalo Bestshop Christine AAAS Gana Novena Doug Tribuna
Stoichkov East Vivabeleza JCTV Orestes CDES Harlem OQ Feiras Osama Pavà Tempesta Estige
Raà Novos Lloyd React Goldman Desentendimentos Bebê Agnelo Burundi Reinos Consciência
Lugares Guarapuava Coloccini Ici Reaproximaà Arabia Etna Sicà Marjorie Piragibe Gastos Imprensa
Transerp Transporte Martely Prado Repasses Pfizer Titanyen Papua Cingapura Vanuatu Escolha
Itaim Mediolanum ETA Sinhà Poema Hannah Telecurso Caldeirà Corujà KENNETH Zorra Shangai
SPTV Ipiranga Roger Eletronorte Hernane Guillermo Mercados Recessà Rener Luigene Chicago
148
Emannuel Christophe PACs LIMONGI Mensalà Soweto Dimmi Umazinha Celiana Emanuela Forbes
Senac Faxion Denise Perfumes Nespresso Givenchy Bilionà Fields Wikipà Alvarez Erics Raymond
Lajeunesse UFSCar McCain Dunhill Covas TCE Vicente Laos Adelà Tiago Norman Ciberpegadinhas
NETTO Gianfranco Prazeres TERENCE Ubuntu Aceh JBC MSNBC Soma Ave Taiti YOGO Anglade
IRAN Dora Rumos Camundongos Caillou Pingu Shaun Contos Mari Doctv Invenà Alfonso Cynthia
Univesp Mestres Emmanuelle Ask Voando Tropa Cama Ataque Zoobomafoo Racismo AskMen Bienal
Conar Godzilla Nuno Compacto Cartas Insensato Favela Conama Afanazio Mordaà AIDS HD Family
Soraia Biquà UBDS Leila Amy INVERTà Andres Beckham Provas Laur McAslan Ocean Medicina
HERMELINO Phoenix ADOGO Pixies SWU Nives Rage DAGMAR Ingrid Kings Queens Mika
Enriquillo Andy Quadrinhos Stan Noivo Adolescência Percy Seduà Transformers Bobeou Trato
Delgo Mergulho Armaà Sahara Hombre Flame Carga Eliesse Ferrari AAPM Madonnou FlorenÃ
Pacha SPTuris Drummond TRACY Penzo Galinho Ferver Delúbio Cortado Godofredo Titanic VeÃ
Neil BMG Holbrook Gregory Naomi ARGOLLO Beijou Edu Montes Morro Golfo Jessica Trecho IRL
GRINGA Chiquinho Ford Abellard Nina Alinne Less Intercine Domingà Vasco Transforme RouCHEFE
Núcleo Stylista Animania Kipper Espià Ratava Mexico Ray Temperatura Tancredi Lars Chuck Pixote
Interzone Honey Moonlight Port JANUÃ Zapping Retrato Aldeia Eduarda AURÃ VIVIANE Samu
Cooperativas Rolinha Mohammad HOMSI RIEDER Manifestaà Bandeira Code Odilo Abib Gadael
Jerseylicious Garfield Debussy Gaetano Raccontami Decisões Trumbo Poirot Electra ABDIAN Bryan
Tupà Georges Racionamento Reynold Siafi Membros WADY Globalizaà Itu Eurythimics Tommy
Duran Grava CoBrA Valdir Graduate Amsterdà Chaignat Manno Claire Small RO Hemisfà SuazilÃ
Woodley Nintendo Jockey Edouard Duval MacArthur Aigle Megaman Matriz Fanny Tereza Mistureba
Tonton Cicero SEYED FOROUGHI Sacomà Brava Tide Artista Tribilasyon Cazaquistà Ramires
Hector Kleberson Fania EBC Tristeza PhD Continuidade Alec Guerrit Benito AIB Tailon Gatorade Abit
Dublin Javier Interpol Produto Sipri Matthew Fotos Derek Arcahaie Patos Replay Gregoire Unctad
Tabarà Hubert Sergey MIT Cartagena Bloco SUPLICY Sequestro VIDIGAL Itabaiana Azea Cordinha
Drouin Mohallem LG Arkansas Pelerin Fonds GRAGNANI Lavagem Van Contrapõe Mazzola Indian
Robben Tchecoslovà Sneijder Beija Uberaba Rubem Bike Ciclistas ESTRUPADOR Camboriú
Cristianismo Faria BUENO ZECCHIN Parma Dudalina Digimon Serial Parasitas Orgulho Jibber Rep
Ibitirama Schalke Razà Talk Vivendo NCAA Pronto Pariani Virginia ACB Lagun Bor Wake Preconceito
Psique Jesi Castellana Apeoesp Andújar Institutions Pozo Geography Napoli GOLLOP Yo Nara Italo
Pepsi JANINE Exercà LEà FABà Chimbote Tangshan Rom Hama Mascherano Di Tevez Pastore
CSN Bolatti Maxi Samara Vinda Hummer Maynard DeGroot Aulas Sabu Bruce Reedià Pouso
Kovancilar Freud Issa Torcedor Querendo MAM ANTIESCRAVISMO Desimà Incertezas Garanhus
Iugoslà Piloto CFO Rubinho Vende Dread CEIs PORTALEGRE Pillay SAUVA Ovando Asignatura
Otra Hate So Nelly Rehab Quità Smurf Pecho Ne Leona Fulanito ELLOS Raghav Say Keep Because
Jambà Hanna Cedric Oma Mikael Galaxy Mitsubishi Clara Wallander Senai Rocinha TERSIO FicÃ
Chandon Cruzamento Fanta Eleuses Mossad Athletic Legià FM PMs Jerusalà Sinfà Mini Psych
Shockwave Princesinhas Perdendo Carte Medical Navigator Android ProUni Unibanco Fipase ATP
Larica Bossa Houston Autotà Jeke DJs Boate Laidback Passione Superpop Manhà Repetir Ouiiiii
Restavec FEAUSP Lênin Laudo Juruà Andirà Juscelino Guajarà AM Behind Williard Ru Stand
Divaldo Revealed Lembranà Short Quest Bakugan Frida Late Apollo Pokemon Exposed Naughty
Californication Zoboomafoo Hilaria Pink Manifesto Patrice Mirland Inesc Curro ALLAIN ORIOL
CANDELORI Wadih Samoa Antecipaà BELLEAU Madison Amarà AVOMITAR Nadir PGPM Naji
Natalia TYLER Welcome Nadege PM SALLE Beto FILIPE Faculdades Hanover Just ES Rudy RBS
Depto Dartmouth Floresta Jundiaà Taà MORONI Aterro Voto LSI FFLCH CURY Pulitzer Cfemea
MORI Boaventura Jonatham Renault Quebrangulo Justine AlecJRoss StateDept PAEC Linense
Recuperaà Citibank Prefeituras Moema Datasus Astro Detran Nasa CareFusion PreparaÃ
Entertainment Haaretz Jerusalem MSN Diablo Worst MARCEL SEIXAS AC Violette BALLOTI Sampa
Ikea Taria Hemisf\xc3 Organiza\xc3 Al\xc3 Pr\xc3\xaamio P\xc3\xbablico Ren\xc3 Ex\xc3 H\xc3 Pr\xc3
C\xc3 Bel\xc3 For\xc3 N\xc3 Jos\xc3 D\xc3 Ribeir\xc3 Tr\xc3\xaas Amanh\xc3 Ci\xc3\xaancia
Civiliza\xc3 Caldeir\xc3 J\xc3 Sim\xc3\xb5es Funda\xc3 Seguran\xc3 Or\xc3 Helo\xc3 S\xc3 Not\xc3
Pol\xc3 Constitui\xc3 At\xc3 F\xc3 Bras\xc3 Fam\xc3 Fran\xc3 Su\xc3 Afeganist\xc3 A\xc3 Justi\xc3
Ir\xc3 Comiss\xc3 Pel\xc3 Presid\xc3\xaancia Pulm\xc3\xb5es Minist\xc3 Rela\xc3 Educa\xc3
Alian\xc3 Na\xc3 M\xc3 Cit\xc3 Am\xc3 Amap\xc3 Rep\xc3\xbablica Cear\xc3 Ch\xc3 Col\xc3
Ningu\xc3 Patr\xc3 Kl\xc3
149
Foram contabilizadas, portanto, 45 referências entre os nomes próprios como
entidades assistenciais explícitas para o Chile e 73 para o Haiti. Percentualmente
(ao total de itens lexicais marcados por PROP identificados) isto corresponde a 3,1%
e 1,6%. Estes são números extremamente baixos. Porém a classificação promovida
se deu sobre entidades que são explicitamente entidades assistenciais. Os outros
valores (a grande maioria) podem ser classificados como citações a governos por
meio do nome do país (“Brasil”, “EUA”), divisões governamentais (“Secretaria”,
“Exterior”, “MP”), pessoas com peso político de decisão (“Lula”, “Bachelet”), artistas
e
atletas
contribuintes
com
doações
(“Angelina”,
“Ronaldo”),
bem
como
organizações privadas (“Carefusion”, “HSBC”), esportivas (“Corinthians”, “Vasco”),
religiosas (“Igreja”, “Universal”) e órgãos de apoio à pesquisa (“UFSC”, “MIT”,
“AAAS”), regulamentações e de fiscalização (“CDES”, “PM”). Além destas, existem
nomes que podem ser classificados como de descrição do terremoto (“DestruiÔ,
“Emergência”), necessidades (“ReconstruÔ, “Ajuda”), de comunicação (“Reuters”,
“Jornal”). Excetuando-se estes elementos que atuam como entidades assistenciais,
e os de descrição e necessidade, o que se tem são palavras que passaram pela
aplicação de filtros realizados e itens lexicais referentes a programas televisivos que
não agregam a discussão.
Portanto a rede VPA apresenta um cenário estruturado bastante pertinente à
atuação de entidades assistenciais por meio de entidades explícitas ou de outros
agentes que não possuem em essência a finalidade de ajuda a em momentos após
desastres naturais, mas assumem tal papel em algum momento pela execução de
determinada ação. Estes dados levantados permitem também determinar que a rede
VPS obtida contempla 22,22% das entidades assistenciais categorizadas aqui para
o Chile e 57,53% para o Haiti. Assim, tais redes são representações bastante
abrangentes para as atuações de entidades referenciadas por nomes próprios que
prestaram assistência nos casos estudados. Este fato e a discussão promovida para
as redes VPS e VPA foram de grande importância na verificação da hipótese de
pesquisa e na consecução dos objetivos deste trabalho.
150
7. CONCLUSÃO
Esta pesquisa partiu do problema da falta de integração ou incompatibilidade
entre informações em registros em linguagem natural sobre a atuação de entidades
assistenciais. O horizonte escolhido para tratamento do problema foi a dinâmica
promovida pela emersão da Inteligência Social desta atuação dada a ocorrência de
novas catástrofes naturais. Elaborou-se então como hipótese que de que é possível
extrair informação sobre domínios de conhecimento específicos por meio do
tratamento automático de relatos em linguagem natural. A verificação desta hipótese
foi tomada então como objetivo central do trabalho e o alcance deste objetivo exigiu
então a busca por um retrato de ações que organizasse a informação sobre eventos
de prestação de ajuda no pós-catástrofe, tomando o espaço de atuação de
entidades que prestaram esse auxílio como um sistema social.
Isto demandou a investigação de métodos de Processamento de Linguagem
Natural (PLN), Linguística de Corpus (LC) e aplicações de Modelagem Linguística
(estatísticas e redes), para entender como estes são capazes de extrair informações
sobre a atuação de entidades assistenciais em situações de desastres e de gerar
automaticamente
redes
léxico-semânticas
que
representem
o
campo
dos
comportamentos de ação emergencial em catástrofes do tipo estudado.
Além da conceituação teórica, o insumo deste trabalho foram os corpora de
notícias dos terremotos ocorridos no Haiti e no Chile. Sua composição permitiu
apontar por meio de pequenos exemplos já de referência a um dos corpora
estudados (Haiti) a ideia de estruturação de conhecimento, contrapondo o arranjo do
mapa de conhecimento de determinadas entidades com uma estruturação em grafo.
Permitiu ainda entender o funcionamento e limitações primárias do pacote NLTK
utilizado, tais como a manipulação de uma collocation como um elemento único no
particionamento de uma sentença, a lematização de palavras e a etiquetagem dos
corpora, que tem implicações muito importantes sobre este trabalho. O problema
151
com collocations evidenciou-se na presença de nomes compostos de entidades
assistenciais, tornando pouco intuitivas algumas análises ou mesmo levando a não
consideração de alguns elementos por conta de o item lexical que representaria a
entidade ser barrado por um filtro. Já a impossibilidade de promover uma
etiquetagem levou à busca por algo externo a este ambiente e a lematização falha
não permitiu um tratamento que resultasse em uma etiquetagem com menor número
de ruído em sua marcação (já que assume todas as formas do item lexical que ali se
lematiza), o que impactou bastante na definição dos elementos de rede como
discutido.
Por consequência, foi necessário concentrar estudos sobre NER e partir para
uma estruturação em redes com base em etiquetas (oriundas do uso do VISL)
aplicadas às expressões, em especial etiquetas de nomes próprios, verbos e
etiquetas semânticas. Com o uso novamente do NLTK se dissociou os conjuntos
lexicais pertinentes a cada uma destas etiquetas e promoveram-se associações, por
meio de comandos de filtros, frequências, condicionais e laços. Aqui também
algumas limitações surgiram, contornáveis, como a disposição dos dados finais para
sua inclusão no ambiente de composição de redes (NodeXL) ou não, como a
associação de entidades semânticas e nomes próprios por questões de suporte ao
processamento.
A composição das redes apresentadas, suas métricas e análise ocorreram em
dois momentos até a verificação positiva da possibilidade de estruturação de
entidades assistenciais e suas ações por meio de redes. O primeiro momento foi a
confecção de redes com todo o conjunto resultantes para os tipos de léxico
estudados (definidos pelas etiquetas) e associações possíveis entre estes. Este
primeiro estudo permitiu verificar que a estruturação por meio de linguagem natural
era possível, mas até aquele momento definindo aspectos gerais do cenário de
desastre, inclusive em termos de relevância de determinados elementos de rede e
diferenças entre dois cenários. A aplicação de agrupamentos sobre tais redes não
se mostrou útil na obtenção de grupos de entidades e/ou ações de assistência, mas
sim no detalhamento de diversas particularidades do cenário que envolve
determinados atores e suas execuções. O algoritmo 2 de agrupamento mostrou-se
152
mais eficaz para fiz de análise de seus grupos, por resultar em perfil mais distribuído
de vértices por grupo, o que de fato leva estes a se afastar da rede total e traçar um
perfil específico para a rede interna do grupo, como apresentado nas discussões de
alguns destes.
Buscou-se então na supervisão de nomes próprios e uso de presença de
associações como novos filtros aplicados a conjuntos de tipos de léxicos obtidos
elementos que permitissem confeccionar uma rede específica em termos das
entidades assistenciais e suas ações. Os resultados e análises mostram que é
possível estruturar redes com nomes próprios que espelham atores que, em sua
maioria, desempenham papel de assistência, definido por verbos também bem
delimitados (embora mais afetados pelos problemas derivados da lematização citado
acima). Assim, a supervisão permite destacar das redes não supervisionadas as
informações e conhecimentos sobre assistência a vítimas após os terremotos
estudados. Em termos de entidades assistenciais explicitas, marcadas na discussão
e que desempenham assistência constantemente no texto e em cenários de
desastres em geral, não só é possível extrair tais informações, como estas tem
qualidade suficiente para interpretações e análises próprias. Neste sentido,
identificou-se que no evento ocorrido no Chile o arranjo estruturado de entidades
assistenciais demonstra uma atuação já planejada em momento anterior, com
distribuição de ações de forma bem delimitada por entidade ou grupos de entidades
que cobre bem o conjunto de ações relacionadas. No Haiti, a estruturação resultante
aponta para a constituição de formas de atuação das entidades conforme surgem as
necessidades, com sobreposição de ações e não-exploração das ligações
disponíveis, a despeito de seu maior número de ligações. Isto provoca um aumento
natural da concentração de ações em determinadas entidades, o que torna toda a
estrutura dependente destes vértices de entidade para o fluxo de informações e
conhecimentos decorrentes da prestação de ajuda.
Trabalhos futuros decorrentes deste poderão explorar pelo menos duas
questões de especial importância. A primeira é o tratamento do ruído das estruturas
concebidas, partindo do desenvolvimento de módulos que possibilitem superar as
limitações no NLTK e refinamento da etiquetagem aplicada (podendo mesmo
153
executar uma etiquetagem própria e independente) de forma a eliminar
principalmente os problemas decorrentes da lematização. A segunda é o problema
da correferência entre nomes próprios aplicados a entidades assistenciais, que
poderia tratar melhor a informação em linguagem natural de modo automático e
estruturado. A impossibilidade de associar etiquetados como entidades semânticas
e nomes próprios, e a multiplicidade de valores que podem assumir itens lexicais
com a marcação de entidades são dificuldades não abordadas aqui e que merecem
atenção no tipo de proposta que desenvolvemos.
Vale mencionar ainda uma questão adicional como possível objeto de estudos
futuros. Não se explorou aqui as implicações do foco em entidades assistenciais no
campo de desastres como temática escolhida. Adotar um outro foco, por exemplo, o
das vítimas, permitiria repensar as redes e verificar novas possibilidades de
estruturação léxico-semântica no domínio da comunicação de catástrofes e
desastres. Certamente quaisquer destas possibilidades, contudo, levaria em conta a
contribuição dada nesta pesquisa, apontando uma metodologia que permite partir de
textos em linguagem natural e estruturá-los (por Modelagem Linguística) em redes
passíveis de análise sobre o conhecimento que estruturam.
8. REFERÊNCIAS BIBLIOGRÁFICAS
[1] ABBASI, Alireza; HOSSAIN, Liaquat; HAMRA, Jafar; OWEN, Christine. Social
Networks Perspective of Firefighters’ Adaptive Behaviour and Coordination
among them. In: 2010 IEEE/ACM International Conference on Green Computing
and Communications & 2010 IEEE/ACM International Conference on Cyber, Physical
and Social Computing.
[2] ALTMANN, Eduardo G.; PIERREHUMBERT, Janet B. e MOTTER, Adilson E.
Niche as a determinant of word fate in online groups. Computation and
154
Language. ArXiv, Cornell University, setembro de 2010. Disponível
<http://faculty.wcas.northwestern.edu/~jbp/publications/Niche_WordFate.pdf>.
Acessado em 15 de novembro de 2010.
em:
[3] ANANIADOU, Sophia; FRIEDMAN, Carol; TSUJII, Jun’ichi. Introduction: named
entity recognition in biomedicine. Guest Editorial - Journal of Biomedical
Informatics. Vol. 37, p. 393–395. Elsevier Inc., 2004.
[4] ARBESMAN, Samuel; STROGATZ, Steven H. VITEVITCH, Michael S. The
Structure of Phonological Networks Across Multiple Languages. International
Journal of Bifurcation and Chaos. Vol. 20, No. 3, p. 679–685. 2010. Disponível
em: <http://129.237.66.221/Arbesman_et_al_10_IJBC.pdf>. Acessado em 15 de
novembro de 2010.
[5] BALDWIN, Timothy; KIM, Su Nam. Multiword Expressions. In: Nitin Indurkhya
and Fred J. Damerau, editors, Handbook of Natural Language Processing, 2ª Edição.
Morgan and Claypool. 2010.
[6] BEAUDOIN, Christopher E. Mass media use, neighborliness, and social support:
Assessing causal links with panel data. Communication Research. Vol. 34, nº6, p.
637–664. Sage, 2007.
[7] BEDFORD, Denise; FAUST, Leona. Role of Online Communities in Recent
Responses to Disasters: Tsunami, China, Katrina, and Haiti. In: ASIS&T '10
Proceedings of the 73rd ASIS&T Annual Meeting on Navigating Streams in an
Information Ecosystem – vol. 47. Maryland: American Society for Information Science
Silver Springs, 2010.
[8] BERING, Christian; DROZDZYNSKI, Witold; ERBACH, Gregor; GUASCH, Clara;
HOMOLA, Petr; LEHMANN, Sabine; LI, Hong; KRIEGER, Hans-Ulrich; PISKORSKI,
Jakub; SCHÄFER, Ulrich; SHIMADA, Atsuko; SIEGEL, Melanie; XU, Feiyu;
ZIEGLER-EISELE, Dorothee. Corpora and evaluation tools for multilingual
named entity grammar development. In Proceedings of Multilingual Corpora
Workshop at Corpus Linguistics, pages 42–52. Lancaster, 2003.
[9] BICK, Eckhard. Visual Interactive Syntax Learning – VISL. Syddansk
Universitet, Dinamarca. Disponível em: <http://beta.visl.sdu.dk/visl/pt/>. Acessado
em 07 de junho de 2011.
[10] BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing
with Python - Analyzing Text with the Natural Language Toolkit. O'Reilly, 2009.
[11] BOLSHAKOV, Igor A.; GELBUKH, Alexander. Computational Linguistics:
Models, Resources, Applications. Serie Ciencia de la Computación. Instituto
Politécnico Nacional. Primeira Edição. Cidade do México: 2004.
[12] BORGATTI, S.P.; EVERETT, M.G.; FREEMAN, L.C. Ucinet for Windows:
Software for Social Network Analysis. Harvard, MA: Analytic Technologies, 2002.
155
[13] BRAGA, T.M.; OLIVEIRA, E.L.; GIVISIEZ, G.H.N. Avaliação de metodologias de
mensuração de risco e vulnerabilidade social a desastres naturais associados à
mudança climática. São Paulo em Perspectiva, São Paulo, Fundação Seade, v. 20,
n. 1, p. 81-95, janeiro/março de 2006
[14] CANCHO, R. F., SOLÉ, R.: The Small World of Human Language, Proc. Royal
Soc. London. B 268 p. 2261 – 2265, 2001. Disponível em:
<http://complex.upf.es/~ricard/SWPRS.pdf>. Acesso em: 07 de julho de 2011.
[15] CAMPOS, Maria Luiza de Almeida. Modelização de Domínios de Conhecimento:
uma investigação de princípios fundamentais. Ciência da Informação. Brasília, v.
33,
n.
1,
p.
22-32,
2004.
Disponível
em:
<http://www.scielo.br/pdf/ci/v33n1/v33n1a03.pdf>. Acesso em: 12 de julho de 2010.
[16] CANTOS GÓMEZ, Pascual. Do We Need Linguistics When We Have
Statistics? Universidad de Murcia. D.E.L.T.A., 18:2, 2002.
[17] CARDOSO, Nuno. Novos rumos para a recuperação de informação em
português. In: COSTA, Luís Costa, SANTOS, Diana; CARDOSO, Nuno. (eds.).
Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10 anos.
Linguateca, 2008, pp. 71-85.
[18] CARIBBEAN DISASTER EMERGENCY MANAGEMENT AGENCY. CDEMA.
Disponível em: < http://www.cdera.org/>. Acesso em: 12 de março de 2011.
[19] CENTRO DE NOTICIAS ONU. 2010, el año de más muertes por desastres
naturales en dos décadas, reporta ONU . Servicio de Noticias de las Naciones
Unidas.
Disponível
em:
<http://www.un.org/spanish/News/fullstorynews.asp?newsID=20114&criteria1=desas
tres&criteria2=>. Acessado em 28 de janeiro de 2011.
[20] CHAVES, Marcirio Silveira. Criação e expansão de geo-ontologias,
dimensionamento de informação geográfica e reconhecimento de locais e seus
relacionamentos em textos. In: COSTA, Luís Costa, SANTOS, Diana; CARDOSO,
Nuno. (eds.). Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10
anos. Linguateca, 2008, p. 49-59.
[21] CHAVES, Marcirio Silveira. Estado da arte: Extração de Informação
(geográfica). In: III Simpósio Doutoral da Linguateca. Lisboa, outubro de 2006.
[22] CHAVES, Marcirio Silveira; SANTOS, Diana. What Kinds of Geographical
Information Are There in the Portuguese Web? In: Computational Processing of
the Portuguese Language: 7 th International Workshop, PROPOR 2006. Itatiaia,
Brasil, maio de 2006.
[23] CHILE. Ministerio del Interior. Oficina Nacional de Emergencia - Onemi.
Disponível em: <http://www.onemi.cl/html/top/top_197.html>. Acessado em 12 de
março de 2011.
156
[24] CHRISTOFOLETTI, Antonio. Modelagem de sistemas ambientais. São Paulo:
Edgard Blucher, 1999.
[25] CLAUSET, Aaron; Newman, M. E. J.; MOORE, Cristophere. Finding community
structure in very large networks. Physical Review E. The American Physical Society,
2004. Disponível em: <http://www.ece.unm.edu/ifis/papers/community-moore.pdf>.
Acessado em 03 de abril de 2012.
[26] DEHBOZORGI, Leila.; FAROKHI, Fardad. Effective Feature Selection for
Short-term Earthquake Prediction Using Neuro-Fuzzy Classifier. In: 2010
Second IITA International Conference on Geoscience and Remote Sensing.
Qingdao, agosto de 2010.
[27] DEMNER-FUSHMAN, Dina; CHAPMAN, Wendy W.; MCDONALD, Clement J.
What can natural language processing do for clinical decision support? Journal of
Biomedical Informatics. Vol. 42, p. 760–772. Elsevier Inc., 2009.
[28] DILMAGHANI, Raheleh B.; RAO, Ramesh R. An Ad Hoc Network
Infrastructure: Communication and Information Sharing for Emergency Response.
In: IEEE International Conference on Wireless & Mobile Computing, Networking &
Communication. Avignon: outubro de 2008.
[29] DILMAGHANI, Raheleh B.; RAO, Ramesh R. Hybrid Communication
Infrastructure and Social Implications for Disaster Management. In: Proceedings
of the 40th Hawaii International Conference on System Sciences. Waikoloa, Hawai:
janeiro de 2007.
[30] ELMASRI, Ramez e NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4
ed. Rio de Janeiro: LTC, 2005.
[31] FELIPPO, Ariani Di; DIAS-DA-SILVA, B. C.. Uma introdução à Engenharia do
Conhecimento Linguístico. Revista de Letras da Universidade Católica de
Brasília. Volume 1 – Número 2 – Ano I – nov/2008. Disponível em:
<portalrevistas.ucb.br/index.php/RL/article/.../786/82>. Acessado em 13 de
dezembro de 2008.
[32] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças
Bruno; STEINBERGER, Margarethe Born. A Multi-agent Model for Panic Behavior
in Crowds. In: Fourteenth Portuguese Conference on Artificial Intelligence (EPIA
2009), 2009b, Aveiro. IEEE Proceedings The 14th Portuguese Conference on
Artificial Intelligence, 2009b. p. 463-474.
[33] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças
Bruno; STEINBERGER, Margarethe Born; OMAR, Nizam. Simulating Collective
Behavior in Natural Disaster Situations: a Multi-Agent Approach. In: D'AMICO,
Sebastiano (Org.). Earthquake Research and Analysis. Rijeka, Croatia: Intech Open
Access Publisher, 2011, Vol. 05. In: D'AMICO, Sebastiano (Org.). Earthquake
157
Research and Analysis - Statistical Studies, Observations and Planning. : InTech,
2012, p. 435-460.
[34] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças
Bruno; STEINBERGER, Margarethe Born. Proposing a Cognitive Multi-agent
Model for the Panic in Crowds Phenomenon. In: The Second International
Conference on the Applications of Digital Information and Web Technologies
(ICADIWT 2009), 2009a, London. IEEE Proceedings The Second International
Conference on the Applications of Digital Information and Web Technologies, 2009a.
p. 737-742.
[35] FRANÇA, Robson Dos Santos. Simulação multi-agentes modelando o
comportamento coletivo de pânico em multidões. Tese de Mestrado (Engenharia
da Informação), Universidade Federal do ABC. Santo André, SP. 2010.
[36] GLobal IDEntifier Number – GLIDE. About GLIDE. Disponível em:
<http://www.glidenumber.net/glide/public/about.jsp>. Acessado em 03 de novembro
de 2010.
[37] GUIMARÃES, F.J.V.; MELO, E.S. Diagnóstico utilizando análise de redes
sociais. 2005. Monografia (Especialização) - Programas de Pós-Graduação de
Engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. 2005.
[38] GRISHMAN, Ralph; SUNDHEIM, Beth. Message Understanding Conference - 6:
A Brief History. Proceedings of COLING, Vol. 96 p. 466-471, 1996.
[39] HERMELIN, D.. Desastres naturales y medios en Colombia: ¿una comunicación
hacia la prevención? Revista Gestión y Ambiente. Vol. 10, No. 2, Medellín
Universidad Nacional de Colombia y Universidad de Antioquia, pp. 101-108. 2007.
[40] HOSSAIN, Liaquat; KUTI, Matthew. Disaster response preparedness
coordination through social networks. Disasters 34(3): p. 755−786. Malden,
Maryland: Blackwell Publishing, 2010.
[41] INTERNATIONAL STRATEGY FOR DISASTER REDUCTION - ISDR. A
Conferência Mundial sobre a Redução de Desastres & seus resultados. United
Nations. Redução de Desastres em África -EIRD Informes, 5 Edição, 2005.
[42] KIM, Yoon Ho; PARK, Young. e-Gov net based Emergency Management
Service. In: Second International Conference on Future Generation Communication
and Networking. Hainan Island: dezembro de 2008.
[43] KRAUSE, Jens; RUXTON, Graeme D.; KRAUSE, Stefan. Swarm intelligence in
animals and humans. Trends in Ecology & Evolution. Vol. 25, nº1. p. 28–34. 30.
[44] LACERDA, Gláucia Dutra; STEINBERGER, Margarethe Born. Técnicas e
métodos de modelagem linguística comparada em corpora de desastres
naturais. In: I Workshop da Pós-graduação de Engenharia da Informação, 2011,
158
Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da
Informação, 2011.
[45] LA RED. La Red. Disponível em: <http://www.desenredando.org/lared/>.
Acessado em 18 de agosto de 2010.
[46] LÉVY, Pierre. Inteligencia coletiva: por una antropología del ciberespacio.
Washington: Organização Panamericana de Saúde, março de 2004.
[47] LINGUATECA. Linguateca. Fundação para a Computação Científica Nacional,
Portugal. Disponível em: <http://www.linguateca.pt/>. Acessado em 20 de abril de
2011.
[48] LUGER, George F; STUBBLEFIELD, William A. Artificial Intelligence:
Structures and Strategies for Complex Problem Solving. Addison Wesley Longman,
Terceira edição, 1998.
[49] MANNING, Christopher D.; SCHUTZE, Hinrich. Natural Foundations of
statistical natural language processing. Massachusetts Institute of Technology,
1999.
[50] MARKOSOVÁ, Mária. Network model of human language. Physica. A 387,
fevereiro de 2008. Disponível em: <http://arxiv.org/pdf/0709.3045v1>. Acessado em
15 de novembro de 2010.
[51] MARQUES, Roberto Ligeiro; DUTRA, Inês. Redes Bayesianas: o que são,
para que servem, algoritmos e exemplos de aplicações. Rio de Janeiro: [s.n.],
2008.
Disponível
em:
<www.cos.ufrj.br/~ines/courses/cos740/leila/cos740/Bayesianas.pdf>.
[52] MARTINS, Bruno; SILVA, Mário J.; CHAVES, Marcirio Silveira. O sistema CaGE
no HAREM - reconhecimento de entidades geográficas em textos em língua
portuguesa. In: SANTOS, Diana; CARDOSO, Nuno (eds.). Reconhecimento de
entidades mencionadas em português: Documentação e actas do HAREM, a
primeira avaliação conjunta na área. Linguateca, 2008, p. 97-112.
[53] MARTINS, Bruno; SILVA, Mário J. O HAREM e a avaliação de sistemas para o
reconhecimento de entidades geográficas em textos em língua portuguesa. In:
SANTOS, Diana; CARDOSO, Nuno (eds.). Reconhecimento de entidades
mencionadas em português: Documentação e actas do HAREM, a primeira
avaliação conjunta na área. Linguateca, 2008, p. 77-86.
[54] MATURANA, Humberto. A Ontologia da Realidade. Belo Horizonte: Ed.
UFMG, 1997.
[55] MEL’ĈUK, Igor A; POLGUÈRE, Alain. A Formal Lexicon in the Meaning-text
Theory (or How to Do Lexica with Words). Computational Linguistics Vol. 13,
números
3-4,
Julho-Dezembro
1987.
Disponível
em:
159
<portal.acm.org/ft_gateway.cfm?id=48166&type=pdf>. Acessado em 29 de junho de
2011.
[56] MICROSOFT RESEARCH. NodeXL: Network Overview, Discovery and
Exploration
in
Excel.
Disponível
em:
<http://research.microsoft.com/enus/projects/nodexl/>. Acessado em 29 de novembro de 2010.
[57] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Criando um
corpus sobre desastres climáticos com apoio da ferramenta NLTK. In: 8º
Brasilian Symposium in Information and Human Language Technology. 5 p. Cuiabá,
MT: Sociedade Brasileira de Computação, 2011.
[58] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Grafos
Conceituais na Estruturação de Conhecimento Expresso em Linguagem
Natural: a Cruz Vermelha no Terremoto do Haiti. In: I Workshop da Pós-Graduação
em Engenharia da Informação. 2 p. Santo André, SP: Universidade Federal do ABC,
2011.
[59] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Relatório
Final - Modelagem linguística de informação em revistas técnicas setorializadas.
2009.
[60] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Testando a
ferramenta NLTK em Corpora Etiquetados para Extração de Redes de
Assistência a Desastres. Submetido In: XI Encontro de Linguística de Corpus (XI
ELC). 9 p. São Carlos, SP: Sociedade Brasileira de Computação, 2012.
[61] MORICEAU, Véronique; TANNIER, Xavier. FIDJI: using syntax for validating
answers in multiple documents. Inf Retrieval 13:507–533. Springer
Science+Business Media, LLC 2010.
[62] MOTA, Cristina; SANTOS, Diana. Desafios na avaliação conjunta do
reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca,
2008. Disponível em: <http://www.linguateca.pt/LivroSegundoHAREM/>.
[63] MURAKAMI, Thierry Okuyama Solva. Extração de redes léxico-semânticas
do Português em um corpus de turismo. 2011. Dissertação (Mestrado em
Engenharia da Informação), Universidade Federal do ABC. Santo André, SP. 2011.
[64] MURAKAMI, Thierry Okuyama Solva; STEINBERGER, Margarethe Born.
Extração de redes léxico-semânticas em um corpus de turismo: estudo da
categoria food. In: I workshop da pós graduação em engenharia da informação,
2011, Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da
Informação, 2011.
[65] MURPHY, Brenda L. Locating social capital in resilient community-level
emergency management. Natural Hazards. Vol. 41, p. 297–315. 2007.
160
[66] NADEAU, David; SEKINE, Satoshi. A survey of named entity recognition and
classification. Linguisticae Investigationes vol 30, n.1, p. 3-26. National Research
Council Canada / New York University, 2007.
[67] NATURAL LANGUAGE TOOLKIT. NLTK. Disponível em: <http://www.nltk.org/>.
[68] OCTAVIANO, Daniel; STEINBERGER, Margarethe Born. Modelagem
Conceitual de Normas de Segurança contra Incêndios: estudo lexical da área
de materiais. In: I Workshop da Pós-graduação de Engenharia da Informação,
2011, Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da
Informação, 2011.
[69] OHTA, Tomoko; TATEISI, Yuka; KIM, Jin-Dong. The GENIA corpus: an
annotated research abstract corpus in molecular biology domain. In: Proceedings of
the second international conference on Human Language Technology Research.
San Diego, California, março de 2002.
[70] ORGANIZAÇÃO DAS NAÇÕES UNIDAS - ONU. II Conferência Mundial sobre
a Redução de Desastres promovida pela ONU. Kobe, 2005. Disponível em:
<http://www.unisdr.org/2005/wcdr/wcdr-index.htm>. Acessado em 28 de janeiro de
2011.
[71] PALEN, Leysia; ANDERSON, Kenneth M.; MARK, Gloria; MARTIN, James;
SICKER, Douglas; PALMER, Martha; GRUNWALD, Dirk. A Vision for TechnologyMediated Support for Public Participation & Assistance in Mass Emergencies &
Disasters. In: International Academic Research Conference. The University of
Edinburgh, abril de 2010.
[72] PEREIRA, Fernando. Formal grammar and information theory: Together again?
Philosophical Transactions of the Royal Society A 358, p. 1239–1253. 2000.
Disponível em: <www.cis.upenn.edu/~pereira/papers/rsoc.pdf>. Acessado em 4 de
julho de 2011.
[73] REPÚBLICA DO HAITI. Decree of the Interim Haiti Recovery Commission
(IHRC).
Disponível
em:
<http://www.cirh.ht/sites/ihrc/en/About%20Us/Documents/IHRC_Decree.pdf>.
Acessado em 12 de março de 2011.
[74] ROGERS, Everett M. Diffusion of innovations. Simon & Schuster, 3º ed. Nova
Iorque. The Free Press 2003.
[75] SANTOS, Diana; CARDOSO, Nuno. A golden resource for named entity
recognition in Portuguese. In: VIEIRA, Renata; QUARESMA, Paulo; NUNES,
Maria da Graça Volpes; MAMEDE, Nuno J.; OLIVEIRA, Cláudia; DIAS, Maria
Carmelita (eds.), 7th Workshop on Computational Processing of Written and Spoken
Language (PROPOR'2006). Itatiaia, RJ, maio de 2006. Springer, p. 69-79.
161
[76] SANTOS, Patrícia Dias dos. Redes colaborativas interdisciplinares: um
estudo cienciométrico de universidades federais brasileiras. 2010. Dissertação
(Mestrado em Engenharia da Informação), Universidade Federal do ABC. Santo
André, SP. 2010.
[77] SANTOS, Patrícia Dias dos; STEINBERGER, Margarethe Born. Extração de
redes de autoria interdisciplinar em um portal de publicações científicas. In: I
Workshop da Pós-graduação de Engenharia da Informação, 2011, Santo André, SP.
Anais do I Workshop da Pós-Graduação de Engenharia da Informação, 2011.
[78] SARDINHA, Tony Berber. Lingüística de Corpus. Barueri, SP: Manole, 2004.
[79] SEKINE, Satoshi; RANCHHOD, Elisabete. Named Entities: Recognition,
Classification and Use. Benjamins Current Topics. Vol. 19 de. 168 p. John
Benjamins Publishing Company, 2009.
[80] SILVA, Mário J.; MARTINS, Bruno; CHAVES, Marcirio Silveira; CARDOSO,
Nuno; AFONSO, Ana Paula. Adding Geographic Scopes to Web Resources. In:
Workshop on Geographic Information Retrieval, SIGIR '04. Sheffield, Reino Unido,
2004.
[81] SOLORIO, Thamar; LÓPEZ, Aurelio López. Learning Named Entity
Recognition in Portuguese from Spanish. In: CICLing'05 Proceedings of the 6th
international conference on Computational Linguistics and Intelligent Text
Processing, p. 762-768. Springer-Verlag Berlin, Heidelberg, 2005.
[82] SOWA, John F. Conceptual graphs for a database interface. IBM Journal of
Research and Development, 1976. Vol. 20, no. 4: p. 336-357.
[83] STEINBERGER, Margarethe Born. Discursos Geopolíticos da Mídia:
jornalismo e imaginário internacional na América Latina, São Paulo: Cortez e
Fapesp, 2005.
[84] STEINBERGER, Margarethe Born. Estudo sobre as Condições de Produção
de Relatos de Catástrofes e Desastres na América Latina. In: IV Colóquio BrasilEUA de Ciências da Comunicação, 2010, Caxias do Sul, RS. Anais do IV Colóquio
Brasil-EUA de Ciências da Comunicação, 2010.
[85] STEINBERGER, Margarethe Born. Modelagem linguística como recurso de
análise em Gestão de Conhecimento. 15 p. Santo André, SP: UFABC, 2009.
[86] STEINBERGER, Margarethe Born; MURAKAMI, Thierry Okuyama Solva.
Recursos tecnológicos aplicáveis a bases de dados geográficos para extração
de informações relevantes na área do turismo. Anais do XXXII Congresso
Brasileiro de Ciências da Comunicação, Curitiba, PR, 2008.
[87] STEVANAK, J.T.; LARUE, David M.; CARR, Lincoln D. Distinguishing Fact
from Fiction : Pattern Recognition in Texts Using Complex Networks. eprint
162
arXiv:1007.3254. Julho de 2010. Disponível em: <http://arxiv.org/pdf/1007.3254v2>.
Acessado em 29 de junho de 2011.
[88] SUGIMOTO, Megumi; OKADA, Norio; FANG, Liping. Modeling and Analysis of
Aid Coordination Processes for Post-disaster Education in Indonesia after the
2004 Indian Ocean Tsunami. In: IEEE International Conference on Systems, Man,
and Cybernetics. San Antonio, Texas: outubro de 2009
[89] TAKAZAWA, Aiko. YouTube space as the propagative source for social
power: an experimental study on the social meaning of disaster. In: ASIST 2010.
Pittsburgh, Pensilvânia: outubro de 2010.
[90] TUMMOLINI, Luca; CASTELFRANCHI, Cristiano. The cognitive and behavioral
mediation of institutions: Towards an account of institutional actions. Cognitive
Systems Research. Vol.7, Issues 2–3, junho de 2006, p. 307–323.
[91] TUNJUELITO. Plan de Desarrollo Económico, Social y de Obras Públicas
de la Localidad Sexta de Tunjuelito, D.C., 2009 – 2012. Tunjuelito, Localidad
Positiva: Activamente Participativa y Comprometida com um Vivir Mejor. Documento
para la deliberación Pública, 2008.
[92] UNITED NATIONS DEVELOPMENT PROGRAMME - UNDP. Reducing
disaster risk: a challenge for development, a global report. UNDP Bureau for Crisis
Prevention and Recovery. New York: UNDP, 2004.
[93] UNIVERSIDADE DE BRASÍLIA - UNB. Observatório Sismológico. Instituto de
Geociências. Disponível em: <http://www.obsis.unb.br/>. Acessado em 01 de
fevereiro de 2011.
[94] UNIVERSIDADE FEDERAL DO ABC - UFABC. Pós-Graduação em
Engenharia da Informação. Engenharia da Informação. Disponível em:
<http://posinfo.ufabc.edu.br/index_arquivos/EngenhariaInformacao.htm>. Acessado
em 12 de julho de 2010.
[95] VAZQUEZ, Miguel; KRALLINGER, Martin; LEITNER, Florian; VALENCIA,
Alfonso. Text Mining for Drugs and Chemical Compounds: Methods, Tools and
Applications. Molecular Informatics. Volume 30, Issue 6-7, p. 506–519. Wiley-VCH
Verlag GmbH & Co. KGaA, Weinheim, junho de 2011.
[96] VIEWEG, Sarah; HUGHES, Amanda L.; STARBIRD, Kate; PALEN, Leysia.
Microblogging During Two Natural Hazards Events: What Twitter May Contribute
to Situational Awareness. In: CHI 2010: Crisis Informatics. Atlanta, Georgia: 10–15
de abril de 2010.
[97] VOS, Femke; RODRIGUEZ, Jose; BELOW, Regina; GUHA-SAPIR, D.. Annual
Disaster Statistical Review 2009 - The numbers and trends. Centre for Research
on the Epidemiology of Disasters. Brussels, 2010.
163
[98] WAKITA, Ken; TSURUMI, Toshiyuki. Finding community structure in megascale social networks. Computers and Society; Physics and Society. Cornell
University, arXiv.org: 2007. Disponível em: <http://arxiv.org/pdf/cs/0702048v1.pdf>.
Acessado em 03 de abril de 2012.
[99] WATTS, Duncan J. Six Degrees. The Science of a Connected Age. New York:
W. W. Norton &Company, 2003.
[100] YATES, Dave; PAQUETTE, Scott. Emergency knowledge management and
social media technologies: A case study of the 2010 Haitian earthquake.
Proceedings of the American Society for Information Science and Technology. Vol.
47, p. 1–9, novembro/dezembro de 2010.
[101] ZUJI, Qiang; ZUOXUN, Zeng; JIE, Wang; AI’NAI, Ma; XIE, Hongjie. Study on
Short-term and Imminent Earthquake Prediction Using the Satellite Thermal
Infrared Technique. In: Fourth International Conference on Cooperation and
Promotion of Information Resources in Science and Technology. Beijing, novembro
de 2009.
164
APÊNDICE A – Comandos para Corpus Chile em Método Não Supervisionado
Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
****************************************************************
Personal firewall software may warn about the connection IDLE
makes to its subprocess using this computer's internal loopback
interface. This connection is not visible on any external
interface and no data is sent to or received from the Internet.
****************************************************************
IDLE 2.6.6
>>> # -*-coding: iso-8859-1 -*>>> import nltk
>>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de
São Paulo Etiquetado/Chile'
>>> from nltk.corpus import PlaintextCorpusReader
>>> wordlists= PlaintextCorpusReader(corpus_root, '.*')
>>> sentenc = wordlists.sents()
>>> len(sentenc)
3187
>>> i=0
>>> strsenti = ''
>>> while i <= 3186:
if sentenc[i].count('PROP') != 0:
strinst = " ".join(sentenc[i])
strsenti = strsenti + strinst + '###'
strinst = ''
i +=1
continue
>>> listinst = strsenti.split('###')
>>> len(listinst)
1899
>>> k=0
>>> while k <= 1898:
output_file.write(listinst[k] + "\n")
k +=1
continue
>>> listinst[1898]
''
>>> listinst[1899]
Traceback (most recent call last):
File "<pyshell#21>", line 1, in <module>
listinst[1899]
IndexError: list index out of range
>>> palverb = wordlists.words()
>>> len(palverb)
1128585
>>> etverb = [w for w in palverb if w.startswith('v')]
165
>>> etverb[:10]
['vt', 'vi', 'vt', 'vi', 'vt', 'vt', 'vt', 'vt', 'vi', 'vda']
>>> len(etverb)
27874
>>> len(set(etverb))
330
>>> etverb = set(etverb)
>>> len(etverb)
330
>>> verbs = []
>>> i=0
>>> while i <= 1128584:
if palverb[i] in etverb:
if palverb[i-1] == '<':
if palverb[i-2] == ']':
verbs.append(palverb[i-3])
i +=1
continue
>>> verbs[:15]
['escalar', 'escalar', 'atingir', 'matar', 'noticiar', 'noticiar', 'ir', 'ser', 'ir', 'ser', 'afetar', 'durar', 'ir', 'ser', 'sentir']
>>> len(verbs)
15697
>>> verbosd = set(verbs)
>>> len(verbosd)
1396
>>> verbosd
set(['vomitar', 'acordar', 'desembocar', 'tratar', 'receitar', 'suar', 'infectar', 'parir', 'retirar', 'precisar', 'exigir',
'filar', 'relaxar', 'desligar', 'afirmar', 'pipocar', 'possuir', 'rotinar', 'revestir', 'atingir', 'vaguear', 'casar',
'desconvidar', 'decidir', 'encarar', 'exibir', 'velar', 'mencionar', 'enxergar', 'maridar', 'economizar', 'nascer',
'enfrentar', 'emaranhar', 'revolver', 'reembolsar', 'explorar', 'brigar', 'custar', 'preparar', 'ater', 'embarcar',
'futurar', 'acertar', 'lamentar', 'jurar', 'mercar', 'declarar', 'difundir', 'morar', 'aplaudir', 'alunar', 'certificar',
'soldar', 'barricar', 'unir', 'comparecer', 'comemorar', 'gravar', 'reformular', 'papear', 'rugir', 'contaminar',
'continuar', 'mexer', 'sortir', 'pertencer', 'destruir', 'melhorar', 'necessitar', 'surtir', 'vagar', 'desfilar', 'adquirir',
'repor', 'valar', 'surpreender', 'apagar', 'titular', 'erguer', 'recolocar', 'expressar', 'significar', 'polir', 'patentear',
'parcelar', 'soterrar', 'incentivar', 'ordenar', 'pacificar', 'preferir', 'sentir', 'copar', 'igualar', 'aliar', 'romper',
'arrecadar', 'enxugar', 'carnar', 'elencar', 'elevar', 'recusar', 'abonar', 'proibir', 'efetivar', 'bestar', 'normalizar',
'surgir', 'potenciar', 'pifar', 'mear', 'pontar', 'perguntar', 'sublinhar', 'abordar', 'contornar', 'promover', 'tremer',
'pairar', 'escapar', 'reservar', 'procurar', 'ensaiar', 'riscar', 'conquistar', 'ousar', 'matar', 'carregar', 'asfaltar',
'finar', 'acontecer', 'entrar', 'improvisar', 'realizar', 'bater', 'alterar', 'dispersar', 'deixar', 'adotar', 'render',
'utilizar', 'batalhar', 'cornar', 'encolher', 'agregar', 'pulsar', 'industriar', 'amarelar', 'repassar', 'lecionar', 'gerar',
'assolar', 'esquiar', 'corresponder', 'evoluir', 'abrir', 'reativar', 'propagar', 'cicatrizar', 'cheirar', 'reproduzir',
'dominar', 'protocolar', 'crescer', 'bombardear', 'sentenciar', 'saquear', 'indignar', 'piscar', 'deliberar', 'salvar',
'estacionar', 'ignorar', 'receber', 'desfazer', 'conceder', 'desviar', 'programar', 'regular', 'acusar', 'responder',
'amanhecer', 'regressar', 'deputar', 'datar', 'caber', 'despir', 'anunciar', 'encurtar', 'relacionar', 'motivar',
'arrombar', 'comportar', 'reconquistar', 'somelier', 'imprimir', 'comprar', 'torturar', 'olhar', 'acreditar', 'policiar',
'enforcar', 'alertar', 'cancelar', 'dividir', 'marcar', 'campar', 'alarmar', 'aumentar', 'sair', 'restar', 'adiar',
'museodelamemorir', 'classificar', 'aparar', 'mineirar', 'demostrar', 'justificar', 'falar', 'concluir', 'estrear',
'transportar', 'irritar', 'reverter', 'desativar', 'cumprimentar', 'centralizar', 'intrigar', 'basear', 'puxar', 'capturar',
'desabafar', 'plantar', 'bordar', 'atribuir', 'perseguir', 'demover', 'filmar', 'assegurar', 'reajustar', 'perigar',
'predeterminar', 'taxar', 'mobilizar', 'processar', 'anteceder', 'cabecear', 'tombar', 'interessar', 'reter', 'remediar',
'encontrar', 'mentir', 'consolidar', 'servir', 'pitar', 'ir', 'computar', 'frutar', 'alimentar', 'cobrir', 'contingentar',
'atracar', 'livrar', 'grupar', 'pescar', 'afetar', 'portar', 'inquietar', 'aparecer', 'produzir', 'aderir', 'obstruir', 'calmar',
'musicar', 'restaurar', 'figurar', 'desaparecer', 'lutar', 'brochar', 'cursar', 'rondar', 'destacar', 'enterrar', 'ancorar',
166
'expor', 'comprometer', 'torcer', 'duplicar', 'esconder', 'aportar', 'aprender', 'adequar', 'agrar', 'negar',
'abandonar', 'pesquisar', 'cilindrar', 'aparentar', 'eclodir', 'enrolar', 'rever', 'arcar', 'beneficiar', 'testemunhar',
'impulsionar', 'apontar', 'circuitar', 'respingar', 'dentar', 'excluir', 'habilitar', 'modelar', 'chicotear', 'implicar',
'corar', 'estranhar', 'refazer', 'encostar', 'decorar', 'sediar', 'afundar', 'frustrar', 'salvaguardar', 'assustar',
'empenhar', 'remover', 'seguir', 'telefonar', 'solar', 'ceder', 'culpar', 'rotular', 'antecipar', 'deparar', 'umedecer',
'cumprir', 'amentar', 'atenuar', 'ganhar', 'desmantelar', 'condenar', 'encarregar', 'minar', 'prover', 'liberar',
'aparelhar', 'saber', 'entrevistar', 'derrotar', 'zerar', 'fornir', 'optar', 'intensificar', 'rodar', 'documentar',
'fantasiar', 'obrar', 'martelar', 'arrebatar', 'armazenar', 'levantar', 'providenciar', 'esquecer',
'museodelamemorer', 'armar', 'endurecer', 'ver', 'abaixar', 'empatar', 'educar', 'debater', 'anotar', 'funcionar',
'minutar', 'placar', 'montar', 'regularizar', 'querer', 'calcular', 'seduzir', 'participar', 'aproximar', 'manejar',
'saltar', 'quedar', 'chorar', 'vigorar', 'locar', 'mudar', 'conceber', 'enganar', 'militar', 'resenhar', 'descender',
'desistir', 'desertar', 'ostentar', 'localizar', 'desembolsar', 'discordar', 'finalizar', 'papar', 'suceder', 'decretar',
'repudiar', 'pilhar', 'chocar', 'persistir', 'prejudicar', 'limpar', 'garantir', 'varrer', 'facilitar', 'exilar', 'tirar',
'conviver', 'trazer', 'apostar', 'construir', 'incrementar', 'perder', 'conduzir', 'roncar', 'desmoronar', 'agendar',
'colocar', 'bolsar', 'ligar', 'aproveitar', 'guiar', 'atar', 'suspeitar', 'esperar', 'controlar', 'sofrer', 'legendar',
'trepidar', 'acionar', 'vezar', 'escalar', 'estender', 'oscilar', 'atrapalhar', 'tabelar', 'totalizar', 'objetar', 'migalhar',
'passar', 'emprestar', 'temer', 'destituir', 'determinar', 'esculhambar', 'castigar', 'disciplinar', 'presentear', 'citar',
'encaixotar', 'respirar', 'engravidar', 'organizar', 'agir', 'dispor', 'partir', 'nominar', 'fazer', 'sugerir', 'travar',
'convocar', 'migrar', 'driblar', 'acrescentar', 'reprovar', 'insistir', 'deslizar', 'registrar', 'instaurar', 'cincar', 'acirrar',
'suspender', 'misturar', 'chutar', 'namorar', 'preencher', 'avaliar', 'poupar', 'ajustar', 'enfraquecer', 'contribuir',
'aceitar', 'alar', 'beber', 'lucrar', 'quantificar', 'pegar', 'mergulhar', 'r', 'restabelecer', 'reclamar', 'mandatar',
'banhar', 'requerer', 'apoiar', 'convencer', 'luxar', 'mangar', 'reconstituir', 'submeter', 'idear', 'despencar',
'convidar', 'alastrar', 'assessorar', 'responsar', 'enfeitar', 'disputar', 'morder', 'liderar', 'colorir', 'refugar',
'descasar', 'enviar', 'prestar', 'arquitetar', 'focalizar', 'justar', 'agradar', 'aprofundar', 'ouvir', 'perspectivar',
'inocentar', 'confundir', 'confiar', 'soltar', 'remarcar', 'fuzilar', 'ressaltar', 'quintar', 'referir', 'descer', 'rolar',
'carecer', 'decapitar', 'blindar', 'presenciar', 'empregar', 'baldar', 'contar', 'danar', 'emanar', 'varejar', 'instruir',
'descobrir', 'lamber', 'estar', 'federar', 'agravar', 'vender', 'achar', 'manifestar', 'licitar', 'aposentar', 'refletir',
'ministrar', 'consumar', 'segmentar', 'solicitar', 'raiar', 'desafiar', 'crer', 'comer', 'acometer', 'repartir', 'acabar',
'inteirar', 'entregar', 'mapear', 'bolar', 'administrar', 'denunciar', 'findar', 'externar', 'conciliar', 'restringir',
'rodear', 'estrelar', 'conformar', 'preocupar', 'evidenciar', 'desmontar', 'flexibilizar', 'adentrar', 'planar', 'zonar',
'ensejar', 'deitar', 'simbolizar', 'balir', 'entrincheirar', 'medir', 'devolver', 'iluminar', 'arder', 'contemplar',
'coriscar', 'pressionar', 'empurrar', 'apressar', 'parar', 'patrocinar', 'mimar', 'postar', 'enlouquecer', 'podar',
'contrapor', 'duelar', 'anestesiar', 'desarmar', 'librar', 'viver', 'fragmentar', 'voar', 'estimular', 'fracassar',
'consultar', 'estressar', 'falhar', 'vagir', 'violentar', 'fabricar', 'compreender', 'equipar', 'criticar', 'comungar',
'ofertar', 'publicar', 'virar', 'barrir', 'coincidir', 'positivar', 'contatar', 'atender', 'reciclar', 'vazar', 'desbancar',
'reinar', 'ocupar', 'desabrigar', 'centrar', 'tornear', 'luzir', 'compartilhar', 'decifrar', 'engomar', 'premeditar',
'transformar', 'excepcionar', 'aguar', 'monitorar', 'firmar', 'discutir', 'reagir', 'premir', 'dormir', 'ultrapassar',
'colapsar', 'colher', 'desesperar', 'notar', 'desembarcar', 'exemplar', 'elogiar', 'fugir', 'cadastrar', 'ar', 'mover',
'financiar', 'cooperar', 'pedir', 'usufruir', 'originar', 'extraviar', 'largar', 'gerenciar', 'correr', 'separar', 'superlotar',
'legar', 'tumultuar', 'adiantar', 'desculpar', 'viajar', 'acumular', 'aplicar', 'inflacionar', 'existir', 'socorrer',
'assentar', 'precipitar', 'ferir', 'pousar', 'comerciar', 'faixar', 'reconhecer', 'dirigir', 'revezar', 'provar', 'afiar',
'enriquecer', 'narrar', 'ter', 'protestar', 'estabilizar', 'passear', 'liberalizar', 'sanear', 'situar', 'exportar', 'abalar',
'variar', 'modular', 'descansar', 'machucar', 'congelar', 'comprovar', 'desamparar', 'refinar', 'evitar',
'argumentar', 'banir', 'acender', 'desiludir', 'vir', 'ampliar', 'movimentar', 'caiar', 'obrigar', 'provocar', 'prever',
'amigar', 'descrever', 'incluir', 'expedir', 'rebaixar', 'assuntar', 'colidir', 'popularizar', 'recolher', 'espelhar', 'levar',
'bancar', 'centrifugar', 'ressalvar', 'sacar', 'baixar', 'engendrar', 'objetivar', 'iniciar', 'relatar', 'interromper',
'concordar', 'evacuar', 'possibilitar', 'maravilhar', 'voltar', 'retomar', 'botar', 'herdar', 'saldar', 'gozar',
'reconstruir', 'respaldar', 'distribuir', 'pilotar', 'torrar', 'fundamentar', 'desempregar', 'fundar', 'exterminar',
'rotar', 'aquecer', 'resgatar', 'segurar', 'juramentar', 'leiloar', 'demorar', 'buscar', 'afastar', 'clicar', 'curtir',
'consolar', 'valorar', 'ficar', 'vivenciar', 'completar', 'sonhar', 'profundar', 'subir', 'enumerar', 'acostumar',
'estalar', 'cercar', 'multar', 'visitar', 'interpretar', 'fossar', 'mirar', 'tencionar', 'envolver', 'agitar', 'bloquear',
'revoltar', 'difer', 'deslocar', 'encaminhar', 'ilhar', 'analisar', 'fiar', 'aprovar', 'divulgar', 'atravessar', 'falir',
'prender', 'esfalfar', 'aguardar', 'sitiar', 'extinguir', 'admitir', 'buzinar', 'radicar', 'retornar', 'bifar', 'apelidar',
'parlamentar', 'gemer', 'conhecer', 'priorizar', 'disponibilizar', 'ingressar', 'transitar', 'fixar', 'lubrificar', 'revisar',
167
'novar', 'assistir', 'revogar', 'gessar', 'relativizar', 'cobrar', 'revelar', 'monopolizar', 'instituir', 'internar', 'arrasar',
'recear', 'tentar', 'advogar', 'encantar', 'coordenar', 'amar', 'permanecer', 'sentar', 'direcionar', 'liquidar',
'desolar', 'estreitar', 'superar', 'elaborar', 'rachar', 'retratar', 'festar', 'informatizar', 'discursar', 'sustentar',
'emitir', 'depender', 'revistar', 'ruir', 'sobreviver', 'sustar', 'afligir', 'conturbar', 'assumir', 'estocar', 'cogitar',
'chilepersonfinder', 'intervalar', 'aprontar', 'grudar', 'cessar', 'albergar', 'ser', 'especializar', 'agigantar',
'individuar', 'demonstrar', 'tender', 'esvaziar', 'merecer', 'esgoelar', 'esclarecer', 'ofender', 'pagar', 'vulnerar',
'Kissinger', 'descontar', 'solucionar', 'discernir', 'errar', 'latir', 'experimentar', 'cortar', 'alhear', 'considerar',
'desconhecer', 'operar', 'atear', 'disparar', 'imaginar', 'juntar', 'andar', 'alinhar', 'impelir', 'dizer', 'cruzar', 'tarifar',
'esquentar', 'equilibrar', 'derrubar', 'recomendar', 'criar', 'chegar', 'empilhar', 'gerir', 'entusiasmar', 'reformar',
'devir', 'ensinar', 'abolir', 'abranger', 'deter', 'guardar', 'repetir', 'cantar', 'reduzir', 'vaziar', 'piar', 'durar',
'arremessar', 'impedir', 'vitimar', 'acolher', 'segar', 'premiar', 'filhar', 'impostar', 'rir', 'entrever', 'madrugar',
'conter', 'quadrar', 'orquestrar', 'aldear', 'vendar', 'contestar', 'conectar', 'focar', 'autorizar', 'recompensar',
'folhar', 'complicar', 'desconfortar', 'doar', 'acampar', 'resumir', 'desacostumar', 'apreciar', 'acarretar',
'sofisticar', 'recorrer', 'conversar', 'reeleger', 'usinar', 'propor', 'desenhar', 'avistar', 'verificar', 'globalizar',
'sequestrar', 'furtar', 'combinar', 'apresentar', 'mandar', 'ocorrer', 'ajudar', 'informar', 'emigrar', 'azarar', 'tomar',
'formar', 'volver', 'desacelerar', 'piorar', 'madeirar', 'permitir', 'comover', 'duvidar', 'exteriorizar', 'mostrar',
'ressacar', 'comparar', 'eliminar', 'emocionar', 'comandar', 'rebater', 'editorar', 'transmitir', 'injetar', 'tocar',
'secar', 'impor', 'avisar', 'aliviar', 'prevenir', 'acompanhar', 'emalhar', 'agradecer', 'gastar', 'integrar', 'projetar',
'hospedar', 'limitar', 'estabelecer', 'escolher', 'visar', 'telhar', 'granir', 'exercer', 'poder', 'votar', 'inundar',
'detalhar', 'selar', 'descarregar', 'indicar', 'tardar', 'articular', 'delinear', 'favorecer', 'implementar', 'proteger',
'engolir', 'lembrar', 'caminhar', 'recordar', 'demitir', 'recair', 'difir', 'nevar', 'protagonizar', 'contratar', 'cotar',
'ativar', 'representar', 'industrializar', 'pretender', 'alugar', 'estrangeirar', 'manter', 'definir', 'acalmar',
'desenvolver', 'abreviar', 'atrasar', 'atualizar', 'privar', 'palestrar', 'amontoar', 'honrar', 'orgulhar', 'empresar',
'vestir', 'secretar', 'pular', 'ocultar', 'apaixonar', 'roubar', 'entender', 'estimar', 'estivar', 'atacar', 'noticiar',
'defender', 'madurar', 'esgotar', 'valer', 'cozinhar', 'desanimar', 'recuperar', 'subscrever', 'colaborar', 'tremar',
'ler', 'falecer', 'destinar', 'atrair', 'constatar', 'escudar', 'oficiar', 'espantar', 'causar', 'substituir', 'pesar',
'executar', 'comentar', 'aclamar', 'tragar', 'perceber', 'assaltar', 'supor', 'anoitecer', 'beirar', 'prolongar', 'trocar',
'opor', 'dedicar', 'seriar', 'danificar', 'responsabilizar', 'expandir', 'conferir', 'permear', 'animar', 'importar',
'inaugurar', 'circular', 'lotar', 'editar', 'estudar', 'inspirar', 'decolar', 'extremar', 'redirecionar', 'patrulhar',
'extrair', 'arrastar', 'aconselhar', 'descartar', 'delegar', 'prazer', 'meter', 'rendar', 'lustrar', 'traumatizar', 'dubrar',
'aguentar', 'criminar', 'esmagar', 'cunhar', 'desejar', 'listar', 'treinar', 'concorrer', 'testar', 'pisar', 'vencer', 'dever',
'encravar', 'imprensar', 'dar', 'gritar', 'selecionar', 'contrair', 'contrastar', 'engenhar', 'fornecer', 'convir',
'consertar', 'contabilizar', 'diferir', 'disseminar', 'vizinhar', 'multiplicar', 'orientar', 'odiar', 'diversificar',
'desmotivar', 'que', 'jogar', 'cair', 'pautar', 'apelar', 'invernar', 'abastar', 'suportar', 'interligar', 'vigiar',
'demandar', 'acalorar', 'instalar', 'detectar', 'isolar', 'aspirar', 'tramar', 'drogar', 'privilegiar', 'capar', 'haver',
'vingar', 'despertar', 'eleger', 'respeitar', 'associar', 'letrar', 'observar', 'dosar', 'dobrar', 'quebrar', 'trancar',
'ecoar', 'obsoletar', 'fingir', 'abastecer', 'sedar', 'gestar', 'poetar', 'explicar', 'recuar', 'adaptar', 'tornar', 'espiar',
'confrontar', 'desempenhar', 'gramar', 'atuar', 'frequentar', 'exagerar', 'terminar', 'desenfrear', 'vidrar', 'pensar',
'consagrar', 'explodir', 'estruturar', 'girar', 'escassear', 'deslanchar', 'apertar', 'encerrar', 'topar', 'desabar',
'pingar', 'orlar', 'escrever', 'granar', 'fitar', 'palitar', 'identificar', 'interferir', 'esfaquear', 'fermentar', 'rumar',
'vetar', 'acelerar', 'apor', 'redar', 'devastar', 'confirmar', 'carbonizar', 'ambientar', 'acentuar', 'trabalhar',
'marchar', 'combater', 'formatar', 'assimilar', 'barrar', 'conseguir', 'faturar', 'beijar', 'parecer', 'submergir',
'marinhar', 'apurar', 'apavorar', 'compor', 'gradar', 'faltar', 'encarcerar', 'espumar', 'posar', 'afrouxar',
'medicinar', 'reerguer', 'desprender', 'chamar', 'sublevar', 'cortejar', 'sobrar', 'massacrar', 'abrigar', 'transferir',
'concentrar', 'falsar', 'competir', 'retardar', 'constituir', 'traduzir', 'entornar', 'interpor', 'dificultar', 'amenizar',
'degradar', 'inviabilizar', 'interditar', 'governar', 'racionar', 'acenar', 'sacudir', 'homenagear', 'encarecer', 'nadar',
'jantar', 'quadruplicar', 'rezar', 'reunir', 'resultar', 'fechar', 'resistir', 'estradar', 'fortalecer', 'costumar', 'resolver',
'assentir', 'diminuir', 'desaquecer', 'ritmar', 'sujeitar', 'presentar', 'ditar', 'desencadear', 'assinar', 'morrer',
'estragar', 'doer', 'aventurar', 'adicionar', 'amplificar', 'consumir', 'somar', 'investir', 'usar', 'sacramentar',
'fomentar', 'triscar', 'acessar', 'chacoalhar', 'barulhar', 'primar', 'saudar', 'obter', 'questionar', 'lidar',
'proporcionar', 'checar', 'brilhar', 'enunciar', 'brincar', 'espalhar', 'qualificar', 'alegar', 'converter', 'inexistir',
'deformar', 'negociar', 'empanar', 'inflamar', 'invadir', 'arrumar', 'regrar', 'prosseguir', 'balar', 'oar', 'investigar',
'apetrechar', 'oferecer', 'esfacelar', 'auxiliar', 'descontrair', 'prometer', 'pilar', 'encharcar', 'fundir', 'vistoriar',
'percorrer'])
168
>>> stopwords = nltk.corpus.stopwords.words('portuguese')
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords)
>>> fd2
<FreqDist with 1395 outcomes>
>>> sw2 = [w.title() for w in stopwords]
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and
w.isalpha())
>>> fd2
<FreqDist with 1394 outcomes>
>>> verbosf = fd2.keys()
>>> texto = wordlists.fileids()
>>> len(texto)
144
>>> grandstr = ''
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in verbosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> output_file2 = open('VC.txt', 'w')
>>> output_file2.write(grandstr)
>>> k
144
>>> grandstr[:10]
'1.txt;ir;5'
>>> output_file2.write(grandstr)
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Chile/PROP'
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
63418
>>> palavras[:10]
['[', 'Richter', ']', '<*>', 'PROP', 'M', '/', 'F', 'S', '/']
>>> i=0
>>> ent=[]
>>> while i <= 63417:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
4606
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 4239 outcomes>
>>> ent[:10]
['Richter', 'Argentina', 'La', 'La', 'Prov\xc3', 'Clar\xc3', 'San', 'San', 'Instituto', 'Inpres']
>>> propriosf = fd3.keys()
>>> grandstr = ''
169
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:10]
'1.txt;PS;1'
>>> grandstr[:20]
'1.txt;PS;11;@@@10.tx'
>>> grandstr[:50]
'1.txt;PS;11;@@@10.txt;PS;11;@@@100.txt;PS;7;@@@101'
>>> sw2.append('PS')
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 4238 outcomes>
>>> propriosf = fd3.keys()
>>> grandstr = ''
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:50]
'1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;primeiro;3'
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha() and
w.istitle())
>>> fd
<FreqDist with 10 outcomes>
>>> fd
<FreqDist with 10 outcomes>
>>> fd3
<FreqDist with 3009 outcomes>
>>> propriosf = fd3.keys()
>>> propriosf.count('PSDB')
0
>>> propriosf.count('Chile')
1
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha() and
w.istitle() or w.upper())
>>> fd3
<FreqDist with 4606 outcomes>
>>> propriosf = fd3.keys()
>>> propriosf.count('PSDB')
1
>>> grandstr = ''
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
170
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:50]
'1.txt;S;133;@@@10.txt;M;455;@@@100.txt;M;104;@@@10'
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 4238 outcomes>
>>> prointer = = fd3.keys()
SyntaxError: invalid syntax
>>> prointer = fd3.keys()
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle() or w.upper())
>>> fd4
<FreqDist with 1624 outcomes>
>>> propriosf = fd4.keys()
>>> propriosf.count('PSDB')
1
>>> propriosf.count('Chile')
1
>>> propriosf.count('S')
0
>>> grandstr = ''
>>> K=0
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:50]
'1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;primeiro;3'
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle())
>>> prop1 = fd4.keys()
>>> fd5 = nltk.FreqDist(w for w in prointer if w.upper())
>>> prop2 = fd5.keys()
>>> prop2[1550:]
['Veja', 'Vejo', 'Vemos', 'Venezuela', 'Via', 'Vicente', 'Victor', 'Vida', 'Videografia', 'Vietn\xc3', 'Vigilantes', 'Vik',
'Vila', 'Vilalva', 'Vila\xc3', 'Vino', 'Vinson', 'Virada', 'Vivo', 'Vizinho', 'Vi\xc3', 'Voltaire', 'V\xc3', 'WANDERLEY',
'WTA', 'Wagner', 'Waikiki', 'Washington', 'Welcome', 'Well', 'Wembley', 'Wen', 'West', 'WikiLeaks', 'Wikip\xc3',
'Will', 'William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'XGAMES', 'Xinhua', 'Xynthia', 'YOGO', 'Yadin',
'Yes', 'Yolanda', 'YouTube', 'Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3',
'emerg\xc3\xaancia', 'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar',
'propor\xc3', 'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo']
>>> prop1[1200:]
['William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'Xinhua', 'Xynthia', 'Yadin', 'Yes', 'Yolanda', 'Your',
'Yukari', 'Zeca', 'Zeke', 'Zenith', 'Zou']
>>> prop2[1608]
'amanh\xc3'
>>> prop2[1606:1608]
['Zou', 'Z\xc3']
171
>>> propriosf = prop1 + prop2[:1608]
>>> len(propriosf)
2825
>>> len(set(propriosf))
1608
>>> propriosf = set(propriosf)
>>> len(propriosf)
1608
>>> grandstr = ''
>>> k=0
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:100]
'1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;Chile;2;@@@101.txt;Brasil;10;@@@102.txt;Jap\xc3;4;@@@
103.txt;Br'
>>> output_file2 = open('PC.txt', 'w')
>>> output_file2.write(grandstr)
>>> resPV = []
>>> I=0
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP = []
>>> strp = ''
>>> len(sentenc)
3187
>>> len(verbosf)
1394
>>> while k <= 1393:
while i <= 3186:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> verbosf.index('ajudar')
71
>>> resPV[71]
172
'ajudar--->Folha Sebasti\xc3 ONU Bachelet Carlos Talca Haiti EUA Gonz\xc3 Uni\xc3 Santiago Timor Rio H\xc3
Hillary Paraguai Lula Cuba Jos\xc3 Uruguai Gr\xc3 Bol\xc3 Jardim Conselho Guatemala RJ Barack D\xc3
Venezuela Silva DANIEL Prov\xc3 Pi\xc3 Obama Brasil S\xc3 Bras\xc3 Michelle Montevid\xc3 PI\xc3
Quirguist\xc3 Guin\xc3 Presid\xc3\xaancia Cabo Luiz Ushahidi Embaixada Pr\xc3 Angola Mercosul Paulo
Mo\xc3 Sri Sandra Chile Am\xc3/n'
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPC.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
1394
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Chile/ETIQUETADOS Chile - Léxico'
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
174010
>>> palavras[:10]
['H', '[', 'crian\xc3', '\xa7', 'a', ']', '<', 'H', '>', 'N']
>>> i=0
>>> ent=[]
>>> while i <= 174009:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
12281
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 11786 outcomes>
>>> propriosf = fd3.keys()
>>> texto = wordlists.fileids()
>>> grandstr = ''
>>> k=0
>>> len(propriosf)
1353
>>> fd3
<FreqDist with 11786 outcomes>
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:100]
'1.txt;norte;6;@@@10.txt;ser;19;@@@100.txt;extremo;3;@@@101.txt;n\xc3;15;@@@102.txt;maremoto;3;
@@@103.tx'
>>> output_file2 = open('EC.txt', 'w')
>>> output_file2.write(grandstr)
>>> i=0
>>> k=0
>>> ent=[]
173
>>> nomesP=[]
>>> resPV = []
>>> strp = ''
>>> len(sentenc)
3187
>>> len(verbosf)
1394
>>> while k <= 1393:
while i <= 3186:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> verbosf.index('ajudar')
71
>>> resPV[71]
'ajudar--->ano dia terremoto segundo pa\xc3 hora regi\xc3 presidente governo brasileiro chileno cidade centro
setor parte pessoa passado ser casa s\xc3 maior cat\xc3 falha m\xc3 local morador v\xc3 rua fam\xc3 equipe
fundo onda militar semana bem caso forte pr\xc3 morte pol\xc3 popula\xc3 ser\xc3 aeroporto segunda
emerg\xc3\xaancia encontro hospital ponte falta acesso jornalista maioria rio vez chin\xc3\xaas corpo enviado
funcion\xc3 maremoto p\xc3\xbablico dinheiro est\xc3 l\xc3 pai poder direito embaixador manh\xc3 n\xc3
ordem recurso veio especialista linha volta c\xc3 prefeito p\xc3 contato escola demora habitante reuni\xc3 alto
andar d\xc3 ex quarta agente bar chegada comida cr\xc3 fila parada t\xc3 vizinho zona entidade financeiro
receita sobrevivente cidad\xc3 colega limite representa\xc3 terreno avan\xc3 barraca corretor cuba doa\xc3
premi\xc3\xaa recess\xc3 sa\xc3 solar via aposta assento auto boliviano dom inverno multid\xc3 tremor
contribui\xc3 esquerdista fogo gar\xc3 volunt\xc3 assistente banheiro democrata doador efetivo mo\xc3
pescador r\xc3 vereador cozinha crist\xc3 fuzileiro gestor revolta veterano/n'
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVEC.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
1394
174
APÊNDICE B – Comandos para Corpus Haiti em Método Não Supervisionado
Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
****************************************************************
Personal firewall software may warn about the connection IDLE
makes to its subprocess using this computer's internal loopback
interface. This connection is not visible on any external
interface and no data is sent to or received from the Internet.
****************************************************************
IDLE 2.6.6
>>> # -*-coding: iso-8859-1 -*>>> import nltk
>>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de
São Paulo Etiquetado/Haiti'
>>> from nltk.corpus import PlaintextCorpusReader
>>> wordlists= PlaintextCorpusReader(corpus_root, '.*')
>>> sentenc = wordlists.sents()
>>> len(sentenc)
20325
>>> i=0
>>> strsenti = ''
>>> while i <= 20324:
if sentenc[i].count('PROP') != 0:
strinst = " ".join(sentenc[i])
strsenti = strsenti + strinst + '###'
strinst = ''
i +=1
continue
>>> i
20325
>>> listinst = strsenti.split('###')
>>> len(listinst)
12214
>>> output_file = open('PROPH.txt', 'w')
>>> k=0
>>> while k <= 12213:
output_file.write(listinst[k] + "\n")
k +=1
continue
>>> listinst[12213]
''
>>> listinst[12214]
Traceback (most recent call last):
File "<pyshell#21>", line 1, in <module>
listinst[12214]
IndexError: list index out of range
175
>>> listinst[12212]
'Zilda [ Zilda ] <*> PROP M / F S / P \\, segundo [ segundo ] < rel > < ks > < prp > ADV [ segundo ] < NUM - ord >
ADJ M S [ segundo ] < dur > < unit > N M S a [ o ] < artd > < dem > DET F S [ ela ] PERS F 3S ACC [ a ] PRP [ a ] < ac
- sign > N M S freira [ freira ] < Htit > N F S \\, fez [ fez ] N M S [ fazer ] < vt > < vtK > V PS 3S IND VFIN sua [ seu ]
< poss 3S / P > < si > DET F S [ suar ] < vi > < vt > V IMP 2S VFIN [ suar ] < vi > < vt > V PR 3S IND VFIN
\xc3\xbaltima [ \xc3\xbaltimo ] < sem - c > < sit > N F S [ \xc3\xbaltimo ] < NUM - ord > ADJ F S palestra [
palestra ] < sem - s > N F S [ palestrar ] < vi > V IMP 2S VFIN [ palestrar ] < vi > V PR 3S IND VFIN com [ com ] <* 1
> PRP muito [ muito ] < quant > ADV [ muito ] < quant > DET M S entusiasmo [ entusiasmo ] <* 2 > < am > <
percep - f > N M S [ entusiasmar ] <* 2 > < vt > V PR 1S IND VFIN .'
>>> palverb = wordlists.words()
>>> etverb = [w for w in palverb if w.startswith('v')]
>>> etverb = set(etverb)
>>> len(etverb)
737
>>> len(palverb)
6890079
>>> verbs = []
>>> i=0
>>> while i <= 6890078:
if palverb[i] in etverb:
if palverb[i-1] == '<':
if palverb[i-2] == ']':
verbs.append(palverb[i-3])
i +=1
continue
>>> verbs[:15]
['oferecer', 'ajudar', 'ajudar', 'governar', 'pedir', 'coordenar', 'preparar', 'preparar', 'casar', 'mostrar',
'monitorar', 'ajudar', 'ajudar', 'dizer', 'ir']
>>> len(verbs)
96344
>>> verbosd = set(verbs)
>>> len(verbosd)
2638
>>> verbosd
set(['vomitar', 'lesar', 'acordar', 'desembocar', 'tratar', 'desorientar', 'receitar', 'massificar', 'suar', 'escriturar',
'serpentar', 'infectar', 'superaquecer', 'parir', 'divertir', 'retirar', 'deslumbrar', 'fazer', 'exigir', 'filar', 'ensandecer',
'relaxar', 'desligar', 'hesitar', 'afirmar', 'atinjir', 'pipocar', 'possuir', 'rotinar', 'travar', 'atingir', 'imperar', 'casar',
'condizer', 'desencavar', 'folgar', 'decidir', 'rasteirar', 'encarar', 'exibir', 'acobertar', 'reapresentar', 'incorporar',
'mencionar', 'ansiar', 'piar', 'aterrar', 'calibrar', 'gratificar', 'ciar', 'silenciar', 'convocar', 'encorajar', 'economizar',
'estagnar', 'pausar', 'presidir', 'sensibilizar', 'nascer', 'admirar', 'enfrentar', 'obedecer', 'emperrar', 'revolver',
'reivindicar', 'reiterar', 'desdobrar', 'nacionalizar', 'reembolsar', 'restar', 'interrogar', 'brigar', 'custar', 'fertilizar',
'preparar', 'ater', 'embarcar', 'futurar', 'direitolatrir', 'acertar', 'suquir', 'aplainar', 'libertar', 'anular', 'lamentar',
'jurar', 'mercar', 'declarar', 'imergir', 'difundir', 'morar', 'driblar', 'aplaudir', 'alunar', 'desocupar', 'recontar',
'certificar', 'desembarcar', 'barricar', 'unir', 'esteirar', 'comparecer', 'comemorar', 'origamir', 'pupilar', 'gravar',
'sinalizar', 'reformular', 'desmatar', 'itinerar', 'desesperar', 'encher', 'contaminar', 'saber', 'vegetar', 'pecar',
'mexer', 'prescindir', 'relar', 'pendurar', 'baratear', 'sortir', 'pertencer', 'destruir', 'melhorar', 'subentender',
'configurar', 'cassar', 'entortar', 'tolerar', 'reprovar', 'necessitar', 'lampejar', 'surtir', 'vagar', 'serrar', 'sepultar',
'desfilar', 'adquirir', 'escurecer', 'arrancar', 'repor', 'golear', 'trasladar', 'escarnecer', 'valar', 'surpreender',
'filtrar', 'apagar', 'transplantar', 'titular', 'devassar', 'erguer', 'retroceder', 'recolocar', 'expressar', 'significar',
'timbrar', 'regredir', 'brecar', 'parcelar', 'inchar', 'soterrar', 'folhamemorir', 'vislumbrar', 'ressuscitar', 'ordenar',
'pacificar', 'cincar', 'substantivar', 'preferir', 'sentir', 'copar', 'fichar', 'igualar', 'banalizar', 'diferenciar', 'aliar',
'extrapolar', 'enviar', 'arrecadar', 'fadar', 'aparatar', 'rebelar', 'transtornar', 'elencar', 'elevar', 'teclar', 'recusar',
'aventar', 'desprezar', 'guindar', 'cerrar', 'abonar', 'crer', 'janelarossir', 'reprimir', 'efetivar', 'bestar', 'antever',
176
'normalizar', 'assemelhar', 'surgir', 'desfavorecer', 'inclinar', 'potenciar', 'sobrevalorizar', 'moldar', 'infestar',
'uniformizar', 'chifrar', 'hidratar', 'cochilar', 'pelar', 'invocar', 'mear', 'pontar', 'perguntar', 'fatorar', 'sublinhar',
'pedalar', 'abordar', 'empoeirar', 'assoberbar', 'contornar', 'velar', 'promover', 'pleitear', 'tremer', 'reescrever',
'pairar', 'desencantar', 'escapar', 'reservar', 'romantizar', 'procurar', 'preceder', 'sincronizar', 'ensaiar',
'financiar', 'conquistar', 'bolhar', 'ousar', 'haitir', 'mentir', 'retransmitir', 'matar', 'namorar', 'reconfortar',
'cruciar', 'sussurrar', 'personalizar', 'atordoar', 'mitigar', 'arredondar', 'situar', 'denominar', 'bailar', 'finar',
'aspar', 'acontecer', 'entrar', 'improvisar', 'realizar', 'bater', 'arrogar', 'alterar', 'dispersar', 'deixar', 'adotar',
'emagrecer', 'desmilitarizar', 'sumir', 'render', 'produzir', 'batalhar', 'interpretar', 'encolher', 'maquiar', 'agregar',
'pulsar', 'rescaldar', 'salientar', 'industriar', 'rastrear', 'amarelar', 'defasar', 'insinuar', 'repassar', 'avaliar', 'gerar',
'assolar', 'ratificar', 'abater', 'concorrer', 'evoluir', 'abrir', 'estarrecer', 'suplementar', 'picar', 'rasar', 'restaurar',
'capacitar', 'cicatrizar', 'cheirar', 'alquebrar', 'reproduzir', 'dominar', 'esmolar', 'protocolar', 'crescer',
'bombardear', 'desvincular', 'provir', 'disparar', 'saquear', 'indignar', 'reputar', 'vicejar', 'engarrafar', 'piscar',
'deliberar', 'desqualificar', 'salvar', 'bradar', 'estacionar', 'lanchar', 'atribular', 'ignorar', 'ambicionar',
'municipalizar', 'receber', 'desfazer', 'agilizar', 'captar', 'estofar', 'conceder', 'amiudar', 'programar', 'furar',
'traquejar', 'regular', 'cifrar', 'sistematizar', 'acusar', 'tirotear', 'transar', 'depauperar', 'responder', 'amanhecer',
'regressar', 'exercitar', 'medicar', 'persuadir', 'deputar', 'datar', 'magoar', 'radicalizar', 'caber', 'desatar',
'aprimorar', 'sugar', 'anunciar', 'emudecer', 'xeretar', 'recapturar', 'relacionar', 'motivar', 'comportar',
'reconquistar', 'agoniar', 'desconcertar', 'imprimir', 'dilacerar', 'fluir', 'proliferar', 'alocar', 'implorar', 'comprar',
'torturar', 'olhar', 'desalentar', 'acreditar', 'policiar', 'egossintoner', 'bordar', 'desgovernar', 'alertar', 'cancelar',
'denegrir', 'despejar', 'dividir', 'empecilhar', 'soer', 'marcar', 'campar', 'alarmar', 'r', 'sair', 'explorar', 'nortear',
'babar', 'enternecer', 'enfartar', 'cuspir', 'adiar', 'irmanar', 'classificar', 'aparar', 'advertir', 'mineirar', 'amparar',
'justificar', 'falar', 'concentrar', 'artilhar', 'girar', 'expatriar', 'enxugar', 'irritar', 'ocorrer', 'jantar', 'civilizar',
'mastigar', 'direitolatrer', 'cumprimentar', 'centralizar', 'basear', 'puxar', 'capturar', 'desabafar', 'mandatar',
'plantar', 'enfiar', 'atribuir', 'perseguir', 'creditar', 'filmar', 'tecer', 'assegurar', 'trespassar', 'perigar', 'confinar',
'taxar', 'desamparar', 'caranguejar', 'emigrar', 'processar', 'anteceder', 'cabecear', 'impingir', 'tombar',
'interessar', 'reter', 'Resultar', 'remediar', 'encontrar', 'curvar', 'consolidar', 'servir', 'abusar', 'progredir', 'ir',
'computar', 'frutar', 'alimentar', 'cobrir', 'contingentar', 'empossar', 'despontar', 'alternar', 'pricipar', 'evitar',
'descriminalizar', 'declinar', 'elitizar', 'livrar', 'coalhar', 'coletar', 'englobar', 'medrar', 'desenterrar', 'grupar',
'pescar', 'afetar', 'portar', 'desfalcar', 'entremear', 'inquietar', 'aparecer', 'estourar', 'aderir', 'obstruir', 'calmar',
'musicar', 'proclamar', 'violar', 'digerir', 'visualizar', 'louvar', 'figurar', 'arriscar', 'impressionar', 'clonar',
'ensaboar', 'desaparecer', 'lutar', 'desamar', 'copiar', 'cursar', 'rondar', 'destacar', 'perturbar', 'enterrar',
'ancorar', 'expor', 'comprometer', 'torcer', 'duplicar', 'desiludir', 'origamer', 'perambular', 'gemer', 'esconder',
'aportar', 'aprender', 'preterir', 'adequar', 'perseverar', 'manusear', 'agrar', 'negar', 'abandonar', 'pesquisar',
'solfejar', 'eroder', 'soldar', 'coibir', 'aparentar', 'devorar', 'vincular', 'superbonder', 'eclodir', 'enrolar', 'culpar',
'retrucar', 'Estar', 'divergir', 'arcar', 'beneficiar', 'rasgar', 'testemunhar', 'impulsionar', 'neutralizar', 'apontar',
'circuitar', 'sobrepor', 'respingar', 'moscar', 'pentear', 'rosar', 'distanciar', 'dentar', 'refundar', 'excluir', 'habilitar',
'ressoar', 'modelar', 'corrugar', 'colorar', 'engasgar', 'batizar', 'implicar', 'corar', 'estranhar', 'refazer', 'encostar',
'talhar', 'morder', 'lavar', 'sediar', 'impacientar', 'afundar', 'surdir', 'medalhar', 'flagrar', 'descampar', 'afazer',
'perdoar', 'frustrar', 'vaticinar', 'colorir', 'assustar', 'impugnar', 'empenhar', 'entoar', 'subsistir', 'remover',
'descongestionar', 'seguir', 'telefonar', 'solar', 'ceder', 'recomprar', 'rever', 'penar', 'rotular', 'esprimir',
'antecipar', 'espetar', 'depurar', 'cumprir', 'amentar', 'perpetrar', 'repartir', 'ganhar', 'desmantelar', 'condenar',
'desviar', 'minar', 'triunfar', 'prover', 'escavar', 'apropriar', 'liberar', 'aparelhar', 'aniversariar', 'continuar',
'digitar', 'entrevistar', 'instrumentalizar', 'derrotar', 'panar', 'depor', 'zerar', 'publicar', 'posicionar', 'rejeitar',
'optar', 'intensificar', 'humilhar', 'rodar', 'esposar', 'arrebentar', 'surfir', 'fantasiar', 'obrar', 'martelar', 'absorver',
'franjar', 'urgir', 'armazenar', 'levantar', 'providenciar', 'esquecer', 'confrontar', 'saltitar', 'adubar', 'encrencar',
'espressar', 'armar', 'reiniciar', 'golpear', 'estuprar', 'endurecer', 'primer', 'distinguir', 'ver', 'aforar', 'abaixar',
'inferir', 'empatar', 'brandir', 'dissipar', 'educar', 'detestar', 'foscar', 'debater', 'anotar', 'funcionar', 'minutar',
'promulgar', 'placar', 'estrilar', 'decepcionar', 'montar', 'desguarnecer', 'consentir', 'regularizar', 'querer',
'exemplificar', 'monetizar', 'circuncidar', 'encomendar', 'equiparar', 'calcular', 'seduzir', 'autuar', 'participar',
'cocar', 'rememorar', 'estipular', 'manejar', 'saltar', 'quedar', 'chorar', 'pintar', 'turvar', 'subdelegar', 'colonizar',
'gramar', 'mudar', 'conceber', 'derivar', 'enganar', 'prezar', 'militar', 'resenhar', 'abranger', 'desistir', 'erradicar',
'desertar', 'publisher', 'mobiliar', 'redistribuir', 'acampar', 'indagar', 'usurpar', 'degelar', 'prendar', 'localizar',
'extravasar', 'rosnar', 'anistiar', 'desembolsar', 'discordar', 'desobstruir', 'cabriolar', 'desprover', 'secar',
'finalizar', 'sucumbir', 'desalojar', 'reger', 'remeter', 'encenar', 'remodelar', 'espinhar', 'suceder', 'decretar',
177
'repudiar', 'pilhar', 'chocar', 'descrever', 'eivar', 'prejudicar', 'limpar', 'honrar', 'zelar', 'entrepor', 'mesquinhar',
'varrer', 'patentear', 'incumbir', 'expelir', 'delimitar', 'facilitar', 'exilar', 'efetuar', 'reatar', 'tirar', 'conviver',
'trazer', 'apostar', 'construir', 'modernizar', 'incrementar', 'chicotear', 'perder', 'conduzir', 'soltar', 'desmoronar',
'conceituar', 'desconjuntar', 'agendar', 'colocar', 'presumir', 'bolsar', 'ligar', 'aproveitar', 'palestrar', 'remar',
'ascender', 'florar', 'vacinar', 'atar', 'suspeitar', 'explicitar', 'esperar', 'controlar', 'sofrer', 'legendar', 'tapar',
'autoproclamar', 'acionar', 'vezar', 'barganhar', 'escalar', 'sortear', 'debhaitir', 'estender', 'embargar', 'asilar',
'desonerar', 'atrapalhar', 'afugentar', 'graduar', 'rescindir', 'escoltar', 'dilatar', 'tabelar', 'totalizar', 'subestimar',
'indenizar', 'pormenorizar', 'objetar', 'vermelhar', 'decorar', 'sorrir', 'passar', 'abarcar', 'flagelar', 'renascer',
'emprestar', 'navegar', 'retrair', 'temer', 'idolatrar', 'falcatruar', 'destituir', 'boicotar', 'requintar', 'determinar',
'esculhambar', 'castigar', 'apadrinhar', 'disciplinar', 'insultar', 'linchar', 'terceirizar', 'presentear', 'imiscuir', 'citar',
'eternizar', 'vasculhar', 'caracterizar', 'respirar', 'engravidar', 'confortar', 'fritar', 'organizar', 'regravar', 'agir',
'dispor', 'partir', 'macerar', 'gesticular', 'precisar', 'sugerir', 'estacar', 'generalizar', 'revestir', 'grafitar', 'maridar',
'recrudescer', 'migrar', 'averiguar', 'minimizar', 'enquadrar', 'embrulhar', 'acrescentar', 'incentivar', 'emoldurar',
'insistir', 'derrocar', 'deslizar', 'incubar', 'registrar', 'pespegar', 'instaurar', 'entranhar', 'acirrar', 'amainar',
'suspender', 'presenciar', 'misturar', 'chutar', 'colapsar', 'reprisar', 'distar', 'alcoolizar', 'carregar', 'entediar',
'reafirmar', 'superestimar', 'torrar', 'envidar', 'prognosticar', 'preencher', 'serenar', 'manobrar', 'renovar',
'poupar', 'rugir', 'ajustar', 'andaimar', 'telhar', 'contribuir', 'aceitar', 'alar', 'dialogar', 'descentralizar', 'beber',
'lucrar', 'compilar', 'desmobilizar', 'quantificar', 'pegar', 'mergulhar', 'reaparecer', 'aumentar', 'restabelecer',
'amputar', 'repulsar', 'reclamar', 'motorizar', 'banhar', 'desabitar', 'requerer', 'desencarnar', 'apoiar',
'convencer', 'luxar', 'mangar', 'detonar', 'arranjar', 'reconstituir', 'valorizar', 'submeter', 'vaguear', 'debhaiter',
'idear', 'escrachar', 'convidar', 'advir', 'alastrar', 'forjar', 'formular', 'assessorar', 'replicar', 'responsar', 'enfeitar',
'simplificar', 'disputar', 'rematar', 'dizimar', 'folhamemorer', 'proferir', 'liderar', 'solidarizar', 'descasar', 'fretar',
'enraizar', 'triturar', 'romper', 'propinar', 'insurgir', 'prestar', 'revender', 'arquitetar', 'justar', 'olvidar', 'agradar',
'aprofundar', 'dissimular', 'noivar', 'retomar', 'reconsiderar', 'nocautear', 'encobrir', 'universalizar', 'penetrar',
'reavaliar', 'carnar', 'desencontrar', 'enfocar', 'ouvir', 'perspectivar', 'inocentar', 'folhear', 'choramingar',
'confundir', 'confiar', 'cansar', 'vocalizar', 'minorar', 'remexer', 'dramatizar', 'fuzilar', 'sondar', 'ressaltar',
'quintar', 'escravizar', 'referir', 'desmoralizar', 'descer', 'rolar', 'carecer', 'mediar', 'travestir', 'decapitar',
'desacatar', 'blindar', 'calar', 'empregar', 'cismar', 'satisfazer', 'baldar', 'venerar', 'contar', 'danar', 'atrelar',
'bojar', 'jorrar', 'emanar', 'enlatar', 'varejar', 'instruir', 'descobrir', 'estar', 'federar', 'acentuar', 'desproteger',
'vender', 'achar', 'fir', 'manifestar', 'aposentar', 'moralizar', 'cortinar', 'renunciar', 'indiciar', 'renegociar',
'licenciar', 'refletir', 'ministrar', 'borbulhar', 'alforriar', 'consumar', 'saturar', 'segmentar', 'solicitar', 'concretizar',
'raiar', 'plebiscitar', 'desafiar', 'proibir', 'comer', 'atentar', 'acometer', 'atenuar', 'acabar', 'inteirar', 'ciscar',
'suavizar', 'entregar', 'atestar', 'equivaler', 'aleijar', 'mapear', 'zincar', 'bolar', 'aterrorizar', 'administrar',
'maltratar', 'imobilizar', 'perdurar', 'denunciar', 'findar', 'externar', 'conciliar', 'restringir', 'acalentar', 'desnudar',
'rodear', 'estrelar', 'conformar', 'reabilitar', 'preocupar', 'celebrar', 'empobrecer', 'convencionar', 'desmontar',
'atropelar', 'repensar', 'banir', 'adentrar', 'planar', 'zonar', 'agarrar', 'fulanizar', 'assorear', 'combalir', 'inserir',
'redigir', 'utilizar', 'pastar', 'simbolizar', 'bocar', 'balir', 'cochichar', 'medir', 'requisitar', 'devolver', 'iluminar',
'arder', 'contemplar', 'coriscar', 'infringir', 'impar', 'arejar', 'sagrar', 'sancionar', 'pressionar', 'apinhar',
'empurrar', 'apressar', 'desvelar', 'arruinar', 'prumar', 'macular', 'descarrilar', 'desrespeitar', 'derrubar',
'desancar', 'beijar', 'patrocinar', 'mimar', 'postar', 'enlouquecer', 'podar', 'contrapor', 'duelar', 'transcender',
'anestesiar', 'hospitalizar', 'desarmar', 'viver', 'discar', 'refutar', 'fragmentar', 'alisar', 'cascar', 'voar', 'engajar',
'algemar', 'assombrar', 'dementar', 'acostumar', 'arregalar', 'estimular', 'esterilizar', 'realimentar', 'fracassar',
'difir', 'consultar', 'estressar', 'pronunciar', 'bicar', 'encampar', 'falhar', 'vagir', 'amostrar', 'violentar', 'fabricar',
'compreender', 'mazelar', 'apreender', 'equipar', 'entristecer', 'criticar', 'intitular', 'legar', 'ofertar', 'sobressair',
'comissariar', 'pressupor', 'fornir', 'proceder', 'virar', 'barrir', 'coincidir', 'profissionalizar', 'power',
'desestabilizar', 'haiter', 'afeitar', 'positivar', 'cotar', 'contatar', 'cear', 'atender', 'reciclar', 'atritar', 'censurar',
'vazar', 'cremar', 'outorgar', 'reinar', 'ocupar', 'bastar', 'desabrigar', 'tripudiar', 'propalar', 'centrar', 'rebolar',
'intercalar', 'tornear', 'luzir', 'compartilhar', 'despistar', 'festejar', 'entorpecer', 'encalhar', 'pretender',
'engomar', 'golfar', 'gradar', 'transformar', 'excepcionar', 'repercutir', 'aguar', 'monitorar', 'firmar', 'discutir',
'envergonhar', 'reagir', 'premir', 'adjetivar', 'escovar', 'dormir', 'repostar', 'descascar', 'ultrapassar', 'matricular',
'modificar', 'colher', 'sonegar', 'forrar', 'julgar', 'particularizar', 'palpar', 'notar', 'freq\xc3\xbcentar', 'enferrujar',
'intermediar', 'exemplar', 'elogiar', 'esquivar', 'iludir', 'malfazer', 'fugir', 'cadastrar', 'ar', 'mover', 'riscar', 'quitar',
'frisar', 'santificar', 'bispar', 'protelar', 'cooperar', 'impregnar', 'carimbar', 'reinventar', 'pedir', 'usufruir',
'espumar', 'inventar', 'avolumar', 'influir', 'orar', 'originar', 'culminar', 'largar', 'booker', 'estilar', 'alfabetizar',
178
'gerenciar', 'revolucionar', 'correr', 'separar', 'alegrar', 'superlotar', 'alaranjar', 'tumultuar', 'isentar', 'adiantar',
'desculpar', 'viajar', 'acumular', 'legitimar', 'aplicar', 'inflacionar', 'existir', 'perfumar', 'esfriar', 'socorrer',
'assentar', 'balizar', 'prorrogar', 'escusar', 'divisar', 'precipitar', 'ferir', 'pousar', 'equivocar', 'comerciar',
'desenrolar', 'faixar', 'reconhecer', 'dirigir', 'florescer', 'designar', 'revezar', 'picotar', 'provar', 'desagradar',
'atabalhoar', 'afiar', 'sacrificar', 'chumbar', 'enriquecer', 'narrar', 'ter', 'peitar', 'trucar', 'propiciar', 'protestar',
'criminalizar', 'estabilizar', 'amaciar', 'moitar', 'passear', 'desaguar', 'transcorrer', 'escutar', 'agredir', 'semear',
'conflagrar', 'asfaltar', 'exportar', 'incomodar', 'abalar', 'berrar', 'variar', 'transportar', 'machucar', 'congelar',
'comprovar', 'mobilizar', 'circundar', 'shiborer', 'atirar', 'refinar', 'raivar', 'argumentar', 'unificar', 'flexibilizar',
'desaprovar', 'arrebanhar', 'transir', 'curar', 'vir', 'ampliar', 'marginar', 'movimentar', 'confidenciar', 'sufixar',
'rcandelorer', 'caiar', 'enfatizar', 'obrigar', 'aniquilar', 'propagar', 'provocar', 'transbordar', 'desapontar', 'vaiar',
'mancar', 'abdicar', 'prever', 'amigar', 'encarregar', 'refluir', 'exaltar', 'instrumentar', 'incluir', 'documentar',
'rebaixar', 'fortalezar', 'assuntar', 'consubstanciar', 'camuflar', 'revidar', 'popularizar', 'assassinar', 'recolher',
'espelhar', 'levar', 'bancar', 'ressalvar', 'sacar', 'baixar', 'validar', 'prosar', 'objetivar', 'iniciar', 'pretextar',
'contrabandear', 'esmerar', 'relatar', 'interromper', 'lograr', 'concordar', 'pinscher', 'revir', 'possibilitar',
'maravilhar', 'voltar', 'corrigir', 'rubricar', 'botar', 'herdar', 'implantar', 'saldar', 'gozar', 'reconstruir', 'respaldar',
'aterrissar', 'deitar', 'distribuir', 'imitar', 'coonestar', 'germinar', 'catapultar', 'retribuir', 'pular', 'apegar',
'mercadejar', 'fundamentar', 'desempregar', 'fundar', 'escorrer', 'sinistrar', 'dotar', 'rottweiler', 'sedimentar',
'rotar', 'resgatar', 'tributar', 'balear', 'segurar', 'emboscar', 'juramentar', 'alojar', 'invejar', 'leiloar', 'demorar',
'confiscar', 'buscar', 'desvendar', 'desautorizar', 'fardar', 'afastar', 'clicar', 'frigir', 'curtir', 'tartamudear', 'relutar',
'consolar', 'valorar', 'ficar', 'desvirtuar', 'vivenciar', 'completar', 'embasar', 'falsar', 'profundar', 'subir',
'enumerar', 'tematizar', 'radiar', 'cercar', 'cooptar', 'induzir', 'sucatear', 'multar', 'visitar', 'independer', 'infamar',
'endividar', 'fossar', 'crivar', 'subsidiar', 'apaixonar', 'tencionar', 'envolver', 'legislar', 'descaber', 'agitar',
'bloquear', 'revoltar', 'difer', 'onerar', 'enojar', 'deslocar', 'obcecar', 'encaminhar', 'estrondar', 'estilizar',
'corroer', 'ilhar', 'expirar', 'analisar', 'refrigerar', 'comunicar', 'corromper', 'atormentar', 'represar', 'influenciar',
'desaforar', 'fiar', 'aprovar', 'prensar', 'divulgar', 'atravessar', 'raciocinar', 'falir', 'prender', 'pilotar', 'aguardar',
'extinguir', 'trilhar', 'contender', 'admitir', 'urinar', 'buzinar', 'odorar', 'radicar', 'estancar', 'veicular', 'acautelar',
'retornar', 'estivar', 'salpicar', 'amarrar', 'enveredar', 'regulamentar', 'secretariar', 'apelidar', 'angariar', 'tesar',
'reflorestar', 'parlamentar', 'murar', 'apedrejar', 'conhecer', 'noticiar', 'esticar', 'disponibilizar', 'ingressar',
'materializar', 'fixar', 'lecionar', 'revisar', 'novar', 'recatar', 'tungar', 'assistir', 'revogar', 'emergir', 'flutuar',
'autorizar', 'cobrar', 'desconfortar', 'monopolizar', 'instituir', 'internar', 'arrasar', 'recear', 'religar', 'substanciar',
'tentar', 'poluir', 'torpedear', 'cegar', 'domar', 'ratinhar', 'encantar', 'desunir', 'coordenar', 'amar', 'permanecer',
'sentar', 'franger', 'perfilar', 'subalternar', 'dissolver', 'revitalizar', 'aproximar', 'confluir', 'interceder',
'direcionar', 'contentar', 'alfabetar', 'estirar', 'estreitar', 'irromper', 'enamorar', 'alvitrar', 'extraditar', 'retaliar',
'superar', 'elaborar', 'ilustrar', 'languir', 'agraciar', 'defender', 'retratar', 'festar', 'credenciar', 'informatizar',
'discursar', 'minguar', 'atravancar', 'sustentar', 'reativar', 'emitir', 'depender', 'revistar', 'ruir', 'melindrar',
'politizar', 'concernir', 'sustar', 'flertar', 'brindar', 'afligir', 'bendizer', 'assumir', 'estocar', 'deteriorar', 'cogitar',
'intervalar', 'aprontar', 'individualizar', 'sanar', 'marinar', 'desavisar', 'entravar', 'ondular', 'recompor', 'cessar',
'manger', 'ser', 'confessar', 'especializar', 'individuar', 'dourar', 'demonstrar', 'avariar', 'tender', 'convergir',
'agonizar', 'esvaziar', 'desfechar', 'merecer', 'esclarecer', 'escorregar', 'coadjuvar', 'constar', 'descortinar',
'ofender', 'viabilizar', 'pagar', 'vociferar', 'vulnerar', 'desbancar', 'alagar', 'estremecer', 'asfixiar', 'descontar',
'apodrecer', 'parecer', 'discernir', 'escorar', 'errar', 'latir', 'experimentar', 'enaltecer', 'cortar', 'alhear',
'considerar', 'formalizar', 'massacrar', 'fraturar', 'operar', 'invalidar', 'sentenciar', 'imaginar', 'juntar',
'desperceber', 'farpar', 'dimensionar', 'andar', 'alinhar', 'cimentar', 'impelir', 'dizer', 'cruzar', 'tarifar', 'esquentar',
'equilibrar', 'parar', 'partidarizar', 'recomendar', 'criar', 'chegar', 'politicar', 'empilhar', 'recobrar', 'gerir',
'entusiasmar', 'reformar', 'devir', 'gargalhar', 'ensinar', 'reparar', 'abolir', 'descender', 'deter', 'teimar',
'comprimir', 'guardar', 'repetir', 'cantar', 'auditar', 'reduzir', 'vaziar', 'enxergar', 'durar', 'cercear', 'arremessar',
'impedir', 'vitimar', 'reorganizar', 'judiciar', 'rogar', 'acolher', 'segar', 'premiar', 'filhar', 'autografar', 'contradizer',
'professar', 'impostar', 'restituir', 'rir', 'debandar', 'entrever', 'madrugar', 'carrear', 'estampar', 'bajular', 'conter',
'quadrar', 'desidratar', 'orquestrar', 'aldear', 'rifar', 'preestabelecer', 'mascarar', 'vendar', 'contestar',
'desorganizar', 'conectar', 'arrebatar', 'focar', 'relativizar', 'absolver', 'castrar', 'recompensar', 'folhar',
'complicar', 'revelar', 'doar', 'reagrupar', 'ostentar', 'resumir', 'expropriar', 'elucidar', 'apreciar', 'concertar',
'sofisticar', 'recorrer', 'mendigar', 'aplacar', 'conversar', 'profetizar', 'reeleger', 'usinar', 'propor', 'desenhar',
'verificar', 'retorcer', 'sequestrar', 'revirar', 'subornar', 'depositar', 'combinar', 'apresentar', 'mandar', 'reverter',
'debilitar', 'enfermar', 'ajudar', 'informar', 'apanhar', 'rcandelorir', 'azarar', 'tomar', 'formar', 'remunerar',
179
'rebatizar', 'escoar', 'fraudar', 'descaminhar', 'volver', 'desacelerar', 'polvilhar', 'afrontar', 'piorar', 'tingir',
'debelar', 'urdir', 'reencarnar', 'compensar', 'madeirar', 'oficializar', 'prostrar', 'permitir', 'fatiar', 'comover',
'duvidar', 'mostrar', 'descontentar', 'acrescer', 'prosperar', 'conspirar', 'comparar', 'eliminar', 'emocionar',
'comandar', 'rebater', 'debitar', 'sossegar', 'editorar', 'transmitir', 'injetar', 'tocar', 'advogar', 'impor', 'avisar',
'empolgar', 'consistir', 'aliviar', 'prevenir', 'acompanhar', 'fragilizar', 'trucidar', 'pulverizar', 'agradecer',
'suprimir', 'enfileirar', 'esmaecer', 'Haitir', 'gastar', 'apaziguar', 'reconduzir', 'integrar', 'projetar', 'hospedar',
'papar', 'limitar', 'estabelecer', 'escolher', 'fotografar', 'visar', 'enfraquecer', 'granir', 'controverter', 'exercer',
'poder', 'votar', 'inundar', 'detalhar', 'selar', 'descarregar', 'chapar', 'conglomerar', 'assinalar', 'divorciar',
'chefiar', 'desfrutar', 'indicar', 'assinar', 'articular', 'compassar', 'delinear', 'favorecer', 'implementar', 'proteger',
'desbloquear', 'alardear', 'arrotar', 'engolir', 'lembrar', 'anuir', 'antologiar', 'trombetear', 'democratizar',
'recordar', 'demitir', 'recair', 'alongar', 'traficar', 'nevar', 'abismar', 'recepcionar', 'reportar', 'protagonizar',
'contratar', 'memorar', 'ativar', 'representar', 'industrializar', 'decifrar', 'aquiescer', 'suprir', 'moderar', 'persistir',
'intimidar', 'encalacrar', 'conjugar', 'remir', 'manchar', 'aguerrir', 'alugar', 'estrangeirar', 'manter', 'definir',
'supervisionar', 'bichar', 'esfarrapar', 'desconsiderar', 'acalmar', 'colecionar', 'desenvolver', 'grafar', 'engatinhar',
'atrasar', 'atualizar', 'privar', 'amontoar', 'garantir', 'enredar', 'orgulhar', 'premer', 'enroscar', 'empresar',
'redesenhar', 'vestir', 'reencontrar', 'custear', 'secretar', 'assar', 'espancar', 'ocultar', 'canelar', 'mirar', 'roubar',
'carretar', 'entender', 'estimar', 'maldizer', 'afunilar', 'jazer', 'acuar', 'atacar', 'priorizar', 'rachar', 'madurar',
'esgotar', 'lixar', 'valer', 'cozinhar', 'desanimar', 'viciar', 'segredar', 'envelhecer', 'recuperar', 'recidivar',
'indigitar', 'privatizar', 'prevalecer', 'vibrar', 'exortar', 'colaborar', 'tremar', 'institucionalizar', 'ler', 'falecer',
'destinar', 'ludibriar', 'acatar', 'atrair', 'constatar', 'naufragar', 'satanizar', 'oficiar', 'exaurir', 'espantar', 'triplicar',
'causar', 'desmentir', 'precaver', 'ovar', 'substituir', 'abundar', 'ralar', 'pesar', 'executar', 'preservar', 'comentar',
'enforcar', 'ninar', 'prefixar', 'planejar', 'apitar', 'fer', 'desacreditar', 'lascar', 'aclamar', 'desapropriar', 'arraigar',
'incendiar', 'trair', 'perceber', 'assaltar', 'tripular', 'trajar', 'sobreviver', 'decepar', 'abortar', 'embolar',
'capitanear', 'pasmar', 'malhar', 'supor', 'abster', 'beirar', 'prolongar', 'trocar', 'alhar', 'opor', 'dedicar', 'seriar',
'danificar', 'responsabilizar', 'reacender', 'imigrar', 'patinar', 'expandir', 'perpassar', 'tatear', 'clamar',
'prescrever', 'conferir', 'panfletar', 'estudar', 'harmonizar', 'animar', 'importar', 'especificar', 'inaugurar',
'circular', 'militarizar', 'lotar', 'conclamar', 'omitir', 'tramar', 'intervir', 'permear', 'grassar', 'acanhar', 'inspirar',
'decolar', 'extremar', 'dissuadir', 'despachar', 'patrulhar', 'bulir', 'medicamentar', 'extrair', 'arrastar',
'aconselhar', 'eviscerar', 'descartar', 'diluir', 'delegar', 'recargar', 'prazer', 'relevar', 'rendar', 'traumatizar',
'fumegar', 'esbravejar', 'sintonizar', 'aguentar', 'ressarcir', 'gangrenar', 'pichar', 'turbar', 'esmagar', 'cunhar',
'punir', 'surfar', 'reviver', 'desejar', 'listar', 'treinar', 'testar', 'pisar', 'vencer', 'adestrar', 'dever', 'encravar',
'imprensar', 'dar', 'guiar', 'homenagear', 'contrair', 'encapsular', 'fartar', 'contrastar', 'reabrir', 'interceptar',
'engenhar', 'fornecer', 'convir', 'consertar', 'contabilizar', 'margear', 'deplorar', 'partilhar', 'disseminar',
'acomodar', 'vizinhar', 'inverter', 'horrorizar', 'relegar', 'dragar', 'reverberar', 'multiplicar', 'orientar', 'nomear',
'odiar', 'praticar', 'florestar', 'quietar', 'sobrevoar', 'diversificar', 'reaver', 'despedir', 'prestigiar', 'discorrer',
'ceifar', 'que', 'contrariar', 'desacordar', 'saciar', 'jogar', 'cair', 'pautar', 'apelar', 'engavetar', 'invernar',
'redobrar', 'tisnar', 'remanejar', 'gafar', 'interligar', 'fissurar', 'suportar', 'gamar', 'arrojar', 'vigiar', 'filiar',
'demandar', 'acalorar', 'instalar', 'detectar', 'isolar', 'aspirar', 'desmanchar', 'editar', 'conturbar', 'decorrer',
'drogar', 'parodiar', 'examinar', 'encarnar', 'repatriar', 'privilegiar', 'capar', 'marejar', 'haver', 'foder', 'desnutrir',
'vingar', 'despertar', 'foliar', 'eleger', 'encaixar', 'respeitar', 'colar', 'formigar', 'refrescar', 'pregar', 'associar',
'letrar', 'marginalizar', 'esburacar', 'compelir', 'parabenizar', 'entulhar', 'negligenciar', 'observar', 'planificar',
'oitar', 'resignar', 'denotar', 'brilhar', 'fiscalizar', 'dosar', 'redirecionar', 'dobrar', 'cozer', 'desordenar', 'quebrar',
'pontuar', 'doutrinar', 'trancar', 'cavar', 'ecoar', 'obsoletar', 'endossar', 'florir', 'soar', 'fingir', 'abastecer', 'sedar',
'gestar', 'piratear', 'poetar', 'empinar', 'explicar', 'ovacionar', 'recrutar', 'ingerir', 'pifar', 'recuar', 'adaptar',
'tornar', 'obscurecer', 'ofuscar', 'barbear', 'prepor', 'atalhar', 'nutrir', 'sindicar', 'desempenhar', 'descrer',
'suscitar', 'locar', 'infernar', 'atuar', 'garimpar', 'frequentar', 'exagerar', 'Haiter', 'terminar', 'inibir', 'clorar',
'empreitar', 'manipular', 'desenfrear', 'vidrar', 'pensar', 'vacilar', 'arrolar', 'sabatinar', 'consagrar',
'corresponder', 'equacionar', 'explodir', 'estruturar', 'meter', 'arear', 'tesourar', 'polarizar', 'deslanchar',
'apertar', 'encerrar', 'dispensar', 'majorar', 'ajoelhar', 'topar', 'desabar', 'pingar', 'orlar', 'suplantar',
'propagandear', 'sobrecarregar', 'escrever', 'granar', 'abastar', 'vogar', 'rapinar', 'alistar', 'fitar', 'inscrever',
'molhar', 'identificar', 'interferir', 'esfaquear', 'rumar', 'vetar', 'acelerar', 'apor', 'redar', 'devastar', 'xingar',
'confirmar', 'raptar', 'abrandar', 'ocasionar', 'carbonizar', 'distorcer', 'ambientar', 'agravar', 'palpitar', 'trabalhar',
'alienar', 'frangir', 'lesionar', 'enxurrar', 'marchar', 'combater', 'exalar', 'formatar', 'assimilar', 'amadurecer',
'barrar', 'conseguir', 'encurralar', 'faturar', 'entalar', 'caminhar', 'pernoitar', 'tranquilizar', 'solapar',
180
'desarticular', 'solucionar', 'chover', 'evocar', 'marinhar', 'suturar', 'chamuscar', 'degenerar', 'apurar', 'reerger',
'indeterminar', 'compor', 'versar', 'complementar', 'subordinar', 'antiquar', 'faltar', 'zumbir', 'queimar', 'cutucar',
'condecorar', 'incinerar', 'espremer', 'vedar', 'encorpar', 'encarcerar', 'comercializar', 'notabilizar', 'posar',
'ferrar', 'escancarar', 'notificar', 'medicinar', 'aborrecer', 'suspirar', 'reerguer', 'demolir', 'tresloucar', 'boxar',
'grifar', 'desprender', 'relembrar', 'chamar', 'sublevar', 'latinizar', 'cortejar', 'desgastar', 'almejar', 'descumprir',
'compactar', 'coroar', 'sobrar', 'descolar', 'desconhecer', 'abrigar', 'ferver', 'transferir', 'guinar', 'ponderar',
'concluir', 'congestionar', 'sonhar', 'competir', 'atracar', 'emplacar', 'janelarosser', 'cultivar', 'retardar',
'constituir', 'traduzir', 'ironizar', 'entornar', 'adorar', 'dificultar', 'estrear', 'catalisar', 'contextualizar', 'amenizar',
'degradar', 'condicionar', 'inviabilizar', 'arquivar', 'serrotar', 'renomear', 'interditar', 'gritar', 'governar',
'racionar', 'acenar', 'mutilar', 'sacudir', 'selecionar', 'encarecer', 'nadar', 'tarar', 'desativar', 'abatir',
'compartimentar', 'quadruplicar', 'fumar', 'rezar', 'reunir', 'resultar', 'bochechar', 'apossar', 'mesclar', 'fechar',
'resistir', 'estradar', 'shiborir', 'esvair', 'desferir', 'fortalecer', 'idealizar', 'especular', 'costumar', 'resolver',
'aglomerar', 'intimar', 'gelar', 'assentir', 'redundar', 'brotar', 'afogar', 'diminuir', 'eclipsar', 'despovoar', 'drenar',
'ritmar', 'menosprezar', 'habitar', 'sujeitar', 'presentar', 'cometer', 'ditar', 'conservar', 'twitter', 'recarregar',
'manufaturar', 'desencadear', 'tardar', 'reeditar', 'morrer', 'preconizar', 'canalizar', 'feder', 'estragar', 'doer',
'aventurar', 'atolar', 'adicionar', 'estufar', 'consumir', 'somar', 'investir', 'afincar', 'usar', 'sacramentar',
'incrustar', 'emendar', 'sufocar', 'ervar', 'sujar', 'rechear', 'ressurgir', 'fomentar', 'triscar', 'acessar', 'expurgar',
'chacoalhar', 'introduzir', 'barulhar', 'primar', 'desinteressar', 'saudar', 'obter', 'questionar', 'microfilmar',
'acotovelar', 'conjurar', 'lidar', 'larvar', 'potencializar', 'alfinetar', 'proporcionar', 'embalar', 'jardinar', 'checar',
'empreender', 'enunciar', 'brincar', 'chancelar', 'perfazer', 'esquartejar', 'tramitar', 'espalhar', 'qualificar',
'egossintonir', 'peregrinar', 'alegar', 'converter', 'exonerar', 'martirizar', 'enrascar', 'inexistir', 'aquartelar',
'avizinhar', 'constranger', 'deformar', 'negociar', 'irradiar', 'sambar', 'incitar', 'inativar', 'invadir', 'arrumar',
'envaidecer', 'regrar', 'diplomar', 'reajustar', 'prosseguir', 'simular', 'balar', 'desvalorizar', 'paralisar', 'oar',
'investigar', 'trunfar', 'esbarrar', 'oferecer', 'descansar', 'esfacelar', 'badalar', 'auxiliar', 'descontrair', 'prometer',
'pilar', 'expulsar', 'amamentar', 'fundir', 'inutilizar', 'prontificar', 'domesticar', 'vistoriar', 'percorrer'])
>>> stopwords = nltk.corpus.stopwords.words('portuguese')
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords)
>>> fd2
<FreqDist with 2637 outcomes>
>>> sw2 = [w.title() for w in stopwords]
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and
w.isalpha())
>>> etiquetas = ['PR', 'IMPF', 'PS', 'FUT', 'IMP']
>>> sw2 = sw2 + etiquetas
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and
w.isalpha())
>>> fd2
<FreqDist with 2635 outcomes>
>>> verbosf = fd2.keys()
>>> texto = wordlists.fileids()
>>> len(texto)
842
>>> grandstr = ''
>>> k=0
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in verbosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> k
842
>>> output_file2 = open('VH.txt', 'w')
181
>>> output_file2.write(grandstr)
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/PROP'
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
390443
>>> palavras[:10]
['[', 'EUA', ']', '<*>', 'PROP', 'M', 'P', '\\,', 'Barack', '=']
>>> i=0
>>> ent=[]
>>> while i <= 390442:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
29011
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 27237 outcomes>
>>> propriosf = fd3.keys()
>>> k=0
>>> grandstr = ''
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:50]
'1.txt;PR;17;@@@10.txt;PR;74;@@@100.txt;PR;34;@@@10'
>>> etiquetas = ['PR', 'IMPF', 'PS', 'FUT', 'IMP']
>>> sw2 = sw2 + etiquetas
>>> len(sw2)
208
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 27216 outcomes>
>>> propriosf = fd3.keys()
>>> k=0
>>> grandstr = ''
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:50]
'1.txt;Haiti;10;@@@10.txt;KC;15;@@@100.txt;Arns;12;'
>>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper())
182
>>> prop2 = fd5.keys()
>>> prop2[:10]
['AAAS', 'AAPM', 'ABC', 'ABDIAN', 'ABDIAS', 'AC', 'ACB', 'ACM', 'ACS', 'ADAUTO']
>>> len(prop2)
5130
>>> prop2[5110:]
['Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro',
'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows']
>>> prop2[5119]
'aids'
>>> prop2[5117:5119]
['Zynga', 'Z\xc3']
>>> fd4 = nltk.FreqDist(w for w in propriosf if w.istitle())
>>> prop1 = fd4.keys()
>>> propriosf2 = prop1 + prop2[:5119]
>>> len(propriosf2)
9000
>>> len(set(propriosf2))
5119
>>> len(prop1)
3881
>>> prop1[3875:]
['Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga']
>>> propriosf = set(propriosf2)
>>> len(propriosf)
5119
>>> grandstr = ''
>>> k=0
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:100]
'1.txt;Haiti;10;@@@10.txt;KC;15;@@@100.txt;Arns;12;@@@101.txt;KC;13;@@@102.txt;KC;14;@@@103.txt
;KC;9;'
>>> sw2.append('KC')
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 27215 outcomes>
>>> propriosf = fd3.keys()
>>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper())
>>> prop2[5110:]
['Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro',
'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows']
>>> prop2[5117:5119]
['Zynga', 'Z\xc3']
>>> fd4 = nltk.FreqDist(w for w in propriosf if w.istitle())
>>> prop1 = fd4.keys()
>>> propriosf2 = prop1 + prop2[:5119]
>>> len(propriosf2)
9000
183
>>> prop1.count('KC')
0
>>> prop2.count('KC')
1
>>> propriosf.count('KC')
0
>>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper())
>>> prop2 = fd5.keys()
>>> prop2[5110:]
['Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro',
'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows']
>>> prop2[5116:5118]
['Zynga', 'Z\xc3']
>>> propriosf2 = prop1 + prop2[:5118]
>>> len(propriosf2)
8999
>>> propriosf = set(propriosf2)
>>> len(propriosf)
5118
>>> grandstr = ''
>>> k=0
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:100]
'1.txt;Haiti;10;@@@10.txt;US;10;@@@100.txt;Arns;12;@@@101.txt;Direitos;6;@@@102.txt;Lula;10;@@@1
03.tx'
>>> output_file2 = open('PH.txt', 'w')
>>> output_file2.write(grandstr)
>>> resPV = []
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP = []
>>> strp = ''
>>> len(sentenc)
20325
>>> len(verbosf)
2635
>>> while k <= 2634:
while i <= 20324:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
184
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> verbosf.index('ajudar')
115
>>> resPV[115]
'ajudar--->NYT Turquia Cantinho Jovem China TVs Z\xc3 Thomas Paus Integra\xc3 Pa\xc3 Silva Unidos TUNIN
Secretaria Klein Elisabeth Holanda Organiza\xc3 Al\xc3 Crowley Pensa Fernandez Tim Rochelle Usaid Bruijn
Celso Livre Diferentemente Edmond Sebasti\xc3 Bachelet B\xc3 Castro Blue SIM Montr\xc3 Leste Seitenfus
Instituto Jo\xc3 Joshua Comando Clinton Nicolas Talca Vale Festival Estado BBC Come\xc3 Ki Aristide Uni\xc3
Ra\xc3\xbal Nova Sexta Ren\xc3 Timor Ex\xc3 Rio H\xc3 John Scarlett Igreja Domingo Pr\xc3 Karel Kak\xc3
Comunica\xc3 Manaus Lassegue Hillary Holmes R\xc3 Bush Sobre Cukier Jeffrey C\xc3 Grandes Gates Antunes
Paraguai Lula Humvee Mundial Corinthians Philippe Oscar Peixoto Santo Desde Programa USS Cuba Dave
Facebook Barcellos L\xc3 Irlanda FERNANDES Jean In\xc3 HQs Costa Folha Alemanha For\xc3 Santos Gr\xc3
Ensaio Forl\xc3 Novo Bol\xc3 SP Rica Cruz Eletrobr\xc3 Amorim Quarta Ar\xc3 Antes Lubini Kipman Agora
Resgate Brad Policarpo Alagoas Termo Grupo STF CEOs Player Kendrick Horas Opera\xc3 Wyclef Floriano Kirby
Guatemala Everlast N\xc3 Miranda VIRG\xc3 Bolduc ONU Barack Peru PT Ipea Felipe OAS Guerra Jos\xc3
R\xc3\xbassia Parque D\xc3 Casas Esfera Patrick Rufino DF Calc TV McKean Rep\xc3\xbablica WikiLeaks Vieira
Minustah Louis Bunker Estados Internacional Champs Felix Mundo Joyandet Todos Bruxelas Berlim Arns
Uruguai Monte Mogi Ros\xc3 Deus Berto Jobim Rodrigo Amanh\xc3 Segundo Reino Bento Ruanda Israel Caritas
ONGs Moradores Ficar Ramos Grande Dilma Washington J\xc3 Andr\xc3 Pew Alain Obama Sandra Seguros
Guido Barueri Iraque Real Fernando Armero Heni ESPM V\xc3 Hoje Aldofe Seguran\xc3 Semana Correa
Canad\xc3 Max Comunidade Ainda Mercadoria Europa Laferri\xc3 Brasil Nigel Congresso Sesc Quinta Ant\xc3
Sean S\xc3 Confer\xc3\xaancia Guin\xc3 Dias Bolsa Outro Gabinete Plano Ban Rafael Quais Pastoral Armando
Bernardes Delete Constitui\xc3 George Hugo Paulista Haiti At\xc3 CELY Petrobras Douglas Predator Kid EUA
It\xc3 Filho Google Evelyne Callahan Bras\xc3 Poupelard Fam\xc3 Ajuda Isl\xc3 Ch\xc3 France Aramic Terra
Ontem Caetano Fran\xc3 Hilda YouTube Distrito Sarkozy Gilles Afeganist\xc3 Malvinas Associated Atualmente
Henrique Aneel Dona Fronteiras City Joe Penn Copa Col\xc3 Sob Alpes Bernard Robert On Kim Diz Caricom
Iniesta Sandman Sa\xc3\xbade Palmeiras Espanha Bill Europeia Papa Tabarre Mulet T\xc3 Sul ADAUTO Helena
Parks Paquist\xc3 Fidel Venezuela HOHAGEN Jorge Parceria Morador Casa Justi\xc3 Fundadora Ay Angelina
Osasco Crise ROG\xc3 PAC Sbardelini Som\xc3 Baraka Ningu\xc3 Pessoa Gilmar Padr\xc3 Palestina Pel\xc3
Unasul Daniela Quirguist\xc3 Guy Presid\xc3\xaancia Adriano Byrs Guarda Itamaraty Apple Hermano Luiz Luis
Neto Miami Cap Summer Cristo Marginal Conab Bertrand Projeto Bradesco Serra Angola Guilherme Nicol\xc3
Vinson Davos Pi\xc3 Cabo Universal Abin Lima Diego Firmeza Santa Passa Twitter Adriana Homem New
Governador Paulo Mo\xc3 Campo Sri Los Minist\xc3 Mendes Homens Center Cidade Emerg\xc3\xaancia Ocha
Porto Est\xc3 MSF Quero Rela\xc3 Gon\xc3 Pesquisa Carnaval Julio Pierre Educa\xc3 Marinha BB Defesa Escola
Argentina Londrina Departamento Atl\xc3 Nelson Jamaica Comit\xc3\xaa Acton Ushahidi Montana Unidas
Barros Na\xc3 Igor Zilda US Rousseff UE Pedro CNN Ribeiro M\xc3 Chile Souza RENZIO Morumbi Carl Bellerive
Dois IBGE Zanin Lulafolia Am\xc3 Futuro/n'
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPH.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
2635
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/ETIQUETADOS Haiti - Léxico'
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
1114353
185
>>> palavras[:10]
['H', '[', 'pessoa', ']', '<', 'H', '>', 'N', 'F', 'P']
>>> i=0
>>> ent=[]
>>> while i <= 1114352:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
79668
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 72910 outcomes>
>>> prointer = fd3.keys()
>>> prointer[:100]
['ano', 'dia', 'pa\xc3', 'segundo', 'terremoto', 'governo', 'brasileiro', 'haitiano', 'ser', 'm\xc3\xaas', 'miss\xc3',
'mulher', 'presidente', 'hora', 'parte', 'pessoa', 'militar', 'capital', 'campo', 'ministro', 'americano', 'centro',
'm\xc3', 'regi\xc3', 'tempo', 'pol\xc3', 'maior', 'ponto', 'fundo', 'cidade', 'final', 'mundo', 'passado', 'lugar', 's\xc3',
'corpo', 'caso', 'estado', 'base', 'for\xc3', 'pra\xc3', 'bem', 'deve', 'local', 'v\xc3', 'grupo', 'semana', 'vida', 'defesa',
'fim', 'ex\xc3', 'crian\xc3', 'fam\xc3', 'tropa', 'elei\xc3', 'principal', 'casa', 'empresa', 'dinheiro', 'direito', 'rua',
'trag\xc3', 'pr\xc3', 'guerra', 'popula\xc3', 'noite', 'candidato', 'ser\xc3', 'rio', 'homem', 'morte', 'turno', 'geral',
'nova', 'setor', 'poder', 'secret\xc3', 'soldado', 'momento', 'rede', 'copa', 'general', 'meio', 'acesso', 'comando',
'prazo', 'banco', 'movimento', 'evento', 'filho', 'organiza\xc3', 'terra', 'falta', 'entrevista', 'diretor', 'encontro',
'n\xc3', 'comunidade', 'l\xc3', 'escola']
>>> len(prointer)
3655
>>> prointer[3650:]
['xingar', 'x\xc3', 'zorra', 'zumbir', '\xc3\xaaxodo']
>>> propriosf = prointer
>>> texto = wordlists.fileids()
>>> grandstr = ''
>>> k=0
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = '%s;%d;' % fd.items()[0]
grandstr = grandstr + texto[k] + ';' + strent + '@@@'
k +=1
continue
>>> grandstr[:100]
'1.txt;Haiti;10;@@@10.txt;ser;15;@@@100.txt;m\xc3;19;@@@101.txt;n\xc3;17;@@@102.txt;sobre;12;@@
@103.txt;sob'
>>> output_file2 = open('EH.txt', 'w')
>>> output_file2.write(grandstr)
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP=[]
>>> resPV = []
>>> strp = ''
>>> len(sentenc)
20325
186
>>> len(verbosf)
2635
>>> while k <= 2634:
while i <= 20324:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> resPV[0]
'Estar--->ser rio secret\xc3 haver corredor Brasil h\xc3 assistente j\xc3 receber sair pen\xc3 recebido/n'
>>> verbosf.index('ajudar')
115
>>> resPV[115]
'ajudar--->ano dia pa\xc3 segundo terremoto governo brasileiro haitiano ser m\xc3\xaas miss\xc3 mulher
presidente hora parte pessoa militar capital campo ministro americano centro m\xc3 regi\xc3 tempo pol\xc3
maior ponto fundo cidade final mundo passado lugar s\xc3 corpo caso estado base for\xc3 pra\xc3 bem deve
local v\xc3 grupo semana vida defesa fim ex\xc3 crian\xc3 fam\xc3 tropa elei\xc3 principal casa empresa
dinheiro direito rua trag\xc3 pr\xc3 guerra popula\xc3 noite candidato ser\xc3 rio homem morte geral nova
setor poder secret\xc3 soldado momento rede copa general meio acesso comando prazo banco movimento
evento filho organiza\xc3 terra falta entrevista diretor encontro n\xc3 comunidade l\xc3 escola ag\xc3\xaancia
forte hospital gente plano ent\xc3 funcion\xc3 passo professor c\xc3 desastre escravo maioria autoridade feita
espa\xc3 presen\xc3 vez in\xc3 reuni\xc3 vice aeroporto p\xc3\xbablico entrada recurso d\xc3 oficial processo
negro segunda chefe doa\xc3 equipe lado obra policial presente cara exterior comiss\xc3 comida institui\xc3
minuto valor leitor internet passagem argentino jornalista pequeno embaixador familiar porta site fonte
cat\xc3 china pris\xc3 p\xc3 mercado pesquisa sociedade comandante resgate pai terreno manh\xc3 veio
entidade efetivo mostra tarde alto claro deputado enviado posto acampamento amanh\xc3 natural per\xc3
tipo amigo fran\xc3 porto produto pessoal chanceler membro povo representante caminho estrangeiro f\xc3
t\xc3 estrutura padre justi\xc3 congresso franc\xc3\xaas volta conflito doador continente debate na\xc3
tomada civil sede cuba estudo ex irm\xc3 menor morador ator deus especialista jogador ordem ter
c\xc3\xbapula lideran\xc3 queda via chegada gabinete tonelada falha marca contingente gangue sa\xc3 bolsa
imprensa parceria partida aberta cr\xc3 emerg\xc3\xaancia futuro bloco ch\xc3 igreja est\xc3 fronteira pal\xc3
profissional tenda bairro curso espera quarto contato desafio desaparecido domingo norte quinta central custo
oportunidade rea\xc3 su\xc3 time clube coordenador destino dire\xc3 marinha altura cabo cerim\xc3 paciente
renda volunt\xc3 meta sobrevivente ter\xc3 companhia cujo fase frente marido sexta sorte costa doutor etapa
golpe minist\xc3 vale financeiro gasto parente perda quadro amor aula confer\xc3\xaancia fila funda\xc3
fun\xc3 partido vizinho assessor empres\xc3 latino privada quarta sinal carnaval hotel interior foco sismo
socorro vi\xc3\xbava Afeganist\xc3 cidad\xc3 cl\xc3 fator limite trabalhador abalo europeu junta onda verba
ambiente come\xc3 contra cubano premi\xc3\xaa santo tucano zona estudante ir margem traficante criada
cristo italiano acidente chin\xc3\xaas pleito prefeitura rod\xc3 surto tenta venda cobertura di\xc3 esp\xc3
estar organismo ru\xc3 abrigo atleta or\xc3 parceiro paulista religiosa suar agente solo Haiti cientista garoto
rota classe haver mission\xc3 venezuelano cinema cliente conselho interessado abertura avan\xc3 capa dizer
engenheiro fuzileiro gera\xc3 guarda conjunto cota forma\xc3 primeira primeiro torna ajudar caf\xc3
187
companheiro fiscal mau muda rebelde alma avenida contexto demora imediato ind\xc3\xbastria lama leva
peru religioso tai baixo buraco despesa governante invas\xc3 prometido EUA al\xc3 anivers\xc3 arrecada\xc3
bandido beb\xc3\xaa campe\xc3 capit\xc3 comer competi\xc3 contr\xc3 estatal formado grande hemisf\xc3
inf\xc3 li\xc3 menino mo\xc3 realista vencedor advers\xc3 arredores artista criado desvio filar governar parque
partir temporada agr\xc3 benef\xc3 bombeiro canto estreia goleiro intelectual licen\xc3 motorista tr\xc3 ativa
at\xc3 chileno democrata divis\xc3 dominicano greve original auxiliar depend\xc3\xaancia destro\xc3
economista evitar externo liga\xc3 ontem preparo sobre subsecret\xc3 sucess\xc3 tarifa todo vila acusado
entrar enviar fazer fogo frustra\xc3 la\xc3 legislativa mil\xc3 multid\xc3 pouso atacante cardeal caseiro
comit\xc3\xaa construtor coordenada defensor elevado ficar inst\xc3 protagonista representa\xc3 todos
visitante barato dar empreiteiro extremo industrial montanha recesso titular Brasil afirmar ainda cerca detido
empreendedor h\xc3 litro lutar palanque podar precedente propriet\xc3 rapper rodovia seguran\xc3 sobrinho
torre Minustah Porto benefici\xc3 casar colapso construtora diminui\xc3 esfera formar freira f\xc3\xbaria
ganhar gestor jantar levar mar\xc3 m\xc3\xbasico pastor pouco rastro r\xc3 saia voltar ONU agora ajuda
ativista bloqueio bom candidatar cont\xc3 deixar desde dever encarregado feira folhar monte palestino
patrocinador paz pois prov\xc3 quanto refei\xc3 acontecer algum alimento a\xc3 cirurgi\xc3 coleta copar diabo
empresar enxurrada festival frade holand\xc3\xaas imp\xc3 iniciado j\xc3 leito lona marcar oceano panorama
perder porque presta\xc3 republicano saber sobrar socorrista solar trabalhar aventura batizado chegar
cobertor compatriota cozinha delega\xc3 dez diretoria embora grego imprensar juntar morrer nada pedido
pesado precisar problema quatro receber sair seguida sim templo tremor ver aguar aqui balc\xc3 barreira
considerar controlar cortada crioulo demonstra\xc3 descendente distribuir dois escoltar esmola gal\xc3 grupar
inverno leil\xc3 oper\xc3 outro passar quedo recompensa ruir secular seguir soldar tamb\xc3 tele tornar
transformar trilha CNN Copa Folha Lula admirador assim atender atuar auto biblioteca caro cidadezinha cinco
civiliza\xc3 colocar congressista criar cumprir dentista econ\xc3 eleger entrevistar equatoriano estimar falante
falar fiscalizar folha instru\xc3 legado lula nadar not\xc3 novar novo parar perto pretender prometer quedar
querer reconstruir relevo rodada sa\xc3\xbade sobretudo subsidiado sul tamanho total tudo viver vizinhan\xc3
Argentina Berto Canad\xc3 Fran\xc3 PT Rep\xc3\xbablica abrir almo\xc3 aparecer apoio aumentar bastante
b\xc3 caminhar caminh\xc3 centrar condi\xc3 confirmar conseguir cortado defender deputar distribuidor
distribui\xc3 eclos\xc3 encontrar esfor\xc3 esgotar excel\xc3\xaancia federal feito garantir hoje int\xc3 mandar
manuten\xc3 matar moinho mundial m\xc3\xbatua nacional opera\xc3 parca pedir pensar policiar prender
presid\xc3\xaancia privado privar relatar restaura\xc3 risco salvar situa\xc3 sob sugerir tanto tender usar vir
Berna Bolduc Costa Cuba Dilma It\xc3 Jean Jos\xc3 Julio Pel\xc3 Ren\xc3 acabar adepto adiantar afetado afetar
agendar agir alertar algo animal antes aprovar armar assegurar assist\xc3\xaancia avaliar avalia\xc3 avi\xc3
bancar bando barata bloquear bra\xc3 buscar cada card\xc3 cart\xc3 causar chamado chegado chuva cima
cincar circo circular cnn coisa comboio conduzir conforme conhecer controle convocar coordenar cubar
cuidado dalai decidir dentro destacar destruir desviar devido dificuldade dif\xc3 dirigir dispon\xc3 disputar
divulgar encaminhar ente entregar entrever envio equipar errar escolher escoteiro escrever escultor esquecer
estima estrat\xc3 exclusivo expressar faltar fluir fog\xc3 forma formiguinha fragata funcionamento funcionar
gastar gritar hecatombe humanit\xc3 idear importante incluir informar interessar leigo liberar limitar
mandante manter marinhar material mear medo merecer ministerial monta mortandade morto multilateral
nado necess\xc3 novembro n\xc3\xbamero objetivo obter ocorrer oferecer onde operar op\xc3 pagar pedra
planejar pobre por\xc3 possibilidade preciso preocupar preocupa\xc3 preparar presidencial prociss\xc3
procurar qualquer quase quest\xc3 rancho reconstru\xc3 redar reforma reformar render resgatar responder
resultado resultar retornar revelar riscar rito saudar save saver savir seguido seriar servir servi\xc3 sobreviver
sobrevoar socorrer sonegador suicida sustentar tema temer tempor\xc3 tem\xc3 tentar tentativa teto tolo
tomar tr\xc3\xaas t\xc3\xaanue unir utilizar valer volver \xc3\xbaltimo \xc3\xbanico Alain Al\xc3 Am\xc3 BBC
Ban Barack Bellerive Bernardes Bill Bolsa Bradesco Bras\xc3 Casa Chile Col\xc3 C\xc3 DF Everlast Fidel Floriano
George Homem Iraque Jeffrey Kendrick Luiz Marinha Miami Minist\xc3 Mo\xc3 Mundial Na\xc3 Nova ONGs
Obama On Paquist\xc3 Peru Player Pr\xc3 Robert Santos US Uni\xc3 Venezuela Washington Zilda abalar abrigar
acessar acidentar aeronauta africano agenda aglomerar agregar alega\xc3 algu\xc3 ali alterar ambos amenizar
amparar animador animar anteontem anual apesar apressar aprovado aproveitar arredor artigo atacar atentar
atingir atoleiro atr\xc3 atual atualmente atua\xc3 aumento aux\xc3 bacana bacano bar boa busca caber
camiseta campar carga carregado carregar car\xc3 centena certo chamar chino cine cio cofre comum
comunicar comunica\xc3 comunit\xc3 concentrado concentrar conformar constitui\xc3 conter contingentar
continuar contista crescer cria\xc3 crise cuidar dano dan\xc3 declarar definir democr\xc3 derrubar desabrigado
188
desabrigar desaparecer desigualdade despachante destitui\xc3 devastar diante diariamente dignidade
diplom\xc3 discutir disponibilizar diverso diversos documento dormir durante economia educa\xc3 eleitoral
eliminar enquanto enxurrar equipamento errado escombros especial esperar esportivo esquema estabelecer
estabiliza\xc3 estopim estrago estrangeirar evangelista exemplo exigir fabrica\xc3 falto fato fen\xc3 fevereiro
fez focar fossar fundar furac\xc3 futurar gest\xc3 gostar gravar grave horas ideia ilustrador imagem individual
infinito inicial iniciativa integrante inteiro internacional investimento item janeiro jornal junto lei listar livrar
locar longo maci\xc3 mal mandatar mandato mantimento marinho medicamento melhorar mencionar menos
mensagem mero milhar ministrar montar mostrar negocia\xc3 nenhum nunca objetivar obrar ocupar orientar
ouvir palmeira papel parecer perdido perguntar plantador pontar portanto pousar presentar prever priorit\xc3
privilegiar produzir projeto protagonismo publicar quinze recebido recolher redor regional renovar reportagem
resolver respeitar retomar romancista sacar saque savar sempre sentar separado separar significar simples
sobreviv\xc3\xaancia social sofrer solu\xc3 somente sugest\xc3 suspender talvez tarefa tasca toda trabalho
transferir tratado tratar trazer trocar universal usado uso valar vantagem variar vigil\xc3 violento
viol\xc3\xaancia vontade voz/n'
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVEH.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
2635
189
APÊNDICE C – Comandos para Corpus Chile em Método Supervisionados
Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
****************************************************************
Personal firewall software may warn about the connection IDLE
makes to its subprocess using this computer's internal loopback
interface. This connection is not visible on any external
interface and no data is sent to or received from the Internet.
****************************************************************
IDLE 2.6.6
>>> # -*-coding: iso-8859-1 -*>>> import nltk
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Chile/PROP'
>>> from nltk.corpus import PlaintextCorpusReader
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
63418
>>> i=0
>>> ent=[]
>>> while i <= 63417:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> stopwords = nltk.corpus.stopwords.words('portuguese')
>>> sw2 = [w.title() for w in stopwords]
>>> sw2.append('PS')
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 4238 outcomes>
>>> prointer = fd3.keys()
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle())
>>> prop1 = fd4.keys()
>>> len(prop1)
1217
>>> fd5 = nltk.FreqDist(w for w in prointer if w.upper())
>>> prop2 = fd5.keys()
>>> len(prop2)
1624
>>> prop2[1600:]
['Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3', 'emerg\xc3\xaancia',
'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar', 'propor\xc3',
'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo']
>>> prop1[1200:]
190
['William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'Xinhua', 'Xynthia', 'Yadin', 'Yes', 'Yolanda', 'Your',
'Yukari', 'Zeca', 'Zeke', 'Zenith', 'Zou']
>>> prop2[1606:1608]
['Zou', 'Z\xc3']
>>> propriosf = prop1 + prop2[:1608]
>>> propriosf = set(propriosf)
>>> len(propriosf)
1608
>>> grandstr = ''
>>> k=0
>>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de
São Paulo Etiquetado/Chile'
>>> wordlists= PlaintextCorpusReader(corpus_root, '.*')
>>> texto = wordlists.fileids()
>>> while k <= 143:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = ' '.join(fd.keys()[:10])
grandstr = grandstr + strent
k +=1
continue
>>> grandstr[:200]
'Chile Inpres La San Aires Argentina Buenos Clar\xc3 Instituto MarceloS\xc3 ANA Academia Angela Antonio
Beth Brasil Brasileira Brincadeira ChristianChile Diego EUA Francisco Hava\xc3 Jap\xc3 Richter San Santiago S'
>>> listaP = grandstr.split(' ')
>>> listaP[:10]
['Chile', 'Inpres', 'La', 'San', 'Aires', 'Argentina', 'Buenos', 'Clar\xc3', 'Instituto', 'MarceloS\xc3']
>>> len(listaP)
1155
>>> len(set(listaP))
637
>>> set(['AderbalChile', 'For\xc3', 'Abrablin', 'Libra', 'Buenos', 'Edelnor', 'Turquia', 'Adimark', 'Gr\xc3', 'Wired',
'FernandaPinto', 'Buzina\xc3', 'Maradona', 'Clar\xc3', 'Z\xc3', 'Allende', 'Jaime', 'Andr\xc3', 'Pal\xc3', 'Richter',
'LAN', 'SBT', 'M\xc3', 'Oliveira', 'Edgardo', 'Itacarambi', 'PequenosChile', 'Vila\xc3', 'MundoVenezuela', 'Paul',
'George', 'J\xc3\xbanior', 'MichelleBachelet', 'ChristianChile', 'Silvio', 'Saint', 'Bol\xc3', 'Gandra', 'Maracan\xc3',
'Nova', 'Opus', 'Valle', 'Jane', 'Solange', 'Marisa', 'Punta', 'Canad\xc3', 'Panam\xc3Ferreira', 'Telecurso', 'Poit',
'Alan', 'Renova\xc3', 'Cruz', 'Caribe', 'Sebasti\xc3Bachelet', 'Al\xc3Chile', 'Bol\xc3Pequim', 'BRICS', 'Caruaru',
'ElBrasil', 'AlexandreAnos', 'Ta\xc3', 'David', 'ChilePedro', 'Associated', 'Record', 'PaulBachelet',
'MichelleSantiago', 'Clara', 'MichellePaulo', 'Renda', 'Cone', 'Victor', 'Antes', 'Kress', 'FT', 'SMS', 'Jer\xc3',
'ChileChile', 'Letelier', 'Alberto', 'ForeignChile', 'EIU', 'AlphavilleBrasil', 'Europa', 'Federa\xc3', 'Tiger',
'Provid\xc3\xaancia', 'Qu\xc3\xaania', 'Artibonite', 'Maratona', 'Anos', 'JuanAndy', 'Brasil', 'Hyderabad', 'Al\xc3',
'Folha', 'Jos\xc3Kirchner', 'Clinton', 'Crescente', 'Josefa', 'Alian\xc3', 'CentroChile', 'AreanoChatroulette', 'Fiuk',
'Associa\xc3', 'Canc\xc3\xban', 'SP', 'Presid\xc3\xaancia', 'Kimmel', 'DilmaLula', 'Aretuza', 'Andrade',
'S\xc3Araucania', 'Le', 'JeremyUganda', 'La', 'Kathleen', 'Lin', 'McAfee', 'Energia', 'ArtesAm\xc3', 'Bruno',
'EntelChina', 'Palacios', 'Erick', 'Gonzalo', 'Administra\xc3', 'Patr\xc3', 'Antitucan\xc3\xaas', 'FVF', 'Grupo',
'WilliamChileLa', 'Sebasti\xc3', 'ONU', 'Concha', 'STB', 'Dom', 'Bachelet', 'Cicero', 'ABL', 'Foreign', 'Goulart',
'Fiesp', 'Lisa', 'SulMoody', 'Carlos', 'VaticanoCopa', 'Arnaldo', 'Churchill', 'Ali', 'Maxwell', 'Hinzpeter', 'Cassino',
'ASSUSTATION', 'Ust\xc3', 'Fukushima', 'Farias', 'Lafis', 'Gabriela', 'Bellavista', 'BBTalcahuano', 'Jay',
'MarceloS\xc3', 'Chi', 'ChileUshahidi', 'ATPCarlos', 'Jo\xc3', 'Pernambuco', 'Leia', 'Estados', 'RS', 'Minist\xc3US',
'Lu\xc3', 'Bernardita', 'RC', 'Nurya', 'Luis', 'GPS', 'Coreia', 'Porto', 'USS\xc3', 'Bolsa', 'Gon\xc3', 'AHVAITARDE',
'Lima', 'DilmaBBB', 'Codelco', 'Publifolha', 'Ban', 'Rafael', 'Ex\xc3', 'Globo', 'San', 'MichelleChile', 'Kika', 'Council',
'EUASan', 'Servi\xc3Paulo', 'Inpres', 'Dudi', 'Neymar', 'Fertilizantes', 'Golfinho', 'Turismo', 'Barack', 'Cousi\xc3',
'Peru', 'Eugenio', 'Tarcisio', 'Federer', 'N\xc3Argentina', 'Al\xc3Jap\xc3', 'AugustoSantiago', 'Cunha', 'Elizabeth',
'MundoBachelet', 'Embaixada', 'Norte', 'Campos', 'China', 'Aires', 'Filipinas', 'Dantec', 'Rysselberghe', 'Tonga',
191
'Pr\xc3', 'Al\xc3Avenida', 'Felipe', 'Mall', 'Miguel', 'Col\xc3TEPT', 'ChileQueixa', 'CBAr', 'RichterABGLT', 'Hora',
'El', 'Bicenten\xc3', 'Gusan', 'Angola', 'Guerra', 'Boston', 'SendaiColo', 'Jesus', 'Cat\xc3Deus', 'Eduardo', 'BBChile',
'Aguas', 'Nicolas', 'Mendoza', 'Hugo', 'D\xc3', 'Rapesta', 'Talca', 'Delegacia', 'DilmaKissinger', 'CapPriscila',
'SantiagoHava\xc3', 'Tun\xc3Chile', 'Coisas', 'SantiagoCosta', 'Lorito', 'Guardian', 'Cem', 'Ara\xc3\xbajo',
'Miriam', 'Vale', 'Col\xc3', 'Altman', 'Demanda', 'Equador', 'Spiandorin', 'Haiti', 'Osmar', 'Estado', 'Fundo',
'Coquimbo', 'BBC', 'It\xc3', 'Ismael', 'SilvaBrasil', 'Espanha', 'Ex\xc3Jara', 'IPVA', 'Conjunto', 'Colorado',
'N\xc3Chile', 'ITF', 'Vargas', 'Alejandro', 'TheLAN', 'Fletcher', 'Alexander', 'EstadoCarlos', 'Diego', 'Axxion',
'Marcos', 'Mar\xc3Correa', 'Temuco', 'Levantamos', 'Vemos', 'Venezuela', 'Jap\xc3', 'Hava\xc3', 'T\xc3Chile',
'Gonz\xc3', 'Ocidente', 'Emerg\xc3\xaanciaFolha', 'Cruce', 'Kim', 'Dr', 'Artes', 'EUA', 'Copa', 'Ubabef', 'S\xc3',
'Depto', 'TimorHaiti', 'KatrinaFolha', 'Google', 'Andr\xc3For\xc3', 'Beavan', 'Araya', 'Lisboa', 'Ex\xc3Santiago',
'Banco', 'Universidade', 'Abipecs', 'Santos', 'Monitor', 'EM\xc3', 'Auxiliares', 'Bras\xc3', 'Itamaraty', 'PAC', 'Hilo',
'Indon\xc3', 'Anne', 'Bio', 'Santiago', 'BB', 'DJsNews', 'Corpora\xc3', 'P\xc3', 'Seraphin', 'Valpara\xc3Brasil',
'PauloChile', 'Michelle', 'Tofoni', 'Tend\xc3\xaancias', 'RODOLFOSP', 'GfK', 'Comunidades', 'Dorival', 'Adriano',
'CondellVi\xc3', 'Aliado', 'Joice', 'ParadoxalLula', 'Cristo', 'Washington', 'Mundo', 'Denise', 'Rio', 'Conselho',
'BBMarinha', 'ArgentinaChile', 'Grant', 'Hospital', 'Paulo', 'Zou', 'Unasul', 'GuerraChile', 'John', 'Maratonando',
'Austr\xc3', 'BrasileiraBachelet', 'Good', 'Cabrera', 'S\xc3Brasil', 'Rand\xc3', 'Maule', 'SANINO', 'Patr\xc3Natal',
'M\xc3\xbasica', 'Ribeir\xc3GEAN', 'Vicente', 'LGBT', 'Bariloche', 'Cordero', 'BIGCara\xc3', 'Rebolation', 'Ri\xc3',
'Eqecat', 'ANA', 'FernandaKleist', 'Nutrin', 'Kant', 'Atton', 'Brics', 'Ganso', 'DVD', 'TVs', 'Camila', 'Sebasti\xc3MIT',
'Deus', 'Na\xc3', 'EmbaixadaChile', 'Minist\xc3', 'Brastemp', 'N\xc3Folha', 'MundoBrasil', 'Chilo\xc3',
'Brincadeira', 'Arte', 'Natal', 'SantiagoCoreia', 'MercosulEuropa', 'Ir\xc3', 'Gyegu', 'Clijsters', 'AnaChile',
'ManuelJoyce', 'Cidade', 'Lukas', 'Jornal', 'Prov\xc3Darwin', 'Academia', 'Angela', 'Eguiguren', 'Francisco',
'Dieese', 'Abramat', 'Reino', 'Colo', 'Ex\xc3Bachelet', 'Cultura', 'Enem', 'Heine', 'GNS', 'Cynthia', 'ELVIRA',
'ALLAIN', 'Ex\xc3Chile', 'CBN', 'GMACChile', 'Febraban', 'Cerro', 'EscolaBig', 'Jacqueline', 'Israel', 'NovosBrasil',
'Panam\xc3', 'Leviat\xc3', 'Ortobom', 'Bloomberg', 'FAB', 'Belas', 'Instituto', 'Reis', 'Projeto', 'MTV', 'ADI\xc3',
'FernandoBrasil', 'Manuel', 'Clementina', 'AdrianoChile', 'ChilePi\xc3', 'Paraguai', 'N\xc3\xbacleo', 'Pierre',
'HaitiBachelet', 'Austr\xc3Chile', 'Austr\xc3Ibovespa', 'Lula', 'Cotton', 'BID', 'Fran\xc3', 'Marinha',
'Cear\xc3Brasil', 'Al\xc3Lay', 'Kacef', 'Defesa', 'BM', 'Museu', 'Ricardo', 'GSI', 'H\xc3', 'Argentina', 'Torres',
'Vilalva', 'Harel', 'Su\xc3', 'Bingol', 'ForbesPi\xc3', 'Oscar', 'Pelaa', 'EvoPi\xc3', 'Departamento', 'Caf\xc3',
'SymantecPi\xc3', 'Marina', 'Alemana', 'JocelynChile', 'RicardoAlejandro', 'Receita', 'Santa', 'Est\xc3', 'Gabriel',
'Roberto', 'Dia', 'NicanorPi\xc3', 'Grande', 'Onemi', 'Curto', 'Clube', 'Valdivia', 'IntercontinentalSantiago',
'Samoa', 'Uni\xc3Chile', 'AirChile', 'Alasca', 'Maria', 'Alencastro', 'Ex\xc3DEM', 'B\xc3', 'Sul', 'N\xc3', 'Andy',
'Jonathan', 'F\xc3Landrino', 'Apas', 'Prov\xc3', 'Shlaudeman', 'Abba', 'CGFome', 'Moscou', 'PI\xc3', 'PTB', 'Hu',
'Telhanorte', 'Facebook', 'Uni\xc3', 'BUEMBA', 'IPOs', 'Pr\xc3Dia', 'Cristi\xc3', 'Dilma', 'A\xc3Ara\xc3\xbajo',
'Pi\xc3', 'Antonio', 'Andes', 'CopaPi\xc3', 'Davis', 'Bamba', 'Miralles', 'US', 'Col\xc3Canales', 'Neruda',
'Bras\xc3Copa', 'Augusto', 'DistritoElazig', 'Pedro', 'Lib\xc3', 'Juan', 'UniversidadeAngra', 'Transtorno',
'Edmundo', 'Serra', 'Centro', 'Jos\xc3', 'NA', 'Hillary', 'Chile', 'Obama', 'A\xc3', 'Esperanza', 'CovasHaiti', 'Unica',
'Luciana', 'Abiec', 'Fam\xc3', 'Musso', 'SALLEReinoso', 'Beth', 'Belo', 'CristinaSantiago', 'Buena', 'ReginaldoChile',
'ScottiChile', 'Hava\xc3Jap\xc3', 'Rep\xc3\xbablica', 'Uruguai', 'Tancredo', 'AntesChile', 'Enrique', 'Pinto',
'FolhaSilva', 'Elano', 'Am\xc3', 'Niuatoputapu', 'MSF', 'BancoChile', 'FeriaBrasil', 'Mar', 'NatureMoscou', 'TV',
'Tradu\xc3', 'Jorge', 'Mario', 'Valpara\xc3', 'Brasileira', 'Ad\xc3', 'Discovery', 'DepartamentoChile', 'Heinrich',
'Samaritans', 'Costa', 'FPF', 'Casa', 'Windows', 'Artur', 'Fernando', 'Marcelo', 'Alfredo', 'NasaHillary', 'HaitiBrasil',
'Bracelpa', 'Oncken', 'Cuba', 'Benjam\xc3', 'Ar', 'Alemanha', 'Pablo', 'ChilePerigo', 'Corpo', 'Cristina'])
>>> j=0
>>> strfil = ''
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('LAN') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
192
'33.txt 68.txt 71.txt 94.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('TheLAN') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
''
>>> j
144
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Valle') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'95.txt 96.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('For\xc3'') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
SyntaxError: EOL while scanning string literal
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('For\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'15.txt 20.txt 22.txt 3.txt 37.txt 48.txt 49.txt 56.txt 57.txt 61.txt 63.txt 64.txt 71.txt 81.txt 93.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Associa\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
193
'112.txt 132.txt 134.txt 62.txt 78.txt 84.txt 92.txt 95.txt 96.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('USS\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
''
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Vale') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'117.txt 127.txt 53.txt 73.txt 82.txt 93.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('ITF') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'41.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Ubabef') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'101.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Depto') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
194
>>> strfil
'112.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Auxiliares') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'45.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Bras\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'110.txt 13.txt 16.txt 2.txt 20.txt 25.txt 3.txt 40.txt 60.txt 70.txt 75.txt 78.txt 79.txt 80.txt 81.txt 86.txt 87.txt
9.txt 93.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Corpora\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'32.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Aliado') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'6.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Hospital') != 0:
strfil = strfil + texto[j] + ' '
j += 1
195
continue
>>> strfil
'119.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Unasul') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'81.txt 90.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('ANA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'10.txt '
>>> =0
SyntaxError: invalid syntax
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('EmbaixadaChile') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
''
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('GNS') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'114.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
196
if texan.count('BID') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'110.txt 72.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Marinha') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'136.txt 20.txt 29.txt 30.txt 36.txt 49.txt 56.txt 64.txt 81.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Kacef') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
s
>>> strfil
'106.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Defesa') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'141.txt 15.txt 2.txt 75.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('BM') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'44.txt '
>>> strfil = ''
197
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('GSI') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'3.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('H\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'110.txt 118.txt 129.txt 13.txt 134.txt 15.txt 20.txt 3.txt 36.txt 38.txt 40.txt 54.txt 70.txt 81.txt 82.txt 83.txt
86.txt 87.txt 92.txt 93.txt 99.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Departamento') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'103.txt 107.txt 123.txt 144.txt 82.txt 9.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Abba') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'104.txt '
>>> strfil = ''
>>> j=0
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Centro') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
198
'129.txt 132.txt 140.txt 2.txt 5.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('BancoChile') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Heinrich') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'53.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Samaritans') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'27.txt '
>>> j=0
>>> strfil = ''
>>> while j <= 143:
texan = wordlists.words(texto[j])
if texan.count('Casa') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'129.txt 32.txt 67.txt 70.txt 82.txt 90.txt 93.txt '
>>> propriosf = ['For\xc3', 'Cruz', 'ONU', 'Bras\xc3', 'Itamaraty', 'Marinha', 'Defesa', 'GSI', 'CGFome', 'MSF',
'Samaritans']
>>> propriosf[0]
'For\xc3'
>>> palverb = wordlists.words()
>>> len(palverb)
1128585
>>> etverb = [w for w in palverb if w.startswith('v')]
>>> etverb = set(etverb)
>>> len(etverb)
330
199
>>> i=0
>>> verbs = []
>>> while i <= 1128584:
if palverb[i] in etverb:
if palverb[i-1] == '<':
if palverb[i-2] == ']':
verbs.append(palverb[i-3])
i +=1
continue
>>> verbosd = set(verbs)
>>> len(verbosd)
1396
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and
w.isalpha())
>>> fd2
<FreqDist with 1394 outcomes>
>>> verbosf = fd2.keys()
>>> sentenc = wordlists.sents()
>>> len(sentenc)
3187
>>> len(verbosf)
1394
>>> resPV = []
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP = []
>>> strp = ''
>>> while k <= 1393:
while i <= 3186:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> resPV[71]
'ajudar--->ONU/n'
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPSC.txt', 'w')
>>> output_file.write(sestr1)
>>>
verbosf='abalar@acabar@acusar@admitir@adotar@afetar@afirmar@agradecer@aguar@ajudar@alastrar@a
200
legar@alertar@aliar@amplificar@analisar@anunciar@apoiar@apontar@aprovar@ar@armar@assentar@ass
entir@assumir@atacar@atender@atingir@aumentar@avaliar@bolar@buscar@cair@cancelar@casar@centra
r@chegar@cincar@comandar@combater@comer@comerciar@conseguir@considerar@construir@consultar
@contatar@contestar@controlar@conviver@correr@criticar@cruzar@culpar@cumprimentar@curtir@dar@
declarar@decolar@decretar@defender@delegar@demonstrar@demorar@desabrigar@descartar@descobrir
@desconfortar@destinar@deter@devastar@dever@disparar@distribuir@divulgar@dizer@drogar@eleger@e
logiar@emitir@entrar@entregar@entrever@entrevistar@entusiasmar@enviar@equipar@errar@esperar@es
tar@estender@estimar@estudar@evacuar@exigir@exportar@expressar@falar@falhar@falir@falsar@faltar
@fazer@ferir@ficar@financiar@fomentar@fossar@fugir@futurar@gerar@governar@haver@impedir@imple
mentar@imprensar@indicar@informar@instalar@instaurar@instituir@ir@jogar@levar@ligar@listar@livrar
@mandar@manter@marinhar@matar@mear@medir@militar@ministrar@mobilizar@montar@morrer@mot
ivar@notar@novar@oar@ocorrer@ofertar@olhar@ordenar@pacificar@parecer@partir@passar@pedir@per
der@perigar@permitir@pesquisar@pilotar@podar@poder@preparar@prestar@pretender@propor@propor
cionar@proteger@provar@prover@publicar@querer@recolher@reconhecer@recorrer@recusar@redar@ref
erir@relatar@respaldar@respeitar@responsabilizar@ressaltar@restar@retornar@reunir@revelar@riscar@ro
ubar@ruir@sacar@sair@segar@seguir@ser@seriar@significar@sobrar@sobreviver@soterrar@suar@sustent
ar@telefonar@tender@tentar@ter@tirar@tocar@tomar@trabalhar@trocar@ver@vir@visar@visitar@viver
@zonar'
>>> verbosf = verbosf.split('@')
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Chile/ETIQUETADOS Chile - Léxico'
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
174010
>>> i=0
>>> ent=[]
>>> while i <= 174009:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
12281
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 11786 outcomes>
>>> prointer = fd3.keys()
>>> propriosf = prointer
>>> len(propriosf)
1353
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP =[]
>>> resPV = []
>>> strp = ''
>>> len(sentenc)
3187
>>> len(verbosf)
213
>>> while k <= 212:
while i <= 3186:
201
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVEAC.txt', 'w')
>>> output_file.write(sestr1)
>>> i=0
>>> ent=[]
>>> while i <= 63417:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
4606
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 4238 outcomes>
>>> propriosf = fd3.keys()
>>> prointer = fd3.keys()
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle())
>>> fd5 = nltk.FreqDist(w for w in prointer if w.upper())
>>> prop1 = fd4.keys()
>>> prop2 = fd5.keys()
>>> prop2[1600:]
['Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3', 'emerg\xc3\xaancia',
'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar', 'propor\xc3',
'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo']
>>> propriosf = prop1 + prop2[:1608]
>>> propriosf = set(propriosf)
>>> len(propriosf)
1608
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP=[]
>>> strp = ''
>>> resPV=[]
>>> while k <= 212:
while i <= 3186:
202
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPAC.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
213
203
APÊNDICE D – Comandos para Corpus Haiti em Método Supervisionados
Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
****************************************************************
Personal firewall software may warn about the connection IDLE
makes to its subprocess using this computer's internal loopback
interface. This connection is not visible on any external
interface and no data is sent to or received from the Internet.
****************************************************************
IDLE 2.6.6
>>> # -*-coding: iso-8859-1 -*>>> import nltk
>>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/PROP'
>>> from nltk.corpus import PlaintextCorpusReader
>>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*')
>>> palavras = wordlists4.words()
>>> len(palavras)
390443
>>> i=0
>>> ent=[]
>>> while i <= 390442:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> stopwords = nltk.corpus.stopwords.words('portuguese')
>>> sw2 = [w.title() for w in stopwords]
>>> sw2.append('PS')
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 27236 outcomes>
>>> prointer = fd3.keys()
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle())
>>> fd5 = nltk.FreqDist(w for w in prointer if w.upper())
>>> prop1 = fd4.keys()
>>> prop2 = fd5.keys()
>>> len(prop1)
3881
>>> len(prop2)
5131
>>> prop2[5100:]
['Zhang', 'Zhouqu', 'Zhu', 'Zico', 'Zidane', 'Zilda', 'Zimb\xc3', 'Zito', 'Zoboomafoo', 'Zoey', 'Zona', 'Zonas',
'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro',
'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows']
>>> propriosf = prop1 + prop2[:5120]
>>> propriosf = set(propriosf)
>>> len(propriosf)
204
5120
>>> grandstr = ''
>>> k=0
>>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de
São Paulo Etiquetado/Haiti'
>>> wordlists= PlaintextCorpusReader(corpus_root, '.*')
>>> texto = wordlists.fileids()
>>> len(texto)
842
>>> while k <= 841:
fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf)
strent = ' '.join(fd.keys()[:10])
grandstr = grandstr + strent
k +=1
continue
>>> listaP = grandstr.split(' ')
>>> len(listaP)
7283
>>> len(set(listaP))
1985
>>> set(listaP)
set(['NYT', 'Gadael', 'Lavalas', 'Buenos', 'Toledo', 'NYC', 'Turquia', 'ManchesterPR', 'Sakineh', 'Exposi\xc3', 'Klein',
'Unidas', 'POUPEX', 'Galeria', 'Confirmado', 'DefesaPR', 'Western', 'Jovem', 'Nobre', 'Jornada', 'Henri',
'Maradona', 'Regininha', 'Blade', 'Z\xc3', 'H\xc3PR', 'Andr\xc3', 'Richter', 'Tomie', 'Cantagalo', 'MAR', 'MAX',
'Aeron\xc3', 'PRPR', 'Odebrecht', 'Paul', 'Absten\xc3', 'Rela\xc3PR', 'Festival', 'Unidade', 'UFRJPR', 'MehmetPR',
'Ag\xc3\xaanciaPR', 'Bender', 'Barcelona', 'Curitiba', 'ChinaPR', 'Brunhera', 'EstadoPR', 'LogoPR', 'HenryPR',
'YelePR', 'Amazon', 'Hamilton', 'Caribe', 'GlobalPR', 'Unidos', 'Igreja', 'Fabiano', 'Lassegue', 'ARISTIDE', 'Muro',
'Heine', 'Livestrong', 'Hamas', 'Moreira', 'Campala', 'NOV', 'RicardoNews', 'PortoPR', 'PewPR', 'Bombocados',
'Cityville', 'Disputa', 'Bellino', 'L\xc3', 'Juno', 'Tuvalu', 'AngelinaPR', 'Itaim', 'Qu\xc3\xaania', 'GreenPR',
'BELLEAU', 'Christina', 'Lazzarini', 'Inglaterra', 'Al\xc3', 'Folha', 'Crowley', 'Nadal', 'Fernandes', 'Ceci', 'Spektor',
'Josefa', 'Beyonc\xc3PR', 'Manigat', 'Tecnologia', 'Baptiste', 'ArmandoPR', 'MiamiPR', 'Bruijn', 'La', 'Celso', 'Swat',
'Bike', 'Abu', 'MUGGAH', 'TelecinePR', 'Carvalho', 'CesePR', 'Pr\xc3\xaamio', 'Figo', 'PioneiraPR', 'ONG',
'Edmond', 'Jordan', 'Miranda', 'ONU', 'Bachelet', 'ExecutivosPR', 'Castro', 'EuropeiaPR', 'Carlos', 'RBSPR',
'Funcex', 'KraftPR', 'V\xc3PR', 'PNH', 'Ram\xc3', 'MartaPR', 'AAAS', 'Zapata', 'Animais', 'Mogi', 'Laurence',
'Montr\xc3', 'Conex\xc3PR', 'Bras\xc3PR', 'EpidemiaPR', 'Natal', 'Evan', 'TorresPR', 'Jornal', 'Burns', 'Leste',
'Nig\xc3', 'Anos', 'JAN', 'Lass\xc3', 'Agenda', 'VTPR', 'MRE', 'Arroz', 'Caf\xc3', 'Jaboticabal', 'Indio', 'BancoPR',
'Almagro', 'Ag\xc3\xaanciasPR', 'Superior', 'Beaumont', 'Mait\xc3\xaa', 'Antoine', 'EspanhaPR', 'GuerraPR',
'Discovery', 'PR\xc3', 'Bandeira', 'Corcovado', 'William', 'Filipinas', 'Junior', 'University', 'AFA', 'DireitosPR', 'Roth',
'Sensus', 'Comando', 'Aperto', 'CEPRPR', 'BoiPR', 'Hora', 'Cambridge', 'Clinton', 'BTS', 'Abimilho', 'J\xc3\xbanior',
'Uganda', 'Eduardo', 'Cely', 'Toussaint', 'Sonia', 'Armador', 'BertrandPR', 'DeauphinPR', 'Claude', 'DayPR',
'CavagnariPR', 'Haiti', 'Estado', 'ZeroPR', 'Miragoane', 'Landrino', 'EUA', 'It\xc3', 'Almaghabi', 'Jiman\xc3Haiti',
'Equador', 'Chernobyl', 'IPVA', 'CESARPR', 'CastroJean', 'Jogos', 'ClaudiaPR', 'Madonna', 'Angelo', 'FilipinasPR',
'Renda', 'JeanPR', 'CfemeaPR', 'Araraquara', 'Capiberibe', 'Williams', 'Pastore', 'Christian', 'Albert',
'StephanesPR', 'Bing', 'Aristide', 'Uni\xc3', 'McAslanPR', 'Aquassab', 'Barretos', 'UnidasPR', 'Conrad', 'Comer',
'Wang', 'Minist\xc3PR', 'Sexta', 'Lisboa', 'Itu', 'Universidade', 'VivaPR', 'Union', 'Flash', 'SEITENFUS', 'ChilePR',
'ItamaratyPR', 'PAC', 'PAM', 'Mich\xc3', 'Alckmin', 'Frei', 'Christophe', 'Amano', 'Big', 'Estabiliza\xc3', 'Seraphin',
'Duvalier', 'KC', 'Gama', 'Pode', 'Honor\xc3', 'Vieira', 'Log\xc3', 'ConselhoPR', 'Bahia', 'Batista', 'Fifa', 'Ex\xc3',
'Cristo', 'Ari', 'Petit', 'Washington', 'Rio', 'BacellarPR', 'Perez', 'Caribbean', 'MartellyPR', 'BurkinaPR', 'Foster',
'GBS', 'H\xc3', 'CNBBPR', 'Comit\xc3\xaa', 'JobimPR', 'OMS', 'Madri', 'Granja', 'Chancelaria', 'Cantinho',
'Piragibe', 'Central', 'Bronx', 'Globocop', 'Complexo', 'BakerPR', 'Eqecat', 'Tr\xc3\xaasPR', 'A\xc3PR', 'PSB',
'Focus', 'Antecipa\xc3', 'DonaldPR', 'DinavancePR', 'Presid\xc3\xaanciaPR', 'MAGUIRE', 'GrupoPR', 'ETA',
'Associa\xc3PR', 'EmboraPR', 'CICV', 'Comunica\xc3', 'Na\xc3', 'CoBrA', 'Literatura', 'Manaus', 'Galula', 'Hillary',
'Bombeiros', 'Christopher', 'Paz', 'AnnePR', 'CE', 'Caio', 'Coordena\xc3', 'Alexandre', 'BernardesPR', 'Holmes',
205
'International', 'Xique', 'Domingos', 'Cultura', 'BuenosPR', 'Enem', 'Sa\xc3\xbade', 'Blakney', 'Figueiredo',
'DOPazPR', 'Afonso', 'ALLAIN', 'Dzhennet', 'FHC', 'Bush', 'CVM', 'Sobre', 'Cukier', 'Jeffrey', 'Andre', 'Venezuela',
'Unesco', 'Instituto', 'Maguire', 'C\xc3', 'Gates', 'Antunes', 'EnergyPR', 'Paraguai', 'BurnsPR', 'Cr\xc3', 'Lula',
'Saved', 'Sarah', 'Hirst', 'AjudaPR', 'Georgiana', 'Ricardo', 'SouthPR', 'Aid', 'Corinthians', 'Editora', 'Philippe',
'M\xc3PR', 'Saudade', 'Baixo', 'AbuncarePR', 'News', 'Philip', 'Ramalho', 'AustinPR', 'Guerrit', 'Roberta', 'Ensino',
'Gabriel', 'Roberto', 'Peixoto', 'Titanyen', 'Desde', 'Antilhas', 'Winhurst', 'Claudia', 'Guayaquil', 'Kamukama',
'Brenda', 'Nexus', 'Claudio', 'Ara', 'Bras\xc3Haiti', 'ONUPR', 'C\xc3PR', 'Bangladesh', 'Martelly', 'HD', 'Susana',
'Lee', 'Cuba', 'Lei', 'Leo', 'Les', 'Facebook', 'Chris', 'Davi', 'PCO', 'SantosKC', 'LimaPR', 'Barcellos', 'AltamiraPR',
'Mello', 'Eletrobr\xc3', 'Gomes', 'Imdb', 'Cameron', 'F\xc3PR', 'Irlanda', 'Batalh\xc3PR', 'Multiner', 'Lehman',
'Genebra', 'Cear\xc3', 'Aaron', 'Autoridade', 'MariaPR', 'ReutersPR', 'AmorimPR', 'Jos\xc3', 'Amec', 'J\xc3PR',
'Catedral', 'Djokovic', 'InternacionalPR', 'SantosPR', 'Pereira', 'Jean', 'BrasileiraPR', 'Piarroux', 'Neto',
'Ronaldinho', 'AllanPR', 'Austr\xc3', 'Minas', 'Ferreira', 'Uruguai', 'BabyPR', 'CIRH', 'Eugur', 'BieberPR',
'Partid\xc3', 'BarackPR', 'Gaza', 'Tun\xc3', 'Copenhague', 'Aftenposten', 'Sancak', 'Andres', 'Andrew', 'Blaise',
'Dezoito', 'Ramos', 'Cu\xc3', 'Channel', 'ErmilusPR', 'Espanha', 'Ir\xc3PR', 'CIDH', 'Costa', 'REN\xc3', 'AmBev',
'Conor', 'Mwalimu', 'Arnold', 'SantiagoPR', 'Articula\xc3', 'Jos\xc3PR', 'Fausto', 'DeixandoPR', 'Charles',
'Alemanha', 'Keller', 'Cargos', 'Cristina', 'For\xc3', 'Aulas', 'Santos', 'EnsaioPR', 'Fernandez', 'Amap\xc3', 'Hu',
'Bola', 'ComplexoPR', 'EM\xc3', 'LEWIS', 'Smithsonian', 'Gr\xc3', 'Dar', 'Cardoso', 'Atlanta', 'CTNBio', 'Algenor',
'OntemPR', 'OrienteONU', 'CarnavalPR', 'M\xc3', 'MinustahPR', 'Dutra', 'Global', 'Katrina', 'George', 'Kevin',
'CUKIER', 'Bol\xc3', 'Silvio', 'Silvia', 'HojePR', 'Nova', 'BrasilPR', 'KCNews', 'Rica', 'Arcahaie', 'PCs', 'Cruz',
'AssuntosPR', 'Fort', 'Summa', 'Caetano', 'Senger', 'David', 'GCMPR', 'DiferentementePR', 'Associated', 'Portugal',
'MJ', 'MT', 'Ar\xc3', 'MS', 'CentroPR', 'Francesca', 'Corte', 'Leogane', 'Antes', 'GLO', 'Ariel', 'LaurencePR', 'Jer\xc3',
'Lubini', 'Angra', 'Alberto', 'BloombergPR', 'Especial', 'Segundo', 'Segunda', 'MECPR', 'PapaPR', 'Dieu', 'Kipman',
'Brabatt', 'Nepal', 'Ben', 'Bel', 'Mount', 'Indy', 'MREPR', 'Nardini', 'Camisetas', 'Agora', 'Brad', 'AlexandrePR',
'CasaPR', 'Adolfo', 'Tatu\xc3PR', 'Ex\xc3KC', 'Avan\xc3', 'Lilia', 'Children', 'Sharon', 'Damon', 'BrasileiroPR',
'Putin', 'CELY', 'Roy', 'Alagoas', 'TaniaPR', 'STF', 'Cayes', 'MendesPR', 'CarlosPR', 'Martin', 'IvesPR', 'ANAPR',
'Livro', 'Itaquera', 'Tirone', 'MadagascarPR', 'Floriano', 'Conselho', 'Elias', 'Mandela', 'Selic', 'AnnCurry', 'Kirby',
'Lu\xc3', 'Mobiliza\xc3PR', 'World', 'GPS', 'RJ', 'Augusto', 'GomesPR', 'Maluf', 'Augusta', 'HRO', 'Roma', 'Perasso',
'FlorianoPR', 'ArgentinaPR', 'EscolaPR', 'Bolduc', 'Ter\xc3PR', 'SodomaPR', 'SciencePR', 'Sherlyne', 'Rousseff',
'Ciloni', 'Init\xc3', 'MundialPR', 'Luz', 'Barack', 'HaitiPR', 'Aberto', 'Peru', 'Vaticano', 'RichterPR', 'AntesPR', 'Save',
'Benin', 'Para\xc3', 'Ch\xc3', 'Mercadante', 'Job', 'Campos', 'Aires', 'Ipea', 'LulaPR', 'Integra\xc3PR', 'Jude',
'Record', 'Al\xc3PR', 'ConePR', 'NewsPR', 'Guerra', 'Boca', 'R\xc3\xbassia', 'Gaspard', 'QuartierPR', 'CNPq',
'Ahmadinejad', 'Eric', 'D\xc3', 'SulPR', 'WikiLeaks', 'Medicina', 'Bellanton', 'Levy', 'Capitalismo',
'Anhangaba\xc3\xba', 'Direitos', 'PSTUPR', 'Quarta', 'Data', 'Lubit', 'WalterPR', 'Borba', 'Martissant', 'Turgeaut',
'Assuntos', 'Love', 'Batalh\xc3', 'Bailong', 'BarraHaiti', 'Servi\xc3', 'Ali', 'Desviar', 'Kirchner', 'Rufino', 'Alejandro',
'GZero', 'Peterson', 'DJ', 'Marcos', 'Vida', 'Fuvest', 'Confedera\xc3', 'MARCELO', 'Calc', 'Crawford', 'UribePR',
'VicenzoHaiti', 'AliPR', 'Juvenal', 'Okinawa', 'LAFUENTE', 'Du', 'Hall', 'MLB', 'Cora\xc3', 'CTEx', 'Thatiana',
'Pombal', 'Muricy', 'Sacconato', 'Carpentier', 'AnistiaPR', 'Zepherin', 'Luzia', 'Bilardo', 'Trending', 'DeusPR',
'Mem\xc3', 'CristoPR', 'Laurentus', 'Tha\xc3', 'Itamaraty', 'Reuters', 'Minustah', 'CNCPR', 'TVPR', 'FashionPR',
'Pol\xc3PR', 'Amsterd\xc3', 'PazPR', 'AbibPR', 'Geisy', 'Faxion', 'Fam\xc3PR', 'Assembleia', 'FVPR', 'Kleist', 'Louis',
'RenaudPR', 'ZelayaPR', 'Estados', 'Barra', 'Champs', 'EconomiaPR', 'Felix', 'Antissemitismo', 'Mundo', 'MinasPR',
'Cristila', 'Manchester', 'Suzana', 'Bela', 'AjaxPR', 'Grant', 'CorailPR', 'Joyandet', 'And\xc3\xbajarPR', 'Creu',
'BanPR', 'Grand', 'RafaelPR', 'Consenso', 'Todos', 'Camboja', 'NuncaPR', 'Cezar', 'BienBrasil', 'CopenhaguePR',
'CRACOL\xc3', 'ObamaPR', 'Bruxelas', 'EsportePR', 'Abacha', 'Valmon', 'PetraeusPR', 'Tahiane', 'HarvardPR',
'Arns', 'FronteirasPR', 'Thales', 'Oriente', 'Enriquillo', 'OrientePR', 'Cinema', 'Messi', 'BellerivePR', 'Mesquita',
'Na\xc3PR', 'MichellePR', 'Kant', 'Cleiton', 'Leite', 'COP', 'Silva', 'Jeremy', 'Berny', 'SupremoPR', 'Dupoux',
'Petraeus', 'Ros\xc3', 'Deus', 'Secretaria', 'Cat\xc3PR', 'Bope', 'Ren\xc3', 'Berto', 'Jobim', 'OrlandoPR',
'ArkansasPR', 'EUAPR', 'Opep', 'Marshall', 'CharlesPR', 'Reino', 'Aeronautica', 'Atenas', 'OEA', 'Carrefour',
'PSDBPR', 'Bento', 'Acre', 'Ruanda', 'Ajuda', 'NelsonPR', 'Israel', 'Goulart', 'Gabeira', 'HAMANN', 'Telecurso',
'Plano', 'Cara\xc3', 'Caritas', 'Policial', 'Salvador', 'UTI', 'AndroidPR', 'Francisco', 'ArtibonitePR', 'IE', 'DVDs',
'Uzeda', 'SobrePR', 'ONGs', 'Guinle', 'DepartamentoPR', 'DesenvolvimentoPR', 'LulaHaiti', 'EPP', 'Daniel',
'Ontem', 'Bingol', 'Mar\xc3', 'Ci\xc3\xaancia', 'NahaPR', 'Zurique', 'Bakontou', 'Viver', 'Guimar\xc3', 'Georges',
'GRANT', 'Camp', 'CPTM', 'Grande', 'Fagundes', 'Mano', 'MARKPR', 'Pacaembu', 'Troy', 'London', 'Enio',
'It\xc3PR', 'RicardoPR', 'Arcade', 'Marc', 'Apae', 'Hariri', 'Ellen', 'BahiaPR', 'Controle', 'New', 'SilvaPR', 'Marx',
'Prov\xc3', 'ThePR', 'CGFome', 'Milan', 'Taubat\xc3', 'CORR\xc3', 'Campeonato', 'Dilma', 'Pi\xc3', 'Hamann',
206
'Ant\xc3PR', 'AlainPR', 'MarcPR', 'Croix', 'Cortado', 'SegundoHaiti', 'Alencar', 'CostaPR', 'Lib\xc3',
'Sim\xc3\xb5es', 'Abbasi', 'Comenta', 'SharonPR', 'Azim', 'Barbosa', 'PNLD', 'Beatles', 'AndersonBombeiros',
'Alain', 'ParisPR', 'MilitarPR', 'Orkut', 'ODM', 'ODA', 'CarnegiePR', 'Obama', 'Assis', 'JeffreyPR', 'Luciana', 'Guido',
'Barueri', 'Fam\xc3', 'Br\xc3', 'AntilhasPR', 'Kwasniewski', 'Rodriguez', 'CentralBrasil', 'MariePR', 'Camargos',
'Canad\xc3PR', 'RuthPR', 'CostaBrasil', 'Ave', 'FBI', 'Iraque', 'Catunda', 'Sudeste', 'Tempesta', 'Leth', 'Leclerc',
'How', 'USP', 'Ester', 'QuatroPR', 'ArnsNews', 'Palmares', 'N\xc3', 'Darelus', 'Aiea', 'Ad\xc3', 'Kofaviv',
'Civiliza\xc3PR', 'Sanon', 'Las', 'Fernanda', 'Alex', 'Martely', 'ICG', 'Fernando', 'FPU', 'Uribe', 'Especialistas', 'CNN',
'Holy', 'Yushu', 'FATTON', 'ASHA', 'BBNews', 'CristinaPR', 'Artur', 'AlencarPR', 'INVERT\xc3', 'Kimmelman',
'ESPM', 'Hoje', 'DatenaPR', 'EsquerdaPR', 'BaptistePR', 'Villard', 'Morus', 'Thermilus', 'SIM', 'PMDB', 'Hinche',
'Ningu\xc3PR', 'AlckminPR', 'Abbassian', 'Am\xc3PR', 'Dambala', 'BBCPR', 'Belimaire', 'Diferentemente',
'Blumenau', 'Wilm\xc3', 'Equil\xc3', 'Bataille', 'MultiPoint', 'Bashon', 'Aldofe', 'Noaa', 'Itacarambi', 'Andezo',
'JuniorPR', 'Correa', 'TSE', 'KimPR', 'MirlandePR', 'GUY', 'Giovanna', 'Canad\xc3', 'LulaGuerlane', 'GeraldPR',
'Consuelo', 'GaillotPR', 'Idade', 'Prefeitura', 'NobelPR', 'Kesner', 'Baresi', 'Charlie', 'Arthur', 'Gerson', 'Amor',
'Kassab', 'ESTEVAMPR', 'Gondim', 'Ang\xc3', 'Clara', 'Jo\xc3PR', 'Organiza\xc3PR', 'Jared', 'Dzhennets', 'EX',
'Canal', 'Dessalines', 'Estadista', 'GuardaPR', 'Olibert', 'Alvarez', 'Ciberpegadinhas', 'Gisele', 'Ciro', 'D\xc3PR',
'Europa', 'Fritz', 'Fran\xc3PR', 'Boeing', 'Brasil', 'ADPM', 'Sr', 'BaitullahPR', 'Beijou', 'St', 'Bombamos', 'Hegel',
'FMI', 'ONGPR', 'Nascido', 'Crescente', 'Erics', 'Debenedetti', 'Canc\xc3\xban', 'Faculdade', 'SP', 'Congresso',
'Veja', 'Andrade', 'AGOPPR', 'Cor\xc3', 'JosephPR', 'EstadosPR', 'Aldo', 'Thompson', 'Quinta', 'BolsaPR',
'Ilustrada', 'Cana\xc3', 'Coreia', 'VallePR', 'AngolaPR', 'Rosena', 'IgorPR', 'Hanover', 'Don', 'Renault',
'Organiza\xc3', 'Doc', 'Desenvolvimento', 'Foreign', 'Lisa', 'Fils', 'Sweet', 'UnicefPR', 'KIDDER', 'Sean', 'S\xc3',
'ECONOMIST', 'Solim\xc3\xb5es', 'SAINT', 'Internacional', 'Pernambuco', 'Ci\xc3\xaancias', 'Dias', 'Benjamin',
'Tomas', 'Marco', 'Carnegie', 'Setembro', 'Centros', 'VejaPR', 'Bolsa', 'Gabinete', 'Munda\xc3\xba', 'Ban',
'Cavour', 'Rafael', 'RoddickPR', 'Globo', 'CopaPR', 'Holbrook', 'Ensaio', 'AlbertoPR', 'Futebol', 'Skype', 'Pastoral',
'LimaHaiti', 'NGO', 'Joseph', 'Federer', 'HaitiAlan', 'Amado', 'Armando', 'Clash', 'Samuel', 'Seguran\xc3', 'Tratz',
'LippiPR', 'Confedera\xc3PR', 'Bernardes', 'Nina', 'Pol\xc3', 'Architecture', 'AipacPR', 'Comit\xc3\xaaPR', 'Chand',
'El', 'Cesar', 'Carpegiani', 'Feira', 'Boston', 'Diretor', 'Fasano', 'Contas', 'TBA', 'RJPR', 'Economist', 'Desvio', 'CNBB',
'Hugo', 'Caradeux', 'Sinai', 'Coisas', 'CongressoPR', 'Cirurgia', 'RomeroPR', 'Sysomos', 'Izard', 'Paolo',
'CandidatoPR', 'Narcisse', 'HomemPR', 'FarmVille', 'N\xc3PR', 'Ellus', 'Unifil', 'Abdolreza', 'Delatour',
'Tchech\xc3\xaania', 'BNDES', 'Rico', 'CansarPR', 'FacebookPR', 'QuadrinhosPR', 'Pagung', 'Rarar\xc3', 'Caroline',
'DuvalierPR', 'LUIZ', 'Justi\xc3PR', 'Pena', 'Penn', 'Murdoch', 'LisboaPR', 'Club', 'Predator', 'Cl\xc3', 'Atua\xc3',
'Kubica', 'CESAR', 'ClarkPR', 'EverlastPR', 'Artes', 'Martins', 'BBC', 'BBB', 'Ren\xc3PR', 'Depto', 'Filho', 'The',
'Unpol', 'Octavio', 'Darfour', 'Ramdin', 'Sa\xc3\xbadePR', 'LineuPR', 'Google', 'Honduras', 'Adogo', 'Justi\xc3',
'Marie', 'Londres', 'Constitui\xc3', 'Zhouqu', 'Itamar', 'Funda\xc3', 'Carolina', 'Gabrielle', 'Desim\xc3', 'Bras\xc3',
'Poupelard', 'AdolfoPR', 'Oliveira', 'Dartmouth', 'PoderPR', 'Julme', 'Terceiro', 'PaulPR', 'Base', 'Natasha',
'Michelle', 'PequimPR', 'Duran', 'Mujica', 'At\xc3', 'America', 'ParecePR', 'SaintPR', 'PSOL', 'Harold',
'P\xc3\xbablico', 'Indon\xc3PR', 'Delmas', 'CUBAPEDIA', 'Alentina', 'Franco', 'Maranh\xc3', 'France', 'Mirlande',
'NicolasPR', 'J\xc3', 'Brasa', 'Pindorama', 'Aramic', 'HaitiClinton', 'Faria', 'Benfica', 'Viva', 'King', 'SegundoPR',
'Ordaz', 'Jason', 'ANA', 'Embaixador', 'CDES', 'JudePR', 'LauraPR', 'Previd\xc3\xaanciaPR', 'Voltaire', 'Nobel',
'Propostas', 'Online', 'MarchaPR', 'Niemeyer', 'KobePR', 'PDVSA', 'Brothers', 'Espanhol', 'Pesquisa', 'Gilles', 'Ajax',
'HillaryPR', 'L\xc3PR', 'Ir\xc3', 'Afeganist\xc3', 'Clijsters', 'Care', 'SIMPR', 'EugenioHaiti', 'BCPR', 'Academia',
'Malvinas', 'CBF', 'EdmondPR', 'Guant\xc3', 'Henrique', 'Michel', 'Aneel', 'Jorginho', 'Bagd\xc3', 'Ex\xc3PR',
'Kobe', 'Angie', 'Fronteiras', 'Shannon', 'City', 'Artibonite', 'Dezembro', 'WSJ', 'Elito', 'Krugman', 'Rochelle',
'Usaid', 'Lafuente', 'BerkeleyPR', 'Copa', 'Meio', 'Est\xc3', 'ClintonPR', 'McCartney', 'FAO', 'FAB', 'Coq', 'Slama',
'GERALDO', 'Jocelyn', 'CPMF', 'UniversidadePR', 'Col\xc3', 'GisellePR', 'AhmadinejadPR', 'Em\xc3', 'WindowsPR',
'Sol', 'Congo', 'Borgela', 'Nelson', 'Alpes', 'Fran\xc3', 'FernandoPR', 'GenebraPR', 'Imprensa', 'Seguran\xc3PR',
'Esvaziado', 'Madre', 'Bernard', 'OAS', 'Dunga', 'UFSC', 'KCPR', 'Marina', 'Robert', 'RioPR', 'Zelaya', 'DILMA', 'Dia',
'DunhillPR', 'AramickPR', 'Diz', 'Mundial', 'OK', 'Bradley', 'ManigatPR', 'Balan\xc3', 'Datena', 'SITJA', 'Amecia',
'Andy', 'DEM', 'Sarkozy', 'CaioPR', 'Dama', 'Carole', 'Gordimer', 'Moscou', 'ArturoPR', 'Conven\xc3', 'Louverture',
'ClaudePR', 'AgoraPR', 'Ind\xc3\xbastriasPR', 'OmarPR', 'Camarote', 'Hizbollah', 'DailyPR', 'Bill', 'Antonin',
'Antonio', 'Amorim', 'PCBPR', 'EduardoPR', 'Bon', 'Orm\xc3', 'Boa', 'Tempor\xc3', 'Adel\xc3', 'Mulher',
'Flamengo', 'Europeia', 'Hammoud', 'Rog\xc3', 'BeloPR', 'Haitis', 'Emanuela', 'Transtorno', 'Shah', 'Inquisi\xc3PR',
'Racing', 'TwitterPR', 'Tabarre', 'Oce\xc3', 'ONGEUA', 'Mulet', 'Embora', 'Gerald', 'Divis\xc3', 'Jacques', 'T\xc3',
'A\xc3', 'Comfort', 'Tr\xc3\xaas', 'Cingapura', 'Tommy', 'Ashton', 'Austin', 'MaxPR', 'Democr\xc3', 'Belo', 'MEC',
'In\xc3PR', 'Twitter', 'Annabi', 'Kahn', 'Murray', 'Helena', 'Pascal', 'Direito', 'RobertsonPR', 'Brig', 'EarthquakePR',
207
'Alfred', 'Parks', 'Edward', 'Ti', 'PauloPR', 'Mariza', 'Com\xc3', 'UNPOL', 'Paquist\xc3', 'CCoPaBPR', 'Bacellar', 'TV',
'Jos\xc3Bacellar', 'Cl\xc3PR', 'Jorge', 'Brasileira', 'Yvonne', 'Morador', 'Brasileiro', 'Heinrich', 'Casa', 'Bel\xc3', 'AL',
'RachelPR', 'AP', 'Recife', 'RolinhaHaiti', 'Ag', 'Al', 'Baratos', 'Scott', 'Ay', 'Fl\xc3', 'Legi\xc3', 'Jim', 'CPE', 'Azea',
'CentralPR', 'Saint', 'Trachta', 'Or\xc3', 'Gascov', 'BUEMBAPR', 'Angelina', 'RodrigoPR', 'Business', 'Laferri\xc3',
'Fome', 'ALDO', 'HaitiBan', 'DeGrootPR', 'Helo\xc3', 'Robinho', 'Sodoma', 'In\xc3\xaas', 'Cosan', 'Renot', 'GSIPR',
'Ciclistas', 'Guin\xc3', 'DANNER', 'Chico', 'NespressoPR', 'LAN', 'MundoPR', 'Skaf', 'Sbardelini', 'AristidePR',
'GuanabaraPR', 'Baraka', 'Previd\xc3\xaancia', 'Mirabelais', 'Angelania', 'Drouin', 'No\xc3', 'Indon\xc3', 'Pessoa',
'Arg\xc3', 'GutembergPR', 'Alan', 'Sasikala', 'Isl\xc3', 'Baker', 'Pel\xc3', 'Jaramillo', 'Unasul', 'Caixa', 'Santiago',
'Dona', 'Agudelo', 'AlmirAlberto', 'Marta', 'HospitalPR', 'Wyclef', 'Urbi', 'Aquino', 'HondurasPR', 'CBN',
'Hispaniola', 'Jennifer', 'Anacleto', 'Siqueira', 'Pr\xc3PR', 'SMS', 'FoxNews', 'Roseana', 'Gavioli', 'JacquesHaiti',
'FM', 'Nardes', 'Gonaives', 'Provid\xc3\xaancia', 'Lang', 'BBPR', 'HOHAGEN', 'Corral', 'MichelPR', 'Petithomme',
'WiKiLeaksPR', 'Berlusconi', 'Revolu\xc3', 'Associa\xc3', 'Presid\xc3\xaancia', 'Collor', 'DiaPR', 'Aretuza', 'Nicole',
'CubaPR', 'PSDB', 'Higua\xc3', 'BAN', 'F\xc3', 'Meninas', 'Byrs', 'Lovely', 'Gon\xc3PR', 'Anglade', 'HIV', 'DennisPR',
'FFLCH', 'Lionel', 'Joel', 'B\xc3PR', 'Garcia', 'Confer\xc3\xaancia', 'Arnaldo', 'Apple', 'Fritznel',
'Rep\xc3\xbablicaPR', 'DilmaPR', 'Sirleaf', 'Elai\xc3', 'AindaPR', 'Shigeru', 'Conven\xc3PR', 'CompanhiaPR',
'Djabon', 'Mosley', 'Bird', 'TEPT', 'Shell', 'CE\xc3', 'Casillas', 'MinustahHaiti', 'Negro', 'Luiz', 'For\xc3PR', 'Luis',
'Rep\xc3\xbablica', 'Porto', 'Dubai', 'Miami', 'GabinetePR', 'Ronaldo', 'Cap', 'Elazig', 'SriPR', 'ExamePR', 'Social',
'Silveira', 'Ansanm', 'Armstrong', 'Suprema', 'UnidosPR', 'Ponto', 'MARAVILHA', 'Gara', 'Ushahidi', 'Rubens',
'NotaPR', 'Conab', 'Neymar', 'AlejoPR', 'Borges', 'Bertrand', 'S\xc3PR', 'IMFC', 'Arte', 'IsraelPR', 'CarpeggianiPR',
'CaribePR', 'Bradesco', 'Embaixada', 'China', 'LAMERIQUE', 'Baby', 'DesdePR', 'Esta\xc3PR', 'Pr\xc3', 'BELLERIVE',
'Gar\xc3', 'RioHaiti', 'Procuradoria', 'Payot', 'Ocha', 'Angola', 'CarolinaPR', 'Juliana', 'Bulg\xc3', 'Jesus', 'Gilberto',
'Ca\xc3', 'Uni\xc3PR', 'Eliana', 'Eliane', 'Ingrid', 'ZaninPR', 'Nara', 'Azueie', 'Forquilhinha', 'Playboy', 'RecordPR',
'Farc', 'Norte', 'Centro', 'MULET', 'Fundo', 'Vargas', 'Hospital', 'Palermo', 'Davos', 'Vemos', 'BRESSER', 'Ki',
'JorgePR', 'Premji', 'Eremildo', 'OMC', 'Universal', 'Abit', 'McDermott', 'Battisti', 'FABPR', 'Fletcher', 'Rede', 'ITV',
'Diego', 'BelPR', 'Anglo', 'Pan', 'Jap\xc3', 'John', 'Aranha', 'Investiga\xc3', 'BID', 'Stefano', 'Leherke', 'Santa',
'CulturaPR', 'Santo', 'Sim\xc3\xb5esPR', 'CaribbeanPR', 'Garc\xc3', 'Trad', 'Toyama', 'JacquesPR', 'Ant\xc3',
'MTVPR', 'LivePR', 'Amores', 'ZildaPR', 'USPR', 'Cebri', 'CorreaPR', 'Banco', 'ArnsPR', 'TiriricaPR', 'CruzPR',
'Seitenfus', 'Ahmedinejad', 'Tropic\xc3', 'Poder', 'Tavares', 'GloboPR', 'Primeira', 'P\xc3', 'DEPR', 'Unicef', 'MPPR',
'Tasso', 'Keen', 'Dorival', 'Adriano', 'TerraPR', 'Fleury', 'Jo\xc3', 'KIM', 'Broadway', 'Amanh\xc3', 'Egito', 'OCDE',
'Paulo', 'CastelloPR', 'Cabral', 'Hermano', 'Mo\xc3', 'Domingo', 'Paula', 'PR', 'PT', 'Iwo', 'ConnecticutPR', 'PC',
'Harvard', 'PF', 'Mat\xc3', 'Comiss\xc3', 'PM', 'Campo', 'QuadroPR', 'Sri', 'Mangueira', 'Islande', 'Adeus',
'CabralPR', 'BillPR', 'Mystil', 'Ativistas', 'WilliamsPR', 'Campus', 'Brics', 'Pav\xc3', 'Clauvis', 'AmaralPR',
'Rosenthal', 'Brice', 'Minist\xc3', 'Louise', 'Yahoo', 'Sabin', 'Alca', 'Brooklyn', 'Zynga', 'Aldir', 'Center', 'CidadePR',
'Eurasia', 'Cidade', 'Kak\xc3PR', 'BerlusconiPR', 'Ana', 'CDC', 'Ano', 'CDH', 'Fonds', 'Presidente', 'PastoralPR',
'MortosPR', 'Coronel', 'Marchand', 'PereiraPR', 'InternationalPR', 'SistemaPR', 'Rela\xc3', 'GrandePR', 'Lobo',
'BrasilHaiti', 'Reinhold', 'Rafale', 'Tribunal', 'Danny', 'Alma', 'Reis', 'MTV', 'Carnaval', 'Vant', 'Julio', 'Marger',
'Pierre', 'Sichuan', 'MontePR', 'Volta', 'FolhaPR', 'Marinha', 'BA', 'BB', 'BC', 'Defesa', 'BrendaPR', 'La\xc3PR',
'Chrysotile', 'Okabe', 'GravaPR', 'FACEBOOKPR', 'Guerlane', 'GSI', 'Argentina', 'Brigada', 'Su\xc3', 'YouTube',
'Departamento', 'Gomorra', 'Bartheloy', 'Ribeir\xc3', 'CLAUVIS', 'Coelho', 'Pal\xc3', 'Programa', 'Gilvam', 'San',
'Jamaica', 'Vila', 'Fashion', 'Micky', 'Friburgo', 'Maria', 'Oceania', 'B\xc3', 'Sul', 'Comida', 'Documenta', 'Acton',
'FPF', 'VenezuelaPR', 'CadyabosouPR', 'BricsPR', 'Herrero', 'Montana', 'Barros', 'BUEMBA', 'OdedPR', 'Andes',
'Kindle', 'Microsoft', 'ArgentinaKC', 'LuisPR', 'Orani', 'UsaidPR', 'Johnny', 'Igor', 'Zilda', 'US', 'Exposi\xc3PR',
'Lerebours', 'Rochitte', 'UE', 'Flavio', 'Pedro', 'ArenaPR', 'ARRUDEIE', 'Educa\xc3', 'Takai', 'Arruda', 'Paran\xc3PR',
'Ribeiro', 'ArtesPR', 'SantoArns', 'Farofa', 'Serra', 'Amo', 'PalmeirasPR', 'Chile', 'Poupex', 'Daphne', 'Souza',
'RENZIO', 'Morumbi', 'Beken', 'Carl', 'Bellerive', 'Dois', 'CristovamPR', 'Thimothe', 'Ag\xc3\xaancia', 'BIDPR',
'GeorgePR', 'Atl\xc3', 'Cit\xc3', 'Wall', 'HIVPR', 'Zanin', 'Live', 'Lemazor', 'Arjun', 'VilaPR', 'Gazeta', 'Einstein',
'UNpol', 'Lulafolia', 'Am\xc3', 'Manifesta\xc3', 'BarbaraPR', 'MSF', 'ViagemPR', 'QueroPR', 'Paraquedista',
'AVOMITAR', 'Bndes', 'Kurzban', 'Amaz\xc3', 'JEAN', 'CelsoPR', 'Milton', 'PNHPR', 'Mustaf\xc3',
'Recupera\xc3PR', 'Mbps', 'Amazonas', 'BANPR', 'Baltimore', 'Kl\xc3', 'Durval', 'BaixadaPR', 'Demi', 'DelmasPR',
'Corpo'])
>>> j=0
>>> strfil = ''
>>> while j <= 841:
texan = wordlists.words(texto[j])
208
if texan.count('Unidas') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'11.txt 117.txt 124.txt 133.txt 142.txt 143.txt 147.txt 15.txt 150.txt 157.txt 161.txt 172.txt 193.txt 2.txt 20.txt
201.txt 210.txt 211.txt 223.txt 227.txt 231.txt 243.txt 244.txt 267.txt 274.txt 277.txt 300.txt 310.txt 312.txt
314.txt 326.txt 327.txt 335.txt 346.txt 360.txt 376.txt 391.txt 400.txt 402.txt 429.txt 45.txt 454.txt 462.txt
483.txt 495.txt 50.txt 51.txt 524.txt 534.txt 57.txt 577.txt 582.txt 583.txt 584.txt 596.txt 598.txt 600.txt 621.txt
635.txt 641.txt 643.txt 652.txt 659.txt 666.txt 668.txt 669.txt 715.txt 720.txt 728.txt 757.txt 76.txt 769.txt
801.txt 803.txt 819.txt 832.txt 834.txt 842.txt 85.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('POUPEX') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'585.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Western') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'247.txt 279.txt '
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Western') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
j=0
SyntaxError: invalid syntax
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Europeia') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
j=0
strfil=''
>>> j=0
>>> strfil=''
209
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Europeia') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
j=0
strfil=''
>>> strfil
'168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt
438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt '
>>> j=0
>>> strfil
'168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt
438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt '
>>> strfil
'168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt
438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt '
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Funcex') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'10.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('PNH') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'615.txt 638.txt 701.txt 778.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('AAAS') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'425.txt '
>>> j=
SyntaxError: invalid syntax
210
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('BID') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'102.txt 198.txt 200.txt 259.txt 308.txt 323.txt 394.txt 407.txt 457.txt 467.txt 476.txt 577.txt 741.txt 839.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('FMI') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'10.txt 112.txt 119.txt 139.txt 143.txt 176.txt 208.txt 277.txt 294.txt 304.txt 310.txt 335.txt 376.txt 409.txt
427.txt 436.txt 437.txt 482.txt 517.txt 533.txt 546.txt 612.txt 618.txt 663.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Bndes') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'373.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('BNDES') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'122.txt 127.txt 138.txt 208.txt 323.txt 373.txt 438.txt 549.txt 564.txt 695.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Hamann') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
211
>>> strfil
'220.txt 221.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CIDH') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'647.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CIRH') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'560.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('JAN') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'268.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('MRE') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'319.txt 333.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('AFA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
212
>>> strfil
'538.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('BTS') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'470.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('PAM') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'201.txt 85.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Fifa') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'465.txt 508.txt 520.txt 528.txt 587.txt 625.txt 714.txt 807.txt 817.txt 819.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('GBS') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'506.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CNBB') != 0:
strfil = strfil + texto[j] + ' '
j += 1
213
continue
>>> strfil
'12.txt 14.txt 265.txt 31.txt 32.txt 493.txt 66.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CoBrA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'4.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('International') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'238.txt 261.txt 343.txt 365.txt 372.txt 4.txt 49.txt 502.txt 505.txt 510.txt 565.txt 568.txt 570.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Instituto') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'12.txt 138.txt 167.txt 175.txt 209.txt 213.txt 240.txt 250.txt 323.txt 360.txt 381.txt 401.txt 442.txt 466.txt
498.txt 532.txt 535.txt 567.txt 568.txt 607.txt 666.txt 676.txt 715.txt 723.txt 730.txt 745.txt 75.txt 770.txt
788.txt 789.txt 812.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Ajuda') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'122.txt 131.txt 133.txt 183.txt 274.txt 292.txt 361.txt 367.txt 549.txt 577.txt 650.txt 762.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
214
if texan.count('Aid') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'73.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Amec') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'705.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('OrienteONU') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
''
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('GCM') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'629.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Associated') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'120.txt 168.txt 3.txt 313.txt 328.txt 445.txt 462.txt 631.txt 651.txt 729.txt 762.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
215
texan = wordlists.words(texto[j])
if texan.count('GLO') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'693.txt 709.txt 760.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('MRE') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'319.txt 333.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('World') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'238.txt 261.txt 279.txt 291.txt 502.txt 505.txt 510.txt 563.txt 742.txt 761.txt 792.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('HRO') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'713.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Confedera\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'253.txt 332.txt 370.txt 811.txt '
>>> j=0
>>> strfil=''
216
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('MLB') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CTEx') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CNC') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> J=0
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('COP') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'422.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('OEA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'119.txt 141.txt 17.txt 294.txt 362.txt 395.txt 398.txt 419.txt 426.txt 428.txt 434.txt 475.txt 535.txt 569.txt
674.txt 699.txt 70.txt 703.txt 706.txt 74.txt 749.txt 750.txt 754.txt 762.txt 771.txt 790.txt 795.txt 796.txt 797.txt
801.txt 803.txt 809.txt 816.txt 818.txt 822.txt 828.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
217
if texan.count('EPP') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'518.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('PNLD') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'584.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('ODM') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'534.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('ODA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'305.txt 770.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Prefeitura') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'187.txt 237.txt 253.txt 349.txt 401.txt 41.txt 465.txt 533.txt 561.txt 740.txt 743.txt 773.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
218
texan = wordlists.words(texto[j])
if texan.count('Organiza\xc3') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'11.txt 113.txt 142.txt 17.txt 172.txt 176.txt 2.txt 210.txt 213.txt 231.txt 244.txt 294.txt 312.txt 426.txt 427.txt
428.txt 430.txt 434.txt 524.txt 534.txt 577.txt 580.txt 596.txt 619.txt 636.txt 64.txt 640.txt 649.txt 659.txt
667.txt 669.txt 672.txt 674.txt 676.txt 699.txt 703.txt 706.txt 715.txt 741.txt 750.txt 751.txt 757.txt 762.txt
771.txt 797.txt 803.txt 809.txt 816.txt 818.txt 822.txt 828.txt 831.txt 832.txt 833.txt 85.txt 89.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Guarda') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'122.txt 131.txt 293.txt 326.txt 473.txt 814.txt 83.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Baitullah') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'369.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('AGOP') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'12.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Internacional') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
219
'132.txt 169.txt 182.txt 212.txt 213.txt 23.txt 238.txt 257.txt 294.txt 332.txt 335.txt 384.txt 436.txt 447.txt
475.txt 478.txt 482.txt 508.txt 517.txt 55.txt 57.txt 587.txt 60.txt 616.txt 64.txt 646.txt 65.txt 66.txt 666.txt
743.txt 77.txt 789.txt 792.txt 795.txt 796.txt 803.txt 815.txt 823.txt 836.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('NGO') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'114.txt 221.txt 236.txt 256.txt 342.txt 358.txt 372.txt 386.txt 40.txt 412.txt 414.txt 431.txt 498.txt 527.txt
540.txt 571.txt 573.txt 60.txt 64.txt 641.txt 713.txt 727.txt 789.txt 819.txt 84.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('TBA') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'254.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Unifil') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'621.txt 622.txt 744.txt 776.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Unpol') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'344.txt 346.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('PDVSA') != 0:
strfil = strfil + texto[j] + ' '
220
j += 1
continue
>>> strfil
'570.txt 580.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Usaid') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'1.txt 132.txt 172.txt 21.txt 792.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('FAO') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'31.txt 601.txt 757.txt 834.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('FAB') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'133.txt 138.txt 196.txt 227.txt 244.txt 255.txt 38.txt 390.txt 437.txt 439.txt 687.txt 693.txt 99.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Coq') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'379.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('UNPOL') != 0:
221
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'600.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CCoPaB') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'575.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CPE') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'699.txt 703.txt 732.txt 750.txt 822.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('HaitiBan') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
''
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('TEPT') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'396.txt 592.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
222
if texan.count('IMFC') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'517.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('Fundo') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'11.txt 124.txt 335.txt 436.txt 462.txt 480.txt 482.txt 57.txt 577.txt 612.txt 635.txt 641.txt 652.txt 715.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('OMC') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'317.txt 447.txt 577.txt 663.txt 715.txt 741.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('OCDE') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'365.txt 676.txt 770.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('PM') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'42.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
223
texan = wordlists.words(texto[j])
if texan.count('Ativistas') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'328.txt 476.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CDC') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'838.txt '
>>> j=0
>>> strfil=''
>>> while j <= 841:
texan = wordlists.words(texto[j])
if texan.count('CDH') != 0:
strfil = strfil + texto[j] + ' '
j += 1
continue
>>> strfil
'583.txt '
>>> propriosf = ['Unidas', 'POUPEX', 'Defesa', 'Western', 'ONG', 'ONU', 'Europeia', 'PNH', 'Itamaraty', 'OMS',
'CICV', 'Unesco', 'Minustah', 'Marinha', 'Defesa', 'MSF', 'UE', 'CGFome', 'Unicef', 'Pastoral', 'Fronteiras', 'Cruz',
'BID', 'FMI', 'CIRH', 'CIDH', 'Comiss\xc3', 'Direitos', 'PAM', 'GBS', 'Instituto', 'Aid', 'HRO', 'Organiza\xc3PR',
'Internacional', 'Usaid', 'FAB', 'Na\xc3', 'Viva', 'Crescente', 'Ocha', 'Comit\xc3\xaa']
>>> palverb = wordlists.words()
>>> len(palverb)
6890079
>>> etverb = [w for w in palverb if w.startswith('v')]
>>> etverb[:10]
['vt', 'vdt', 'vt', 'vi', 'vd', 'vt', 'vi', 'vd', 'vt', 'vi']
>>> etverb = set(etverb)
>>> len(etverb)
737
>>> i=0
>>> verbs=[]
>>> while i <= 6890078:
if palverb[i] in etverb:
if palverb[i-1] == '<':
if palverb[i-2] == ']':
verbs.append(palverb[i-3])
i +=1
continue
>>> verbosd = set(verbs)
224
>>> len(verbosd)
2638
>>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and
w.isalpha())
>>> fd2
<FreqDist with 2635 outcomes>
>>> verbosf = fd2.keys()
>>> resPV = []
>>> i=0
>>> k=0
>>> ent=[]
>>> nomesP = []
>>> strp = ''
>>> sentenc = wordlists.sents()
>>> len(sentenc)
20325
>>> len(verbosf)
2635
>>> while k <= 2634:
while i <= 20324:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> len(resPV)
2635
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPSH.txt', 'w')
>>> output_file.write(sestr1)
>>>
verbosf=
'Resultar@abaixar@abalar@abandonar@abolir@abortar@abrigar@abrir@abster@abusar@acabar@acalenta
r@acalmar@acampar@acatar@aceitar@acelerar@acentuar@acertar@acessar@achar@acionar@aclamar@a
companhar@acontecer@acordar@acostumar@acreditar@acrescentar@acrescer@acuar@acumular@acusar
@adaptar@adequar@adiantar@adiar@adicionar@administrar@admirar@admitir@adotar@adquirir@adverti
r@advogar@afastar@afetar@afirmar@afrontar@agendar@agilizar@agir@agradecer@agravar@agredir@agr
egar@aguar@aguardar@ajudar@alar@alarmar@alastrar@alegar@alertar@aliar@alimentar@aliviar@alterar
@alugar@amamentar@amanhecer@amar@ambientar@amentar@amigar@amontoar@amostrar@amparar
@ampliar@analisar@ancorar@andar@antever@anunciar@apadrinhar@aparatar@aparecer@aparentar@ape
drejar@apelar@apelidar@aplaudir@aplicar@apoiar@apontar@apor@aposentar@apostar@aprender@apres
entar@aprofundar@aprovar@aproveitar@aproximar@apurar@ar@argumentar@armar@arrasar@arrastar@
arrecadar@articular@artilhar@ascender@aspar@assaltar@assassinar@assegurar@assentar@assentir@asses
sorar@assinalar@assinar@assistir@associar@assumir@assuntar@atacar@atar@atender@atentar@ater@ate
225
rrissar@aterrorizar@atingir@atirar@ativar@atrair@atrapalhar@atrasar@atravessar@atribuir@atualizar@atu
ar@aumentar@autorizar@auxiliar@avaliar@avisar@baixar@balar@balir@bancar@banhar@barrar@barricar
@barrir@basear@bastar@batalhar@batizar@beber@beneficiar@blindar@bloquear@bolar@bolsar@bordar
@botar@brigar@brincar@buscar@caber@cadastrar@cair@calcular@calmar@caminhar@campar@canalizar
@cancelar@cansar@capitanear@captar@capturar@carecer@carnar@carregar@casar@cascar@causar@ced
er@centrar@cercar@chamar@chancelar@checar@chefiar@chegar@cheirar@chocar@cifrar@cincar@circula
r@citar@clorar@cobrar@cobrir@cocar@colaborar@colar@coletar@colher@colocar@colorar@comandar@c
ombater@comemorar@comentar@comer@comerciar@cometer@comparar@comparecer@compartimentar
@compensar@compilar@complementar@completar@complicar@compor@comprar@comprometer@comun
icar@conceder@concentrar@concertar@conclamar@concluir@concordar@concorrer@condecorar@condena
r@condicionar@conduzir@confessar@confirmar@conflagrar@conformar@confrontar@conhecer@conquista
r@conseguir@consertar@conservar@considerar@consolidar@constar@constituir@construir@consultar@co
ntabilizar@contaminar@contar@contatar@contemplar@contender@contentar@conter@contestar@conting
entar@continuar@contradizer@contrariar@contratar@contribuir@controlar@convencer@convencionar@co
nversar@converter@convidar@convocar@coordenar@copar@coroar@correr@corresponder@corrigir@cost
umar@cotar@cozinhar@credenciar@creditar@crescer@criar@criticar@cruzar@culpar@cultivar@cumprimen
tar@cumprir@cunhar@cursar@custar@custear@danar@danificar@dar@datar@debater@debelar@debilitar
@decidir@declarar@decolar@decretar@dedicar@defender@definir@degradar@deixar@delinear@demanda
r@demitir@demorar@dentar@denunciar@depauperar@depender@depor@deputar@derivar@derrotar@de
rrubar@desabar@desabrigar@desacreditar@desafiar@desaparecer@desarmar@desautorizar@descaber@de
scartar@descobrir@desconfortar@desconhecer@desconjuntar@descrever@desembarcar@desempenhar@d
esencadear@desenhar@desenvolver@desesperar@desfilar@designar@desistir@deslocar@desmantelar@des
moronar@desorientar@despachar@despedir@despejar@desproteger@destacar@destinar@destituir@destr
uir@desviar@detalhar@detectar@deter@deteriorar@determinar@devastar@dever@devir@devolver@dialo
gar@dificultar@difundir@digerir@diminuir@direcionar@dirigir@discar@discordar@discursar@discutir@disp
arar@dispor@disputar@disseminar@dissuadir@distinguir@distribuir@ditar@divergir@divulgar@dizer@doar
@dobrar@documentar@doer@dominar@dourar@drogar@duplicar@durar@ecoar@editar@efetivar@elabor
ar@eleger@elevar@eliminar@elogiar@embarcar@embargar@emboscar@emergir@emitir@emocionar@em
penhar@emperrar@empregar@empresar@emprestar@enaltecer@encaixar@encaminhar@encampar@encar
ar@encarregar@encerrar@encomendar@encontrar@endossar@endurecer@enfileirar@enfraquecer@enfren
tar@enganar@engenhar@enlatar@enquadrar@enraizar@ensaiar@ensinar@entender@entoar@entrar@entr
egar@entrepor@entrever@entrevistar@enunciar@enveredar@enviar@envolver@equilibrar@equipar@equi
parar@erguer@escalar@escapar@esclarecer@escolher@escoltar@esconder@escrever@esfriar@esgotar@es
maecer@esmagar@espalhar@especializar@esperar@espressar@esprimir@esquecer@estabelecer@estabiliza
r@estacionar@estar@esteirar@estender@estilar@estimar@estimular@estivar@estocar@estourar@estradar
@estragar@estrangeirar@estrear@estreitar@estrelar@estruturar@estudar@esvaziar@evitar@evoluir@exag
erar@excepcionar@executar@exemplar@exemplificar@exercer@exibir@exigir@exilar@existir@exortar@ex
perimentar@explicar@explodir@explorar@expor@exportar@expressar@externar@extremar@facilitar@falar
@falecer@falhar@falir@faltar@fantasiar@farpar@fatiar@fatorar@fazer@fechar@ferir@ficar@fichar@filar
@filhar@filiar@filmar@filtrar@financiar@finar@firmar@fixar@florar@florir@focar@folgar@folhar@foment
ar@forjar@formalizar@formar@formatar@formular@fornecer@fossar@fotografar@fracassar@fraudar@fre
quentar@frutar@fugir@funcionar@fundar@fundir@furar@futurar@ganhar@garantir@gastar@gemer@gene
ralizar@gerar@gerenciar@golfar@governar@gozar@gradar@graduar@gramar@gravar@grupar@guardar@h
abilitar@haiter@haitir@haver@homenagear@honrar@idear@identificar@ignorar@ilhar@ilustrar@imaginar
@impedir@implementar@impor@importar@impostar@imprensar@imprimir@inaugurar@incendiar@incenti
var@inclinar@incluir@incomodar@incorporar@incrementar@indagar@indenizar@indicar@indiciar@individu
ar@induzir@infectar@influenciar@informar@ingressar@iniciar@insistir@inspirar@instalar@institucionalizar
@instrumentar@integrar@intensificar@interceder@interessar@interferir@intermediar@internar@interromp
er@intervalar@intervir@invadir@investigar@investir@ir@irritar@janelarosser@janelarossir@jantar@jogar@
julgar@juntar@justificar@lamentar@lanchar@languir@largar@lavar@legar@legendar@lembrar@ler@lesar
@levantar@levar@liberar@lidar@liderar@ligar@limitar@limpar@listar@livrar@lixar@localizar@locar@lotar
@lucrar@lutar@madrugar@mandar@mandatar@manifestar@manipular@manobrar@manter@marcar@mar
char@maridar@marinhar@matar@mear@medalhar@mediar@medicinar@medir@melhorar@melindrar@m
emorar@mencionar@mercar@mesquinhar@meter@militar@minimizar@ministrar@minutar@mobiliar@mob
226
ilizar@modelar@moderar@modernizar@moldar@monitorar@montar@morar@morrer@mostrar@motivar@
motorizar@mover@movimentar@mudar@murar@nadar@nascer@negar@negociar@nomear@nortear@not
ar@noticiar@novar@oar@obedecer@objetar@objetivar@obrar@obrigar@observar@obter@ocorrer@ocupa
r@odiar@oferecer@ofertar@oficializar@oficiar@olhar@operar@opor@ordenar@organizar@orgulhar@orien
tar@originar@ouvir@ovar@pacificar@pagar@pairar@palestrar@parar@parecer@parir@parlamentar@partic
ipar@partir@passar@patinar@patrocinar@patrulhar@pausar@pedir@pegar@penar@pendurar@pensar@pe
rceber@percorrer@perder@perdoar@perguntar@perigar@permanecer@permitir@persistir@perspectivar@
pertencer@pesar@pesquisar@pilar@pilotar@piorar@placar@planar@planejar@podar@poder@policiar@pol
uir@ponderar@pontar@popularizar@portar@posicionar@positivar@possuir@postar@potencializar@pousar
@preceder@precipitar@precisar@preestabelecer@preferir@pregar@prejudicar@prender@preocupar@prep
arar@prepor@prescindir@presentar@preservar@presidir@pressionar@prestar@prestigiar@pretender@prev
er@priorizar@processar@procurar@produzir@profundar@prognosticar@programar@projetar@prolongar@
prometer@promover@pronunciar@propagandear@propor@proteger@protestar@provar@prover@provocar
@publicar@pulverizar@quadrar@qualificar@quebrar@quedar@querer@questionar@quintar@quitar@radica
r@rasgar@ratificar@reabrir@reafirmar@reagir@realizar@reativar@reavaliar@rebater@recapturar@receber
@recepcionar@recidivar@reclamar@recolher@recompensar@recompor@reconhecer@reconstruir@recorda
r@recorrer@recrudescer@recrutar@recuar@recuperar@redar@redobrar@reduzir@reeditar@reembolsar@r
eerguer@referir@reformar@registrar@regrar@regredir@regressar@regulamentar@reiterar@rejeitar@relaci
onar@relatar@relativizar@relembrar@relutar@remover@remunerar@rendar@render@renomear@renovar
@reparar@repartir@repassar@repetir@replicar@reportar@representar@reprimir@reprisar@requintar@res
ervar@resgatar@resistir@resolver@respaldar@respeitar@responder@responsabilizar@responsar@ressaltar
@ressarcir@restabelecer@restar@restaurar@restringir@resultar@resumir@retardar@retirar@retomar@ret
ornar@retratar@retroceder@reunir@revelar@rever@reverter@revestir@revisar@revistar@rezar@rir@risca
r@ritmar@rodar@romper@rosar@rotar@ruir@rumar@saber@sacar@sacrificar@sagrar@sair@saldar@salta
r@salvar@sambar@saquear@saudar@secar@secretar@sedar@sediar@segar@segredar@seguir@segurar@s
elecionar@sentir@separar@sequestrar@ser@serenar@seriar@serrar@servir@significar@situar@sobrar@so
brecarregar@sobreviver@sobrevoar@socorrer@sofrer@solar@soldar@solicitar@somar@sondar@sonhar@s
ortir@soterrar@suar@suavizar@subir@sublinhar@subordinar@subsidiar@substituir@sugerir@sujar@supera
r@suplantar@supor@suportar@surgir@surpreender@surtir@suspeitar@suspender@sustentar@tardar@tax
ar@tecer@telefonar@temer@tender@tentar@ter@terminar@testar@testemunhar@tirar@titular@tomar@
tornar@torturar@trabalhar@traduzir@tramar@transcorrer@transferir@transformar@transmitir@transporta
r@transtornar@tratar@trazer@treinar@trocar@tumultuar@twitter@ultrapassar@unificar@unir@urgir@urin
ar@usar@utilizar@vagar@vagir@valar@valer@variar@vazar@vaziar@velar@vencer@vendar@vender@ver
@verificar@vestir@vetar@vezar@viajar@vincular@violar@violentar@vir@virar@visar@visitar@vivenciar@vi
ver@vizinhar@vociferar@voltar@volver@votar'
>>> verbosf = verbosf.split('@')
>>> corpus_root5= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha
de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/ETIQUETADOS Haiti - Léxico'
>>> wordlists4= PlaintextCorpusReader(corpus_root5, '.*')
>>> palavras2 = wordlists5.words()
>>> len(palavras2)
1114353
>>> i=0
>>> ent=[]
>>> while i <= 1114352:
if palavras2[i-1] == '[':
ent.append(palavras2[i])
i +=1
continue
>>> len(ent)
79668
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
227
<FreqDist with 72910 outcomes>
>>> prointer = fd3.keys()
>>> propriosf = prointer
>>> len(propriosf)
3655
>>> i=0
>>> k=0
>>> ent=[]
>>> resPV = []
>>> nomesP =[]
>>> strp = ''
>>> len(sentenc)
20325
>>> len(verbosf)
1096
>>> while k <= 1095:
while i <= 20324:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> len(resPV)
1096
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVEAH.txt', 'w')
>>> output_file.write(sestr1)
>>> i=0
>>> ent=[]
>>> while i <= 390442:
if palavras[i-1] == '[':
ent.append(palavras[i])
i +=1
continue
>>> len(ent)
29011
>>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha())
>>> fd3
<FreqDist with 27236 outcomes>
>>> propriosf = fd3.keys()
>>> prointer = fd3.keys()
>>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle())
228
>>> fd5 = nltk.FreqDist(w for w in prointer if w.upper())
>>> prop1 = fd4.keys()
>>> prop2 = fd5.keys()
>>> len(prop2)
5131
>>> prop2[5100:]
['Zhang', 'Zhouqu', 'Zhu', 'Zico', 'Zidane', 'Zilda', 'Zimb\xc3', 'Zito', 'Zoboomafoo', 'Zoey', 'Zona', 'Zonas',
'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro',
'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows']
>>> propriosf = prop1 + prop2[:5120]
>>> propriosf = set(propriosf)
>>> len(propriosf)
5120
>>> i=0
>>> k=0
>>> ent=[]
>>> resPV=[]
>>> nomesP=[]
>>> strp = ''
>>> len(sentenc)
20325
>>> len(verbosf)
1096
>>> while k <= 1095:
while i <= 20324:
if sentenc[i].count(verbosf[k]) != 0:
ent = ent + sentenc [i]
i +=1
continue
nomesP = [w for w in propriosf if w in ent]
Verbo = verbosf[k]
Nome = ' '.join(nomesP)
strp = Verbo + '--->' + Nome + '/n'
resPV.append(strp)
i=0
ent=[]
nomesP=[]
strp = ''
k +=1
continue
>>> sestr1 = "@@@".join(resPV)
>>> output_file = open('RedeVPAH.txt', 'w')
>>> output_file.write(sestr1)
>>> len(resPV)
1096
229
APÊNDICE E – Metadados de textos do corpus do Chile com itens lexicais mais frequentes em cada grupo de etiquetas
Identidade
Numérica
1
2
3
4
5
6
7
8
Data
28 de
fevereiro
de 2010
28 de
fevereiro
de 2010
28 de
fevereiro
de 2010
28 de
fevereiro
de 2010
28 de
fevereiro
de 2010
01 de
março de
2010
01 de
março de
2010
1 de
março de
2010
Verbo
ETIQUETADOS
PROP mais
mais
Frequência
Frequência
mais
Frequência
frequente
frequente
frequente
Título da Matéria
Seção
Outro tremor mata dois na
Argentina
Mundo
ir
5
Chile
4
norte
6
Tremor provoca tsunamis pelo
Pacífico
Mundo
ser
13
HavaÃ
10
ser
13
Brasileiros vivem tensão após
tremor
Mundo
estar
14
Brasil
14
brasileiro
22
Frases
Mundo
andar
4
GEAN
2
andar
4
Forte terremoto mata mais de 300
no Chile
Mundo
ser
15
Santiago
8
nÃ
17
Rápidas
Corrida
dar
2
DEM
5
carioca
3
CHILE: JOGOS NACIONAIS SÃO
ADIADOS, TÊNIS, NÃO
Esporte
ligar
2
Chile
2
final
4
Tremor de 2,4 graus atinge três
cidades no interior de Pernambuco
Cotidiano
ser
6
Ferreira
6
tremor
10
230
9
10
11
12
13
14
15
16
17
18
1 de
março de Hillary deve chegar hoje a Santiago
2010
1 de
Espanto e medo são primeiras
março de
sensações
2010
1 de
março de
Frase
2010
1 de
Valparaíso se apaga; Concepción
março de
enfrenta saques
2010
1 de
Avião da FAB traz 12 brasileiros do
março de
Chile
2010
1 de
Por terra, viagem a país exige
março de
desvios
2010
1 de
Chile envia Exército às ruas após
março de
tremor
2010
1 de
março de
Toda Mídia
2010
2 de
março de "BBB" Urgente! Tá um Assustation!
2010
2 de
Dólar volta a ficar abaixo de R$ 1,80;
março de
Bolsa sobe 1%
2010
Mundo
ir
4
Chile
6
presidente
6
Mundo
ser
19
SÃ
4
ser
19
Mundo
ser
7
Chile
2
ser
7
Mundo
ar
7
Santiago
8
meio
9
Mundo
ser
10
Chile
12
brasileiro
22
Mundo
entrar
4
Chile
4
argentino
6
Mundo
ser
14
Santiago
10
ser
14
Brasil
ser
18
Brasil
18
nÃ
21
Ilustrada
ser
10
BBB
10
ser
10
Dinheiro
bolsar
6
Ibovespa
4
mÃ
12
231
19
20
21
22
23
24
25
26
27
28
2 de
março de
2010
2 de
março de
2010
2 de
março de
2010
2 de
março de
2010
2 de
março de
2010
3 de
março de
2010
3 de
março de
2010
3 de
março de
2010
3 de
março de
2010
3 de
março de
2010
Brasileiro pode estar sumido, diz
embaixador
Mundo
estar
13
Chile
10
brasileiro
21
Lula visita país e oferta hospital de
campanha
Mundo
ajudar
17
Chile
18
brasileiro
23
Efeitos do sismo não devem afetar
rumo da economia chilena
Mundo
cobrir
6
Chile
6
paÃ
10
Caminho para o sul é retrato da
devastação
Mundo
ser
7
Bachelet
2
ser
7
Saques se disseminam por
Concepción
Mundo
recolher
10
Jara
4
pessoa
11
CHILENAS
Mundo
poder
6
Chile
6
segundo
9
Hillary leva telefones e promessas
para o Chile
Mundo
ajudar
9
Hillary
14
presidente
10
Carro vira casa; ruas ainda tremem
Mundo
dormir
4
Carlos
2
nÃ
6
Cidade chilena com mais mortos
ainda espera ajuda oficial
Mundo
ser
18
Silva
10
nÃ
23
notas
Informática
solar
10
Chatroulette
4
solar
10
232
29
30
31
32
33
34
35
36
37
38
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
4 de
março de
2010
5 de
março de
2010
5 de
março de
2010
FOTOS
Corrida
militar
5
Perigo
3
militar
5
Chile admite que errou na
prevenção de tsunami
Corrida
militar
5
Bachelet
4
crÃ
6
Coreia do Norte perde até camisas
em tour
Esporte
jogar
11
Venezuela
12
norte
20
Sismo pode afetar fornecimento de
vinho ao Brasil
Mundo
ter
7
Chile
8
segundo
12
Aliviados, brasileiros voltam enfim
Mundo
ser
10
Santiago
8
ser
10
Alarme falso sobre novas ondas
gigantes assusta Constitución
Mundo
ser
9
Chile
4
nÃ
19
Chilenos riem de repórter
sobressaltado
Mundo
ser
7
Avenida
2
ser
7
Chile admite erro em prevenção de
tsunami
Mundo
dizer
11
Marinha
8
governo
16
Depois de deixar Haiti após tremor,
família sobrevive também a sismo
chileno
Mundo
suar
16
Chile
12
nÃ
22
Concepción vive rotina de cidade
sitiada
Mundo
militar
13
Priscila
8
militar
13
233
39
40
41
42
43
44
45
46
47
48
5 de
Brasileiro localiza filha 5 dias após
março de
tremor
2010
5 de
Só ameaça faz Coreia enfrentar
março de
Venezuela
2010
5 de
Calendário faz Davis ignorar
março de
terremoto
2010
5 de
março de
Rápidas
2010
6 de
março de Ueba! Arruda INDICIADO ao Oscar!
2010
6 de
março de
Vaivém das commodities
2010
6 de
Lula desiste de comparecer à posse
março de
de Piñera
2010
6 de
Chilenos são gentis com quem cobre
março de
catástrofe
2010
6 de
Saqueadores de Concepción se
março de
defendem
2010
6 de
março de
Frases
2010
Mundo
estar
13
Joyce
10
nÃ
39
Esporte
jogar
19
Coreia
12
jogo
20
Esporte
ser
11
Copa
6
ser
11
Corrida
deixar
4
Carlos
4
famÃ
4
Ilustrada
ser
27
Dia
14
ser
27
Dinheiro
ser
9
Araújo
8
segundo
15
Mundo
ir
8
Lula
16
nÃ
27
Mundo
casar
9
Canales
12
nÃ
15
Mundo
ajudar
10
Pedro
6
nÃ
23
Mundo
recolher
6
Chile
4
nÃ
6
234
49
50
51
52
53
54
55
56
57
58
6 de
março de
2010
6 de
março de
2010
7 de
março de
2010
7 de
março de
2010
7 de
março de
2010
7 de
março de
2010
7 de
março de
2010
8 de
março de
2010
8 de
março de
2010
8 de
março de
2010
Desastre detona crise política no
Chile
Mundo
militar
23
Bachelet
12
militar
23
Frases
Opinião
folhar
4
Folha
4
bar
3
Frases
Mundo
estar
2
Alejandro
2
morador
5
Com armas e paus, chilenos
protegem casas
Mundo
militar
17
Pinto
6
nÃ
20
Terra devastada
Mais
ser
16
Kleist
14
terremoto
17
A felicidade dura pouco
Cotidiano
ser
20
Deus
4
nÃ
55
Tremor expôs fragilidade do Chile
diante de tragédias
Corrida
militar
5
Chile
4
governo
6
Resposta de governo a sismo é
reprovada
Mundo
governar
6
Bachelet
2
governo
12
Tsunami paralisa economia de
cidade portuária chilena
Mundo
estar
14
Talcahuano
8
nÃ
15
PENDENTE: JOGOS DECISIVOS
ENTRE CHILE E ISRAEL FICAM PARA
HOJE
Esporte
duelar
2
Andy
2
chileno
4
235
59
60
61
62
63
64
65
66
67
68
9 de
março de
2010
9 de
março de
2010
9 de
março de
2010
9 de
março de
2010
9 de
março de
2010
10 de
março de
2010
10 de
março de
2010
11 de
março de
2010
12 de
março de
2010
12 de
março de
2010
Tremor e temor no Chile
Opinião
ir
6
Bachelet
4
chileno
6
Terremoto destrói casas e mata 51
pessoas na Turquia
Mundo
ser
13
Elazig
6
ser
13
Piñera diz que vai manter tropa nas
ruas após posse
Mundo
militar
17
Bachelet
14
nÃ
21
Painel FC
Esporte
dizer
13
Paulo
6
nÃ
21
Piñera pretende manter tropas nas
ruas do Chile
Corrida
controlar
3
ForÃ
8
presidente
6
Terremoto não abala aprovação a
Bachelet
Mundo
pesquisar
8
Bachelet
10
catÃ
12
Desastre vira espalhador de pragas
Informática
fazer
5
Chile
6
suspeito
8
Piñera assume com missão de
reerguer Chile
Mundo
ser
11
PiÃ
18
polÃ
18
Abalo assusta chefes de Estado
durante cerimônia
Mundo
ser
13
Correa
4
nÃ
18
Sombra do empresário ofusca
político
Mundo
suar
11
PiÃ
16
rio
11
236
69
70
71
72
73
74
12 de
Piñera toma posse em meio a novo
março de
tremor
2010
12 de
março de
Outro Canal
2010
13 de
Chile usará empréstimos e
março de
economias na reconstrução
2010
17 de
março de O terremoto no centro de São Paulo
2010
22 de
março de
Humanitarismo 2.0
2010
04 de
abril de
ACREDITE SE QUISER
2010
Mundo
ser
15
PiÃ
14
ser
15
Ilustrada
ser
11
Costa
10
brasileiro
11
Mundo
ser
11
Chile
14
nÃ
15
Opinião
ser
20
SÃ
16
cidade
26
New York
Times
ser
17
Ushahidi
24
ser
17
Corrida
ser
10
Big
4
ser
10
75
4 de abril
de 2010
De volta ao terremoto
Cotidiano
ser
12
CaraÃ
8
famÃ
12
76
5 de abril
de 2010
Para fugir de terremoto, leitor teve
de pagar nova passagem
Cotidiano
empresar
20
Queixa
7
nÃ
18
Governantes "escorregam" em
tragédias
Cotidiano
militar
5
Anos
2
ex
6
PAINEL DO LEITOR
Opinião
ser
22
Folha
10
ser
22
77
78
08 de
abril de
2010
08 de
abril de
2010
237
79
8 de abril
de 2010
Mercado Aberto
Dinheiro
ser
14
Brasil
20
ano
15
80
9 de abril
de 2010
Frases
Mundo
estar
6
Brasil
6
brasileiro
7
"Lula vem da esquerda, mas
entende o mundo global"
Mundo
folhar
32
Folha
32
nÃ
34
A Febraban teve um apagão moral
de 24 horas
Brasil
ser
27
Kissinger
16
ser
27
Mundo
ser
10
Chile
6
ser
10
Mundo
formar
2
ABGLT
2
defesa
3
Coragem, candidatos!
Esporte
ser
18
Copa
8
ser
18
Ueba! China vende lolex pro Lula!
Ilustrada
ser
12
Lula
18
nÃ
19
Frio é obstáculo extra no socorro às
vítimas de sismo chinês
Mundo
encontrar
6
Pequim
4
segundo
15
Piñera aumenta impostos para
reerguer Chile após terremoto
Mundo
empresar
4
US
12
empresa
4
81
82
83
84
85
86
87
88
09 de
abril de
2010
11 de
abril de
2010
12 de
abril de
2010
14 de
abril de
2010
15 de
abril de
2010
16 de
abril de
2010
16 de
abril de
2010
17 de
abril de
2010
Maratona em Santiago passa por
monumentos danificados por
terremoto
REAÇÃO: GRUPOS COBRAM PROVAS
DE RELAÇÃO ENTRE GAYS E
PEDOFILIA
238
89
26 de
abril de
2010
Universidades têm risco de
segurança na pesquisa nuclear
New York
Times
pesquisar
11
MIT
6
reator
17
90
4 de maio
de 2010
Unasul se reúne para eleger
Kirchner seu secretário-geral
Mundo
ser
11
Kirchner
14
presidente
17
A voz das ruas
Equilíbrio
ser
17
Santiago
4
nÃ
17
Capítulo final
Ilustrada
ser
19
SP
18
ser
19
Programação de TV
Ilustrada
filmar
4
News
50
rio
8
Aumento
Turismo
oferecer
3
LAN
4
diÃ
3
A despeito do terremoto, Chile abre
pistas de esqui
Turismo
esquiar
6
Chile
6
estaÃ
8
Preço de commodities deve cair
abaixo da cotação de dezembro
Dinheiro
ser
12
Brasil
12
rio
20
Há 50 Anos: 22.mai.1960
Cotidiano
achar
2
Chile
2
segundo
5
Chile promete prêmio a casais que
chegarem aos 50 anos de
matrimônio
Mundo
fortalecer
8
Chile
6
chileno
8
91
92
93
94
95
96
97
98
06 de
maio de
2010
08 de
maio de
2010
12 de
maio de
2010
13 de
maio de
2010
13 de
maio de
2010
14 de
maio de
2010
22 de
maio de
2010
22 de
maio de
2010
239
99
100
101
102
103
104
105
106
107
108
23 de
maio de
2010
24 de
maio de
2010
25 de
maio de
2010
25 de
maio de
2010
31 de
maio de
2010
02 de
junho de
2010
09 de
junho de
2010
19 de
junho de
2010
29 de
junho de
2010
03 de
julho de
2010
Há 50 Anos: 23.mai.1960
Cotidiano
atingir
3
Argentina
2
chileno
5
Há 50 Anos: 24.mai.1961
Cotidiano
ar
2
Chile
2
extremo
3
VAIVÉM
Mercado
ser
10
Brasil
10
nÃ
15
Há 50 Anos: 25.mai.1961
Cotidiano
ser
3
JapÃ
4
maremoto
3
Bric vive conflito comercial e de
articulação política
Mercado
ser
20
Brasil
16
ser
20
Tremor que matou mais de 400 no
Chile é tema de documentário
Ilustrada
ir
4
Chile
6
nÃ
6
Há 50 Anos: 9.jun.1961
Cotidiano
ser
9
Chile
2
ser
9
Brasil puxa retomada do PIB da
região
Mercado
ter
13
Brasil
14
argentino
19
Commodity acumula alta de 31% no
ano
Mercado
demandar
8
Europa
6
segundo
12
Chile propõe concessão única para
telefonia
Mercado
fixar
9
Chile
10
governo
10
240
109
110
111
112
113
114
115
116
117
118
15 de
julho de
Toda Mídia
2010
1 de
Por prestígio, Brasil ajuda países
agosto de
pobres
2010
12 de
América Latina lidera melhora em
agosto de
notas da dívida
2010
25 de
Vida em grupo pode ajudar a conter
agosto de
angústias individuais
2010
28 de
Mina responderá por tentativa de
agosto de
homicídio
2010
06 de
Terremoto gigante passa
setembro
despercebido nos círculos sísmicos
de 2010
09 de
Metrô de Moscou celebra poesia
setembro
chilena
de 2010
12 de
Operação torna-se mina de ouro
setembro
para presidente chileno
de 2010
14 de
Acidente não abala economia
outubro
chilena
de 2010
15 de
outubro
Bode expiatório
de 2010
Poder
ser
13
China
16
nÃ
23
Mundo
ser
22
Brasil
16
ser
22
Mercado
notar
11
Moody
12
paÃ
18
Mundo
ser
9
TEPT
4
nÃ
17
Mundo
estar
6
Reinoso
6
nÃ
12
New York
Times
ser
11
Lay
10
terremoto
21
Turismo
circular
13
Moscou
14
chileno
21
Mundo
ser
18
PiÃ
16
ser
18
Mundo
ser
18
San
8
nÃ
18
Ilustrada
ser
27
Natal
4
ser
27
241
119
120
121
122
123
124
125
126
127
128
15 de
Mineiros viram cabo de guerra
outubro
político no Chile
de 2010
17 de
Presidente do Chile vai à Europa por
outubro
uma nova imagem do país
de 2010
18 de
Excessos da imprensa no Chile são
outubro
criticados
de 2010
21 de
Só 18 países protegem mulheres, diz
outubro
ONU
de 2010
25 de
Surto de cólera atinge a capital do
outubro
Haiti
de 2010
23 de
Eleição é ao mesmo tempo praga e
novembro
esperança para o país
de 2010
29 de
novembro
FOLHA.com
de 2010
01 de
dezembro
AMANHÃ NA FOLHA
de 2010
2 de
Casinhas coloridas alegram
dezembro
Valparaíso
de 2010
2 de
Flores e praia chamam a Viña del
dezembro
Mar
de 2010
Mundo
ser
15
PiÃ
10
presidente
16
Mundo
ser
7
PiÃ
6
britÃ
12
Mundo
ser
5
Chile
6
cobertura
13
Mundo
ser
15
Uganda
8
ser
15
Mundo
estar
9
Haiti
4
capital
20
Mundo
ser
15
Haiti
12
nÃ
23
Mundo
folhar
4
Chile
2
nÃ
3
Corrida
casar
1
Chile
2
caso
3
Turismo
ser
13
La
6
ser
13
Turismo
ser
9
ViÃ
8
ser
9
242
129
130
131
132
133
134
135
136
137
138
2 de
Reserve um dia todo para ver o
dezembro
Turismo
centro santiaguino
de 2010
2 de
Depois de terremoto, Chile se
dezembro
Turismo
reergue
de 2010
20 de
dezembro
todas as letras do ano
Folhateen
de 2010
26 de
dezembro
Personagens do ano
Empregos
de 2010
03 de
Terremoto de 7,1 graus atinge
janeiro de
Mundo
região centro-sul do Chile
2010
06 de
janeiro de
MERCADO ABERTO
Mercado
2010
15 de
Japão e Chile dão "banho" no Brasil
janeiro de
Cotidiano
em prevenção
2011
16 de
DE NOVO, A CHUVA: Marinha monta
janeiro de
Cotidiano
hospital em Nova Friburgo
2011
27 de
janeiro de
MERCADO ABERTO
Mercado
2011
31 de
janeiro de
FOLHA.com
Mundo
2011
ser
12
AmÃ
4
chileno
14
mostrar
6
Chile
8
capital
12
ser
23
Brasil
6
ser
23
ser
51
Landrino
12
ser
51
haver
2
Araucania
2
capital
4
ser
19
Paulo
8
ser
19
ser
7
Brasil
4
natural
7
ser
4
Angra
2
hospital
4
ser
19
Chile
16
ano
25
folhar
4
Chile
2
centro
2
243
139
140
141
142
143
144
01 de
fevereiro
FOLHA.com
de 2011
21 de
fevereiro
Mantendo a pressão no Chile
de 2011
12 de
Alerta provoca apreensão nos países
março de
do Pacífico
2011
12 de
março de
TSUNAMI
2011
17 de
março de
Santos cai e fica no limite do erro
2011
21 de
Americano vai ao Chile pregando
março de
aliança igualitária com AL
2011
Ciência
folhar
4
Chile
2
ocorrência
2
New York
Times
ser
16
Darwin
10
nÃ
24
Mundo
alertar
7
Chile
4
regiÃ
6
Mundo
haver
3
JapÃ
8
nÃ
6
Esporte
ser
15
Colo
12
final
16
Poder
ser
8
Chile
10
paÃ
8
244
APÊNDICE F – Metadados de textos do corpus do Haiti com itens lexicais mais frequentes em cada grupo de etiquetas
Identidade
Numérica
1
2
3
4
5
6
7
Data
Título da Matéria
13 de
EUA preparam time para
janeiro de
ajuda de emergência
2010
13 de
Brasil relata danos materiais,
janeiro de
mas não fala em vítimas
2010
13 de
Terremoto de grande
janeiro de
magnitude atinge Haiti
2010
14 de
A 37 km de Miami, visite a
janeiro de
"Veneza" das Américas
2010
14 de
janeiro de
Folha Online
2010
14 de
janeiro de
Ajuda on-line
2010
14 de
janeiro de
Tributo
2010
Seção
Verbo mais
frequente
Frequência
PROP mais
frequente
Frequência
ETIQUETADOS
mais frequente
Frequência
Mundo
ser
10
Haiti
10
Haiti
10
Mundo
militar
12
Brasil
6
brasileiro
19
Mundo
estar
7
Haiti
10
segundo
15
Turismo
ser
7
Fort
8
US
8
Corrida
folhar
2
Haiti
2
Haiti
2
Corrida
ajudar
3
Haiti
4
Haiti
4
Ilustrada
conhecer
3
Social
4
Zilda
4
245
8
9
10
11
12
13
14
15
16
17
14 de
"Pense no Haiti, reze pelo
janeiro de
Cotidiano
Haiti..."
2010
14 de
janeiro de
Vaivém das commodities
Dinheiro
2010
14 de
janeiro de
A hipervalorização do real
Dinheiro
2010
14 de
janeiro de
O último discurso
Mundo
2010
14 de
janeiro de
REPERCUSSÃO
Mundo
2010
14 de
"Ela está com a cara serena",
janeiro de
Mundo
diz embaixatriz
2010
14 de
Zilda Arns, 75, morre em
janeiro de
Mundo
missão humanitária
2010
14 de
Brasileiros estavam de saída
janeiro de
Mundo
do Haiti
2010
14 de
Alojamento em contêiner
janeiro de
Mundo
pode ter evitado mais mortes
2010
14 de
Desastre põe em risco
janeiro de
Mundo
estabilidade política
2010
ser
16
Haiti
32
Haiti
32
doar
3
Abimilho
2
vÃ
5
ser
15
US
10
ser
15
ser
37
Pastoral
20
ser
37
ser
14
Brasil
14
Brasil
14
estar
9
Kipman
8
padre
10
ser
18
Zilda
28
mÃ
30
estar
7
Brasil
6
final
8
militar
8
Haiti
4
militar
8
ser
23
Haiti
14
ser
23
246
18
19
20
21
22
23
24
25
26
27
14 de
Santo Domingo vira última
janeiro de
parada rumo ao caos
2010
14 de
Jobim promete hospitais de
janeiro de
campanha
2010
14 de
É hora de administrar o caos,
janeiro de
avalia militar
2010
14 de
Obama envia militares e
janeiro de
ajuda ao Haiti
2010
14 de
VIA SATÉLITE: WEB PERMITE
janeiro de "COBERTURA CIDADÃ" DA
2010
DESTRUIÇÃO
14 de
Agências humanitárias têm
janeiro de
dificuldades para enviar ajuda
2010
14 de
janeiro de
Frases
2010
14 de
País fala em "centenas de
janeiro de
milhares" de mortos
2010
14 de
janeiro de
Frase
2010
14 de
O Haiti já estava de joelhos;
janeiro de
agora, está prostrado
2010
Mundo
ser
11
Haiti
8
ser
11
Mundo
militar
23
Floriano
6
militar
23
Mundo
militar
13
Cruz
8
nÃ
16
Mundo
ajudar
5
Haiti
6
segundo
7
Mundo
funcionar
3
Facebook
2
web
4
Mundo
enviar
8
Haiti
8
Haiti
8
Mundo
haver
14
Haiti
4
haver
14
Mundo
haver
17
Haiti
10
capital
24
Mundo
caber
2
NÃ
1
caber
2
Mundo
estar
13
Haiti
10
nÃ
21
247
28
29
30
31
32
33
34
35
36
37
14 de
janeiro de
Haiti em ruínas
2010
14 de
janeiro de
Painel
2010
14 de
janeiro de
PAINEL DO LEITOR
2010
14 de
janeiro de Zilda Arns, a mãe do Brasil
2010
14 de
janeiro de
O Nobel da Paz brasileiro
2010
14 de
janeiro de
Tragédia e exemplo
2010
14 de
Graças ao açúçar, "pedaço da
janeiro de
África" já foi uma "pérola"
2010
14 de
Brasília doa US$ 15 mi; Lula
janeiro de
lamenta tragédia
2010
14 de
janeiro de
VÍTIMAS
2010
14 de
Sabe-se muito pouco sobre
janeiro de
tremores, diz especialista
2010
Mundo
enviar
4
PrÃ
6
haitiano
7
Brasil
ser
14
Zilda
6
ser
14
Opinião
suar
6
Arns
6
Zilda
6
Opinião
ser
11
Arns
12
polÃ
21
Opinião
ser
13
Zilda
10
nÃ
20
Opinião
ar
5
Haiti
8
nÃ
14
Mundo
ser
15
Haiti
12
ser
15
Mundo
ser
14
Haiti
18
brasileiro
19
Mundo
militar
25
Haiti
14
militar
25
Mundo
folhar
14
Folha
14
Folha
14
248
38
39
40
41
42
43
44
45
46
47
14 de
Tremor mata 14 militares do
janeiro de
Mundo
Brasil e deixa 4 desaparecidos
2010
15 de
janeiro de
+Colunas
Corrida
2010
15 de
janeiro de
Causa Haiti
Corrida
2010
15 de
janeiro de
Pacote milionário
Ribeirão
2010
15 de
"BBB" Urgente! Biba não tem
janeiro de
Ilustrada
osso!
2010
15 de
LANCE ARMSTRONG
janeiro de ANUNCIA DOAÇÃO DE US$
Esporte
2010
250 MIL
15 de
O ego encolhido de dona
janeiro de
Cotidiano
Zilda Arns
2010
15 de
Brasil gasta R$ 700 mi com
janeiro de
Mundo
missão de paz
2010
15 de
janeiro de
Frases
Mundo
2010
15 de
Para historiador,
janeiro de singularidade haitiana devia
Mundo
2010
ser mais enfatizada
militar
28
Brasil
12
militar
28
agir
3
Direitos
2
agir
3
estar
6
US
4
estar
6
ir
5
RibeirÃ
7
prefeitura
10
ser
17
RararÃ
7
nÃ
17
combater
2
US
4
americano
5
ser
14
Arns
10
nÃ
27
ser
30
Brasil
10
ser
30
poder
3
AmÃ
3
AmÃ
3
ser
12
SÃ
10
sÃ
14
249
48
49
50
51
52
53
54
55
56
57
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
Relação com os americanos
explica história recente do
Haiti
Mundo
ser
11
EUA
10
ser
11
Maior fração do Orçamento
do país vem de doações
Mundo
ser
12
Haiti
10
polÃ
18
DÍVIDA: ONU RESTITUIU
APENAS 41% DO DINHEIRO
DESEMBOLSADO PELO BRASIL
Mundo
ser
5
Defesa
2
ser
5
Ideais e salário atraem
brasileiros a missão
Mundo
militar
29
Haiti
20
militar
29
No vodu, alma ronda corpo
após morte
Mundo
ser
11
BB
3
bonange
12
Construtora do Brasil ajuda a
tirar escombros
Mundo
haver
4
Haiti
4
capital
8
Brasil vai ajudar país a
enterrar os mortos
Mundo
ser
11
Brasil
14
Brasil
14
Mundo
viver
10
EUA
6
nÃ
24
Mundo
militar
4
Sarkozy
4
francês
6
Mundo
ajudar
15
EUA
14
nÃ
16
Parentes buscam informação
de desaparecidos pela
internet
ANTIGA COLÔNIA: SARKOZY
PEDE AJUDA DO BRASIL PARA
RECONSTRUIR O HAITI
Obama promete US$ 100
milhões para assistência
250
58
59
60
61
62
63
64
65
66
15 de
Má qualidade de construções
janeiro de
infla tragédia
2010
PRESSA: EQUIPES SÓ TÊM
15 de
MAIS UM DIA PARA RETIRAR
janeiro de
SOBREVIVENTES, DIZ
2010
ESPECIALISTA
15 de
Cruz Vermelha estima mortos
janeiro de
em até 50 mil
2010
15 de
Esforços de resgate se
janeiro de concentram em instalações
2010
ocupadas pela ONU
15 de
Brasileira vira madrugada em
janeiro de
busca dos filhos
2010
15 de
Aeroporto é cartão de visitas
janeiro de
da destruição
2010
15 de
Ações simples e frutos
janeiro de
magníficos
2010
15 de
No exterior, Pastoral da
janeiro de Criança salvou ao menos 200
2010
mil bebês
15 de
Avião da FAB traz o corpo de
janeiro de
Zilda Arns para velório
2010
Mundo
ser
8
Haiti
8
nÃ
9
Mundo
comandar
3
Arjun
2
contra
4
Mundo
estar
20
ONU
12
estar
20
Mundo
resgatar
12
Minustah
6
haitiano
13
Mundo
ir
5
Eliana
10
filho
12
Mundo
ser
12
Porto
6
ser
12
Brasil
ser
10
Zilda
14
mÃ
18
Brasil
ser
11
Zilda
8
ser
11
Brasil
ser
10
Zilda
20
Zilda
20
251
67
68
69
70
71
72
73
74
75
76
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
15 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
Painel
Brasil
auxiliar
8
Lula
8
nÃ
11
PAINEL DO LEITOR
Opinião
ser
7
Arns
8
mÃ
9
O ano já começou
Opinião
ser
12
Brasil
8
direito
16
Frases
Opinião
folhar
4
Folha
4
nÃ
6
O plano Fênix
Opinião
ser
11
Jobim
4
plano
12
Frases
Mundo
ter
7
CLAUVIS
2
nÃ
9
Haitianos esperam ajuda
entre corpos e destroços
Mundo
ser
13
Bruijn
4
nÃ
26
Uma nova abordagem às
Américas
Opinião
ser
11
EUA
17
EUA
17
Fim do mundo
Opinião
ar
5
Haiti
10
Haiti
10
Desaparecido tem carreira
exitosa na ONU
Mundo
militar
15
Costa
12
militar
15
252
77
78
79
80
81
82
83
84
85
86
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
16 de
janeiro de
2010
Não há olhos azuis no Haiti
Mundo
ser
19
Haiti
18
nÃ
23
Cônsul do Haiti atribui tremor
à religião africana
Mundo
ser
12
Antoine
12
ser
12
Filha de 3 anos não sabe que
pai morreu
Mundo
militar
9
Haiti
8
militar
9
Resgatados feridos, 16
brasileiros chegam a SP
Mundo
militar
28
Haiti
8
militar
28
Brasil critica "assistencialismo
unilateral" de Washington
Mundo
ser
16
Haiti
10
nÃ
26
Frases
Mundo
estar
4
EUA
10
EUA
10
EUA enviarão 10 mil soldados
para ajuda
Mundo
militar
18
Brasil
12
militar
18
ONU suspende pedido por
equipes de resgate
Mundo
ser
17
Haiti
10
ser
17
"Nunca se saberá total de
mortos", diz ministro
Mundo
ser
14
PrÃ
14
PrÃ
14
Frase
Mundo
ficar
3
Brasil
2
embora
4
253
87
88
89
90
91
92
93
94
95
96
16 de
Brasileiros improvisam
janeiro de
Mundo
embaixada
2010
16 de
janeiro de
Frase
Mundo
2010
16 de
Em hospital improvisado,
janeiro de
Mundo
amputação é sem anestesia
2010
16 de
Americanos fazem triagem
janeiro de
Mundo
em aeroporto
2010
16 de
Nas ruas, sobreviventes lutam
janeiro de
Mundo
por comida
2010
16 de
BBB Urgente! Selinho dá
janeiro de
Ilustrada
sapinho!
2010
16 de
Ronaldo não jogará partida
janeiro de
Esporte
que ajuda Haiti
2010
16 de
EUA reduzem compra de alta
janeiro de
Dinheiro
tecnologia do Brasil
2010
16 de
janeiro de
O futebol contra a dor
Esporte
2010
16 de
janeiro de
Símbolo vs. destino
Opinião
2010
aguar
8
Casa
6
todo
14
piorar
1
Alberto
2
espanhol
3
estar
17
Lafuente
8
mÃ
24
comprar
8
Jesus
4
aeroporto
10
ser
16
BolÃ
2
nÃ
23
ser
15
BBB
17
ser
15
dizer
4
Ronaldo
6
nÃ
16
ser
19
Brasil
10
nÃ
20
ser
26
Haiti
6
ser
26
ser
12
Zilda
8
nÃ
16
254
97
98
99
100
101
102
103
104
105
106
16 de
janeiro de
Folha Online
Corrida
2010
16 de
janeiro de
+Colunas
Corrida
2010
16 de
"Todos perguntavam: onde
janeiro de está a dra. Zilda?", diz freira
Brasil
2010
que acompanhava médica
16 de
Zilda é velada como "mártir"
janeiro de
Brasil
em Curitiba
2010
16 de
Comissão não é "caça às
janeiro de
Brasil
bruxas", afirma Lula
2010
16 de
janeiro de
Painel
Brasil
2010
17 de
janeiro de O sobrevivente do terremoto
Saúde
2010
17 de
COBERTURA DO TERREMOTO Ombudsm
janeiro de
NO HAITI
an
2010
17 de
18 dias para achar a
Ombudsm
janeiro de
importância
an
2010
17 de
Autor também passou por
janeiro de
Mais
Ásia e Oceania
2010
ir
4
Cruz
2
ir
4
morrer
7
Cristo
4
morrer
7
estar
14
Zilda
24
Zilda
24
ser
11
Arns
12
mÃ
19
militar
14
Direitos
6
nÃ
17
ser
8
Lula
10
sobre
12
ser
7
Lubit
4
sobrevivente
10
partir
4
Haiti
4
leitor
6
ser
23
BrasÃ
4
ser
23
suar
3
Antilhas
2
capital
4
255
107
108
109
110
111
112
113
114
115
116
17 de
janeiro de
Haiti nas trevas
2010
17 de
janeiro de
Breve solidariedade
2010
17 de
janeiro de
MANCHETES
2010
17 de
Terremoto varreu o que
janeiro de
restava do Haiti
2010
17 de
Palmeiras espanta fiasco de
janeiro de
2009 com goleada em 2010
2010
17 de
janeiro de
Como se faz um Haiti?
2010
17 de
Número dois de missão da
janeiro de ONU, brasileiro é encontrado
2010
morto
17 de
Mortos são enterrados, e
janeiro de
vivos deixam Porto Príncipe
2010
17 de
O Haiti nas palavras de um
janeiro de
literato cubano
2010
17 de
Vida haitiana inspira obras no
janeiro de
cinema e na literatura
2010
mundiais
Mais
ser
40
Porto
14
ser
40
Mais
ser
24
Haiti
6
nÃ
29
Corrida
excluir
3
Haiti
8
Haiti
8
Corrida
ajudar
7
Brasil
6
nÃ
12
Esporte
ser
20
Cleiton
10
ser
20
Dinheiro
ser
10
Haiti
14
Haiti
14
Mundo
ser
15
ONU
22
ONU
22
Mundo
ser
8
Porto
6
cidade
11
Mundo
ser
10
Haiti
10
mundo
12
Mundo
ser
12
Haiti
22
pÃ
25
256
117
118
119
120
121
122
123
124
125
126
17 de
Sul-coreana é abrigada em
janeiro de
base brasileira
2010
17 de
Tragédia haitiana une Obama,
janeiro de
Bush e Clinton
2010
17 de
Embargo econômico após
janeiro de golpe de 1991 arruinou país
2010
de vez
17 de
Presidente pede
janeiro de
"coordenação" internacional
2010
17 de
"Cada um de nós viveu seu
janeiro de drama individual", diz coronel
2010
brasileiro
17 de
No Haiti, o coronel de
janeiro de
"Avatar" prevaleceu
2010
17 de
janeiro de
Zilda e o Santo Graal
2010
17 de
Doação para Pastoral da
janeiro de
Criança cai 23%
2010
17 de
janeiro de
Precisamos, em vão
2010
17 de
janeiro de
Painel
2010
Mundo
militar
14
Haiti
6
militar
14
Mundo
ser
12
Bush
18
Haiti
12
Mundo
ser
28
Haiti
18
ser
28
Mundo
ser
11
EUA
10
ser
11
Mundo
militar
29
Bernardes
20
militar
29
Brasil
ser
24
EletrobrÃ
12
ser
24
Brasil
viver
10
Zilda
20
Zilda
20
Brasil
ser
8
Zilda
8
doaÃ
15
Brasil
militar
22
República
5
nÃ
23
Brasil
ser
8
Lula
8
sobre
15
257
127
128
129
130
131
132
133
134
135
136
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
17 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
PAINEL DO LEITOR
Opinião
ser
28
SP
30
nÃ
30
Frases
Opinião
ser
6
Folha
4
nÃ
7
Haiti
Opinião
ser
9
Haiti
8
sÃ
10
Tarde demais?
Opinião
ser
12
Brasil
12
nÃ
20
Rottweiler sem dentes
Opinião
estar
5
Brasil
4
nÃ
11
Doações em dinheiro
contornam governo
Mundo
ser
27
ONU
16
ser
27
Exército continua mais cinco
anos no Haiti, afirma Jobim
Mundo
ser
19
Haiti
14
ser
19
Brasil e EUA se unem para
distribuir comida
Mundo
militar
20
EUA
10
militar
20
Terremoto de notícias
Folhateen
ser
12
CNN
14
CNN
14
Folha Online
Corrida
resgatar
1
Bombeiros
2
folha
3
258
137
138
139
140
141
142
143
144
145
146
18 de
janeiro de
Em segurança
2010
18 de
Empresas têm dificuldade em
janeiro de
ajudar Haiti
2010
18 de
Terremoto pode ser uma
janeiro de
oportunidade
2010
18 de
Arquitetos reagem a
janeiro de
catástrofes com conceitos
2010
simples e baratos
18 de
Transporte de alimentos terá
janeiro de
escolta
2010
18 de
Países lutam para definir
janeiro de
papel em socorro
2010
18 de
janeiro de
Haiti, que ajuda?
2010
18 de
"Não basta dar apenas ajuda
janeiro de
aos haitianos"
2010
18 de
ESCOMBROS: CORPO DE
janeiro de
MAJOR BRASILEIRO É
2010
IDENTIFICADO
18 de
Equipes salvam três em
janeiro de
ruínas de mercado
2010
Corrida
estar
4
Christina
2
irmÃ
6
Dinheiro
empresar
21
AÃ
14
empresa
21
Mundo
ser
62
Folha
28
nÃ
87
Mundo
comer
9
Ban
12
Ban
12
Mundo
ser
7
Amorim
8
segundo
7
Mundo
poder
14
Brasil
10
forÃ
17
Mundo
ser
36
Haiti
18
haitiano
48
Mundo
ser
29
EUA
8
nÃ
37
Mundo
militar
13
Adolfo
2
militar
13
Mundo
ser
16
ONU
8
segundo
21
259
147
148
149
150
151
152
153
154
155
156
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
18 de
janeiro de
2010
General brasileiro avalia que
Haiti regrediu a período préMinustah
Mundo
militar
18
Haiti
8
militar
18
"Governo haitiano é
predador"
Mundo
ser
13
Haiti
14
nÃ
16
Frases
Mundo
estar
4
Haiti
4
Haiti
4
Tremor pode reerguer
gangues, diz coronel
Mundo
militar
17
Ajax
10
militar
17
Para ativista, "situação está
melhorando e piorando"
Mundo
ter
10
Gilles
10
nÃ
14
Violência vira obstáculo à
ajuda na capital
Mundo
ser
12
PrÃ
10
nÃ
14
Missa de 7º dia homenageia
mortos no Haiti
Brasil
militar
4
Haiti
4
Haiti
4
Painel
Brasil
ser
13
PT
10
ser
13
PAINEL DO LEITOR
Opinião
ser
43
Paulo
22
nÃ
45
Frases
Opinião
folhar
4
Folha
4
nÃ
9
260
157
158
159
160
161
162
163
164
165
166
18 de
janeiro de
Haiti, Zilda Arns e nós
2010
18 de
janeiro de
Debate prematuro
2010
18 de
janeiro de
Frase
2010
18 de
"Arrecadação humanitária
janeiro de
virou negócio"
2010
18 de
Sub de Amorim diz que prazo
janeiro de
de 5 anos é prematuro
2010
19 de
janeiro de
+Colunas
2010
19 de
janeiro de
O terremoto da pobreza
2010
19 de
"BBB"! Entrou um vibrador
janeiro de
falante!
2010
19 de
janeiro de
Solidariedade
2010
19 de
janeiro de
Frases
2010
Opinião
ser
11
Haiti
12
Haiti
12
Opinião
militar
14
Haiti
6
militar
14
Mundo
ajudar
3
Haiti
4
Haiti
4
Mundo
ser
21
Folha
16
ser
21
Mundo
ser
14
Haiti
14
Haiti
14
Corrida
funcionar
3
Barros
2
final
4
Ilustrada
ser
31
Kahn
10
nÃ
32
Ilustrada
ter
12
Haiti
8
ter
12
Dinheiro
ser
17
Haiti
12
paÃ
17
Mundo
ser
6
Bolsa
2
ser
6
261
167
168
169
170
171
172
173
174
175
176
19 de
"Haitianos devem trabalhar
janeiro de
na reconstrução"
2010
19 de
UE promete 422 milhões de
janeiro de
euros
2010
19 de
Desespero por comida e água
janeiro de
cresce, alerta organização
2010
19 de
SOLIDARIEDADE: BRASILEIROS
janeiro de QUEREM ADOTAR CRIANÇAS
2010
HAITIANAS ÓRFÃS
19 de
Exército brasileiro afirma
janeiro de estar preparado para dobrar
2010
presença
19 de
ONU e EUA aumentam
janeiro de
efetivo no país
2010
19 de
Missa de 7º dia lembra
janeiro de
trabalho de Zilda Arns
2010
19 de
janeiro de
Painel
2010
19 de
janeiro de
PAINEL DO LEITOR
2010
19 de
O Brasil deve defender a
janeiro de
democracia no Haiti
2010
Mundo
ser
45
Haiti
18
ser
45
Mundo
ser
15
ONU
12
ser
15
Mundo
militar
14
PrÃ
14
nÃ
17
Mundo
adotar
3
Haiti
4
nÃ
6
Mundo
militar
30
Haiti
20
militar
30
Mundo
militar
14
Haiti
24
Haiti
24
Brasil
colher
4
Arns
4
brasileiro
6
Brasil
ser
18
Lula
14
nÃ
18
Opinião
ser
40
SP
14
ser
40
Opinião
militar
23
Haiti
16
nÃ
27
262
177
178
179
180
181
182
183
184
185
186
19 de
janeiro de
Frases
Opinião
2010
19 de
janeiro de
Deus e os homens
Opinião
2010
19 de
janeiro de
A derrota da vitória
Opinião
2010
19 de
janeiro de
No coração das trevas
Opinião
2010
19 de
Violência vira obstáculo à
janeiro de
Mundo
ajuda na capital
2010
19 de
janeiro de
Frases
Mundo
2010
19 de
Cidade mais destruída espera
janeiro de
Mundo
dias por ajuda
2010
20 de
Informátic
janeiro de
tec-tec-tec
a
2010
20 de
Aprenda a fazer busca de
Informátic
janeiro de
tuítes em tempo real
a
2010
20 de
Informátic
janeiro de
Twitter sem mistério
a
2010
folhar
4
Folha
4
nÃ
5
ser
9
Deus
8
ser
9
ser
9
Haiti
8
ser
9
ser
9
Haiti
10
nÃ
17
estar
14
Pierre
6
nÃ
23
militar
5
Ban
2
militar
5
haver
19
Porto
10
nÃ
30
ter
10
Google
18
segundo
15
buscar
15
Twitter
8
busca
15
ser
7
Twitter
10
segundo
8
263
187
188
189
190
191
192
193
194
195
196
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
Enquanto isso, no Suriname...
Ilustrada
ir
15
Folha
8
ir
15
SPFW! Jesus ressuscitou de
jeans!
Ilustrada
ter
13
Jesus
14
nÃ
21
TRAGÉDIA: FUTEBOL SOMA
TRINTA MORTOS
Esporte
haver
2
Haiti
2
federaÃ
4
Terremoto apaga 1ª superluta
do ano
Esporte
ser
11
Haiti
28
Haiti
28
ir
7
Twitter
6
rsr
8
Rainhas de bateria aderem ao
Cotidiano
Twitter
Desemprego poderá ser
furacão Katrina de presidente
dos EUA
Mundo
ser
12
Obama
8
ser
12
ONU se prepara para
desarmar a população
Mundo
ser
9
Haiti
10
Haiti
10
Frase
Mundo
haver
6
Edmond
2
haver
6
"Não há saques
generalizados", diz emissário
da ONU
Mundo
haver
9
ONU
10
capital
16
"Aumento de contingente é
preventivo"
Mundo
militar
27
Brasil
8
militar
27
264
197
198
199
200
201
202
203
204
205
206
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
Otimismo começa a surgir em
meio ao caos
Mundo
ser
15
CitÃ
4
ser
15
Terremoto reverte anos de
progresso, diz especialista do
BID
Mundo
ser
17
Folha
14
nÃ
18
Governo deve ditar rumos da
ajuda externa
Mundo
ajudar
10
Dias
6
ajuda
10
Frase
Mundo
ajudar
3
BID
2
nÃ
10
Entrega caótica de comida é
alvo de críticas
Mundo
militar
45
Haiti
10
militar
45
Frase
Mundo
defender
4
EUA
2
nÃ
7
ONU chancela escalada das
tropas
Mundo
ser
10
Ban
6
nÃ
14
VOLUNTARIADO: MINUSTAH
TEM VOOS PARA MÉDICOS
EM SANTO DOMINGO
Mundo
prestar
3
Haiti
2
balcÃ
3
Saída de Porto Príncipe vira
aventura aérea
Mundo
ser
10
Haiti
10
nÃ
22
PASTORAL DA CRIANÇA
Brasil
acompanhar
3
Arns
2
Haiti
2
265
207
208
209
210
211
212
213
214
215
216
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
20 de
janeiro de
2010
21 de
janeiro de
2010
21 de
janeiro de
2010
21 de
janeiro de
2010
Lá para cá diferenças há
Brasil
ser
13
Brasil
8
nÃ
15
PAINEL DO LEITOR
Opinião
ser
19
Haiti
14
nÃ
33
Haiti: humanitarismo e
política internacional
Opinião
ser
25
Haiti
22
ser
25
Frases
Opinião
folhar
4
Folha
4
governo
6
Organização urgente
Opinião
ser
9
Haiti
10
nÃ
12
Problema em aeroporto
causa mortes
Mundo
ter
10
Domingo
8
nÃ
15
Tragédia já é a mais letal das
Américas
Mundo
ar
13
Haiti
8
terÃ
18
cinema e etc.
Corrida
estar
4
Brasil
4
atÃ
6
Novato
Corrida
ar
2
Ashton
2
terÃ
6
No calvário fashion de Jesus,
quem sofre são outros
Ilustrada
entrar
12
Jesus
32
nÃ
24
266
217
218
219
220
221
222
223
224
225
226
21 de
janeiro de
Saca-rolha
Ilustrada
2010
21 de
Buemba! Eu sou filho do Zé
janeiro de
Ilustrada
Mayer!
2010
21 de
janeiro de
"Da utopia à topia"
Cotidiano
2010
21 de
"Nós atuamos diretamente
janeiro de
Mundo
com a Presidência"
2010
21 de
Crítica a ONG não pode ser
janeiro de
Mundo
generalizada, diz Viva Rio
2010
21 de
Novo tremor reaviva trauma
janeiro de
Mundo
haitiano
2010
21 de
Minustah festeja ausência de
janeiro de
Mundo
tiros
2010
21 de
Tremor é oportunidade para
janeiro de
ambições de Brasília, diz
Mundo
2010
analista
21 de
O que as tropas brasileiras
janeiro de
Mundo
estão fazendo no Haiti?
2010
21 de
18 MORTOS: ÚLTIMO
janeiro de
CADÁVER DE MILITAR DO
Mundo
2010
PAÍS É ENCONTRADO
ser
12
Jesus
10
rio
12
ser
15
Lula
12
ser
15
ser
17
Frei
10
nÃ
30
ser
10
Rio
8
nÃ
20
ar
9
Rio
12
nÃ
14
ser
13
Petit
8
nÃ
18
militar
13
Porto
6
militar
13
ser
29
Brasil
26
ser
29
ser
21
Brasil
8
ser
21
militar
5
Martins
4
dia
5
267
227
228
229
230
231
232
233
234
235
236
21 de
Brasil vai dobrar efetivo
janeiro de
militar no Haiti
2010
21 de
Rio de Janeiro celebra missa
janeiro de
em homenagem a Zilda Arns
2010
21 de
janeiro de
A interrogação do vice
2010
21 de
janeiro de
PAINEL DO LEITOR
2010
21 de
janeiro de
O Haiti não está só
2010
21 de
janeiro de
Um ano medíocre
2010
21 de
janeiro de
Frase
2010
21 de
EUA anunciam envio de mais
janeiro de
4.000 homens
2010
21 de
Tropas americanas blindam
janeiro de
assistência
2010
21 de
Fuzis sem munição controlam
janeiro de
multidão
2010
Mundo
militar
34
Brasil
14
militar
34
Brasil
suscitar
3
Zilda
6
Zilda
6
Brasil
ser
15
PMDB
10
nÃ
21
Opinião
ser
30
Paulo
14
nÃ
32
Opinião
ajudar
32
Haiti
22
ajudar
32
Opinião
ser
12
Obama
12
nÃ
15
Opinião
comer
1
Alan
2
nÃ
3
Mundo
militar
12
EUA
10
militar
12
Mundo
militar
43
PrÃ
10
militar
43
Mundo
ser
10
Leogane
6
nÃ
18
268
237
238
239
240
241
242
243
244
245
246
22 de
janeiro de
Painel Regional
2010
22 de
janeiro de
Programação de TV
2010
22 de
janeiro de
Outro Canal
2010
22 de
Atlântico terá o dobro de
janeiro de
furacões fortes, diz estudo
2010
22 de
Brasil destina R$ 340 mi para
janeiro de
ajudar país caribenho
2010
22 de
janeiro de
Frase
2010
22 de
Para analistas dos EUA, Brasil
janeiro de
deve liderar reconstrução
2010
22 de
Amorim nega existir disputa
janeiro de
por liderança
2010
22 de
RENÉ PRÉVAL: "HAITI NÃO
janeiro de
ESTÁ SOB TUTELA"
2010
ESTRANGEIRA
22 de
Minustah planeja doação
janeiro de
para contrapor EUA
2010
Ribeirão
ser
10
Jaboticabal
10
ontem
10
Ilustrada
ar
12
News
52
Brasil
36
Ilustrada
ser
16
Rio
8
ser
16
Ciência
ser
7
EUA
8
furacÃ
12
Mundo
militar
32
Haiti
14
militar
32
Opinião
ser
2
Batista
2
brasileiro
3
Mundo
ser
11
Brasil
8
ser
11
Mundo
ser
17
Costa
8
ser
17
Mundo
militar
4
EUA
4
EUA
4
Mundo
haver
12
Minustah
8
haver
12
269
247
248
249
250
251
252
253
254
255
256
22 de
janeiro de
2010
22 de
janeiro de
2010
22 de
janeiro de
2010
22 de
janeiro de
2010
22 de
janeiro de
2010
22 de
janeiro de
2010
22 de
janeiro de
2010
23 de
janeiro de
2010
23 de
janeiro de
2010
23 de
janeiro de
2010
Transferência internacional
de dinheiro recomeça
Mundo
ser
14
CanadÃ
4
ser
14
Face remanescente do
Estado, polícia só tem armas
letais
Mundo
ser
13
PrÃ
6
polÃ
18
Sem sede, governo tenta
reaver controle
Mundo
ser
13
PrÃ
8
ainda
18
Uma ideia simples e
revolucionária
Opinião
ser
15
Zilda
10
nÃ
24
Os odores do Haiti
Opinião
ser
21
Haiti
14
ser
21
Fora de hora
Opinião
ser
9
SÃ
8
nÃ
13
Painel
Brasil
ser
11
JosÃ
8
presidente
12
PAINEL DO LEITOR
Opinião
ser
25
SP
16
nÃ
47
Quase 50% das doações
brasileiras ao país não têm
utilidade imediata
Mundo
ser
9
Haiti
8
ser
9
Organizações são mal
necessário, diz especialista
Mundo
ser
25
ONGs
24
ser
25
270
257
258
259
260
261
262
263
264
265
266
23 de
ONGs recebem um terço dos
janeiro de
Mundo
fundos doados para o Haiti
2010
23 de
Americanos aprovam reação
janeiro de
de Obama à tragédia, diz
Mundo
2010
pesquisa
23 de
Batalhão brasileiro constrói
janeiro de
Mundo
campo de refugiados
2010
23 de
Brasil "marca posição" em
janeiro de
Mundo
território dos EUA
2010
23 de
janeiro de
Programação de TV
Ilustrada
2010
23 de
janeiro de A terra do direito impossível Cotidiano
2010
23 de
janeiro de Banqueiros, talebans e o Haiti Mundo
2010
23 de
janeiro de
+Colunas
Corrida
2010
23 de
janeiro de
Rápidas
Corrida
2010
23 de
janeiro de
Painel
Brasil
2010
ser
13
Cruz
16
ONGs
16
ajudar
8
Haiti
8
americano
18
ser
23
BB
6
ser
23
ser
21
Brasil
10
brasileiro
22
filmar
10
News
50
Brasil
38
estar
8
Haiti
12
direito
24
ser
14
Obama
8
nÃ
15
estar
8
Obama
4
estar
8
ser
8
China
8
ser
8
ir
9
SÃ
10
nÃ
14
271
267
268
269
270
271
272
273
274
275
276
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
24 de
janeiro de
2010
Semana do Leitor
Semana
do Leitor
ser
21
Haiti
8
nÃ
38
Erramos
Opinião
ser
4
JAN
4
nÃ
9
PAINEL DO LEITOR
Opinião
ser
22
Paulo
22
nÃ
24
Frases
Opinião
ter
7
Brasil
4
ter
7
Galinho garnisé
Opinião
disputar
6
Haiti
12
Haiti
12
ONDE A FOLHA FOI BEM...
Ombudsm
an
entrevistar
4
Ano
4
sobre
9
Não ir de notícia a
esquecimento
Ombudsm
an
ser
20
Haiti
6
ser
20
Erros repetidos não podem
ser acobertados pelos
escombros
Mundo
ser
38
Haiti
12
ser
38
ONU dá buscas por
encerradas; governo nega
Mundo
ser
12
ONU
10
nÃ
17
República Dominicana vira
rota de repatriados
Mundo
ser
12
Porto
6
haitiano
21
272
277
278
279
280
281
282
283
284
285
286
24 de
Brasil quer "Plano Lula" para
janeiro de
Mundo
reerguer país
2010
24 de
janeiro de
Boas e más palavras
Mais
2010
24 de
janeiro de
Programação de TV
Ilustrada
2010
24 de
Buemba! Zé Mayer é o Pai
janeiro de
Ilustrada
Herói!
2010
24 de
Internet móvel no país é cara
janeiro de
Dinheiro
e nos atrasa, diz Google
2010
24 de
janeiro de A única saída de São Paulo
Cotidiano
2010
24 de
janeiro de
MANCHETES
Corrida
2010
24 de
Na 2ª semana pós-terremoto,
janeiro de Haiti vive disputa entre EUA,
Corrida
2010
ONU e Brasil
24 de
janeiro de
Ciência, religião e o Haiti
Ciência
2010
24 de
janeiro de
Frases
Ciência
2010
ser
17
Haiti
22
Haiti
22
haver
14
LaferriÃ
10
nÃ
20
ar
6
News
34
Brasil
32
saber
10
Haiti
6
nÃ
12
ser
50
Google
44
ser
50
ser
27
Paulo
16
ser
27
dobrar
3
Haiti
8
Haiti
8
ar
7
Brasil
8
Brasil
8
ser
15
Haiti
8
nÃ
24
acontecer
3
GRANT
2
nÃ
6
273
287
288
289
290
291
292
293
294
295
296
24 de
"Poucos ouvem as más
janeiro de
Ciência
notícias da ciência"
2010
24 de
O Big Brother diz que vem
janeiro de
Brasil
para o bem
2010
24 de
janeiro de
Na hora trágica
Brasil
2010
25 de
É possível se recuperar da
New York
janeiro de
devastação?
Times
2010
25 de
janeiro de
02NEURÔNIO
Folhateen
2010
25 de
janeiro de
MEU ESPAÇO
Folhateen
2010
25 de
Aiatolá cairá e Irã vai se
janeiro de
Mundo
tornar ditadura militar
2010
25 de
Reunião em Montréal será
janeiro de
Mundo
teste de poder
2010
25 de
Ação é a maior no exterior no
janeiro de
Mundo
pós-2ª Guerra
2010
25 de
País expõe contradições de
janeiro de
Mundo
forças de paz
2010
ser
47
Folha
28
nÃ
91
ser
30
Jobim
12
ser
30
ser
21
Haiti
12
ser
21
ser
22
New
10
ser
22
mudar
14
Haiti
4
ser
13
ser
10
Aranha
4
pÃ
13
ser
46
Folha
22
nÃ
69
militar
15
Haiti
14
paÃ
16
militar
8
Haiti
6
forÃ
10
ser
18
Brasil
14
ser
18
274
297
298
299
300
301
302
303
304
305
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
25 de
janeiro de
2010
26 de
janeiro de
2010
Acampamento vê surgirem
barbearias e cibercafé
precários
Mundo
ser
15
Darelus
6
ser
15
Favela organiza brigadas de
autodefesa
Mundo
militar
9
CitÃ
8
nÃ
20
SALDO DE MORTOS: MAIS DE
150 MIL JÁ ESTÃO
ENTERRADOS EM VALAS
COMUNS
Mundo
saber
3
Haiti
4
Haiti
4
"Estamos recomeçando
abaixo de zero"
Mundo
ser
28
Folha
20
ser
28
Toda Mídia
Brasil
dizer
11
Brasil
18
nÃ
21
Sem Zilda, Pastoral do Idoso
teme por sua sobrevivência
Brasil
haver
8
Pastoral
10
rio
11
PAINEL DO LEITOR
Opinião
ser
36
SÃ
24
nÃ
41
Frases
Opinião
ser
11
Folha
4
ser
11
PAINEL DO LEITOR
Opinião
ser
32
Paulo
28
ser
32
275
306
307
308
309
310
311
312
313
314
26 de
janeiro de
Frase
2010
26 de
Jovem de 14 anos é resgatada
janeiro de
após 13 dias
2010
26 de
Desabrigados resistem a
janeiro de
abandonar Porto Príncipe
2010
26 de
Congresso aprova aumento
janeiro de
de efetivo brasileiro
2010
26 de
Conferência já é parte de
janeiro de
"plano Lula", diz Amorim
2010
"DESFILE DE
26 de
VAIDADES": ITALIANO
janeiro de
CRITICA ESFORÇO
2010
HUMANITÁRIO
INTERNACIONAL
26 de
Reunião dá a Haiti comando
janeiro de
da reconstrução
2010
26 de
janeiro de
Fotos
2010
26 de
janeiro de
Toda Mídia
2010
Mundo
estar
2
Guerlane
2
bastante
4
Mundo
ser
12
Guerlane
8
ainda
12
Mundo
ser
15
Haiti
8
ser
15
Mundo
militar
25
Haiti
12
militar
25
Mundo
ser
9
Haiti
14
plano
21
Mundo
militar
5
Defesa
2
italiano
5
Mundo
ser
13
Haiti
16
haitiano
25
Corrida
acampar
3
Figo
3
ontem
6
Brasil
saber
6
PAC
12
Lula
8
276
315
316
317
318
319
320
321
322
323
26 de
janeiro de
2010
27 de
janeiro de
2010
27 de
janeiro de
2010
27 de
janeiro de
2010
27 de
janeiro de
2010
Painel
Brasil
ar
9
JustiÃ
10
ser
9
PAINEL DO LEITOR
Opinião
ser
28
Paulo
30
nÃ
35
Frases
Opinião
folhar
4
Folha
4
haitiano
6
Lula anuncia visita ao Haiti
Mundo
ser
24
Haiti
16
ser
24
Navio-hospital é cartão de
visitas norte-americano
Mundo
ser
14
Comfort
8
ser
14
Mundo
embarcar
4
Marinha
4
Marinha
4
Mundo
imprensar
2
FranÃ
3
paÃ
4
Mundo
ser
12
Catunda
14
nÃ
12
Dinheiro
ser
16
Haiti
10
ser
16
BRASIL: EXÉRCITO REQUER R$
270 MI PARA ATENDER A
ONU E ENVIAR 900
MILITARES
EUA: HILLARY DIZ QUE
27 de
LAMENTA AS CRÍTICAS À
janeiro de
ATUAÇÃO AMERICANA NO
2010
HAITI
27 de
"Companheiro" de deposto
janeiro de
vai agora ajudar o Haiti
2010
27 de
Haiti, ou a economia da
janeiro de
destituição
2010
27 de
janeiro de
2010
277
324
325
326
327
328
329
330
331
332
333
27 de
janeiro de
+Colunas
Corrida
2010
27 de
janeiro de
Enfim, a nova Lei Rouanet
Ilustrada
2010
27 de
EUA controlam maior porto
janeiro de
Mundo
haitiano
2010
27 de
EUA estão no controle do
janeiro de
Corrida
maior porto do Haiti
2010
27 de
janeiro de
Toda Mídia
Brasil
2010
27 de
Ex-ídolo, Obama vira alvo no
janeiro de
Brasil
Fórum Social
2010
28 de
Haiti: pedaço e inspiração
janeiro de
Mundo
para África no Caribe
2010
28 de
PACTO: BRASIL E FRANÇA
janeiro de QUEREM PLANO CONJUNTO
Mundo
2010
PARA REERGUER HAITI
28 de
Ajuda brasileira pode
janeiro de ascender a R$ 1 bilhão, afirma Mundo
2010
Amorim
28 de
Brasil reserva milhares de
janeiro de
Mundo
toneladas para doação
2010
ser
5
Castro
4
nÃ
6
ser
18
Lula
12
nÃ
19
militar
21
EUA
10
militar
21
ser
5
EUA
4
americano
6
falar
10
Brasil
14
Brasil
14
ser
11
Obama
6
nÃ
23
haver
17
Haiti
18
nÃ
24
jantar
4
Amorim
2
jantar
4
ajudar
5
Amorim
10
dinheiro
12
ser
12
Brasil
8
paÃ
14
278
334
335
336
337
338
339
340
341
342
343
28 de
Governo banca êxodo sem
janeiro de
volta da capital
2010
28 de
janeiro de
Haiti
2010
28 de
janeiro de
Mercado Aberto
2010
28 de
janeiro de
Diplomacia gasosa
2010
29 de
janeiro de
A Nina e MJ
2010
29 de
Brasil propõe "taxa zero" para
janeiro de
produtos haitianos
2010
29 de
Lixão vira cemitério em Porto
janeiro de
Príncipe
2010
29 de
janeiro de
Terror sob os escombros
2010
30 de
janeiro de
Zumbis
2010
30 de
"Violência local não voltou a
janeiro de
nível pré-Minustah"
2010
Mundo
ficar
15
Cap
4
capital
24
Dinheiro
ser
17
Haiti
10
ser
17
Dinheiro
ser
16
Silveira
10
segundo
20
Brasil
ser
15
MÃ
6
ser
15
Opinião
ser
17
Haiti
6
sÃ
18
Mundo
ser
12
Haiti
14
Haiti
14
Mundo
ser
28
Belimaire
6
ser
28
Opinião
estar
10
TV
3
minuto
11
Opinião
ser
9
Fernando
4
ex
10
Mundo
ser
12
Haiti
12
nÃ
20
279
344
345
346
347
348
349
350
351
352
30 de
País vira polo de plantação de
janeiro de
maconha
2010
NAÇÕES UNIDAS: CHEGAM A
30 de
84 OS MORTOS E 15 OS
janeiro de
DESAPARECIDOS DA
2010
ORGANIZAÇÃO
30 de
Caos pós-terremoto beneficia
janeiro de
narcotráfico
2010
30 de
SARAMAGO: AUTOR
janeiro de
RELANÇA OBRA PARA
2010
AJUDAR HAITI
30 de
Atleta marca data da volta a
janeiro de
Manchester
2010
30 de
janeiro de
Vocações
2010
30 de
É hora de reinventar o
janeiro de mundo, diz discurso de Lula
2010
em Davos
31 de
janeiro de
Frases
2010
31 de
"Eu não queria voltar do
janeiro de
Haiti"
2010
Mundo
militar
5
Haiti
4
segundo
6
Mundo
ser
3
Haiti
4
Haiti
4
Mundo
ir
11
Haiti
25
nÃ
29
Ilustrada
auxiliar
5
Haiti
4
auxiliar
5
Esporte
ser
5
Robinho
8
clube
10
Ilustrada
ter
17
Sonia
22
nÃ
24
Brasil
dizer
21
Brasil
12
mundo
26
Saúde
ser
5
Ensaio
2
nÃ
6
Saúde
ser
25
Haiti
20
mÃ
30
280
353
354
355
356
357
358
359
360
361
362
31 de
janeiro de
IMAGEM DA SEMANA
Corrida
2010
31 de
Haitianos recorrem ao vodu
janeiro de
Mundo
para encontrar soterrados
2010
31 de
Base militar é ilha de riqueza
janeiro de
Mundo
em Porto Príncipe
2010
31 de
Tropas têm boa aceitação
janeiro de
Mundo
popular, diz brasileiro
2010
31 de
PAGAR A CONTA: POR CUSTO,
janeiro de EUA CONGELAM TRASLADO
Mundo
2010
DE VÍTIMAS À FLÓRIDA
31 de
Mobilização anti-Brasil ecoa
janeiro de
Mundo
no pós-tremor
2010
31 de
janeiro de
Frases
Opinião
2010
31 de
janeiro de
Todo ano é Haiti
Dinheiro
2010
01 de
O Estado nacional, as ONGs e
fevereiro
Opinião
o Haiti
de 2010
01 de
As relações Brasil-EUA e os
fevereiro
Mundo
novos desafios no Haiti
de 2010
ser
2
Haiti
2
Haiti
2
ser
26
Baptiste
10
ser
26
ser
20
Minustah
6
brasileiro
22
ser
8
Brabatt
6
brasileiro
14
ir
3
Kevin
2
mÃ
9
ser
16
Aristide
22
nÃ
27
ajudar
4
Haiti
7
nÃ
11
ser
10
Paulo
6
sobre
15
ser
15
Haiti
12
nÃ
30
militar
31
Haiti
14
militar
31
281
363
364
365
366
367
368
369
370
371
372
01 de
CUSTO MÉDICO: EUA
fevereiro
VOLTARÃO A TRASLADAR
de 2010
FERIDOS, DIZ CASA BRANCA
1 de
COM PRESSA: ESTREIA DE
fevereiro
ATACANTE PODE SER
de 2010
ANTECIPADA PARA QUINTA
1 de
fevereiro
Toda Mídia
de 2010
1 de
Lula vai visitar 22 países no 1º
fevereiro
semestre
de 2010
1 de
fevereiro
Painel
de 2010
02 de
JUSTIÇA: AMERICANOS
fevereiro PODEM SER INDICIADOS POR
de 2010
TRANSPORTAR CRIANÇAS
02 de
EUA enviam aviões não
fevereiro
tripulados ao Haiti
de 2010
2 de
fevereiro
Toda Mídia
de 2010
3 de
Sargento de Ribeirão que
fevereiro
estava no Haiti "guarda"
de 2010
cenário de destruição
03 de
Haitianos dizem que
fevereiro
entregaram filhos a
de 2010
americanos detidos
Mundo
cobrir
3
ONGs
2
desde
3
Esporte
ser
4
Santos
4
Santos
4
Brasil
ser
17
EUA
22
EUA
22
Brasil
visitar
8
Lula
18
presidente
22
Brasil
ser
12
Dilma
12
Dilma
12
Mundo
levar
4
Haiti
4
Haiti
4
Mundo
militar
9
Haiti
14
americano
15
Brasil
pesquisar
10
Lula
18
Lula
18
Ribeirão
saber
7
Brunhera
8
sargento
8
Mundo
ser
14
Laurentus
6
nÃ
19
282
373
374
375
376
377
378
379
380
381
382
3 de
fevereiro
Rápidas
Corrida
de 2010
3 de
fevereiro
Painel
Brasil
de 2010
4 de
Madonna! Jesus era um
fevereiro
Ilustrada
capeta!
de 2010
4 de
fevereiro Haiti: ajuda ou recolonização? Dinheiro
de 2010
4 de
Suíça tenta evitar
fevereiro
desbloqueio de bens de
Mundo
de 2010
ditador
4 de
Haiti critica reação de mídia
fevereiro
Mundo
dos EUA a prisões
de 2010
5 de
Missionários dos EUA são
fevereiro denunciados por sequestro
Mundo
de 2010
no Haiti
5 de
Embaixador dos EUA é cético
fevereiro
Mundo
sobre diálogo com Teerã
de 2010
6 de
Tremor no Haiti é 3º mais
fevereiro
Mundo
letal em cem anos
de 2010
6 de
Pobre e solidário, Racing diz
fevereiro
que não se intimida com
Esporte
de 2010
opulência corintiana
ar
4
Brasil
6
Brasil
6
estar
7
PMDB
8
presidente
10
ser
15
Jesus
14
ser
15
ser
18
Haiti
16
nÃ
20
ser
8
Duvalier
14
Duvalier
14
ser
23
EUA
10
haitiano
23
poder
10
Haiti
14
haitiano
20
ser
13
Brasil
24
Brasil
24
ser
14
Haiti
8
dia
15
ser
12
Racing
8
nÃ
18
283
383
384
385
386
387
388
389
390
391
392
7 de
Ombudsm
fevereiro
ONDE A FOLHA FOI BEM...
an
de 2010
7 de
Ueba! Vou no Bloco do
fevereiro
Ilustrada
Balança Rolha!
de 2010
7 de
Países do G7 devem manter
fevereiro
Dinheiro
estímulos
de 2010
7 de
Centro cirúrgico brasileiro dá
fevereiro assistência a refugiados pelo
Mundo
de 2010
terremoto no Haiti
7 de
fevereiro
PAINEL DO LEITOR
Opinião
de 2010
7 de
fevereiro
Faltam trilhos
Opinião
de 2010
8 de
Fim do mundo, decisão na
fevereiro
Opinião
incerteza
de 2010
8 de
Parceria estratégica tem
fevereiro custo político, diz embaixador
Brasil
de 2010
francês
9 de
Brasil inicia operação
fevereiro
antigangues em Porto
Mundo
de 2010
Príncipe
9 de
Sem Lula, Unasul debate hoje
fevereiro
Mundo
ajuda ao Haiti
de 2010
estar
4
Brasil
4
caso
7
ser
10
Madonna
10
ser
10
manter
4
FranÃ
3
paÃ
8
ser
10
Cayes
8
hospital
10
ser
29
SP
16
ser
29
ser
17
ServiÃ
6
ser
17
ser
16
Ag
14
nÃ
32
ser
29
Brasil
22
nÃ
36
militar
12
Brabatt
6
militar
12
ter
12
Haiti
12
nÃ
24
284
393
394
395
396
397
398
399
400
401
402
9 de
fevereiro
Rápidas
de 2010
10 de
HAITI: UNASUL CRIA FUNDO
fevereiro
DE US$ 300 MILHÕES
de 2010
11 de
Haiti, ponto de encontro das
fevereiro
Américas
de 2010
11 de
fevereiro
A injeção do dia depois
de 2010
11 de
fevereiro
Nos ombros de Serra
de 2010
12 de
fevereiro
Frases
de 2010
12 de
Bill Clinton é submetido a
fevereiro
cirurgia cardíaca
de 2010
13 de
Clinton deixa hospital e
fevereiro deverá retomar o trabalho na
de 2010
segunda
14 de
fevereiro
Painel Regional
de 2010
14 de
ONU quer impedir volta de
fevereiro
gangues no Haiti
de 2010
Corrida
ir
4
Barueri
4
material
6
Mundo
oferecer
3
BID
2
paÃ
4
Opinião
ser
29
Haiti
22
ser
29
Ilustrada
ser
42
TEPT
14
ser
42
Brasil
serrar
18
Serra
15
serrar
18
Opinião
folhar
4
Folha
4
direito
6
Mundo
ter
11
Clinton
24
presidente
18
Mundo
voltar
7
Clinton
22
presidente
12
Ribeirão
ser
6
SÃ
6
rio
12
Mundo
militar
16
CitÃ
8
nÃ
18
285
403
404
405
406
407
408
409
410
411
412
14 de
Rodízio de racionamentos
fevereiro
remete ao Haiti
de 2010
15 de
fevereiro
AGENDA DA SEMANA
de 2010
17 de
fevereiro
Painel Regional
de 2010
17 de
Enchentes: algumas medidas
fevereiro
jurídicas
de 2010
17 de
Terremoto no Haiti é o mais
fevereiro
destruidor, diz BID
de 2010
18 de
Justiça liberta 8 missionários
fevereiro
presos no Haiti
de 2010
18 de
fevereiro
Toda Mídia
de 2010
19 de
fevereiro
Esquerda festiva
de 2010
19 de
Préval prega corpo da ONU só
fevereiro
para crises
de 2010
19 de
Presidente do Haiti pede
fevereiro
apoio político do Brasil a
de 2010
fundo
Mundo
ter
6
ChÃ
4
rio
10
Corrida
receber
6
SÃ
11
prÃ
7
Ribeirão
empresar
16
Haiti
8
empresa
16
Opinião
dever
21
Paulo
10
dever
21
Mundo
ajudar
10
Haiti
14
Haiti
14
Mundo
dizer
5
Bernard
2
crianÃ
6
Brasil
ar
7
Brasil
10
tÃ
15
Opinião
ser
7
PT
14
PT
14
Mundo
ser
5
ONU
6
forÃ
10
Mundo
ajudar
17
Brasil
20
Brasil
20
286
413
414
415
416
417
418
419
420
421
422
19 de
fevereiro A graça do Carnaval de graça Ilustrada
de 2010
20 de
fevereiro
SACOLINHA
Vitrine
de 2010
20 de
Questão hondurenha ainda
fevereiro
causa atrito na América
Mundo
de 2010
Latina
20 de
fevereiro
Frase
Brasil
de 2010
20 de
Caderno e câmeras com
fevereiro
registros de Zilda Arns são
Brasil
de 2010
entregues por seminarista
21 de
Programa foi criado durante a
fevereiro
Cotidiano
década de 1990
de 2010
21 de
Criação de nova entidade
fevereiro
regional é prioridade de
Mundo
de 2010
cúpula
21 de
Marxista quer Vale estatal e
fevereiro
Brasil
confiscar terras
de 2010
22 de
New York
fevereiro
Fantasmas da tragédia
Times
de 2010
22 de
fevereiro
+Colunas
Corrida
de 2010
ser
23
Carnaval
30
nÃ
46
ser
19
SP
14
ser
19
ser
8
Lobo
11
nÃ
15
causar
2
Arns
4
Zilda
4
estar
6
Haiti
14
mÃ
15
ser
13
Cuba
4
vÃ
14
ser
8
Simões
6
nÃ
15
governar
4
PT
10
nÃ
14
ser
18
Pierre
14
mÃ
24
ser
6
Uruguai
6
nÃ
6
287
423
424
425
426
427
428
429
430
431
432
22 de
fevereiro
de 2010
22 de
fevereiro
de 2010
22 de
fevereiro
de 2010
22 de
fevereiro
de 2010
22 de
fevereiro
de 2010
22 de
fevereiro
de 2010
23 de
fevereiro
de 2010
23 de
fevereiro
de 2010
24 de
fevereiro
de 2010
24 de
fevereiro
de 2010
Uruguai e o contágio da
inteligência
Dinheiro
ser
22
Uruguai
14
ser
22
ANTES E DEPOIS: NEM
SEMPRE HÁ ABALOS DE
AVISO ANTES DE CATÁSTROFE
Ciência
ser
3
Haiti
2
atÃ
3
Terremoto pode ter "previsão
do tempo"
Ciência
ser
16
Jordan
12
segundo
17
Prospecção nas Malvinas
mobiliza cúpula regional
Mundo
ser
13
Calc
10
dois
16
Toda Mídia
Brasil
ser
11
Brasil
14
Brasil
14
Hillary Clinton visitará o Brasil
na semana que vem
Brasil
militar
10
Brasil
18
paÃ
22
Haiti, o terremoto e o
martírio de uma nação
Fovest
ser
11
Aristide
8
ser
11
Governo quer antecipar visita
de Obama ao Brasil para 1º
semestre
Brasil
ser
7
Brasil
10
Brasil
10
Eventos on-line: ACONTECE
NA INTERNET
Informátic
a
ar
3
Aaron
2
sobre
9
SP: PARREIRA LEVA ANFITRIÃ
DE 2010 AO MORUMBI
Esporte
copar
2
Copa
2
contra
4
288
433
434
435
436
437
438
439
440
441
442
25 de
fevereiro
Toda Mídia
Brasil
de 2010
25 de
Hillary vai encontrar Lula em
fevereiro
Brasil
Brasília
de 2010
26 de
fevereiro
FOTOS
Corrida
de 2010
26 de
Demissão em diretoria do
fevereiro
Dinheiro
FMI cria saia justa ao Brasil
de 2010
26 de
No Haiti, Lula pede perdão da
fevereiro
dívida e elogia missão do
Mundo
de 2010
Brasil
26 de
Ativista cubano é enterrado
fevereiro
Mundo
sob cerco militar
de 2010
26 de
fevereiro
Burns, Hillary, Obama
Opinião
de 2010
27 de
TERREMOTO: Forte tremor na
fevereiro
costa japonesa não faz
Mundo
de 2010
vítimas
28 de
Forte terremoto mata mais
fevereiro
Mundo
de 300 no Chile
de 2010
01 de
TENDÊNCIAS MUNDIAIS: Haiti
New York
março de
emerge do choque e inicia
Times
2010
processo de luto
ir
11
Brasil
12
segundo
15
encontrar
11
Hillary
12
ainda
15
militar
5
CRACOLÃ
2
militar
5
indicar
8
ColÃ
16
diretor
19
militar
9
Haiti
14
Haiti
14
fazer
8
Lula
15
Lula
15
ir
12
Brasil
8
ir
12
alertar
6
Agência
4
atÃ
8
ser
15
Santiago
8
nÃ
17
ser
24
Dupoux
10
ser
24
289
443
444
445
446
447
448
449
450
451
452
01 de
País foi cenário, em 1960, do
março de
mais forte sismo já registrado
2010
1 de
março de
Frase
2010
1 de
Um país resiste melhor do
março de
que um aglomerado
2010
02 de
Empresa responsável pelo
março de jogo virtual FarmVille retém
2010
dinheiro de doações a Haiti
02 de
Diretor-geral da AIEA vem ao
março de
país discutir apoio ao Irã
2010
2 de
março de
PAINEL DO LEITOR
2010
2 de
março de
Terra em transe
2010
3 de
O significado da visita de
março de
Hillary ao Brasil
2010
3 de
Hillary leva telefones e
março de
promessas para o Chile
2010
3 de
março de
A fragilidade é dos outros
2010
Mundo
chegar
5
Chile
8
sÃ
12
Mundo
ser
7
Chile
2
ser
7
Mundo
ser
18
Haiti
18
Haiti
18
Mundo
ser
23
US
16
ser
23
Brasil
encontrar
6
EUA
6
nÃ
9
Opinião
ser
27
Paulo
19
nÃ
43
Opinião
ser
10
Chile
2
nÃ
15
Opinião
ser
24
Brasil
34
Brasil
34
Mundo
ajudar
9
Hillary
14
Chile
10
Esporte
ser
9
Federer
14
fÃ
9
290
453
454
455
456
457
458
459
460
461
462
3 de
Para chanceler, atrito no Haiti
março de
Brasil
foi "mínimo"
2010
3 de
Hillary pedirá sanções ao Irã,
março de
Brasil
mas Brasil vai rejeitar pressão
2010
4 de
Brasil reage a pressão dos
março de
Brasil
EUA sobre Irã
2010
5 de
Depois de deixar Haiti após
março de
tremor, família sobrevive
Mundo
2010
também a sismo chileno
5 de
Emigrante volta, e remessa
março de
Dinheiro
cai 34%
2010
5 de
março de
Rápidas
Corrida
2010
7 de
março de
Terra devastada
Mais
2010
8 de
Ensino superior haitiano vive New York
março de
vácuo no pós-tremor
Times
2010
9 de
Terremoto destrói casas e
março de
Mundo
mata 51 pessoas na Turquia
2010
11 de
Bolívia detém três suspeitos
março de
Mundo
de tráfico de crianças do Haiti
2010
conversar
6
EUA
6
EUA
6
ser
10
Brasil
18
Brasil
18
ser
14
Hillary
20
nÃ
29
suar
16
Chile
12
nÃ
22
passar
5
US
12
passado
15
deixar
4
Carlos
4
Chile
4
ser
16
Kleist
14
terremoto
17
ser
23
Haiti
10
ser
23
ser
13
Elazig
6
ser
13
ser
11
BolÃ
14
crianÃ
20
291
463
464
465
466
467
468
469
470
471
472
13 de
Chile usará empréstimos e
março de
Mundo
economias na reconstrução
2010
14 de
Atriz Maitê Proença faz
março de
Ilustrada
comédia surrealista
2010
16 de
PADRE MARCELO: "Fui
março de mordido por um cachorro da Ilustrada
2010
minha mãe"
16 de
março de
Painel
Brasil
2010
17 de
O terremoto no centro de São
março de
Opinião
Paulo
2010
18 de
março de
Rápidas
Corrida
2010
18 de
APÓS TREMOR:
março de
RECONSTRUÇÃO DO HAITI
Mundo
2010
CUSTARÁ US$ 11,5 BILHÕES
19 de
março de
PAINEL DO LEITOR
Opinião
2010
20 de
março de Natureza se impõe ao direito Cotidiano
2010
22 de
Cantor haitiano busca sua voz New York
março de
em meio à desolação
Times
2010
ser
11
Chile
14
nÃ
15
morrer
9
Maitê
10
nÃ
12
ser
19
Paulo
12
ser
19
ser
14
Lula
10
sobre
15
ser
20
SÃ
16
todo
27
ser
6
Arruda
4
nÃ
6
preparar
3
Nova
2
capital
4
ser
26
SÃ
22
nÃ
40
ser
13
Chile
6
nÃ
16
suar
9
Beken
18
suar
9
292
473
474
475
476
477
478
479
480
481
482
22 de
março de
2010
22 de
março de
2010
22 de
março de
2010
23 de
março de
2010
24 de
março de
2010
24 de
março de
2010
24 de
março de
2010
26 de
março de
2010
28 de
março de
2010
30 de
março de
2010
Humanitarismo 2.0
New York
Times
ser
17
Ushahidi
24
ser
17
O2 NEURÔNIO
Folhateen
ser
16
Haiti
4
amor
16
Agenda da semana
Corrida
divulgar
4
SÃ
11
geral
8
Fotos
Corrida
perdoar
3
Aires
2
capital
4
ser
9
Twitter
18
nÃ
12
Com serviço @anywhere,
Informátic
Twitter busca se espalhar em
a
sites como o YouTube
Outro Canal
Ilustrada
ser
15
Globo
14
ser
15
TELEVISÃO/O MELHOR DO
DIA
Ilustrada
chegar
6
Takai
6
chegar
6
Erramos
Opinião
afirmar
2
MAR
4
nÃ
9
Cobertura no Haiti é tema de
aula amanhã
Brasil
publisher
4
Folha
4
Folha
4
Colômbia eleva tom no FMI
contra o Brasil
Dinheiro
ser
14
ColÃ
18
nÃ
20
293
31 de
março de
2010
01 de
abril de
2010
01 de
abril de
2010
01 de
abril de
2010
01 de
abril de
2010
488
483
O Haiti e o futuro
Opinião
ser
20
Haiti
24
Haiti
24
Baresi, homem a homem
Esporte
ser
22
Milan
10
nÃ
34
Segurança está sob controle,
diz general brasileiro
Mundo
ser
7
Peixoto
6
general
12
POLÊMICA: DOAÇÃO
PRIVADA SOFRE CRÍTICAS
Mundo
ir
4
Haiti
5
Haiti
5
Frases
Mundo
ser
5
Haiti
4
haitiano
7
1 de abril
de 2010
Doações ao Haiti superam
meta em reunião
Mundo
ser
16
US
18
US
18
489
2 de abril
de 2010
+Colunas
Corrida
adiar
3
Big
4
contra
4
490
2 de abril
de 2010
Big Bang
Opinião
ser
6
Big
10
nÃ
6
491
3 de abril
de 2010
Mais violência organizada
Opinião
ser
7
Salvador
5
corredor
9
492
4 de abril
de 2010
De volta ao terremoto
Cotidiano
ser
12
CaraÃ
8
famÃ
12
484
485
486
487
294
493
4 de abril
de 2010
Lições de Páscoa
Opinião
ser
22
PÃ
18
povo
22
494
4 de abril
de 2010
Quando a inocência mata
Opinião
matar
11
Dzhennet
6
matar
11
495
5 de abril
de 2010
Missões femininas de paz
crescem na ONU
New York
Times
ser
24
LibÃ
16
ser
24
496
5 de abril
de 2010
Cardeal defende papa na
missa de Páscoa
Mundo
papar
10
Vaticano
6
papa
15
497
8 de abril
de 2010
A condição humana
Opinião
haver
6
Chile
6
bem
9
498
9 de abril
de 2010
Vencedores do Prêmio
Empreendedor Social são
homenageados
Cotidiano
ser
5
Folha
6
Folha
6
499
9 de abril
de 2010
PAINEL DO LEITOR
Opinião
ser
28
Rio
14
ser
28
VITRINE
Ilustrada
sobrar
7
Haiti
10
sobre
17
Painel
Brasil
dizer
9
PT
16
nÃ
19
Programação de TV
Ilustrada
copar
4
News
38
Brasil
28
500
501
502
10 de
abril de
2010
10 de
abril de
2010
11 de
abril de
2010
295
503
504
505
506
507
508
509
510
511
512
12 de
abril de
2010
12 de
abril de
2010
12 de
abril de
2010
12 de
abril de
2010
14 de
abril de
2010
14 de
abril de
2010
15 de
abril de
2010
17 de
abril de
2010
18 de
abril de
2010
19 de
abril de
2010
Uma visão de um novo Haiti
New York
Times
ser
24
Porto
14
ser
24
Mãos à obra
Corrida
haver
2
Haiti
2
onde
6
Programação de TV
Ilustrada
ar
9
News
48
Brasil
34
Bombeiro relata adrenalina
de atuar em Niterói, Angra e
Haiti
Cotidiano
ser
17
GBS
6
nÃ
19
Fotos
Corrida
pousar
3
Boeing
2
meio
4
Painel FC
Esporte
ser
13
Fifa
10
ser
13
Frequência e força de abalos
não aumentaram, dizem
sismólogos
Mundo
ser
14
EUA
4
nÃ
24
Programação de TV
Ilustrada
filmar
8
News
54
Brasil
34
"Olhai para isto"
Opinião
acontecer
6
Cristo
8
nÃ
8
Resgatista chinês antes
trabalhou no Haiti
Mundo
ter
9
Wang
12
ter
9
296
513
514
515
516
517
518
21 de
abril de
2010
23 de
abril de
2010
26 de
abril de
2010
27 de
abril de
2010
29 de
abril de
2010
01 de
maio de
2010
Cúpula do governo faz "festa
de família" em entrega de
condecorações no Itamaraty
Brasil
ser
8
Lula
8
Lula
8
Um novo olhar diplomático
Opinião
ser
14
Brasil
10
nÃ
23
Médicos disputam
tratamento de bailarina
haitiana
New York
Times
ser
15
Jean
36
Jean
36
Toda Mídia
Brasil
ar
13
Brasil
14
Brasil
14
Na zona do agrião
Dinheiro
ter
12
FMI
14
FMI
14
Exércitos, os do "povo" e os
outros
Mundo
ser
13
AmÃ
8
polÃ
15
519
2 de maio
de 2010
Sexo dos anjos
Ilustrada
dizer
35
Regininha
22
nÃ
52
520
2 de maio
de 2010
Nas bordas da história
Especial
ser
24
Copa
18
contra
24
521
3 de maio
de 2010
Dois bilhões de laptops?
Talvez não seja o bastante
New York
Times
ser
15
Microsoft
12
ser
15
522
4 de maio
de 2010
Unasul se reúne para eleger
Kirchner seu secretário-geral
Mundo
ser
11
Kirchner
14
presidente
17
297
523
6 de maio
de 2010
Shannon rejeita "ideologia"
em relação Brasil-EUA
Brasil
ar
5
Brasil
8
nÃ
15
524
9 de maio
de 2010
Sede de aprender
Opinião
ser
25
Haiti
16
ser
25
Haitianos sentem-se
abandonados nos destroços
New York
Times
estar
12
Poupelard
10
nÃ
26
Saindo do buraco
Ilustrada
ser
20
Brasil
12
ser
20
Brasil apura tráfico de
meninos haitianos
Cotidiano
ser
22
Haiti
10
ser
22
Os erros dos outros
Esporte
ser
19
Brasil
12
nÃ
23
Guerra global contra a Aids
perde fôlego
New York
Times
ser
17
Uganda
10
ser
17
Peripécias da pílula
Opinião
ter
7
EUA
4
lula
16
Maradona põe nove novatos
em lista da Copa
Esporte
ter
15
Maradona
10
ter
15
Projeto busca resgatar dos
escombros a arte haitiana
New York
Times
ir
18
Smithsonian
10
ir
18
525
526
527
528
529
530
531
532
10 de
maio de
2010
14 de
maio de
2010
14 de
maio de
2010
16 de
maio de
2010
17 de
maio de
2010
19 de
maio de
2010
20 de
maio de
2010
24 de
maio de
2010
298
533
534
535
536
537
538
539
540
541
542
27 de
maio de
2010
27 de
maio de
2010
28 de
maio de
2010
28 de
maio de
2010
30 de
maio de
2010
02 de
junho de
2010
3 de
junho de
2010
11 de
junho de
2010
13 de
junho de
2010
13 de
junho de
2010
OLIVER STONE DIZ QUE LULA
NÃO DEVE CONFIAR EM
ELOGIOS DE OBAMA
Ilustrada
ser
48
ChÃ
46
nÃ
54
Brasil e ONU, juntos para
desenvolvimento
Opinião
ser
13
Brasil
22
Brasil
22
Retórica e
subdesenvolvimento
Ilustrada
ser
21
Albert
10
direito
24
NO RIO
Corrida
militar
4
Ban
2
militar
4
A barba de Maradona
Esporte
ser
10
Copa
14
contra
24
Baderneiros argentinos vão à
Copa
Esporte
ser
9
Maradona
8
argentino
13
I got a feeling e Rodrigo
Bueno embalam a Copa
Esporte
copar
8
Copa
8
Copa
8
Fotógrafo brasileiro registra
trabalho de médicos no Haiti
pós-terremoto
Saúde
ser
6
Brasil
6
mÃ
12
Para artista haitiano, oboé
soa como a voz humana
Ilustrada
ser
17
Gerald
10
ser
17
Notas de uma fuga
Ilustrada
ser
21
Gerald
18
ser
21
299
543
544
545
546
547
548
549
550
551
552
16 de
junho de
2010
16 de
junho de
2010
17 de
junho de
2010
19 de
junho de
2010
23 de
junho de
2010
24 de
junho de
2010
25 de
junho de
2010
26 de
junho de
2010
27 de
junho de
2010
27 de
junho de
2010
Tropa brasileira em missão é
orientada a não divulgar
vídeos
Tec
ser
13
Filho
6
ser
13
No Haiti, web substituiu
telefone no pós-terremoto
Tec
ser
12
Saudade
5
ser
12
Verão na cidade
Opinião
ser
9
Bronx
6
danÃ
12
Imagem externa
Opinião
ser
10
Brasil
8
brasileiro
12
Por uma universidade pública
Opinião
ser
23
USP
18
ser
23
Cheia é recorrente em 17
cidades arrasadas
Cotidiano
ser
20
Alagoas
12
ser
20
Com Collor, Lula chora e
anuncia ajuda sem limite
Cotidiano
dizer
9
Lula
12
Lula
12
Rotina do desastre
Opinião
ser
18
Pernambuco
10
ser
18
Radioamador de Ribeirão
ajuda NE
Ribeirão
ser
13
Defesa
6
nÃ
16
Sexo ilustrado
Ombudsm
an
ser
19
Folha
6
ser
19
300
553
554
555
27 de
Militarismo e democracia não
junho de
combinam
2010
04 de
Vice de Serra já atacou pré-sal
julho de
e quis vetar esmola
2010
04 de
Quatro morrem após
julho de
eliminação do Brasil
2010
Mundo
militar
44
AfeganistÃ
8
militar
44
Poder
esmolar
7
Indio
6
prÃ
8
Esporte
brigar
2
Brasil
4
Brasil
4
556
5 de julho
de 2010
Violência contra mulheres
cresce no Haiti
New York
Times
ser
21
Haiti
4
nÃ
22
557
7 de julho
de 2010
País é 4º mais difícil para
estrangeiro abrir subsidiária
Mercado
abrir
9
Brasil
10
estrangeiro
18
558
8 de julho
de 2010
"Gosto de ser o campeão da
mentira"
Ilustrada
ser
45
Roth
18
nÃ
49
12 de
julho de
2010
12 de
julho de
2010
13 de
julho de
2010
13 de
julho de
2010
Sozinho, haitiano tenta
organizar trânsito no pósterremoto
New York
Times
andar
10
Du
44
nÃ
21
Haiti está à míngua 6 meses
após tragédia
Mundo
ser
12
Haiti
12
paÃ
16
LIXO DE SOBRA
Ilustrada
ser
26
SP
10
ser
26
FOLHA.com
Mundo
folhar
8
Folha
2
folhar
8
559
560
561
562
301
563
564
565
566
567
568
569
570
571
572
13 de
julho de
2010
14 de
julho de
2010
16 de
julho de
2010
18 de
julho de
2010
19 de
julho de
2010
21 de
julho de
2010
23 de
julho de
2010
25 de
julho de
2010
26 de
julho de
2010
26 de
julho de
2010
Toda Mídia
Poder
ganhar
5
Brasil
18
Brasil
18
Toda Mídia
Poder
ar
11
Brasil
18
Brasil
18
Toda Mídia
Poder
ser
7
Brasil
16
Brasil
16
Piada da privataria: seguro
para a tropa
Poder
ser
19
Alckmin
4
nÃ
39
Terapia precoce de Aids reduz
mortes
Saúde
ser
20
HIV
20
ser
20
Lobby do amianto gasta US$
100 milhões
Cotidiano
ser
17
Brasil
4
ser
17
Tensão escancara 2 projetos
messiânicos
Mundo
ser
15
Uribe
20
ser
15
PIB do país pode cair mais
que o da Grécia
Mundo
ser
9
Venezuela
12
Venezuela
12
ser
18
Daphne
16
nÃ
20
ser
6
Ali
2
ser
6
Órfãos têm de cuidar uns dos New York
outros no Haiti
Times
Frases
Ilustrada
302
573
574
575
576
577
578
579
580
581
582
26 de
julho de
A hora do Arcade Fire
Ilustrada
2010
30 de
Seleção vira oásis no
julho de
Esporte
Palmeiras
2010
01 de
Brasil se prepara para ampliar
agosto de participação em missões de
Poder
2010
paz
01 de
agosto de
Frases
Mundo
2010
1 de
Por prestígio, Brasil ajuda
agosto de
Mundo
países pobres
2010
02 de
Brasil doa US$ 300 milhões a
agosto de
Mundo
países pobres
2010
04 de
Wyclef Jean deve disputar
agosto de
Mundo
Presidência do Haiti
2010
04 de
Com produção e preços em
agosto de
Mercado
baixa, lucro da PDVSA cai 53%
2010
08 de
Conferência reúne jovens em
agosto de
Cotidiano
luta por igualdade
2010
10 de
Chuvas no Paquistão afetam
agosto de
Mundo
13,8 mi
2010
ser
12
Arcade
8
ser
12
ser
17
Brasil
8
nÃ
23
estar
4
Brasil
8
Brasil
8
ser
8
Brasil
4
ser
8
ser
22
Brasil
16
ser
22
ser
8
Conab
8
tonelada
9
anunciar
4
Jean
10
Jean
10
quedar
6
US
10
US
10
engajar
4
Global
4
social
10
estar
5
Zhouqu
6
segundo
11
303
583
584
585
586
587
588
589
590
591
592
15 de
Dedo acusador pode render
agosto de
aplauso, mas raramente salva
2010
15 de
As viúvas dos militares do
agosto de
Haiti vão à luta
2010
17 de
agosto de
Frases
2010
17 de
Viúvas de mortos no Haiti
agosto de
querem seguro em dobro
2010
19 de
"Não atletas" recheiam a
agosto de
Olimpíada teen
2010
22 de
agosto de
FOLHA.com
2010
24 de
Cantor tenta reverter rejeição
agosto de
a candidatura
2010
25 de
agosto de
Sob escombros
2010
25 de
Wyclef Jean não poderá
agosto de
questionar autoridades
2010
25 de
Vida em grupo pode ajudar a
agosto de
conter angústias individuais
2010
Mundo
ser
22
Brasil
18
nÃ
38
Poder
ser
27
PNLD
8
nÃ
31
Poder
militar
4
CELY
2
seguro
6
Poder
militar
21
Poupex
10
nÃ
30
Esporte
ser
8
GuinÃ
6
nÃ
9
Mundo
folhar
4
Haiti
2
folha
4
Mundo
comprovar
3
Conselho
2
contra
4
Poder
ser
25
Haiti
10
nÃ
47
Mundo
concorrer
3
Jean
4
nÃ
12
Mundo
ser
9
TEPT
4
nÃ
17
304
593
594
595
596
597
598
599
600
601
602
26 de
agosto de
2010
28 de
agosto de
2010
28 de
agosto de
2010
29 de
agosto de
2010
30 de
agosto de
2010
01 de
setembro
de 2010
04 de
setembro
de 2010
04 de
setembro
de 2010
06 de
setembro
de 2010
08 de
setembro
de 2010
A língua dos títulos
Cotidiano
ser
21
EUA
4
nÃ
27
Ilustrada
ser
9
Deus
8
terremoto
10
Cotidiano
estudar
4
Universidade
6
haitiano
7
O Paquistão precisa de nossa
ajuda, agora
Opinião
ser
17
PaquistÃ
10
ser
17
Novo shopping center é
manifesto palestino
New York
Times
ser
22
Gaza
11
nÃ
37
General quer mudança em
tropas de paz no Haiti
Mundo
militar
9
Haiti
10
Haiti
10
OUTRO LADO: MINUSTAH
NÃO COMENTA O RELATÓRIO
Mundo
militar
5
Cruz
2
nÃ
9
Narcotráfico pode atrapalhar
eleição no Haiti, diz ONU
Mundo
ser
9
Haiti
12
Haiti
12
Após protestos, ONU vê risco
de crise alimentar
Mundo
alimentar
12
ONU
6
jÃ
9
FRASES DO DIA
Corrida
ter
5
Penn
4
nÃ
6
"A Ira de Deus" narra
terremoto histórico que
abateu Lisboa
Universidades públicas
brasileiras receberão
estudantes haitianos
305
603
604
605
606
607
608
609
610
611
612
10 de
setembro
de 2010
12 de
setembro
de 2010
12 de
setembro
de 2010
14 de
setembro
de 2010
14 de
setembro
de 2010
18 de
setembro
de 2010
21 de
setembro
de 2010
23 de
setembro
de 2010
23 de
setembro
de 2010
24 de
setembro
de 2010
Toda Mídia
Poder
ser
22
AmÃ
8
nÃ
23
Apoiado por Brasil, Haiti inicia
plano de replantio
Mundo
ser
17
Brice
10
ser
17
O que eles disseram
Corrida
ser
14
Brasil
6
ser
14
País deve receber dinheiro de
conta de Baby Doc na Suíça
Mundo
ser
7
Haiti
6
ser
7
Presença feminina na política
Opinião
partir
14
SÃ
4
nÃ
38
EUA retiram Brasil pela 1ª vez
de lista de produtores de
droga
Mundo
ser
7
EUA
10
contra
12
Brasil diz que ajudará na
"evolução" da ilha
Mundo
ser
6
Brasil
8
nÃ
9
ZÉ MARIA (PSTU)
Poder
ser
6
Lula
4
ser
6
Vermelhos contra Lula
Poder
ser
18
Lula
11
nÃ
24
Toda Mídia
Poder
dizer
8
Brasil
20
Brasil
20
306
613
614
615
616
617
618
619
620
621
622
24 de
"EUA querem manter
setembro
controle sobre Irã"
de 2010
25 de
PARA GENERAL, PAÍS VIVIA
setembro
COM SEGURANÇA
de 2010
25 de
Haiti, agora, sofre com
setembro
profusão de sequestros na
de 2010
elite
28 de
Exposição mostra 150 anos da
setembro
humanidade em guerra
de 2010
30 de
Brasil deve investir R$ 68
setembro
milhões para construir usina
de 2010
30 de
QUEM SÃO E O QUE
setembro
PROPÕEM OS
de 2010
PRESIDENCIÁVEIS NANICOS
01 de
Brasil trabalha para tentar
outubro
evitar "nova Honduras"
de 2010
6 de
País deverá ser ressarcido
outubro
apenas de forma parcial
de 2010
6 de
Brasil deve ter presença
outubro
militar no Oriente Médio
de 2010
8 de
outubro
Defesa lenta
de 2010
Mundo
ser
29
EUA
20
nÃ
65
Mundo
militar
5
Floriano
2
militar
5
Mundo
ser
17
ONU
16
ser
17
Mundo
acontecer
3
Guerra
6
exposiÃ
6
Mundo
ser
5
Amorim
4
brasileiro
6
Especial
fundar
8
Propostas
10
rio
15
Mundo
militar
17
Amorim
8
militar
17
Mundo
militar
17
Brasil
10
militar
17
Mundo
militar
22
Brasil
12
militar
22
Opinião
ser
14
Brasil
8
segundo
16
307
623
624
625
626
627
628
629
630
631
632
10 de
outubro
de 2010
13 de
outubro
de 2010
15 de
outubro
de 2010
15 de
outubro
de 2010
15 de
outubro
de 2010
17 de
outubro
de 2010
19 de
outubro
de 2010
19 de
outubro
de 2010
20 de
outubro
de 2010
20 de
outubro
de 2010
O debate do aborto, Miriam
Cordeiro 2.0
Poder
ser
38
Gomes
10
ser
38
Atualidades podem cair em
mais de 1 disciplina
Fovest
poder
6
AntÃ
2
final
8
Bode expiatório
Ilustrada
ser
27
Natal
4
ser
27
Frases
Poder
receber
6
CELY
2
receber
6
Viúvas de mortos no Haiti vão
à Justiça contra seguradoras
Poder
militar
12
Poupex
10
nÃ
24
Cidade ao lado de rio tem de
cavar 80 m por água potável
Cotidiano
ser
21
Defesa
8
ser
21
5 MINUTOS
Corrida
atender
3
AÃ
4
rio
6
A BELA ENGAJADA
Ilustrada
ser
10
SP
14
nÃ
14
Israel veta Twitter em
instalações militares
Mundo
militar
26
Facebook
10
militar
26
Livro dá cores reais às ações
militares brasileiras no Haiti
Ilustrada
militar
13
CitÃ
6
brasileiro
14
308
633
634
635
636
637
638
639
640
641
642
20 de
outubro
de 2010
20 de
outubro
de 2010
21 de
outubro
de 2010
22 de
outubro
de 2010
23 de
outubro
de 2010
23 de
outubro
de 2010
24 de
outubro
de 2010
25 de
outubro
de 2010
25 de
outubro
de 2010
25 de
outubro
de 2010
Frases
Ilustrada
haver
5
Amores
2
haver
5
"Só louco ainda faz cinema no
Haiti"
Ilustrada
ser
15
Amores
8
paÃ
16
Só 18 países protegem
mulheres, diz ONU
Mundo
ser
15
Uganda
8
ser
15
Surto de diarreia preocupa
haitianos
Mundo
ser
13
Saúde
6
ser
13
Autoridades confirmam
epidemia de cólera
Mundo
ser
6
PrÃ
6
rio
7
Haiti prendeu 18% de
foragidos no tremor
Mundo
ser
9
UNpol
10
segundo
11
FOLHA.com
Mundo
folhar
4
Haiti
2
folha
4
FRASES DO DIA
Corrida
cruzar
3
NÃ
3
nÃ
5
Não há luz no fim do túnel,
afirma chefe da Minustah
Mundo
ser
21
Haiti
12
nÃ
35
Haiti poderá sofrer novo
terremoto
Mundo
sofrer
3
Porto
2
forte
4
309
643
644
645
646
647
648
649
650
651
652
25 de
outubro
de 2010
26 de
outubro
de 2010
26 de
outubro
de 2010
27 de
outubro
de 2010
27 de
outubro
de 2010
28 de
outubro
de 2010
28 de
outubro
de 2010
28 de
outubro
de 2010
30 de
outubro
de 2010
01 de
novembro
de 2010
Surto de cólera atinge a
capital do Haiti
Mundo
estar
9
Haiti
4
capital
20
Países limitam entrada de
haitianos
Mundo
entrar
7
Haiti
12
Haiti
12
Cidades afetadas por seca no
AM recebem água
Cotidiano
aguar
12
Negro
7
nÃ
14
País tem política atrasada, diz
pesquisador
Poder
ser
18
Brasil
10
nÃ
21
Haiti despeja desabrigados,
dizem ONGs
Mundo
ar
9
ONU
10
forÃ
13
Depois da eleição
Opinião
estar
10
Brasil
12
nÃ
14
Epidemia de cólera mata 303
em uma semana no Haiti
Mundo
ser
6
OMS
6
nÃ
12
Este é meu novo mercado
Mundo
ser
17
Haiti
4
nÃ
18
ONU investiga se cólera
chegou ao Haiti com militares
Mundo
militar
16
ONU
10
militar
16
Terra do nunca
Mundo
ser
15
Lovely
8
nÃ
33
310
653
654
655
656
657
658
659
660
661
662
04 de
Bactéria que causou surto de
novembro cólera veio da Ásia, afirma
Mundo
de 2010
ONU
5 de
Desabrigados se recusam a
novembro deixar tendas para fugir de
Mundo
de 2010
tempestade
6 de
Passagem de furacão Tomas
novembro
pelo Haiti provoca
Mundo
de 2010
inundações
6 de
novembro
5 MINUTOS
Corrida
de 2010
08 de
Avião não tripulado do
novembro
Poder
Exército faz 1ª missão
de 2010
08 de
Brasil pós-Lula deve ajudar
novembro
Mundo
em democracia regional
de 2010
10 de
Comissão do Congresso
novembro aprova verba para parentes
Poder
de 2010
de mortos no Haiti
13 de
novembro
Frases
Mundo
de 2010
13 de
Casos de cólera aumentam
novembro
Mundo
500% na capital do Haiti
de 2010
14 de
Nas malhas do tráfico
Ilustríssim
novembro
negreiro
a
de 2010
militar
14
Haiti
6
militar
14
poder
5
Haiti
4
poder
5
ar
3
Haiti
4
atÃ
9
vencer
3
Mundo
3
contra
4
ser
13
Vant
12
nÃ
16
ser
41
Brasil
52
Brasil
52
militar
16
Poupex
6
militar
16
acelerar
3
Haiti
2
passado
3
ir
8
MSF
10
segundo
19
ser
51
Rufino
52
escravo
56
311
663
664
665
666
667
668
669
670
671
672
15 de
Sempre digo que Pelé só teve
novembro
Poder
um; igual a Lula não vai ter
de 2010
15 de
Venezuela, um ímã e porto New York
novembro
seguro para migrantes
Times
de 2010
16 de
Protestos contra "lentidão"
novembro
Mundo
da ONU deixam feridos
de 2010
16 de
Armas são chave para
novembro
Mundo
conselho da ONU
de 2010
17 de
Doença matou mais de 1.000
novembro
Mundo
em um mês
de 2010
17 de
Epidemia de cólera causa
novembro
Mundo
violência no norte do Haiti
de 2010
18 de
ONU suspeita que rebelde
novembro
Mundo
agite protestos
de 2010
18 de
Ueba! Dilma na Granja da
novembro
Ilustrada
Torta!
de 2010
19 de
Missão do Brasil redobra
novembro
Mundo
cuidados com transmissão
de 2010
19 de
Violência cresce e chega à
novembro
Mundo
capital do Haiti
de 2010
ser
48
Brasil
34
nÃ
92
ser
13
Venezuela
18
Venezuela
18
lidar
3
ONU
6
ONU
6
militar
25
Brasil
20
militar
25
chegar
6
República
4
segundo
7
ser
15
ONU
18
ONU
18
militar
17
ONU
18
ONU
18
ter
10
Datena
10
carro
10
ser
27
Brasil
8
ser
27
ser
13
ONU
12
paÃ
22
312
673
674
675
676
677
678
679
680
681
682
20 de
Combate à cólera no Haiti
novembro
tem falhas, declara ONU
de 2010
21 de
Eleições no Haiti favorecem
novembro
combate à cólera, diz OEA
de 2010
21 de
Ueba! O periquitério da
novembro
Dilma!
de 2010
22 de
A grave patologia da
novembro
educação brasileira
de 2010
22 de
Brasil pode voltar a
novembro
pressionar para resumir
de 2010
apuração
23 de
Eleição é ao mesmo tempo
novembro
praga e esperança para o país
de 2010
23 de
Cartazes tomam ruínas da
novembro
sede da Presidência
de 2010
23 de
Haiti encara surto com medo
novembro
e resignação
de 2010
24 de
novembro
RÁPIDAS
de 2010
24 de
Automóvel de governista é
novembro
atacado a tiros
de 2010
Mundo
ser
13
ONU
8
ser
13
Mundo
ser
14
PrÃ
6
nÃ
16
Ilustrada
ser
16
Silvio
12
nÃ
21
Opinião
ser
18
Desenvolvim
ento
6
ser
18
Mundo
haver
14
Brasil
18
nÃ
26
Mundo
ser
15
Haiti
12
nÃ
23
Mundo
estar
4
Haiti
4
nÃ
6
Mundo
haver
10
Joseph
4
capital
16
Corrida
afetar
4
Espanha
6
paÃ
8
Mundo
ser
7
CÃ
8
nÃ
9
313
683
684
685
686
687
688
689
690
691
692
24 de
Campanha rica turbina
novembro
candidato do governo no
Mundo
de 2010
Haiti
25 de
NO HAITI: POPULAR, RITMO
novembro
Mundo
LEMBRA A LAMBADA
de 2010
25 de
novembro
No ritmo da Kompa
Mundo
de 2010
25 de
novembro
5 MINUTOS
Corrida
de 2010
26 de
novembro
Cerco ao inimigo
Opinião
de 2010
26 de
Candidatos fazem beija-mão a
novembro
Mundo
Brasil e EUA
de 2010
26 de
Globo Rio e Globonews
novembro transmitem "clima de terror" Cotidiano
de 2010
sem interrupção
27 de
"É mais seguro que o Rio",
novembro
Mundo
dizem militares
de 2010
27 de
Favorita no Haiti se espelha
novembro
Mundo
em Dilma
de 2010
27 de
Forças do Estado tentam
novembro
Cotidiano
"limpar, ocupar e construir"
de 2010
ser
11
PrÃ
12
segundo
17
formar
2
Haiti
2
Haiti
2
ser
18
Haiti
16
ser
18
ir
3
Beatles
2
contra
8
vir
9
ForÃ
5
contra
12
ser
12
Brasil
16
Brasil
16
rir
5
Rio
12
rio
8
militar
24
Minustah
8
militar
24
ser
13
Manigat
10
paÃ
14
ser
13
AfeganistÃ
6
tÃ
14
314
693
694
695
696
697
698
699
700
701
702
27 de
Jobim só comunicou militares
novembro
Cotidiano
após decisão
de 2010
27 de
Exército troca tiros com
novembro
Cotidiano
bandidos em cerco a morro
de 2010
28 de
O "Capitalismo de Laços" da
novembro
Poder
privataria
de 2010
28 de
novembro
Painel
Poder
de 2010
28 de
De emergência em
novembro
emergência, doentes se
Mundo
de 2010
resignam
28 de
Governista defende volta de
novembro
Mundo
líder deposto
de 2010
28 de
Haiti vai às urnas sob suspeita
novembro
Mundo
de fraude
de 2010
29 de
novembro
RÁPIDAS
Corrida
de 2010
29 de
ONU espera resultado para
novembro
Mundo
negociar saída
de 2010
29 de
novembro
Frases
Mundo
de 2010
militar
25
Rio
14
militar
25
militar
17
Vila
6
militar
17
ser
24
Brasil
12
ser
24
ser
18
Dilma
10
ser
18
haver
10
Amecia
4
emergência
10
ser
18
Aristide
12
ser
18
ser
13
Haiti
8
segundo
13
cancelar
3
Fuvest
4
pouco
7
ser
15
Minustah
10
haitiano
18
ir
4
JEAN
4
candidato
6
315
703
704
705
706
707
708
709
710
711
712
29 de
novembro
de 2010
30 de
novembro
de 2010
30 de
novembro
de 2010
30 de
novembro
de 2010
30 de
novembro
de 2010
30 de
novembro
de 2010
01 de
dezembro
de 2010
01 de
dezembro
de 2010
1 de
dezembro
de 2010
2 de
dezembro
de 2010
Rivais querem cancelar
eleição no Haiti
Mundo
ser
11
Martelly
10
nÃ
14
Painel
Poder
ser
9
PT
8
presidente
10
Erramos
Opinião
ser
6
PÃ
16
nÃ
21
Candidatos no Haiti agora
prometem respeitar
resultado
Mundo
ser
8
Haiti
10
nÃ
11
+ RIO
Cotidiano
colocar
6
Augusto
2
rio
7
5 MINUTOS
Corrida
folhar
8
EquilÃ
4
folha
8
Exército quer evitar
"contaminação" da tropa
Cotidiano
militar
14
Rio
14
militar
14
Partido do governo já
considera aceitar revés
Mundo
acalmar
3
Manigat
4
governista
6
FOLHA.com
Mundo
folhar
4
Fernando
2
capital
4
Vem aí a MMPRJ
Opinião
ser
10
Rio
6
atÃ
15
316
713
714
715
716
717
718
719
720
721
722
2 de
dezembro
de 2010
2 de
dezembro
de 2010
3 de
dezembro
de 2010
3 de
dezembro
de 2010
3 de
dezembro
de 2010
3 de
dezembro
de 2010
3 de
dezembro
de 2010
4 de
dezembro
de 2010
4 de
dezembro
de 2010
5 de
dezembro
de 2010
Um ano depois, reconstrução
engatinha no Haiti
Mundo
dizer
6
ONGs
4
nÃ
8
bajulação
Esporte
ser
12
Fifa
18
ser
12
Próximo a Amorim, Patriota
deslanchou sob Lula
Poder
ser
9
Amorim
10
dois
10
Acusados de causar surto de
cólera são linchados no Haiti
Mundo
ser
14
Haiti
14
Haiti
14
Vazamento sugere elo
secreto entre Berlusconi e
Putin
Mundo
militar
8
Berlusconi
10
americano
10
Estratégia se assemelha à do
Haiti
Cotidiano
ar
4
Haiti
8
Haiti
8
Exército terá poder de polícia
Cotidiano
dentro do Alemão
ser
22
ExÃ
10
ser
22
HAITI: Eleições tiveram
irregularidades, diz secretário
da ONU
Mundo
evitar
3
Haiti
4
nÃ
6
Especialistas em defesa
questionam uso do Exército
Cotidiano
ser
13
ExÃ
8
polÃ
15
"Desconfiança é grande"
sobre o Irã, afirmou Patriota a
diplomata
Poder
ser
15
IrÃ
14
governo
16
317
723
724
725
726
727
728
729
730
731
732
5 de
dezembro
de 2010
6 de
dezembro
de 2010
7 de
dezembro
de 2010
7 de
dezembro
de 2010
7 de
dezembro
de 2010
8 de
dezembro
de 2010
8 de
dezembro
de 2010
8 de
dezembro
de 2010
9 de
dezembro
de 2010
09 de
dezembro
de 2010
ILUSTRÍSSIMA SEMANA
Ilustríssim
a
suar
8
Paulo
14
pÃ
27
HAITI: Protesto por anulação
das eleições acaba em
confronto com a polícia
Mundo
ir
3
Haiti
4
polÃ
6
HAITI: Mortos por cólera no
país passam de 2.070
Mundo
ser
4
Haiti
4
segundo
8
Ataque ao êxito
Poder
fazer
9
ExÃ
7
nÃ
30
Rio vive "conflito armado
aberto", vê Cruz Vermelha
Cotidiano
viver
6
Rio
10
nÃ
12
De P.Bevilaqua@org para
Dilma@gov
Poder
militar
17
Rio
8
nÃ
18
Estudo liga ONU a epidemia
no Haiti
Mundo
ser
13
ONU
6
segundo
18
Série de Christian Cravo no
Haiti capta instantes do vodu
Ilustrada
obrar
4
Christian
4
homem
4
CÓLERA: NEPALESES NEGAM
CULPA EM EPIDEMIA
Mundo
comandar
1
Haiti
6
Haiti
6
Anúncio de 2º turno provoca
onda de protestos no Haiti
Mundo
ser
15
Martelly
8
segundo
24
318
733
734
735
736
737
738
739
740
741
742
10 de
dezembro
Frases
Mundo corresponder
de 2010
10 de
Autoridades farão
dezembro recontagem de votos após
Mundo
ser
de 2010
protestos no Haiti
10 de
ALEMÃO: GENERAL VAI
dezembro
Cotidiano
comandar
COMANDAR AS OPERAÇÕES
de 2010
11 de
HAITI: ONU investigará
dezembro
Mundo
determinar
origem de epidemia de cólera
de 2010
14 de
EUA se dizem "otimistas" com
dezembro
Poder
ser
gestão Dilma
de 2010
15 de
dezembro
MUNDO VIRTUAL
Corrida
militar
de 2010
18 de
Nossa missão no Rio é ganhar
dezembro
Cotidiano
ser
tempo, afirma general
de 2010
19 de
A história do andar de baixo
dezembro
Poder
ser
sobreviveu
de 2010
19 de
AMBIÇÃO POLÍTICA DEFINIU
dezembro
Especial
ser
O TOM DA DIPLOMACIA
de 2010
20 de
dezembro
todas as letras do ano
Folhateen
ser
de 2010
2
Manigat
2
nÃ
3
5
Haiti
6
nÃ
15
4
Brigada
2
contingente
3
3
ONU
6
ONU
6
11
Dilma
12
Dilma
12
5
AnnCurry
2
primeiro
6
18
Haiti
8
ser
18
25
Rio
10
ser
25
17
Brasil
14
ser
17
23
Brasil
6
ser
23
319
743
744
745
746
747
748
749
750
751
752
22 de
dezembro
Painel FC
Esporte
de 2010
23 de
Brasil deve mandar fragata
dezembro
Mundo
para o Líbano
de 2010
26 de
dezembro
Personagens do ano
Empregos
de 2010
26 de
IGREJA: Papa pede
dezembro solidariedade com cristãos no Mundo
de 2010
Iraque
26 de
O mau sinal do governo que
dezembro
Poder
nem começou
de 2010
26 de
dezembro O morro agora é do Exército
Opinião
de 2010
28 de
Haitianos perderam controle
dezembro
Mundo
sobre seu processo eleitoral
de 2010
28 de
Haiti deve adiar 2º turno de
dezembro
Mundo
eleições
de 2010
30 de
Tropas brasileiras deveriam
dezembro
Opinião
deixar o Haiti
de 2010
30 de
12.JAN.10: TERREMOTO NO
dezembro
Especial
HAITI
de 2010
ser
12
Rio
6
ser
12
ser
18
Brasil
16
forÃ
24
ser
51
Landrino
12
ser
51
ajudar
2
Bento
2
cristÃ
3
ser
18
SÃ
10
ser
18
ser
8
ExÃ
6
nÃ
16
ser
9
EUA
10
haitiano
21
militar
5
OEA
6
segundo
20
ser
15
Haiti
20
nÃ
24
engatinhar
3
Arns
2
comeÃ
5
320
753
754
755
756
757
758
759
760
761
762
30 de
Terrorismo, terremotos e
dezembro
tuítes
de 2010
03 de
janeiro de
PAINEL DO LEITOR
2011
4 de
Desaparecido político não é
janeiro de
vergonha, diz ministro
2011
4 de
Irã convida Dilma a visitar o
janeiro de
país no segundo semestre
2011
6 de
Preço mundial de alimentos é
janeiro de
recorde
2011
7 de
Estável, dom Paulo recuperajaneiro de
se de cirurgia, em SP
2011
7 de
José Elito atacou último
janeiro de
bastião rebelde no Haiti
2011
9 de
General que falou de
janeiro de desaparecidos errou, afirma
2011
Jobim
11 de
Celebração vai ter missa e
janeiro de
"We Are the World"
2011
11 de
Caos político marca 1 ano de
janeiro de
terremoto
2011
Especial
ser
11
Brothers
2
ser
11
Opinião
ser
25
SP
28
ser
25
Poder
ser
11
ForÃ
6
ser
11
Mundo
ser
17
Brasil
10
ser
17
Mercado
ser
7
FAO
12
nÃ
11
Poder
estar
4
Paulo
8
dia
7
Poder
militar
5
Elito
8
general
9
Poder
ser
55
GLO
8
nÃ
97
Mundo
ser
8
Arns
4
ser
8
Mundo
assumir
7
PrÃ
8
segundo
22
321
763
764
765
766
767
768
769
770
771
772
12 de
Pastoral volta ao Haiti após
janeiro de
morte de Zilda Arns
2011
12 de
Após perder Zilda Arns,
janeiro de
Pastoral volta ao Haiti
2011
12 de
GOVERNO PAGA
janeiro de
INDENIZAÇÃO A 18 FAMÍLIAS
2011
12 de
Resposta humanitária teve
janeiro de
incoerências
2011
12 de
janeiro de Uma noite em Porto Príncipe
2011
12 de
janeiro de
FOLHA.com
2011
13 de
janeiro de
Haiti, ano um
2011
13 de
Doação do Brasil ao exterior
janeiro de
sobe 50%
2011
13 de
OEA vê risco de mais
janeiro de
instabilidade no país
2011
13 de
Aos 7, filha de militar não tem
janeiro de
festa de aniversário
2011
Corrida
ar
5
Fort
4
comeÃ
9
Mundo
ser
7
Pastoral
8
comeÃ
9
Mundo
militar
8
Haiti
2
militar
8
Mundo
ser
11
Haiti
8
ser
11
Mundo
haver
13
Sherlyne
10
nÃ
18
Mundo
folhar
4
ETA
2
folha
4
Opinião
ser
9
Brasil
4
ainda
15
Mundo
ajudar
8
US
10
US
10
Mundo
ser
7
OEA
10
governo
12
Mundo
ser
9
Giovanna
8
nÃ
15
322
773
774
775
776
777
778
779
780
781
782
13 de
janeiro de
2011
13 de
janeiro de
2011
13 de
janeiro de
2011
13 de
janeiro de
2011
14 de
janeiro de
2011
14 de
janeiro de
2011
14 de
janeiro de
2011
14 de
janeiro de
2011
14 de
janeiro de
2011
14 de
janeiro de
2011
Missas lembrando Zilda Arns
reúnem quase 1.000 em SC e
SP
Mundo
ser
5
Pastoral
10
mÃ
18
Nelson Jobim critica falhas de
ricos com país
Mundo
estar
5
Dilma
4
estar
5
CONDOLÊNCIA: DILMA
AFIRMA LAMENTAR POR
TERREMOTO
Mundo
associar
3
Dilma
4
Dilma
4
Saída do Hizbollah desfaz
governo libanês
Mundo
governar
7
Hizbollah
14
governo
14
O tsunami brasileiro
Opinião
ser
12
Brasil
6
nÃ
22
Desde terremoto, tropa do
país no Haiti cresceu 83%
Mundo
militar
23
Brasil
8
militar
23
TERREMOTO: GOVERNO DIZ
QUE 316 MIL MORRERAM
Mundo
ser
3
Bellerive
2
ser
3
EUA pediram cabeça de
general brasileiro
Mundo
militar
13
Brasil
6
militar
13
trabalhar
6
Angra
4
trabalhar
6
militar
5
Brasil
4
brasileiro
6
"Condições são piores que na
Cotidiano
tragédia do Haiti"
EUA pediram a cabeça de
general do Brasil no Haiti
Corrida
323
783
784
785
786
787
788
789
790
791
792
15 de
Japão e Chile dão "banho" no
janeiro de
Cotidiano
Brasil em prevenção
2011
15 de
Itamaraty minimiza ameaça
janeiro de
Mundo
dos EUA a general brasileiro
2011
15 de
Texto aponta falta de
janeiro de
Mundo
cooperação no Haiti
2011
16 de
UM OLHAR SOBRE A
Ombudsm
janeiro de
TRAGÉDIA
an
2011
16 de
janeiro de
PAINEL FC
Esporte
2011
16 de
Reconstrução pode evitar
janeiro de
Mercado
nova tragédia
2011
16 de
Logística inova reação a
janeiro de
Mercado
desastre natural
2011
16 de
Rapper defende missão da
janeiro de
Mundo
ONU contra instabilidade
2011
16 de
janeiro de
DNA das tragédias
Opinião
2011
17 de
Como sanear uma agência de New York
janeiro de
ajuda
Times
2011
ser
7
Brasil
4
natural
7
estar
2
Haiti
4
Haiti
4
militar
8
EUA
8
brasileiro
12
ser
13
Folha
4
nÃ
24
ser
13
Paulo
14
ser
13
casar
11
Nova
6
casa
11
ser
7
Cruz
6
americano
7
ser
23
Haiti
10
nÃ
49
ter
9
Deus
10
nÃ
31
ser
16
Shah
20
ser
16
324
793
794
795
796
797
798
799
800
801
802
17 de
janeiro de
2011
17 de
janeiro de
2011
18 de
janeiro de
2011
19 de
janeiro de
2011
20 de
janeiro de
2011
20 de
janeiro de
2011
21 de
janeiro de
2011
21 de
janeiro de
2011
21 de
janeiro de
2011
21 de
janeiro de
2011
Ex-ditador "Baby Doc"
retorna ao país após 25 anos
exilado em Paris
Mundo
desviar
3
Doc
4
meio
8
Bancos suíços devolverão
dinheiro sujo
Mundo
ser
15
SuÃ
20
suÃ
36
Anistia defende que os crimes
de "Baby Doc" sejam julgados
Mundo
voltar
6
Duvalier
10
Duvalier
10
"Baby Doc" é indiciado por
corrupção
Mundo
ser
8
Haiti
12
nÃ
15
Ex-ditador "Baby Doc" sugere
volta à política no Haiti
Mundo
ser
6
Duvalier
8
ex
10
Ex-ditador "Baby Doc" pode
voltar à política haitiana
Corrida
ficar
6
Duvalier
6
haitiano
10
FRASES DO DIA
Corrida
agarrar
3
Sobre
4
forÃ
4
arrecadar
1
Haiti
4
Haiti
4
NO MUNDO: KATRINA GEROU
Mercado
US$ 4 BI EM DOAÇÕES
EUA e ONU elevam o tom
contra Préval
Mundo
poder
6
OEA
6
haitiano
7
Brasil se diz preocupado com
retorno de Aristide
Mundo
ser
15
Aristide
16
polÃ
18
325
803
804
805
806
807
808
809
810
811
812
22 de
"Baby Doc" diz sentir tristeza
janeiro de
por vítimas
2011
23 de
janeiro de
O QUE ELES DISSERAM
2011
23 de
Esporte sofre com corrupção
janeiro de
e pouca verba
2011
23 de
Messi e Kaká viram pinturas
janeiro de
pela cidade
2011
23 de
janeiro de
Salva-vidas
2011
23 de
Mercado de seguros contra
janeiro de
desastres naturais ainda é
2011
pequeno no Brasil
23 de
Brasil não vai ser alto-falante
janeiro de
sobre direitos humanos
2011
23 de
HAITI: Políticos fazem ato
janeiro de
para anular eleição
2011
23 de
janeiro de
O homem de R$ 100 mi
2011
24 de
janeiro de
PAINEL DO LEITOR
2011
Mundo
voltar
7
Haiti
10
haitiano
15
Corrida
ser
11
EUA
6
sobre
24
Esporte
ser
13
Haiti
10
ser
13
Esporte
ser
4
AmÃ
2
capital
16
Esporte
ser
21
Haiti
14
ser
21
Mercado
ser
19
Brasil
6
nÃ
26
Mundo
ser
48
Brasil
24
ser
48
Mundo
sair
3
Haiti
2
capital
4
Opinião
ser
21
Ronaldinho
20
ser
21
Opinião
ser
28
SP
14
nÃ
41
326
813
814
815
816
817
818
819
820
821
822
24 de
janeiro de
FRASES
2011
24 de
Um governo não pode nem
janeiro de
deve ser 100% transparente
2011
24 de
"Baby Doc" quer doar sua
janeiro de
conta na Suíça
2011
24 de
Brasileiro afirma que Aristide
janeiro de
pode voltar ao Haiti se for
2011
ajudar
24 de
janeiro de
PAINEL FC
2011
25 de
Itamaraty aprova resultados
janeiro de
de missão
2011
25 de
janeiro de
O campo de soros
2011
25 de
Clube Rotary monta tendas
janeiro de
para desabrigados
2011
27 de
General do Brasil pode ter
janeiro de
sido morto, diz presidente
2011
27 de
Partido oficial desiste de
janeiro de
eleição haitiana
2011
Mundo
ser
6
WikiLeaks
4
ser
6
Mundo
ser
40
Twitter
16
nÃ
56
Mundo
contar
6
Baby
8
haitiano
9
Mundo
retornar
10
Aristide
12
segundo
19
Esporte
ser
13
Marco
6
ser
13
Mundo
confirmar
2
Estados
2
bastante
4
Esporte
ser
15
Porto
8
ser
15
Cotidiano
ser
8
Haiti
4
ser
8
Mundo
militar
9
Bacellar
12
nÃ
15
Mundo
ser
6
PrÃ
12
segundo
17
327
823
824
825
826
827
828
829
830
831
832
27 de
janeiro de
ALPINAS
2011
27 de
Volta de Baby Doc desperta
janeiro de
saudosismo
2011
27 de
Hotéis lucram com escassez
janeiro de
de piscinas
2011
27 de
janeiro de
RÁPIDAS
2011
29 de
janeiro de
Programação de TV
2011
30 de
País define data para o
janeiro de segundo turno das eleições
2011
presidenciais
01 de
Aristide pode ganhar
fevereiro passaporte para retornar ao
de 2011
Haiti
2 de
Brasil substituirá embaixador
fevereiro
no Haiti após eleição
de 2011
2 de
Governista resiste a deixar
fevereiro
pleito presidencial no Haiti
de 2011
3 de
Partidários de Aristide
fevereiro
protestam em Porto Príncipe
de 2011
Mercado
ser
12
AmÃ
6
nÃ
19
Esporte
haver
6
Baby
6
Jean
6
Esporte
nadar
8
Carrefour
12
piscina
18
Corrida
minar
4
Aberto
4
crÃ
6
Ilustrada
casar
6
Brasil
24
Brasil
24
Mundo
ser
5
Haiti
4
segundo
8
Mundo
ser
8
Aristide
14
nÃ
15
Mundo
regulamentar
4
Haiti
6
Haiti
6
Mundo
poder
10
CÃ
14
segundo
29
Mundo
ser
5
Aristide
8
capital
8
328
833
834
835
836
837
838
839
840
841
842
4 de
ONU fica em alerta após
fevereiro
Mundo
anúncio haitiano
de 2011
4 de
Alta de preço de alimento é
fevereiro
Mercado
recorde, afirma a FAO
de 2011
5 de
Governo vai criar "Swat do
fevereiro
Cotidiano
SUS" para tragédias
de 2011
6 de
ILUSTRÍSSIMA SEMANA: O
Ilustríssim
fevereiro MELHOR DA CULTURA EM 11
a
de 2011
INDICAÇÕES
7 de
fevereiro
RÁPIDAS
Corrida
de 2011
7 de
Nova York registra três casos
fevereiro
Mundo
de cólera
de 2011
8 de
BID praticamente dobra
fevereiro
Ciência
crédito para sustentabilidade
de 2011
10 de
fevereiro
Pendências por aí
Poder
de 2011
11 de
fevereiro
PAINEL FC
Esporte
de 2011
11 de
MISSÃO DE PAZ: Chanceler irá
fevereiro
Mundo
ao Haiti para discutir eleições
de 2011
ser
9
PrÃ
8
segundo
17
ar
6
ArgÃ
4
sÃ
7
ir
6
Saúde
7
rio
12
ser
12
Paulo
10
pÃ
24
sofrer
4
Kubica
4
mÃ
9
estar
6
Haiti
6
Haiti
6
ser
8
US
14
US
14
ser
20
TSE
8
nÃ
23
ter
9
Mogi
6
ter
9
dever
6
Haiti
4
deve
6
329
330
331
Download

modelagem linguística de relatos sobre o terremoto do haiti e chile