Curso de Pós-Graduação em Engenharia da Informação Dissertação de Mestrado RAFAEL ANTONANGELO MOLINA COMUNICAÇÃO DE CATÁSTROFES: MODELAGEM LINGUÍSTICA DE RELATOS SOBRE O TERREMOTO DO HAITI E CHILE Santo André - SP 2012 Curso de Pós-Graduação em Engenharia da Informação Dissertação de Mestrado RAFAEL ANTONANGELO MOLINA COMUNICAÇÃO DE CATÁSTROFES: MODELAGEM LINGUÍSTICA DE RELATOS SOBRE O TERREMOTO DO HAITI E CHILE Trabalho apresentado como requisito parcial para obtenção do título de Mestre em Engenharia da Informação, sob orientação da Professora Doutora Margarethe Born Steinberger-Elias. Santo André - SP 2012 Nome: MOLINA, Rafael Antonangelo Título: Comunicação de Catástrofes: Modelagem Linguística de relatos sobre o terremoto do Haiti e Chile. Trabalho apresentado como requisito parcial para obtenção do título de Mestre em Engenharia da Informação Exame Realizado em: Banca Examinadora Prof. Dr. _____________ Instituição: ______________ Julgamento: ___________ Assinatura: ______________ Prof. Dr. _____________ Instituição: ______________ Julgamento: ___________ Assinatura: ______________ Prof. Dr. _____________ Instituição: ______________ Julgamento: ___________ Assinatura: ______________ Este exemplar foi revisado e alterado em relação à versão original, de acordo com as observações levantadas pela banca no dia da defesa, sob responsabilidade única do autor e com a anuência de sua orientadora. Santo André, 26 de Agosto de 2012. Assinatura do autor:_________________________________________________ Assinatura da orientadora:____________________________________________ Agradecimentos Agradeço a Deus, que por intercessão do Divino Espírito Santo me iluminou pelos caminhos que segui até aqui. Agradeço também a minha orientadora Profa. Dra. Margarethe Born SteinbergerElias que por meio de longas discussões e conversas sempre me mostrou novas alternativas e caminhos, novas visões sobre um mesmo problema e suas abordagens. Neste agradecimento a minha orientadora cabe também a oportunidade que me proporcionou com este projeto, em termos de formação e realização pessoal. À UFABC pela oferta de um ambiente acadêmico tão rico em trânsito de conhecimento que muito contribuiu para meu ingresso e execução de projeto neste mestrado. À minha família (meu pai Isaque de Paiva Molina, minha mãe Rosely Antonangelo Molina e minha irmã Isabella Antonangelo Molina) que sempre me deu a base para tudo que busquei, por meio de conversas, compartilhamento de opiniões, compreensão, ajuda com a rotina imposta pela necessidade da execução do projeto, apoio, carinho e amor. Não tenho dúvidas que, sem esta base familiar maravilhosa que recebi, não estaria em condições de sequer ingressar em um programa de mestrado. À minha namorada Juliana Sá Teles de Oliveira por todo o apoio que me deu durante a execução dos trabalhos de mestrado, verdadeiramente se envolvendo e mesmo frequentando eventos da área comigo, pelo simples prazer de estarmos juntos. Por ter me ajudado com leituras e com confiança sobre meu trabalho, por me ouvir em momentos de dificuldades, sendo minha companheira, cúmplice de dilemas, dúvidas, alegrias e conquistas. Por todo amor que sempre me proporciona e felicidade que traz a minha vida. Aos meus amigos que se mostraram interessados com minhas atividades e compreenderam minhas ausências decorrentes destas. Obrigado a todos que se sintam felizes com esta minha conquista! Esta dissertação contou com o suporte financeiro da Fundação Universidade Federal do ABC (UFABC) e da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES). "Comunicação é mais que informação; informação subsidia, atualiza, nivela conhecimento. A comunicação sela pactos e educa" Emílio Odebrecht “Parece-me que na escala das medidas universais há um ponto em que a imaginação e o conhecimento se cruzam, um ponto em que se atinge a diminuição das coisas grandes e o aumento das coisas pequenas: é o ponto da arte.” Vladimir Nabokov “Pois quando a sabedoria entrar no teu coração, e o conhecimento for agradável à tua alma, O bom siso te guardará e a inteligência te conservará.” Salomão “Posso todas as coisas em Cristo que me fortalece.” Filipenses, 4:13 Resumo Este trabalho faz parte de um esforço mundial para integração de informações sobre catástrofes naturais. Bancos de dados sobre ocorrências na América Latina ainda não estão integrados ao ponto de garantir uma comunicação rápida e eficiente em situações de emergência. Alguns gargalos estão na representação, organização e recuperação das informações. Buscou-se nesta pesquisa compreender como são representadas em língua portuguesa as informações sobre ações emergenciais de prestação de ajuda em períodos pós-catástrofe. Assumiu-se com Steinberger que o espaço de atuação das entidades que prestam auxílio pode ser tratado como o de um sistema social e, portanto, como um sistema comunicativo. Partiu-se então da hipótese de que a modelagem linguística de relatos noticiosos sobre desastres não só permite identificar automaticamente as entidades que participam dos socorros, como também cria condições para recuperar, através de redes discursivas, o conhecimento a elas associado que seja relevante para a comunicação de emergência. A análise tomou-se os terremotos do Haiti e Chile (2010) como referência e aplicou métodos de modelagem linguística e técnicas de Processamento de Informação em Línguas Naturais (PLN) a um corpus de notícias do jornal Folha de S.Paulo. Buscou-se identificar os fluxos de comunicação envolvendo entidades e compor redes léxico-semânticas representativas de suas ações. Com apoio de ferramentas computacionais adaptadas para a representação estruturada de ações por meio de etiquetas externas (VISL) dentro do pacote Natural Language Toolkit (NLTK), o resultado principal foi a geração automática de redes descritivas sobre o cenário geral da catástrofe e sobre a atuação de entidades assistenciais no momento pós-catástrofe. Com o apoio adicional de métricas próprias da análise de redes sociais, também tornou-se possível comparar o papel das entidades nos dois terremotos estudados. Palavras-chave: Modelagem Linguística; informação jornalística; terremotos; Português PLN; comunicação de desastres; Abstract This research work is part of a worldwide effort to integrate information about natural disasters. Databases on events in Latin America are not yet integrated to the point they can ensure fast and efficient communication in emergency situations. Some bottlenecks must be fixed in representation, organization and retrieval of information. Here we sought to understand how emergency actions that provide assistance in post-disaster can be represented in Portuguese. It was assumed with Steinberger that the aid space of entities can be treated as a social system and, therefore, as a communicative system. Following Steinberger hypothesis, language modeling of news reports on disasters not only would allow to automatically identify entities that participate in the aid, but also would create conditions to recover, through discourse networks, associated knowledge that is relevant for emergency communication. The analysis took the earthquakes in Haiti and Chile (2010) as reference to apply language modeling methods and techniques of Natural Language Processing (NLP) to a corpus of news stories from Folha de S. Paulo. We sought to identify communication flows involving entities and to compose lexical-semantic networks representing their shares. We adapted computational tools to generate structured representation of actions by external tags (VISL) inside the package Natural Language Toolkit (NLTK). The main result was the automatic generation of descriptive networks on the overall picture of the disaster and on the role of charities in the post-disaster. It also became possible to compare the role of entities in the two earthquakes studied with additional support of metrics of social network analysis. Keywords: Language Modeling; NLP; disaster communication; news stories information; earthquakes; Portuguese Lista de figuras Figura 1. Níveis entre Text e Meaning [11]. 16 Figura 2. Correspondência entre lexemas e significados [11]. 16 Figura 3. Perfil acumulativo de número de reportagens do Haiti dentro dos períodos especificados. 32 Figura 4. Distribuição de reportagens do Haiti por seções. 32 Figura 5. Perfil acumulativo de número de reportagens do Chile dentro dos períodos especificados. 33 Figura 6. Distribuição de reportagens do Chile por seções. 33 Figura 7. Desambiguando entidades para exemplos. 39 Figura 8. Mapeamento de conhecimento para exemplo da Cruz Vermelha. 40 Figura 9. Grafo conceitual para exemplo de Cruz Vermelha. 41 Figura 10. Perfil acumulativo das 200 palavras mais frequentes no corpus do Haiti. 50 Figura 11. Extração de Informação partindo de texto bruto até uma lista de tuplas do tipo (entidade, relação de entidade) [10]. 55 Figura 12. Rede VP para o Haiti. 80 Figura 13. Rede VP clusterizada pelo algoritmo 1 para o Haiti. 82 Figura 14. Rede VP clusterizada pelo algoritmo 2 para o Haiti. 84 Figura 15. Rede VE para o Haiti. 86 Figura 16. Rede VE clusterizada pelo algoritmo 1 para o Haiti. 88 Figura 17. Rede VE clusterizada pelo algoritmo 2 para o Haiti. 89 Figura 18. Rede VP para o Chile. 92 Figura 19. Rede VP clusterizada pelo algoritmo 1 para o Chile. 93 Figura 20. Rede VP clusterizada pelo algoritmo 2 para o Chile. 95 Figura 21. Rede VE para o Chile. 97 Figura 22. Rede VE clusterizada pelo algoritmo 1 para o Chile. 98 Figura 23. Rede VE clusterizada pelo algoritmo 2 para o Chile. 100 Figura 24. Rede VPS para o Haiti. 103 Figura 25. Rede VEA para o Haiti. 105 Figura 26. Rede VPA para o Haiti. 107 Figura 27. Rede VPS para o Chile. 109 Figura 28. Rede VEA para o Chile. 111 Figura 29. Rede VPA para o Chile. 113 Lista de tabelas Tabela 1. Trecho de estruturação de dados sobre corpus do terremoto do Haiti em planilha eletrônica. 31 Tabela 2. Reportagens para exemplificar objetivo e método de pesquisa. 35 Tabela 3. Marcação de entidades e ações. 36 Tabela 4. Categorizando ações por entidades 40 Tabela 5. Dados de aplicações de filtros sobre 100 primeiras ocorrências em frequência. 44 Tabela 6. Dados de aplicações sobre frequências de collocations. 48 Tabela 7. Dados sobre 63 collocations entre bigramas e trigramas. 51 Tabela 8. Busca de raízes nas 200 palavras mais frequentes. 52 Tabela 9. Sentença original e etiquetada que exemplifica anotação “PROP”. 66 Tabela 10. Etiquetas semânticas e seus dados. 59 Tabela 11. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por etiquetas semânticas e textos do corpus Haiti. 73 Tabela 12. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por etiquetas semânticas e arquivos com sentenças de etiquetas semânticas. 73 Tabela 13. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por PROP e textos do corpus Haiti. 74 Tabela 14. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por PROP e arquivos com sentenças de etiquetas semânticas. 74 Tabela 15. Valores de números de itens lexicais utilizados na composição de redes. 77 Tabela 16. Métricas de rede VP. 80 Tabela 17. Métricas para rede VP clusterizada pelo algoritmo 1 para o Haiti. 82 Tabela 18. Métricas para rede VP clusterizada pelo algoritmo 2 para o Haiti. 84 Tabela 19. Métricas de rede VE. 87 Tabela 20. Métricas para rede VE clusterizada pelo algoritmo 1 para o Haiti. 88 Tabela 21. Métricas para rede VE clusterizada pelo algoritmo 2 para o Haiti. 89 Tabela 22. Métricas de rede VP. 92 Tabela 23. Métricas para rede VP clusterizada pelo algoritmo 1 para o Chile. 94 Tabela 24. Métricas para rede VP clusterizada pelo algoritmo 2 para o Chile. 95 Tabela 25. Métricas de rede VE. 97 Tabela 26. Métricas para rede VE clusterizada pelo algoritmo 1 para o Chile. 99 Tabela 27. Métricas para rede VE clusterizada pelo algoritmo 2 para o Chile. 100 Tabela 28. Métricas para rede VPS para o Haiti. 103 Tabela 29. Métricas para rede VEA para o Haiti. 105 Tabela 30. Métricas para rede VPA para o Haiti. 107 Tabela 31. Métricas para rede VPS para o Chile. 109 Tabela 32. Métricas para rede VEA para o Chile. 111 Tabela 33. Métricas para rede VPA para o Chile. 113 Tabela 34. Valores de Elementos mais Relevantes para Métricas para redes VP. 117 Tabela 35. Valores de Elementos com Valores Médios para Métricas das redes VP. 118 Tabela 36. Valores de Elementos mais Relevantes para Métricas para redes VE. 126 Tabela 37. Valores de Elementos com Valores Médios para Métricas das redes VE. 127 Tabela 38. Valores de Elementos mais Relevantes para Métricas para redes VPS. 133 Tabela 39. Verbos em Redes de Métodos Supervisionados. 134 Tabela 40. Valores de Elementos mais Relevantes para Métricas para redes VPA. 140 Tabela 41. Nomes Próprios em Redes VPA. 141 SUMÁRIO 1. INTRODUÇÃO 1.1. Tema 1.1.1. Tema Específico 1.2. Delimitação de Problema 2. FUNDAMENTAÇÃO TEÓRICA 01 2.1. Processamento de Linguagem Natural 2.2. Modelagem em Linguagem Natural 2.3. Aplicação de Estatística sobre Modelagem Linguística 2.4. Modelos de Difusão de Informação e Conhecimento 2.5. Pesquisas sobre Interações Sociais e Desastres 3. METODOLOGIA 3.1. Composição do Corpus 3.2. Demonstração de metodologia frente ao objetivo 3.3. Aplicação de NLTK 3.3.1. Descrição do Corpus do Haiti 3.3.2. Trabalho com Collocations 3.3.3. Tratamento de Unidades Léxico-Semânticas 3.3.4. Etiquetagem de Corpus 4. RECONHECIMENTO DE ENTIDADES MENCIONADAS 4.1. Origem e Definições 4.2. Aplicação sobre Temas Diversos 4.3. Trabalhos em Diferentes Línguas 4.4. NER por Etiquetas nos Corpora de Trabalho 4.4.1. Etiqueta PROP 4.4.2. Etiquetas Semânticas 4.4.3. Verbos 4.4.4. Busca por Resultados para Análise 5. RESULTADOS 5.1. Método Não Supervisionado 5.1.1. Haiti 5.1.1.1.Rede VP 5.1.1.2. Rede VE 08 5.1.2. Chile 91 02 05 05 08 14 18 20 26 29 30 35 42 43 46 50 54 57 57 61 63 65 67 68 71 72 78 79 79 79 86 5.1.2.1. Rede VP 5.1.2.2. Rede VE 5.2. Método Supervisionado 5.2.1. Haiti 5.2.1.1. Rede VPS 5.2.1.2. Rede VEA 5.2.1.3. Rede VPA 5.2.2. Chile 5.2.2.1. Rede VPS 5.2.2.2. Rede VEA 5.2.2.3. Rede VPA 6. DISCUSSÃO 6.1. Método Não Supervisionado 6.1.1. Redes VP 91 96 101 102 102 104 106 108 109 110 112 114 114 115 6.1.1.1. Agrupamento 6.1.2. Redes VE 6.1.2.1. Agrupamento 6.2. Método Supervisionado 119 6.2.1. Redes VPS 6.2.2. Redes VEA 6.2.3. Redes VPA 7. CONCLUSÃO 8. REFERÊNCIAS BIBLIOGRÁFICAS APÊNDICE A – Comandos para Corpus Chile em Método Não Supervisionado APÊNDICE B – Comandos para Corpus Haiti em Método Não Supervisionado 131 APÊNDICE C – Comandos para Corpus Chile em Método Supervisionados APÊNDICE D – Comandos para Corpus Haiti em Método Supervisionados APÊNDICE E – Metadados de textos do corpus do Chile com itens lexicais mais frequentes em cada grupo de etiquetas APÊNDICE F – Metadados de textos do corpus do Haiti com itens lexicais mais frequentes em cada grupo de etiquetas 125 127 130 137 139 151 154 165 175 190 204 230 245 1. INTRODUÇÃO Este trabalho toma como domínio a aplicação de uma modelagem, chamada Modelagem Linguística, baseada no Processamento de Informação em Línguas Naturais (PLN). A Modelagem Linguística é a proposta para a verificação de uma hipótese de que a caracterização da atuação de entidades no momento póscatástrofe é possível por meio de busca de estruturação de informações e conhecimentos expressos em linguagem natural, dentre as modelagens apresentadas neste trabalho. Esta escolha respalda-se na proposta de Steinberger em aplicar a ciência de redes às redes de comunicação em situação de desastres que, em sua dimensão Linguística, são por esta autora chamadas de redes discursivas [84]. Ela propõe o uso de recursos de PLN para o estudo de redes discursivas, baseando-se nos seus estudos em [83] de redes discursivas que se evidenciaram em textos jornalísticos sobre os atentados terroristas de Onze de Setembro. Assim, a constatação de que “uma representação de conhecimento é um meio de expressão, isto é, uma linguagem na qual se pode dizer coisas sobre o mundo. (...) Uma representação é a linguagem na qual nos comunicamos e, assim, devemos ser capazes de falar sem esforço heroico.” [15] ganha desdobramentos muito maiores que uma simples constatação, prevendo uso das chamadas Tecnologias da Linguagem para respaldar o processo de organização de informações não-estruturadas que é a linguagem [85]. A aplicação desta modelagem depende da definição de “estado de informação”. Este é um conceito proposto por Steinberger em [85] para descrever a dinâmica das formas Linguísticas nos fluxos de comunicação, sobre o qual se assentam estudos sobre a definição de temáticas que representam a informação estudada, identificação de variáveis que possam vir a afetá-la (e por consequência afetar as relações entre nós na ideia de fluxo em rede) e tendências que podem ser utilizadas para a identificação de estabelecimento de ligações ou fim de determinados arcos [85]. Trata-se a modelagem, então, de aplicar uma metodologia 1 que atue sobre representações de conhecimento e estados de informação para a construção de uma representação de inteligência social emergente utilizada na organização de entidades assistenciais nos eventos estudados. 1.1. Tema O ano de 2010 acumulou mais de 300 mil mortos em desastres naturais e um prejuízo de 110 bilhões de dólares decorrente [19]. Catástrofes naturais de grande impacto mobilizam governos, organismos internacionais, defesas civis locais, voluntariado, entre outras entidades, na busca por soluções gerais de prevenção e reestruturação pós-desastres. O tsunami que atingiu o sudeste asiático no fim de 2004 levou a realização da II Conferência Mundial sobre a Redução de Desastres (promovida pela ONU em Kobe – 2005: renovação do Plano de Ação para um Mundo mais Seguro e Declaração de Hyogo). O resultado foi a definição de um programa de esforços para a busca, compartilhamento, interação e partilha de informações entre países e regiões do globo [41]. De fato, a busca por meios de organizar a informação sobre desastres naturais em nível global já vinha sendo tratada mesmo antes de tais definições. Em 2002 foi introduzido o GLIDE (identificador único desastre global), que torna o sistema de construção de um banco de dados internacional de desastres em níveis nacionais e intra-nacionais muito mais fáceis e mais transparentes, por meio de uma definição internacional de codificação para a identificação destes [92][36]. A validade de tal esforço está em buscar a integração, em um só banco de dados, informações espaçadas sob diferentes organizações que usam nomes diferentes para mesma catástrofe, tornando a busca mais difícil [92]. 2 Dentro do espaço latino-americano, duas instituições possuem destaque no que tange a integração de suas bases de dados à base GLIDE: a “Agência de Gerenciamento de Emergências em Desastres no Caribe” (Caribbean Disaster Emergency Management Agency – CDEMA) e “A Rede de Estudos Sociais em Prevenção de Desastres na América Latina” (La Red de Estudios Sociales en Prevención de Desastres en América Latina - La Red). O CDEMA é a entidade da região do Caribe de gestão de desastres anteriormente conhecido como CDERA (Agência de Resposta a Emergência em Desastres Caribenhos), sendo a mudança ocorrida em 2009 de forma a delegar a esta instituição o uso de princípios e práticas da Gestão Global de Desastres (MDL), que visa reduzir os riscos e perdas associados a riscos naturais e tecnológicos e os efeitos da mudança climática para promover o desenvolvimento regional sustentável [18]. Já o La Red foi criado em 1992 por 16 especialistas em desastres de diversas instituições governamentais, ONGs e universidades em sete países (Brasil, Canadá, Colômbia, Costa Rica, Equador, México e Peru), funcionando como ponto de encontro para centenas de pessoas e instituições envolvidas na gestão de riscos e catástrofes em países diferentes América Latina e no Caribe, além de outras latitudes, e proporcionando, portanto, uma referência essencial para a investigação, informação, educação, formação e desenvolvimento de iniciativas políticas relacionadas com a questão do desastre [45]. O La Red é reconhecido como pelo relatório “Redução do risco de desastres: um desafio para o desenvolvimento”, elaborado pelo Programa das Nações Unidas para o Desenvolvimento (PNUD) como uma das redes de reforço de capacidades internacional, representando a atuação latino-americana [92]. Um de seus projetos, o Sistema de Inventário de Desastres (DesInventar), é apontado neste mesmo trabalho como uma das três iniciativas em nível nacional de composição de banco de dados [92][45]. O DesInventar, criado em 1994, tem seus dados obtidos a partir da mídia e bancos de dados existentes em agências governamentais, com verificação em nível nacional para garantia de consistência [92]. O relatório elaborado pelo PNUD coloca, porém, que o desafio de uniformidade entre as bases de dados permanece ao se observar o DesInventar, 3 limitando a capacidade para comparações internacionais [92] e ressalta que, no que diz respeito à situação de bases de dados na América Latina e o Caribe, “Bases de dados de desastres nacionais têm uma cobertura relativamente boa na América Latina e no Caribe, ainda que menor se comparada a de outras regiões. (...) apresentação regular de perdas econômicas em situações de desastre é irregular e não confiável. Problemas de compatibilidade de dados e definições são abundantes. No entanto, o potencial de melhorar a informação sobre risco (...) é tão grande que é claro que esta é uma área em que grandes investimentos são justificados e necessários” [92]. Em contrapartida, um documento lançado pelo Centro de Pesquisa sobre Epidemiologia dos Desastres (CRED – criado em 1971 e centro colaborador da Organização Mundial da Saúde desde 1980), o “Annual Disaster Statistical Review 2009”, aponta a presença de países como Brasil, México, Guatemala, Peru, Honduras, El Salvador e Costa Rica entre os países com maiores ocorrências de vítimas frente a fenômenos geofísicos, hidrológicos, meteorológicos e climatológicos, de acordo com a classificação de desastres naturais dada pela EM-DAT (base de dados mundial sobre catástrofes que contém dados básicos essenciais sobre a ocorrência e impacto de mais de 18 mil desastres no mundo desde 1900 até os dias de hoje, criada pelo CRED em 1988) [97]. Este mesmo documento revela que, embora o número de catástrofes tenha diminuído em relação à média dos anos 2000-2008, seus efeitos econômicos e em número de pessoas vitimadas cresceu [97]. Isto demonstra, então, que existe uma necessidade latente de estruturação de dados de maneira a permitir tal integração, comportar o grande volume de informação necessária a qualquer ação que tome por base tais registros e que possa ser continuamente abastecida por novas cargas de dados, convergindo para uma estruturação comum. Tal estruturação deve focar na atuação de entidades no desastre natural, minimizando os efeitos adversos crescentes apontados acima. 4 1.1.1. Tema Específico O terremoto ocorrido no Haiti em 12 de janeiro de 2010, que matou mais de 220 mil pessoas, e o do Chile em 26 de fevereiro do mesmo ano (mais de 700 mortos), demonstram a necessidade de superação dos problemas apontados acima quanto a integração de formas de representação de informações em desastres naturais na América Latina. A atuação de entidades assistenciais e a forma como se organizaram à medida que as necessidades apareciam, e não de acordo com um planejamento prévio de ação, evidenciou a falta de um mecanismo capaz de compatibilizar ações em ambos os casos. Esta situação serve para ilustrar o que é o conceito de Inteligência Social, isto é, uma inteligência repartida entre instâncias do coletivo social, valorizada constantemente, coordenada no tempo real, que conduz a uma mobilização efetiva das competências [46][94]. Nesta perspectiva, onde o social é tomado como coletivo e a inteligência social é a inteligência coletiva, dois ou mais indivíduos independentes coletam informações que são processadas através da interação social e fornecem a solução de um problema que não estaria disponível individualmente [43] 1.2. Delimitação de Problema O que se busca, então, é um retrato destas ações que organize a informação sobre estes eventos, entendendo que para isto se deve modelá-los como expressões de inteligência social e, por consequência, tomando o espaço de atuação de entidades como um sistema social, pela definição de Maturana “membros de um conjunto de seres vivos que constituem com sua conduta uma rede 5 de interações que opera como meio para que existam como seres vivos e conservem sua organização e adaptação, participando de uma co-deriva contingente à rede de interações da qual fazem parte” [54]. A escolha pelos terremotos se deve à busca de uma estruturação da nova dinâmica de informações sobre estes, emergente nos casos delimitados na subseção de tema específico. Esta dinâmica se caracterizada por ampla difusão em todo o globo de conhecimentos acerca da catástrofe e mobilização expressiva de entidades de todo o mundo no auxílio após o ocorrido. Outra questão levada em conta foi a persistência de limitações técnicas que impedem uma previsão deste tipo de desastre, com a antecedência necessária para atenuar seus impactos. O máximo que se pode, no momento, é realizar uma estimativa probabilística da ocorrência de terremotos frente à disponibilidade de alguns sinais, como Dehbozorgi e Farokhi demonstram em [26], onde um classificador fuzzy em uma arquitetura de rede neural é treinado por meio de sinais de teste (vapores e gases emitidos pela atividade sísmica) filtrados e caracterizados quantitativamente, chegando a uma precisão de 82,8571%, 5 minutos antes da ocorrência, dentro destas condições. Já Zuji et al. apresentam em seu estudo um panorama em que, dentro de 11 anos (a contar da publicação do artigo em 2009), será possível realizar previsões de curto prazo para a ocorrência de terremotos por meio de um sistema de monitoramento remoto por satélite que captam radiação térmica infravermelha, derivada também de sinais emitidos previamente pela atividade sísmica latente [101]. Steinberger mostra que a configuração do espaço geográfico tem uma contrapartida simbólica em campos de estruturação de discurso [83]. Dentro de um espaço definido, segundo Steinberger [84], o estudo desses fenômenos pode então assumir diferentes vertentes: de cunho histórico (tentando entender como diferentes povos, em diferentes períodos, interagiam com as catástrofes naturais, por meio de relatos e registros), tecnológica (levantando-se que meios de propagação de informação têm sido relevantes para a transmissão de informações e conhecimentos, remetendo as tecnologias de informação e comunicação – TICs), de gestão (preocupada em integrar e coordenar os fluxos de comunicação para a obtenção de melhores resultados), documental (preocupada em entender como se 6 dão os registros e documentações técnicas, para fins de padronização, por exemplo) e comunicativa (podendo ser retratada pelos fluxos de conhecimento através de arcos e promotores/receptores como nós, isto é, uma representação em rede – conjunto de dispositivos interligados uns aos outros [99], sobre os quais é possível a determinação de regras de relacionamento). Para o estudo de comunicação em situações de desastres, Steinberger propõe em [84] a adoção da Ciência de Redes criadas por Duncan Watts. Assim, a hipótese assumida por esta pesquisa é de que é possível caracterizar com aplicações de Processamento de Linguagem Natural e Linguística de Corpus as ações emergenciais e as entidades associadas a estas ações, gerando automaticamente redes léxico-semânticas que representem o campo da ação assistencial em uma catástrofe do tipo estudado. O papel da Engenharia da Informação na caracterização destes registros é o de fornecer métodos para o levantamento de registros e seu tratamento, de modo a passar a informação e conhecimento ali embutidos de forma não estruturada a uma organização que permita a visualização clara de entidades assistenciais e suas ações frente a necessidades pós-catástrofe. Dito de outra maneira, que permita a modelagem da expressão de inteligência social apresentada pelas ações de entidades assistenciais para os casos dos terremotos do Haiti e Chile por meio de Extração de Informação. Neste trabalho será adotado, então, um tratamento de informação em formato de linguagem natural, partindo de dados não estruturados (textos de notícias jornalísticas sobre o terremoto do Haiti e do Chile). Ao utilizar os conceitos de aplicação desta Modelagem Linguística (melhor detalhada na sequência) para demarcar a forma de tratamento e manipulação do levantado, espera-se ter como resultado um retrato de uma rede dinâmica já presente de entidades assistenciais (tais como as governamentais e centros de estudo, por exemplo) e sua atuação por meio de ações no momento pós-catástrofe, no recorte especificado de tempo. Este tipo de pesquisa fornece subsídios para a criação de aplicativos capazes de organizar automaticamente planos de ação compatíveis com as situações de desastres linguisticamente modelados. Apesar de se concentrar no caso específico dos terremotos haitiano e chileno, o resultado pode ser utilizado em outros terremotos de grande porte, ou mesmo outras tipologias de desastres 7 naturais que demandem atuação conjunta de entidades assistenciais no momento pós-catástrofes. Assim, o trabalho ganha relevância não só no plano de atuações em terremotos, mas também em eventos mais próximos a realidade brasileira, como inundações, deslizamentos de terra e queimadas, muito embora terremotos em menor escala ocorram no Brasil, como registra o Observatório Sismológico (Obsis), do Instituto de Geociências da Universidade de Brasília [93]. E o projeto justifica-se, tanto pela sua contribuição dentro do domínio específico de respaldo a ações dentro do espaço social pós-catástrofe, como dentro do uso de conhecimentos pertinentes ao programa de pós-graduação em Engenharia da Informação, concebido como uma modelagem que busca caracterizar a inteligência social emergente em duas situações pontuais de catástrofes naturais. 2. FUNDAMENTAÇÃO TEÓRICA 2.1. Processamento de Linguagem Natural O Processamento de Linguagem Natural (PLN, NLP em inglês) é um campo de pesquisa interdisciplinar que reúne competências da Linguística e da Informática na aplicação de algoritmos de análise e geração de textos em um determinado idioma (língua natural) com apoio de ferramentas computacionais [10]. Esta definição pode ser tomada de forma simplificada, colocando PLN como qualquer tipo de manipulação por computador de linguagem natural, desde uma contagem de frequências de palavras para comparar diferentes estilos de escrita até busca pela "compreensão" completa expressões humanas [49][78]. PLN também pode ser 8 tomado como um método computadorizado para análise de texto que se baseia em um conjunto de teorias e um conjunto de tecnologias, isto é, uma gama de técnicas computacionais, teoricamente motivada, para análise e representação natural de textos em um ou mais níveis de análise Linguística para o fim de atingir seres humanos como processamento de linguagem para uma série de tarefas ou aplicações [78], tais como tradução automatizada de textos, melhoria na interação homem-máquina no sentido de elevação da taxa de respostas satisfatórias, compilação de texto em linguagem natural, sumarização de textos, extração e recuperação de informação de um texto, entre outras [31]. A aplicação sobre uma amostra de textos permite um trabalho sobre dados de frequência de expressões com base na estatística. Aplicações quantitativas como estas permitem então a obtenção de um modelo que represente de forma bastante satisfatória o real, já que sua construção se condiciona a uma mensuração de como é o comportamento de uma linguagem natural em um uso ou situação estudado. Sua utilização pode estar em uma quantificação sobre a significância de determinadas expressões para um conhecimento de uma localidade, determinando se esta expressão encontra-se no corpus correspondente inserido de forma casual ou determinante para aquele conhecimento. Ao se falar em linguagem natural, restringe-se a atuação do PLN sobre a linguagem que é usada para a comunicação diária pelos seres humanos (como Inglês, Espanhol, Hindi, ou Português), excluindo, portanto, as chamadas línguas artificiais, como as linguagens de programação (como Java, Python, C++ ou Assembly) e notações matemáticas (como funções, equações de descrição de eventos, sistema de coordenadas ou vetores) [10]. A diferença básica entre estes dois tipos de linguagem está no caráter dinâmico mais preponderante das línguas naturais frente às artificiais, bem como a dificuldade na definição de regras explícitas para descrição do comportamento do primeiro tipo se comparado ao segundo. A origem dos estudos em PLN está na busca por uma máquina de tradução nos anos 1940, com o uso das rotinas de quebra de código inimigo desenvolvidas na Segunda Guerra Mundial para este fim, baseadas em criptografia e teoria da informação [78]. Trabalhos a partir daí começaram a adotar a transição de uma 9 língua para outra como uma questão de similaridade de vocabulário e ordem de palavras, quem considerar questões como a ambiguidade de palavras, por exemplo, o que não permitiu o alcance de grandes resultados. Somente em 1957, com a publicação de Noam Chomsky (Syntactic Structures) que introduziu a chamada gramática gerativa, que determina agrupamentos sintáticos permissíveis em uma língua por um falante nativo [78]; as pesquisas começaram a estruturar uma base mais sólida para se apoiar, além de permitir o surgimento de outras áreas, como a de reconhecimento de sentenças [49]. Foi também neste período que os trabalhos em PLN irão contrapor-se em dois extremos: a gramática gerativa e a Linguística teórica (de Chomsky) em oposição aos métodos estatísticos e a teoria da informação estatística (formalizados mais tarde por Michael Halliday, sob uma tradição empirista [78]). Alinhada as pesquisas em Inteligência Artificial Forte (representação da máquina como pessoa), alguns destes princípios se sintetizaram sobre experimentos emblemáticos, como o ELIZA (de Joseph Weizenbaum, 1966), que simulava, por meio de uma máquina, um psicanalista, na tentativa de, ao utilizar a linguagem própria deste profissional, levar um "paciente" a entender a máquina como uma pessoa real. Devido a um corte de financiamento no ano de 1966, já que o aplicado até então não obteve retornos significativos, as pesquisas em PLN reduziram-se bastante dentro dos EUA [78]. Ainda sim, houve avanços nas questões ligadas a representação de significado e desenvolvimento de soluções computacionais. Porém a grande questão é que até este momento os estudos estavam muito orientados pela sintaxe, o que impedia, a principio, abordagens semânticas, o que reverteu mais tarde para a busca de explicações de anomalias sintáticas pela construção de representações semânticas [78]. Os anos 1970 apresentaram pesquisas que abordaram questões semânticas, fenômenos de discurso e relações deste com tarefas e planos de comunicação, além da geração automática de respostas por máquina pelo uso de respostas curtas. O avanço tecnológico e consequente disponibilidade de recursos computacionais presentes a partir dos anos 1980 permitiu o aumento de pesquisas em PLN (bem como de outras pesquisas ligadas a sistemas inteligentes por meio da corrente de Inteligência Artificial Fraca, que 10 explora a capacidade de processamento do computador para tarefas maçantes ao ser humano), havendo uma aproximação no sentido de complementação entre as correntes estatística e simbólica [78]. Desde então, o aumento vertiginoso no número de textos eletrônicos, melhores recursos computacionais e surgimento da Internet têm permitido explorar cada vez mais o PLN, precisando para isto lançar mão de uso de estatística (para permitir a análise de grande número de textos), etiquetadores (estruturando sintaticamente a sentença por etiquetas que remetem a partes típicas catalogadas, diminuindo ambiguidades e permitindo lidar com a variabilidade semântica) [49] [78]. Existem entraves à aplicação plena de PLN, onde atuam as várias pesquisas do gênero. Os gargalos na aplicação deste campo de pesquisa em geral se ligam a questões de ambiguidade de textos, complexidade no processamento neural de informações, não-concordância entre termos em traduções, distinção de informações implícitas em uma mensagem, uso do conhecimento para definição de uma informação, diferenciação de nuances referentes a estados de humor do interlocutor, diferentes abordagens das regras gramaticais são algumas das dificuldades enfrentadas. Entretanto, existem já métodos de aplicações provenientes de PLN que garantem certa robustez em análises, métodos estes levados em conta para a proposta deste trabalho. Em termos de Informática, o que se tem de presente é a forma de manipulação dos dados provenientes dos registros que se estuda. O uso de programação para análises linguísticas e elaboração de gráficos e redes permite a manipulação de um volume grande de dados, o que não seria possível ou viável através de análises manuais. Já a Linguística se faz presente nos estudos de PLN com a “etiquetação” de expressões de forma que padrões sintáticos sejam definidos e, a partir disto, análises semânticas possam ocorrer através de, por exemplo, identificação de qual “etiqueta” encabeça o sentido de uma sentença [49]. A composição da amostra sobre a qual as análises atuam e o uso intensivo de estatísticas para extração de informações também são parâmetros de PLN advindos da Linguística. 11 A Linguística como ciência estrutura-se pela atuação conjunta de muitos subcampos de pesquisa, onde a Linguística geral ocupa posição central e há interface entre sub-campos como Psicolinguística e Matemática, por exemplo [11]. A Linguística Computacional é a parte da ciência linguística que se preocupa com o tratamento computacional da linguagem natural. A ênfase maior recai sobre o estudo de fenômenos linguísticos e sua ocorrência em grandes amostras de uma determinada língua ou de uma variedade, dialeto ou modalidade Linguística, encontrando aplicações que englobam programas como tradutores automáticos, chatterbots, corretores ortográficos e gramaticais, parsers, entre outros [85]. Em uma simplificação que auxilia na definição de ações e histórico evolutivo, a Linguística Computacional é tomada como Processamento de Línguas Naturais (PLN) e estes como subsistemas que auxiliam a Inteligência Artificial [11]. Um dos métodos de Linguística Computacional é a aplicação da chamada Linguística de Corpus [84]. A Linguística de Corpus baseia-se no uso de corpora computadorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador) [78]. Corpus é um conjunto de dados linguísticos, sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise [78]. O trabalho com corpus aponta como requisitos básicos a capacidade de processamento em nível de hardware, definição concisa do corpus ou dos corpora (amostra representativa, extraída e trabalhada através de fontes de etiquetagem relevantes e balanceadas, de forma que “cubra” os valores do discurso analisado) e uso de softwares que deem suporte a uma análise como esta (trabalhando com expressões regulares dentro de linguagens regulares e fazendo uso de recursos de editores de texto eletrônicos) [49]. A Linguística de Corpus ocupa-se, então, da coleta e exploração de corpus/corpora, ou conjuntos de dados linguísticos textuais tratados com rigor e geralmente em grande escala, com o propósito de servirem para investigar uma 12 língua ou variedade Linguística [78]. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador [78]. A análise de um corpus com tal volume de informação é inviável manualmente, exigindo PLN e aplicações computacionais , o que garante rigor (e robustez) à análise, além de eliminação de parcialidades inerentes a análises manuais. Mesmo guiada por critérios bem definidos, a variabilidade de suas aplicações não pode ser calculada na máquina pela aplicação de uma rotina padrão Isto delimita os recursos e funcionalidades do software de execução, como é o caso do NLTK aplicado nesta pesquisa. Para a caracterização e o mapeamento de ações de entidades assistenciais, o software escolhido foi o pacote NLTK, que realiza o processamento de linguagem natural em Python (linguagem de programação excelente funcionalidade para processamento de dados linguísticos) [10]. NLTK foi concebido em 2001 como parte de um curso de Linguística Computacional no Departamento de Ciência da Computação e Informação da Universidade da Pensilvânia [10]. Devido a seu caráter de software aberto e gratuito, tem sido desenvolvido e ampliado com a ajuda de dezenas de colaboradores, pelo seu uso e concepção de módulos de análise linguística. Cada funcionalidade se concentra na execução de um módulo por meio de linhas de comando em Python digitadas em uma interface gráfica chamada Interactive DeveLopment Environment (IDLE). Entre as funcionalidades que estes módulos permitem estão o acesso aos corpora, processamento de strings, busca de collocations, etiquetagem morfossintática, classificação, chunking, parsing, realização de interpretação semântica e obtenção de métricas de avaliação, probabilidade e estimativas [10]. 13 2.2. Modelagem em Linguagem Natural Com o uso de recursos de PLN, Linguística Computacional e Linguística de Corpus, é possível mapear linguisticamente domínios de conhecimento e modelos de uso desse conhecimento para fins específicos, ou seja, construir uma modelagem Linguística que promova uma investigação única sobre associações e preferências de linguagem e mesmo sobre a indução de conhecimento por meio desta [49]. Na verdade, esta linha de raciocínio segue a mesma lógica de linguagens estabelecidas utilizadas para outras modelagens já conhecidas, tal como a aplicação da linguagem de Diagramas Entidade-Relação ou UML para modelagens conceituais (descrição concisa dos requisitos de dados dos usuários e de tipos entidades, relacionamentos e restrições [30]) muito utilizadas em construção de bancos de dados. São exemplos desta modelagem em linguagem natural os modelos neurolinguísticos (busca relações entre o processo de comunicação em linguagem natural com as atividades correspondentes a este evento no cérebro), modelos psicolinguísticos (investiga as atividades da fala humana, incluindo a percepção e formação de expressões, através de métodos da Psicologia) e modelos funcionais de linguagem (tomada da linguagem natural como caixa preta testada ao modo de Turing por meio de perguntas feitas pelo pesquisador e verificação das respostas de saída) [11]. Os modelos funcionais têm provado ser o modelo linguístico mais satisfatório, por se basearem em dados reais, acessíveis e disponíveis, tomando como principal método, além da observação de entradas e saídas, a intuição e introspecção, para a representação do dispositivo de análise e de sintetização da linguagem natural a partir do conhecimento de significado a ser expresso em texto escrito ou falado [11]. Assim, a linguagem natural é tomada como uma ferramenta para transformar uma destas formas de representação na outra: significado em palavras quando se fala/escreve e palavras em significado quando se ouve/lê [11]. A modelagem desta ferramenta de transição iniciou-se com os trabalhos de Chomsky de Gramática 14 Gerativa [11]. A esta foi se acrescentando a adoção de regras de combinação morfossintáticas na Gramática Livre de Contexto, a obtenção de frases interrogativas e negativas por meio da afirmativa pela Gramática Transformacional, a definição de Valências no cálculo de probabilidade de aparecimento ao complemento de um verbo, e o uso de Restrições como de gênero e número na complementação entre palavras em uma sentença [11]. Por fim, tal conceito culminou na chamada Head-Driven Phrase Structure Grammar (HPSG) em que uma palavra/expressão principal direciona toda a sentença como seu complemento, como uma herança, e existe a ideia de composição de um dicionário HPSG em que, para cada palavra, é fornecida a informação semântica que permite combinar os significados de palavras separadas em uma estrutura coerente de conjunto semântico [11]. Esta evolução histórica permite ver o início das modelagens Linguísticas na busca por regras universais de geração de sentenças em linguagem natural para modelos que passam a levar em conta a unidade mais primitiva de informação semântica: o lexema. Por definição lexemas são diferentes formas de expressão em linguagem de uma entidade comum, um conjunto que apresenta significado semântico único, tais como “livros” e “livro”, ou “devolver”, “devolvo”, “devolve” (e outras conjugações) [11]. O trabalho com lexemas impede a busca por definições universais, já que estes se expressam em formas de palavras e seu estudo se atrela, portanto, a amostras da linguagem natural estudada. É com base nesta ideia que foi concebida a Meaning Text Theory (MTT), um sistema de representação sobre expressões (sentenças ou conjuntos destes) apresentada como um conjunto de estruturas, que podem representar sete níveis entre o significado (meaning) e o texto (text): o semântico (SemR) , o de profundidade sintática (DSyntR), o de superfície sintática (SSyntR), os de profundidade e superfície morfológica (DMorphR e SMorphR) e fonológica (DPhonR e SPhonR) [55]. Estes níveis são representados na Figura 1, sem os detalhamentos dos níveis de profundidade e superfície, mas sim tomando-se os macro níveis entre Text e Meaning, apontando o fluxo de transição entre níveis que permite a correspondência de um mesmo significado expresso por duas línguas diferentes. 15 Figura 1. Níveis entre Text e Meaning [11]. A transição entre estes níveis (que pela definição acima exposta é a própria linguagem natural, aqui modelada pelo Meaning – Text Model) se dá por meio de componentes que possuem como propriedades a boa formatação de regras no nível de origem e no de destino. Propriedades também são reveladas por regras de transição (os dois primeiros para checagem e a aplicação do último). Esta delimitação da representação do lexema nos diferentes níveis e as formas de passar de uma apresentação a outra mantendo seu valor semântico exige o uso de um léxico formal que expressa o lexema e suas ligações [55], em um movimento de correspondência entre este léxico e seus significados, de forma não exclusiva e multidirecional, como mostra a Figura 2. Figura 2. Correspondência entre lexemas e significados [11]. 16 Já Harris definiu restrições que explicitamente ligam estrutura Linguística com regularidade distribucional envolvendo frequências de diferentes configurações estruturais (gramática lexicalizada), onde cada restrição envolve converter escolhas para a linguagem do usuário: definição de tipos para itens lexicais, escolhas léxicas de acordo com a seleção de probabilidades, escolhas de redução de acordo com a estatística distribucional e escolhas de linearização [72]. Tanto a gramática lexicalizada quanto os bags-of-words (abordagem que usa as frequências de palavras em documentos estudados para recuperação de informação) representam associações estatísticas entre palavras e uma determinada configuração, de modelam a linguagem como uma Linguística realista [72]. Dada a necessidade de uma modelagem que de conta da representação do conhecimento e possibilite a recuperação de informações de um arranjo tipo ao expresso pela atuação da Inteligência Social, emerge a chamada Modelagem Linguística. Este é um método de tratamento da informação que prevê o estudo de expressões Linguísticas por frequência e de suas conexões em redes semânticas a partir de seus significados, partindo do pressuposto que a trajetória do conhecimento em um domínio de saber é retratada através de linguagens (palavras, ou números, ou imagens, ou códigos, etc.) [84]. Esta modelagem parte do pressuposto que a comunicação se dá essencialmente por meio de linguagens bem estabelecidas para os envolvidos [84]. Assim, pode a modelagem atuar de forma a mapear um conhecimento por meio de frequências lexicais e mensuração de ligações entre expressões, apontando ligações entre temáticas de conhecimento e tendências de fluxo deste de forma quantitativa por meio de cálculos estatísticos. O uso da estatística no PLN requer um recorte de trabalho (delimitado pelo corpus). Seu uso está presente tanto na corrente racionalista (ou gerativa) das teorias da linguagem como na corrente empirista. A primeira envolve aplicação e descrição de uma competência linguística inata dos falantes. A segunda envolve uma performance linguística, ou seja, descreve o uso efetivo da linguagem em situações em que ela é afetada por limitações ou ambiente externo [49], sugerindo que possa estar alinhada com o tipo de modelagem praticada, por exemplo, por Zellig Harris no sentido de estreitar a divisão 17 metodológica dos estudos linguísticos. A categorização de apresentações e de tipos de sentença promove uma investigação única sobre associações e preferências de linguagem e também sobre a indução de conhecimento por meio desta [49], tal como buscado nesta pesquisa.. Dado que o conhecimento é expresso por meio da linguagem, é rápido concluir que as identificações quantitativas levam a um mapeamento mensurável do conhecimento, que pode ser então objetivamente comparado a outro. Assim, este tipo de tratamento linguístico da informação pode vir a alicerçar conclusões sobre como o conhecimento social se organiza a respeito da situação narrada, isto é, como categoriza linguisticamente a experiência em situações de desastres naturais. 2.3. Aplicação de Estatística sobre Modelagem Linguística A estatística de frequência pode ter várias aplicações em modelagem linguística, por exemplo, para detectar concordanciação entre palavras. Nesta aplicação, identificam-se etiquetagens possíveis para um termo de acordo com a análise e distribuição de elementos gramaticais mais frequentes no entorno desse termo de interesse (palavra, expressão lexical ou raiz) [49][78]. É possível calcular a probabilidade de um evento condicionado à ocorrência de outro desde que o espaço probabilístico de ambos os eventos analisados apresente intersecção. Se os eventos em questão forem tomados como ocorrência de expressões lexicais em sentenças, pode-se validar estatisticamente a ocorrência de concordâncias como eventos dependentes [49]. Pode-se, assim, investigar o aparecimento de expressões linguísticas que se combinam e que probabilisticamente se encaixam em padrões reconhecidos como 18 recorrentes que recebem o nome de collocations. Um exemplo seria “Buenos Aires”, onde a ocorrência de “Buenos” na cadeia linear de uma sentença pode ter alta probabilidade de ser seguida pela ocorrência do item lexical “Aires”. As collocations, entretanto, não se limitam a relações de contiguidade imediata apenas entre duas expressões (é o caso de bigramas), podendo combinar também expressões a intervalos regulares maiores ( n-gramas). O teorema de Bayes permite calcular probabilidades de eventos dependentes em uma dada ordem por meio de uma regra da cadeia própria de eventos com probabilidades que se interceptam [49], o que permite calcular a probabilidade condicional de um evento dada a ocorrência de outro (sendo também este outro condicionado a uma probabilidade) [51]. Em geral, para que a construção de uma sentença faça sentido, as palavras tendem a apresentar alguma dependência em relação a elementos anteriores na cadeia linear [49]. A estatística não se limita a uma simples composição amostral. Sua principal aplicação está em análises quantitativas pelo uso de coeficientes derivados das frequências de expressões no corpus estudado. Sua utilização pode estar em uma quantificação sobre a significância de determinadas expressões para um conhecimento de uma localidade, determinando se esta expressão encontra-se no corpus correspondente inserido de forma casual ou determinante para aquele conhecimento. Isto se dá pela determinação de significância tomando-se uma probabilidade de erro de limiar típica de estudos linguísticos fixado em 0,05 e fazendo uso de cálculos distributivos de t-student e seu índice qui-quadrado [16]. Pode-se ainda pensar no uso do coeficiente que distingue o crescimento linear de tokens do curvilíneo de types e lemas. A diferença deste coeficiente K indica o quão denso é o léxico para um contexto [16]. A busca de padrões em comportamentos discursivos associados a situações de desastres pode facilitar na identificação da forma como a sociedade vê o desastre. Assim, para narrar a ocorrência de um desastre é preciso que ele seja categorizado linguisticamente de tal modo, que seu tipo e circunstâncias possam revelar-se através desta etiquetagem. O arranjo de combinação entre os termos 19 presentes em uma sentença (sintaxe) e destes com termos ausentes que também poderiam encaixar-se nas mesmas posições permite identificar relações de dependência entre partes da sentença (regras semânticas). Isto sendo aplicado em um corpus de textos jornalísticos sobre desastres, por exemplo, possibilita identificar e descrever como o posicionamento de entidades assistenciais é descrito nesse gênero de textos. Entidades como ONU, Cruz Vermelha ou Anistia Internacional podem ser identificadas como nomes próprios, associados, por exemplo, às ações que executam. A relação com as ações excecutadas por outras entidades ou instituições permitirá detectar entidades que eventualmente estejam se ocupando da mesma ação/ ações análogas. O uso desta metodologia permite colher dados de relacionamento que permitam a estruturação de uma representação tabular de relações a ser convertida em uma rede discursiva pelos programas cabíveis, delineando a aplicação de Ciência de Redes à comunicação de desastres tal como proposta por Steinberger [85]. 2.4. Modelos de Difusão de Informação e Conhecimento Os chamados Modelos de Difusão de Informação e Conhecimento são representações de como se dá o fluxo de informações e conhecimento, dentro de uma determinada linguagem suportada por uma estrutura de canal. Em geral, a relação entre interlocutor e receptor, em uma perspectiva clássica do tema, é tomada por uma representação gráfica de nós e arcos. À medida que se somam interlocutores e receptores na emissão e recepção de fluxos de uma informação ou conhecimento sobre uma mesma temática, esta representação se adensa a ponto de formar o que é conhecido por rede. A modelagem Linguística aqui aplicada atua sobre um modelo de difusão de informação e conhecimento sobre catástrofes 20 naturais. Pode-se restringir os estudos de modelo de difusão de informação e conhecimento em três campos básicos: Ciência de Redes, Ciência da Informação e Comunicação, Processamento de Linguagem Natural (este último já bem detalhada acima por ser substrato principal para as aplicações deste projeto de pesquisa). A Ciência de Redes é o estudo de redes que remete a suas expressões gerais por meio de grafos, iniciadas por Euler em 1736 [99]. Porém, a ciência de redes dá funcionalidade a estas representações por meio de estudos de como se agregam os comportamentos individuais e coletivos de elementos em uma rede [99]. Assim, dependendo do campo de estudo, dá física a sociologia, é possível formar uma ciência de redes específica de forma a compreender fenômenos pertinentes a cada disciplina. Porém, o mais interessante está quando as diversas disciplinas se juntam para correlacionar os eventos descobertos individualmente, permitindo a observação de mecanismos de compreensão de uma ciência de redes isoladas para uma mais geral, que cobre genericamente todo tipo de rede, desde átomos com spins alinhados em um imã até uma rede social para a promoção de um novo produto [99]. São pertinentes a esta ciência a interdisciplinaridade, a representação gráfica por laços/arcos (conexões) e nós (conectores), o estudo sobre a ocorrência de agrupamentos de nós e a relação entre estes grupos onde existe a aglomeração de nós atingidos por uma informação ou conhecimento, seja por laços bem conectados que transpõem o limiar médio dos nós entre os dois grupos (conectores de Gladwell), seja pela presença de laços que não se encaixam bem em nenhum dos grupos e funcionam como pontes entre estes (laços fracos de Granovetter) [99]. Pode receber tanto uma abordagem estática, de retrato de um instante de interferência em um momento, como dinâmica, onde se busca definições sobre como as interferências e conexões se formam (ou deixam de existir) [99]. Os estudos sobre Redes Livres de Escala de Barabási e Albert (desenvolvimento autoorganizado, que se dá de forma natural e simples) e o paralelo entre contágio biológico ao que se denominou contágio social ilustram estas abordagens [99]. Muito embora as descobertas e aplicações se deem sobre todo tipo de rede, esta ciência está bastante atrelada ao estudo de redes sociais. Isto porque, foi de aplicações de 21 técnicas e formalismos de ciências exatas sobre as humanas que se começou a vislumbrar um caminho como o demarcado hoje para estudos de redes [99]. A Ciência da Informação e Comunicação (CIC) é um campo de estudo que carrega em si resultados gerados desde o início de estudos no período pós Segunda Guerra Mundial. Porém suas aplicações e relevância apontam para um período bem mais curto, calhando com o surgimento da internet e disseminação de computadores pessoais. É definido como um campo dedicado às questões científicas e à prática profissional, voltadas para os problemas da efetiva comunicação do conhecimento e de seus registros entre os seres humanos, no contexto social, institucional ou individual do uso e das necessidades de informação [13]. Isto é, estuda como o crescente número de informação e criação de canais de comunicação atinge o todo e chega aos interessados, procurando formas mais efetivas para que isto ocorra. Como se pode concluir, esta ciência tem como foco entender questões relacionadas à propagação de informação e conhecimento, desde a criação destes até sua aplicação para a realização de ações. Seus estudos concentram-se ao mundo empírico, por meio de medições e pesquisas que buscam padrões de comportamento, delimitação de confiança e relevância para os diferentes atingidos. A ideia de rede é intuitiva aqui após o apresentado, com a informação sendo a interferência de um nó no outro por meio dos arcos (canais de comunicação). Estas redes, por terem atribuídos aos seus nós e arcos valores bem delimitados para o estudo são redes semânticas, isto é, redes de conceitos que se apresentam estruturados de alguma forma que seja compreensível aos nós e levam a um entendimento coletivo por meio do estabelecimento do consenso por meio da comunicação colaborativa. Com o uso de recursos de PLN, tendo em vista os conhecimentos de modelos de difusão de informação e conhecimento, é possível conceber-se modelagens sobre um espaço de conhecimento, de forma a mapeá-lo. O interesse em delimitar as potencialidades deste tripé dos Modelos de Difusão de Informação e Conhecimento está em fazer uso de seus recursos de forma a descrever a presença enredada de entidades assistencialistas nos relatos de catástrofes e avaliar seu papel. Isto porque é necessária uma atuação conjunta de instituições em eventos 22 como este que demandam uma economia de esforços de forma que se consiga realizar o máximo possível com o mínimo disponível, dada a escassez de recursos própria de uma situação como esta. Também a tomada das notícias sobre eventos estudados como registros linguísticos do conhecimento para a análise e o entendimento de que estes se distribuem longo do tempo em uma curva em S, como no caso das inovações descritas por Rogers, assim como ocorre para os canais interpessoais e meios de comunicação social. Tais padrões comuns de difusão de eventos de notícia foram encontrados por estudiosos na tradição de pesquisa de notícias de difusão, demonstrando que "o processo de difusão é muito mais regular do que já suspeitávamos" [74]. Uma diferença a partir da difusão de inovações é que outros eventos noticiados se espalham muito mais rapidamente. Essa rapidez de difusão de notícias ocorre porque o indivíduo só precisa adquirir conhecimento consciência de notícias do evento, enquanto que a adoção de uma inovação tecnológica consiste no conhecimento, persuasão, decisão e fases de implementação no processo de decisão-inovação. Ao contrário de inovações tecnológicas, eventos, notícias são ideias que não têm uma base material. Uma das importantes contribuições dos estudos de difusão de notícias de eventos tem sido a de estabelecer as condições em que os meios de comunicação de massa são relativamente mais importantes que os canais de comunicação interpessoal na difusão de uma ideia nova. O uso destes conceitos apresentados e a perspectiva em rede do conhecimento sobre a atuação das entidades (expressa em linguagem natural) é justificável por apresentar exemplo de realizações análogas, como Watts apresenta em sua literatura a respeito de Redes de Mundo Pequeno para uma rede elétrica, onde o estudo desta é realizado para a identificação de como se desencadeavam falhas, de forma a evitá-las e tornar o sistema mais robusto não pelo acréscimo de elementos, mas sim pelo uso econômico dos recursos e ligações já existentes [99]. Parte-se então com a hipótese de que a comunicação entre instituições facilita a assistência em ocorrências de catástrofes naturais, levando a uma forma mais econômica de prestar ajuda que se alinha a perspectiva de menor esforço da Lei de Zipf [49]. Esta lei aponta que as pessoas agem de forma a minimizar sua taxa média provável de trabalho (atual e futuro) [49]. A linguagem inclui-se nesta economia, apoiada por distribuições estatísticas de seu uso, que 23 demonstram que palavras mais frequentemente utilizadas possuem um amplo número de significados e palavras pouco utilizadas significados mais restritos, sendo estas utilizadas na desambiguação de significados daquelas de forma a se ter um uso racional da linguagem [49]. A difusão de informações é estudada sobre o chamado sistema social. Este é definido como um conjunto de unidades inter-relacionadas que estão engajadas em resolução conjunta de problemas para alcançar um objetivo comum. Os membros ou unidades de um sistema social podem ser indivíduos, grupos informais, organizações, e / ou subsistemas. A estrutura social do sistema afeta a difusão da inovação de diversas maneiras. O sistema social constitui um limite dentro do qual uma informação se difunde. A estrutura de um sistema social pode facilitar ou dificultar a difusão de inovações. O impacto da estrutura social sobre a difusão é de especial interesse para os sociólogos e psicólogos sociais, e da maneira em que a estrutura de comunicação de um sistema afeta a difusão é, particularmente, tópico interessante para os estudiosos da comunicação. A aplicação de redes aqui, sobre o sistema social, se ancora nas definições dos eventos estudados como expressões de inteligência social. Isto aponta para redes de atuação de entidades como Redes Descentralizadas, que não apresentam um nó que dita a sequência de eventos ou centraliza conexões de forma que todas as informações tenham, necessariamente que passar por ele [99]. Assim a atuação das entidades assistencialistas só se faz possível pela ocorrência da comunicação aqui estudada, em seu sentido como um processo no qual os participantes criam e compartilham informações entre si, a fim de chegar a um entendimento mútuo [99]. Rogers define como Análise de Redes de Comunicação um método de pesquisa para identificar a estrutura de comunicação em um sistema, no qual os dados relacionais sobre os fluxos de comunicação são analisadas por meio de algum tipo de relação interpessoal como unidade de análise, sendo que a análise de redes permite a compreensão da estrutura de comunicação como canais do processo de difusão [74]. Este é justamente o propósito desta pesquisa, tomando a estrutura de comunicação como a rede discursiva sobre a atuação de entidades, os dados 24 relacionais é o corpus composto por notícias sobre o evento estudado, a unidade relacional são as palavras e expressões e a análise a modelagem Linguística. Cancho e Solé demonstram quantitativamente que uma rede baseada em expressões lexicais (as palavras existentes em um determinado idioma [50]) de uma língua natural, estruturada por meio de co-ocorrências em um recorte da sentença em que se insere, possui o comportamento de uma Rede de Mundo Pequeno [14], citada acima como exemplo. Esta rede é uma hipótese proposta por Stanley Milgran em 1967 onde o mundo é visto como uma enorme rede de relações sociais (rede social) que em certo sentido o leva a ser pequeno [99]. Neste entendimento, qualquer pessoa no mundo podia se conectar a outra em apenas alguns passos [99]. Isto permite uma série de análises, pela forma de estruturação e pela constatação de redes lexicais como redes sociais. A estruturação por co-ocorrência já possui algumas modelagens realizadas, como o modelo DM (Dorogovtsev e Mendes) para o acréscimo de palavras novas a rede e o trabalho de Markošová baseado no modelo DM, mas considerando algumas variáveis adicionais nesse dimensionamento: a exclusão do nó aleatório, a religação preferencial das extremidades do nó escolhido e o poder de mudança de uma palavra quanto ao seu significado ou contexto dentro de uma determinada frase [50]. Esta estruturação foi utilizada por Stevanak et. al., por exemplo, no desenvolvimento de um algoritmo de classificação de tipo de texto (noticioso ou de ficção) [87]. Existem outros tipos de estruturação de léxico, como a promovida por Arbesman et. al. para estudo de redes fonológicas, realizada por meio de proximidade dos fonemas dos itens lexicais [4]. Pode-se ainda montar redes de disseminação de léxico, como realizou Altmann et. al. em seu estudo sobre como se criavam nicho de palavras realizadas a grupos de usuários e tópicos específicos de discussão [2]. 25 2.5. Pesquisas sobre Interações Sociais e Desastres Dentro do domínio geral, na temática de interações sociais e desastres, Beaudoin promove uma investigação pós-catástrofe entre mídia de massa e capital social (recursos intangíveis das relações sociais e redes sociais que podem ser acessados e mobilizados na ação intencional) na difusão de informações sobre saúde, segurança, limpeza, estresse e depressão a comunidade afro-americana (no domínio específico do Furacão Katrina de 2005)[6]. Murphy também trabalha o conceito de capital social, distinguindo a atuação de dois tipos de gestão de emergência: um governamental e outro comunitário, sendo que neste último o capital social é apontado como de extrema importância para delinear caminhos de atuação social [65]. Abbasi et al. restringem a comunidade de sua modelagem, descrevendo relacionamentos entre bombeiros como uma rede social que permite aplicações em coordenação de pessoas e gestão de organização e emergências [1] . Sugimoto et al. construíram redes sociais úteis na educação pós-catástrofe pela modelagem de três processos de coordenação e análise de ajuda no momento após o domínio específico do Tsunami no Oceano Índico de 2004 [88]. Trabalhando com serviços de redes sociais móveis, Zhou et al. apresentam resultados positivos de assistência psicológica no pós-catástrofe do terremoto de Sichuan (China-2008). Também em redes sociais, Hossain e Kuti apontam a ideia de composição de uma rede social previamente articulada de coordenação em situação de desastre, destacando uma correlação positiva entre conexões e potencial de coordenação, além da atuação de subgrupos sociais ligados por laços fracos [40]. Bedford e Faust estudam o uso e sustentação de redes eletrônicas sociais focadas na disseminação de informações no pós-catástrofe, identificando para o domínio específico do terremoto do Haiti (2010) que a mídia social bem empregada facilita o compartilhamento de conhecimento, mal empregada acrescenta 26 complexidade desnecessária ao sistema, e que estas mídias possuem o problema de não uso de informações de fora de comunidades em que se formalizam [7]. Também neste domínio, Yates e Paquette realizam um estudo de caso sobre o uso de sistemas de Gestão de Conhecimento (GC) na partilha de conhecimento, reuso e tomada de decisão para o terremoto em questão, apontando as tecnologias de mídias sociais como promessas no abastecimento de sistemas deste tipo com foco na recuperação pós-catástrofe [100]. Dentro de pesquisas em mídias eletrônicas, Kim e Park tratam da atuação de tecnologias utilizadas em governo eletrônico (e-Gov) e o uso deste na gestão de emergências por fundamentos de continuidade de negócios e recuperação de desastres em tecnologia de informação centrada [42]. Takazawa aborda como a mídia YouTube afeta o entendimento social do conceito de catástrofe, passando de um evento temporal para um contínuo, como uma memória de imersão que leva o desastre a pessoas que, a princípio, não são afetadas, englobando-as no coletivo que respalda ações [89]. Já Vieweg et al. analisaram mensagens no Twitter de pessoas em situação de emergência em um incêndio e uma inundação ocorridos nos EUA (2009), para delimitação da consciência situacional e extração de informações [96]. Em outra abordagem, Dilmaghani e Rao promovem o estudo sobre estruturas de comunicação (sem fio, mensagem de texto, páginas webs) no repasse e atualização de informações no momento pós-catástrofe [28][29]. Ebert et al. expõe a gestão de riscos voltado ao planejamento urbano por meio da definição de um índice de Vulnerabilidade Social composto por 47 variáveis advindas de um Sistema de Informação Geográfico (SIG). Braga et al. segue o mesmo caminho ao buscar definir metodologias de mensuração de riscos a vulnerabilidades de eventos naturais adversos por meio de indicadores provindos de fluxos de comunicação, registros e bancos de dados [13]. Christofoletti demonstra em sua literatura que uma série de modelagens pode ser realizada para diferentes instrumentos pré-concebidos de tratamento de informações do meio ambiente, de forma a extrair informações e conhecimentos novos, ocultas ou de forma mais 27 eficiente e rápida, com aplicação de modelagens na concepção de SIG [24]. Para a modelagem nestes casos se apresentam noções de resiliência, sensibilidade, teoria das catástrofes e criticalidade auto-organizada, permitindo a identificação de fatores físicos controladores e as mudanças que acarretam, conjuntamente com fatores de impacto humano, históricos e de influência climática [24]. Mais próximo da ideia de uma inteligência social presente em situações de desastres está o trabalho de Palen et al. estudam a integração das funções do coletivo social nos softwares de acompanhamento de desastres, formação de massa crítica de emergência e cobertura de atividades pela distribuição de informações à sociedade [71]. Centrada sobre a busca desta interação de esforços entre os trabalhos de ajuda na assistência de desastres naturais na América Latina, Hermelin identificou esforços de caracterização por formas de prevenção por meio de estudos de como a mídia atua neste processo [39]. O distrito de Tunjuelito (Bogotá - Colômbia) identificou como forma de atuação a execução de planos desenvolvimentos locais [91]. Para o domínio específico do Haiti tem-se a “Comissão Interina de recuperação do Haiti”, formada em 15 de abril de 2010 com vigência de 18 meses, tendo em vista o planejamento estratégico, coordenação e execução sobre recursos de doadores bilaterais e multilaterais, organizações não-governamentais e do setor empresarial, de forma a otimizar os investimentos e contribuições destas entidades [73]. Já no Chile, o ONEMI - Oficina Nacional de Emergência do Ministério do Interior é um organismo permanente que se apoia no tripé prevenção, emergência e recuperação, frente às situações de risco coletivo, emergências, desastres e catástrofes de origem natural ou provocado pela ação humana, através da coordenação do Sistema Nacional de Proteção Civil para a proteção das pessoas, bens e meio ambiente [23]. Estes trabalhos apontam para a ocorrência de oito tipos de abordagens para o tratamento de questões sociais por meio de modelagens de desastres: abordagem sobre o capital social, rede social para coordenação do momento pós-catástrofe, aplicação de tecnologias no compartilhamento de conhecimento sobre desastres, aplicação de tecnologias de internet na gestão de desastres, abordagem por meio 28 de índices geográficos e SIG à ocorrência de catástrofe (foco na prevenção), coletivo social, e planejamento e execução por meio de órgãos locais. Assim, a diferença básica destas pesquisas para a executada o projeto aqui demonstrado é o uso da Linguística para fins de descrição do que ocorre em termos de atuação de entidades e seus arranjos promovidos pela emersão de inteligência social, o que pode respaldar a criação de aplicações futuras em termos de integração de padronização de registros sobre desastres naturais que auxiliem no entendimento de como se dá a assistência em momentos de desastres naturais e poderão ser aplicados no processo de tomada de decisão no pré, durante e pós-catástrofe. Existem sim algumas similaridades com algumas abordagens, como o uso de conceitos de rede social, embora as redes utilizadas tomem elementos da sociedade para a estruturação por outros meios que não o léxico em que são expressos, e também quanto às abordagens de capital social e coletivo social, onde a primeira abordagem não pode ser colocada como a dada aqui por conta de seu estudo na disseminação e não tratamento de informações, e no segundo o processo tem foco na difusão de informações e comportamentos em ambiente virtual e não na descrição do evento ocorrido em rede e emersão de inteligência social. 3. METODOLOGIA O método de pesquisa guia-se por investigar como os métodos de PLN podem ser mobilizados para o estudo de catástrofes naturais (em especial os terremotos citados) de forma a verificar a hipótese, tendo em vista criar um método com ajuda de análises de discurso que seja capaz de reconhecer automaticamente em um corpus de notícias de desastres quais são os atores envolvidos nesse cenário emergencial e quais papéis e ações que eles podem desempenhar. Em 29 especial ações pertinentes para o contexto latino-americano, considerando que não há protocolos estabelecidos de intercomunicação nos diferentes países e nas entidades assistenciais que atuam nestes. 3.1. Composição do Corpus Existem algumas análises que perpassam todo o desenvolvimento do projeto. Primeiro a análise do material levantado para a identificação de sua aplicabilidade frente aos objetivos de Modelagem Linguística para os fins apontados, bem como sua coleta e estruturação de metadados sobre sua composição que auxilie nas análises; isto é, a composição do corpus. O corpus adotado nesta pesquisa constitui-se de textos jornalísticos extraídos da Folha de São Paulo no período de 12/01/2010 à 12/02/2011 para a busca “Haiti” e de 26/02/2010 à 26/03/2011 para a busca “terremoto Chile” (inclusão do termo terremoto para dissociação do caso dos mineiros soterrados no Chile em 05/08/2010), de forma a se ter um ano e um mês de reportagens após a ocorrência dos desastres. Foram levantadas 842 reportagens sobre o terremoto haitiano e 144 para o chileno. Estas reportagens tiveram o seu corpo de texto salvo em formato txt (compatível com os programas de análise em PLN apresentado na sequência) e os dados de Identidade do Evento (ID), Identidade Numérica (Nº), Data, Título da Matéria, Subtítulo, Link, Instituição, Autoria, Seção, Local, Figura e Legenda organizados em uma planilha. Além disto, foi realizada uma classificação por cor onde: branco - reportagens pertinentes, amarelo - reportagens não pertinentes, verde - reportagens parcialmente pertinentes, azul - reportagens que demonstram interface com outras catástrofes. A tabela 1 apresenta um trecho desta planilha onde de pode observar a estrutura de dado montada entre as reportagens 437 e 440 para o primeiro terremoto. 30 Tabela 1. Trecho de estruturação de dados sobre corpus do terremoto do Haiti em planilha eletrônica. ID Nº Data Título da Matéria TH 26 de 437 fevereiro de 2010 TH Governo detém cidadãos que queriam participar de funeral, no leste da ilha, de militante morto na terça após greve http://www1. REDAÇÃO 26 de Ativista cubano é de fome. Ao deixar folha.uol.com.br Com 438 fevereiro enterrado sob cerco Havana, Lula não /fsp/mundo/ agências de 2010 militar volta a comentar ft2602201001.htm internacionais episódio, mas reitera apelo a Obama para que ponha fim ao embargo econômico a Cuba TH 26 de 439 fevereiro de 2010 Burns, Hillary, Obama TH 27 de 440 fevereiro de 2010 TERREMOTO: Forte tremor na costa japonesa não faz vítimas No Haiti, Lula pede perdão da dívida e elogia missão do Brasil Subtítulo Em 1ª visita após terremoto, presidente se emociona ao discursar a militares Link Instituição Autoria Seção Local http://www1. folha.uol.com.br /fsp/mundo/ ft2602201004.htm ENVIADA ESPECIAL SIMONE IGLESIAS Mundo PORTO PRÍNCIPE SIMONE IGLESIAS Mundo Havana Figura Legenda Dissidentes cubanos organizam vigília em Havana em homenagem a preso http://www1. político folha.uol.com.br Orlando /fsp/images/ Zapata e2602201001.jpg Tamayo, morto na terça-feira após 85 dias de greve de fome http://www1. folha.uol.com.br ELIANE Opinião BRASÍLIA /fsp/opiniao/ CANTANHÊDE fz2602201004.htm http://www1. REDAÇÃO folha.uol.com.br Com Mundo /fsp/mundo/ agências ft2702201010.htm internacionais 31 A Figura 3 demonstra o perfil acumulativo de número de reportagens dentro do período para o recorte feito na composição do corpus do Haiti e a Figura 4 a distribuição destas reportagens nas seções do jornal. Analogamente, as Figuras 5 e 6 apresentam os correspondentes para o corpus do Chile. Figura 3. Perfil acumulativo de número de reportagens do Haiti dentro dos períodos especificados. Figura 4. Distribuição de reportagens do Haiti por seções. 32 Figura 5. Perfil acumulativo de número de reportagens do Chile dentro dos períodos especificados. Figura 6. Distribuição de reportagens do Chile por seções. 33 Estes resultados provenientes da etapa de coleta e análise dos corpora são relevantes na verificação da hipótese por permitir visualizar se as informações e conhecimentos inseridos na reportagem se disseminam no tempo conforme prevê a ciência de redes e os modelos de difusão de informação. Os perfis demonstram que, tanto nas categorias que dividem as notícias (elaboradas pelos autores de acordo com seus esquemas de distinção e conhecimento sobre o evento) como na composição total, a cronologia das reportagens caracteriza-se por uma frequência ascendente no início e estabilização nos últimos períodos. Este também é o perfil descrito por Rogers [74] para a difusão de informações sobre novos eventos/coisas em um meio, quando define como centro do processo de difusão as trocas interpessoais em rede e a modelagem social entre os indivíduos que já detinham conhecimento sobre a informação e aqueles que, em seguida, tomariam contato. Esta é chamada de uma rede de comunicação, composta por indivíduos interligados que estão ligados por fluxos de informação padronizada; ou redes interpessoais, que ligam os membros de um sistema e determinar quem interage com quem e em que circunstâncias [74]. Isto se alinha com a definição apresentada de rede dos Watts [99], mais ainda, está de acordo com as abordagens sobre rede social dadas pelo mesmo autor, como uma estrutura de rede correspondente a uma estrutura social, onde os indivíduos podem ser diferenciados por sua participação em grupo ou por papéis socialmente distintos; ou tomando rede como canal de propagação de informações ou exercício de influência [99]. Assim, estudar notícias de jornais sobre o terremoto é entender como os conhecimentos sobre a inteligência social utilizada em situações de catástrofe são difundidos e estabelecidos como padrões comportamentais na sociedade, tomando esta como uma rede. 34 3.2. Demonstração de metodologia frente ao objetivo Para deixar claro o objetivo e o método de pesquisa adotados, tomou-se como exemplo dos textos nº60 e nº84 levantados para o terremoto do Haiti. A tabela 2 mostra os dados referentes a estas duas reportagens. Tabela 2. Reportagens para exemplificar objetivo e método de pesquisa. Nº Título da Matéria Data 60 15 de janeiro de 2010 Cruz Vermelha estima mortos em até 50 mil 84 16 de janeiro de 2010 ONU suspende pedido por equipes de resgate Subtítulo Link Instituição Autoria Número é o primeiro baseado em observações de campo, realizadas por voluntários da organização, desde o http://www1. "New York terremoto. folha.uol.co Times", LUCIANA Funcionária da m.br/fsp/mu agências COELHO ONU, porém, ndo/ft15012 internacionais considera 01006.htm e REDAÇÃO estimativa de 100 mil "coerente'; missão eleva para 36 seus mortos e alerta para a crescente tensão local http://www1. folha.uol.co m.br/fsp/mu ndo/ft16012 01008.htm Redação LUCIANA COELHO e PAULA ADAMO IDOETA Seção Local Mundo Genebra Mundo Genebra O passo seguinte foi então promover, manualmente para este exemplo, a identificação de quais palavras nomeiam as entidades assistencialistas que podem ser extraídas e quais ações e funções estão associadas a essas entidades. Assim, é possível a verificação de superposições (entidades acumulam as mesmas funções) e lacunas (há funções que não são desempenhadas especificamente por nenhuma 35 das entidades). As marcações em vermelho na tabela 3 expressam a referência a entidades e em verde as necessidades e ações executadas por estas. Tabela 3. Marcação de entidades e ações. Reportagem 60 A Cruz Vermelha estimou ontem em 45 mil a 50 mil os mortos no terremoto da última terçafeira no Haiti, no primeiro número consolidado, desde a tragédia, a partir de observações de campo, realizadas por voluntários da organização anteontem em Porto Príncipe. "Continua sendo uma estimativa da Cruz Vermelha. Mas nós acreditamos que seja uma boa estimativa da situação até agora", disse Jean-Luc Martinage, porta-voz do Comitê Internacional da Cruz Vermelha (CICV) e Crescente Vermelho. Martinage afirmou ainda que o número está sendo utilizado por autoridades haitianas. Anteontem, o presidente do Haiti, René Préval, dissera ter "ouvido" falar em até 50 mil mortos. O premiê, Jean-Max Bellerive, por sua vez, estimara em "centenas de milhares" os mortos. A representante permanente do Programa de Desenvolvimento da ONU (Pnud) no Haiti, Kim Bolduc, disse que o processo de avaliação do estrago e do saldo de mortos está apenas começando. Mas, indagada sobre o número de 100 mil, base da estimativa de Bellerive, disse ser uma estimativa coerente. Segundo Préval, 7.000 vítimas do tremor já foram enterradas pelos próprios haitianos. A Cruz Vermelha manteve também a estimativa de cerca de 3 milhões de atingidos pelo sismo, entre feridos e desabrigados, ou um terço de toda a população do país. Na capital haitiana e arredores -a apenas 15 km do epicentro do tremor- vivem 4 milhões de pessoas. A ONG britânica Save the Children alertou ainda para a possibilidade de até 2 milhões de crianças e adolescentes haitianos se encontrarem em condição de risco no país. Muitos, disse a organização, podem estar tendo que sobreviver sozinhos, feridos e traumatizados. A ONU elevou ontem para 36 a contabilidade dos mortos entre membros da Minustah -a missão de estabilização criada em 2004 e liderada pelo Brasil-, o que representa a maior tragédia em perda humana em um único evento desde a sua fundação, há mais de 60 anos. De acordo com David Winhurst, porta-voz da Minustah, entre os mortos confirmados estão 19 soldados de manutenção de paz -14 deles brasileiros-, 13 membros civis e quatro policiais da ONU. Os desaparecidos chegam a 150. Entre eles está o chefe diplomático da Minustah, o tunisiano Hedi Annabi, e seu vice, o brasileiro Luiz Carlos da Costa. Anteontem, Préval dera Annabi como morto -o que não foi, porém, confirmado pela ONU. Estão desaparecidos também quatro militares brasileiros. Tensão crescente Segundo Winhurst, a precariedade das condições das forças de segurança e as carências no atendimento à população estão gerando impaciência na população. "Eles [os haitianos] estão cada vez mais irritados." Segundo alguns relatos, haitianos começaram a erguer barricadas com corpos das vítimas em ruas da capital em protesto contra a demora no socorro aos flagelados. A polícia 36 haitiana, segundo Winhurst, desapareceu das ruas. "Estamos todos cientes de que a situação está ficando mais tensa", disse. "Eles querem que providenciemos ajuda, o que, é claro, é o que nós queremos fazer", disse o porta-voz. "A coisa está ficando muito feia por lá. As pessoas estão cansando de não ser atendidas", relatou um repórter da revista Time à agência Reuters. A demora é agravada pelo excesso de tráfego de aviões carregados de suprimentos, que congestionou o aeroporto da capital. À tarde, 11 aeronaves chegaram a sobrevoar simultaneamente a região sem licença de pouso, e autoridades desviavam voos para a República Dominicana temendo que o combustível acabasse na espera. O "pesadelo logístico", na definição da ONU, levou os EUA a suspenderem voos civis ao Haiti e, mais tarde, a assumirem o controle do terminal, de acordo com a Chancelaria americana. "O problema não é na distribuição [da ajuda humanitária], é na capacidade do aeroporto. Ele não está acostumado a receber esse volume de aviões", disse John Holmes, subsecretário da ONU para ajuda humanitária, de Nova York. Holmes descreveu dificuldades para o descarregamento dos aviões. Reportagem 84 A ONU suspendeu o pedido por equipes de resgate no Haiti, exceto pelas dez que estavam a caminho ontem -outras 17 já trabalham em campo. No fim da tarde, expirou o prazo de 72 horas após o qual a expectativa de achar sobreviventes sob os escombros cai drasticamente. "Não precisamos mais de equipes de resgate", disse John Holmes, subsecretário-geral da ONU para Questões Humanitárias, via webcast de Nova York. As buscas, no entanto, serão mantidas por ora. No mesmo dia, o organismo lançou apelo para arrecadar US$ 560 milhões em doações para o Haiti, metade dos quais será usada em comida. Até agora, cerca de US$ 360 milhões em fundos e suprimentos foram prometidos por governos, empresas, agências e ONGs. Menos da metade desse montante foi de fato doada ou proposta em acordos de peso legal, mas nem tudo será entregue às mãos da ONU e nem tudo é para operações imediatas. Segundo as agências humanitárias em Genebra, o grande problema em campo continua a ser a distribuição de suprimentos -que chegam ao Haiti por ar e por terra, mas nem sempre às mãos das vítimas. Bases logísticas foram criadas na República Dominicana e no Panamá. Ontem o secretário-geral da ONU, Ban Ki-moon, queixou-se da falta de coordenação entre as agências internacionais e as de governos doadores. Já Holmes citou problema com a distribuição de suprimentos. A logística é também o maior obstáculo à aceleração das buscas por sobreviventes. "Os esforços de resgate não estão sendo abandonados, longe disso", respondeu Holmes a uma repórter que citou haitianos escavando os escombros com as mãos. "Mas tem sido um problema para as equipes. Primeiro chegar no aeroporto, depois encontrar veículos para usar nas operações." Cirurgias e saúde pública 37 No lado médico, a prioridade é o atendimento cirúrgico aos feridos, disse por telefone o chefe no Haiti da ONG Médicos Sem Fronteiras, Stefano Zannini. "Há milhares de pessoas esperando cirurgia, a maioria com fraturas expostas que requerem atenção imediata." Até ontem, a MSF estimava ter tratado 2.000 feridos, em dois centros cirúrgicos em Cité Soleil, favela de Porto Príncipe. Previa-se que equipamentos para hospitais de campanha chegassem ontem. Dos corpos espalhados nas ruas do país, parte estava sendo coletada por autoridades locais, disse a MSF, minimizando o risco de disseminação de epidemias -que, segundo a ONG, é raro em situações como a vivida no Haiti, já que as causas das mortes não são infecções. Como se pode observar, as entidades se mostram pela sua referência direta (nomes), representação por seus membros, localidades próprias e pronomes. Estas podem ser agrupadas, para estas reportagens, em Cruz, Vermelha, Autoridades Haitianas, ONU (e seus órgãos), ONG Save the Children, Minustah, População Haitiana, Polícia Local, Mídia, Aeroporto, EUA, Bases Logísticas, Equipes de Resgate, Médicos Sem-Fronteiras e Gerais (governos, empresas, ONGs e agências humanitárias sobre as quais não se definiram nomes). Já em termos de ações a uma divisão entre o que foi feito e o que deixou de ser (até o momento de publicação da reportagem). No primeiro caso está a estimativa de mortos e estragos, observação e avaliação da destruição, alertas de perigo, constatação sobre precariedade, promessas de ajuda, carregamento e distribuição de suprimentos, temor sobre situação logística, controle de áreas, trabalho de campo (resgate e ajuda), atendimento cirúrgico e coleta de corpos. No segundo (lacunas em aberto) estão protestos, socorro, falta de policiamento, não atendimento a vítimas, suspensão de serviços, busca por sobreviventes, disseminação de epidemias, comida, dinheiro e coordenação. Cada ação (ou falta de) pode ser associada a uma entidade acima, pelo significado que cada uma tem em termos de atuação, mas também pela forma como isto é expresso em formato de texto, como co-ocorrência de entidade/ação em uma sentença. Assim, busca-se realizar estas identificações das unidades entidades e ações, seus relacionamentos (como Médicos SemFronteira e atendimento cirúrgico), de forma a compor uma rede de atuação de entidades assistencialistas para todo o corpus representativo de um evento natural adverso. Isto pode ser feito, por meio de grafos conceituais, grafo rotulado onde nós de conceito são conectados por nós de relação, como define Sowa, que cunhou este 38 termo [82], ou em uma definição mais geral, um grafo finito, conectado e bipartido consistindo de um conjunto de etiquetas de nós representativos de conceitos, um conjunto de etiquetas de nós que representam relações e um conjunto dirigido de arcos ligando os nós de conceitos e relações [48]. Trabalhando com composições de entidades ligadas a suas ações na forma de árvores que podem ser comparadas umas às outras delimitando sobreposições ou especializações destas entidades em sua forma de atuação. Tomando-se como exemplo as reportagens 60 e 84 realizouse a identificação de entidades e ações ou referências a estes, atribuindo-se etiquetas as entidades encontradas de forma que se trabalhe com um número reduzido de referências que categorizam todas as ocorrências lexicais remetentes a entidades. De forma a demonstrar de que isto se dá, a Figura 7 mostra a desambiguação de três destas etiquetas por suas ocorrências. Figura 7. Desambiguando entidades para exemplos. Dada a importância das ações que cada entidade desempenha na delimitação do papel de cada uma na atuação no desastre estudado, para as mesmas entidades realizou-se o levantamento de ações de forma a identificar padrões que possam ser aplicados no todo do corpus, como mostrado na Tabela 4. 39 Tabela 4. Categorizando ações por entidades Cruz Vermelha Médicos Sem Fronteiras ONU • Estima mortos • Realiza observações de campo • Mantém estimativa de atingidos • Acredita ser boa a estimativa de mortos • Diz que estimativa continua sendo da cruz Vermelha • Estima número de tratados • Diz que prioridade é atendimento cirúrgico e saúde pública • Diz que corpos são coletados (em parte) por autoridades haitianas • Diz que disseminação de epidemias é rara nesta situação • Prevê chegada de equipamentos para hospitais • Suspende pedido por equipes de resgate • Lança apelo para arrecadar verba • Define “pesadelo logístico” • Descreve problema de capacidade de aeroporto • Diz que problema não é distribuição • Eleva contabilidade de membros mortos • Não confirma morte de chefe diplomático • Diz que processo de avaliação de saldo de mortos e estragos está começando • Queixa-se de falta de coordenação de governos e agências internacionais Com foco maior na entidade da Cruz Vermelha, para as aplicações seguintes, realizou-se a confecção de um mapa do conhecimento centrado nesta entidade (referências em azul), o que abrange suas ações (vermelho) e atributos (verde), como mostra a Figura 8. Figura 8. Mapeamento de conhecimento para exemplo da Cruz Vermelha. Uma representação como esta é detalhada demais para o processamento em máquina, porém ajuda na determinação de padrões e composição de Grafos 40 Conceituais que por meio das informações que traz que auxiliam a supervisão do processo. A Figura 9 mostra o Grafo Conceitual de Cruz Vermelha. Figura 9. Grafo conceitual para exemplo de Cruz Vermelha. Como é possível observar, as ações (em vermelho) sempre partem de representações da entidade, e que os atributos se aplicam a estas representações ou às ações que executam. Também se pode, morfossintaticamente, apontar a entidades como substantivos/sujeitos, ações como verbos e atributos como advérbios, objetos de verbos e adjetivos. Isto é bastante importante, pois demonstra que, por meio de etiquetagens é possível categorizar todo o item lexical que possui valor semântico. A partir desta categorização, a observação de subcategorias também é possível pela aplicação de filtros de padrões (como a identificação de nomes próprios no caso de entidades), verbos de dizer no caso de ações e a própria divisão de complemento, advérbio e advérbio no léxico de atributos. A composição de redes se dá, a partir daí, por co-ocorrência em sentenças, um método bottom-up de observar como emergem os arranjos entre estas categorias. Isto permite verificar o comportamento desta rede na determinação desta como de Mundo Pequeno, Livre de Escala, entre outras possibilidades, além de permitir a obtenção de dados importante sobre a atuação de entidades, por meio da determinação de passos necessários na partir de uma a outra, auxiliando na observação de atuações em 41 conjunto. A composição de Grafos Conceituais com raiz na etiqueta de entidade é possível, o que dá margem para comparações de similaridade deste grafo com o de outras entidades levantadas no texto, determinando sobreposição de ações, ações executadas exclusivamente por determinadas entidades e ações não executadas. 3.3. Aplicação de NLTK A análise dos corpora em suas totalidades exige, como já citado, o uso do PLN em aplicações computacionais, no caso o pacote NLTK. O estudo de literaturas de composição e trabalho com corpus [78], como em análise de dados linguísticos [49] e uso do programa de análise utilizado [10][67] permitiram familiaridade com os corpora e o programa de análise (pacote NLTK). A partir disto, as implementações realizadas puderam mostrar padrões básicos de aplicações de módulos sobre variáveis representativas do corpus (ou um recorte deste) criado para o estudo, dados alguns condicionantes básicos, aplicando-se a praticamente todo comando executado no pacote NLTK, onde a dificuldade fica em obter a variável no formato correspondente ao requerido pelo módulo (lista, string, tupla, texto, distribuição de frequência, entre outras opções): >>> variável.módulo(condicionantes) O estudo das funcionalidades deste pacote pela literatura de Bird et. al [10] e de aplicações de PLN sobre análises de Manning et. al. [49] permitiu as primeiras execuções com o corpus de textos sobre o terremoto do Haiti. Estas se referem à própria composição do corpus em termos de frequência de palavras obtidas executando-se os comandos para reconhecer os textos no prompt do IDLE e 42 converter as palavras em listas, distribuições de frequência e única string (para a apresentação codificada para o português). 3.3.1. Descrição do Corpus do Haiti Nesta linha de aplicação de comandos, promoveu-se a aplicação de filtros na ordenação destas palavras, em trabalhos com recortes das primeiras 100 expressões em ocorrência dentro de cada um dos diferentes filtros (promovidos por comandos de eliminação de determinados padrões no corpus, como a eliminação de stopwords - palavras de classes fechadas como preposições e conjunções). Depois isto, categorizou-se as 100 primeiras ocorrências dentro de dois filtros apresentados, com a finalidade de delimitar elementos com alto valor semântico do corpus (Eliminando stopwords maiúsculos e minúsculos e tomando somente alfabéticos) e potenciais referências a entidades assistenciais (Maiúscula sem estar após “.” e sem stopwords). Na categorização fez-se útil a familiaridade com o corpus para determinar as categorias e a inclusão dos elementos em cada uma destas, bem como o comando de concordância e conhecimentos próprios. Procurou-se primeiramente caracterizar o texto quanto a características gerais: número de tokens (429.135), total de types (34.788), expressões sem diferenciação de maiúscula (332.397), caracteres (2.244.234) e sentenças (19.802). A Tabela 5 apresenta os filtros aplicados, o número total de ocorrências (em types e tokens), densidade lexical (tokens/types), número de ocorrências acumuladas das 100 primeiras expressões, a porcentagem destas com relação ao todo e a quantidade de palavras acrescida à lista de 100 mais ocorrentes com relação ao filtro anterior. 43 Tabela 5. Dados de aplicações de filtros sobre 100 primeiras ocorrências em frequência. Filtro Nenhum Eliminando stopwords (Filtro1) Filtro1 + tomando somente alfabéticos (Filtro 2) Filtro 2 + eliminando stopwords com letra inicial maiúscula (Filtro 3) Maiúscula sem estar após “.” (Filtro 4) Filtro 4 + sem stopwords (Filtro 5) 12,34 Nº de ocorrências acumuladas 208255 Representação do recorte sobre o total 48,53% Acréscimo de novas palavras - 34643 8,88 106156 34,52% 39 234355 33456 7,00 49786 21,24% 21 222019 33347 6,66 44224 19,92% 13 46712 8425 5,54 16931 36,25% - 42394 8328 5,09 14549 34,32% 16 Nº de tokens Nº de types Densidade lexical 429135 34788 307559 A aplicação do filtro 3, e consequente eliminação das stopwords (maiúsculas e minúsculas) e tomada de apenas elementos alfabéticos permite a visualização de um perfil de itens lexicais que possuem alto conteúdo semântico (como substantivos e verbos, por exemplo). Levando em conta que dentro dos resultados deste filtro é que se encontram as informações buscadas, os resultados apontam aproximadamente 1/5 desta se concentra nas 100 primeiras ocorrências, podendo se localizar dentro deste grupo categorias de localização (Haiti, Brasil, país, EUA, São, Porto, Paulo, Príncipe, países, internacional, mundo, onde, Rio, cidade, capital, SP, Estado), personalidades de atuação política (presidente, Lula, ministro), entidades (militares, brasileiro, brasileiros, brasileira, americanos, ONU, governo, Minustah, haitiano, Exército, política), referências à mídia (Folha, Segundo, disse, diz), referências temporais (anos, ontem, ano, dia, segundo, desde, dias, vez, agora, hoje, semana, tempo, primeiro), desastre (terremoto, pessoas, ajuda, R, US, missão, milhões, haitianos, água, contra, mil, outros, todos, grande, menos, maior, parte, bem, apenas, só, dois, duas, três, cerca, trabalho, dinheiro, situação, porque), ações 44 e estados (ser, está, são, há, É, estão, ter, pode, fazer, vai, será, deve, têm) e outros itens que passaram pelo filtro por não estarem inclusos no filtro de stopwords (não, é, à, já, sobre, também, ainda, até, Não, às, após). A aplicação dos filtros que selecionam maiúsculas que não estejam após pontos apresentou retornos válidos em termos de identificação de entidades assistenciais. No filtro mais aprimorado realizado aqui, onde além do citado anteriormente também se eliminou stopwords, os resultados podem ser categorizados em localização (Haiti, Brasil, Porto, São, Príncipe, Paulo, Estado, Rio, Estados, República, América, Sul, Mundo, Unidos, China, Chile, África, Dominicana, Irã, Washington, Brasília, Cuba, Venezuela, Latina, York, França, Nova, Colômbia, Argentina, Soleil), personalidades de atuação política (Lula, Dilma, Jean, Zilda, Obama, José, Préval, Arns, Amorim, Clinton, Aristide, Luiz, René, Rousseff, Santos, Carlos, Jobim, Serra, Doc, Duvalier, Hillary, Costa, Celso, Silva), entidades (Minustah, Exército, Defesa, Nacional, Nações, Ministério, Unidas, Pastoral, Conselho, Mundial, Presidência, Criança, Justiça, Congresso, Itamaraty, Polícia, Segurança, Saúde, Organização, Programa, Universidade, Forças, Igreja, Relações, Google, Departamento, Cruz), referências a mídia (Folha, News, The, Globo, Jornal, World, Record, New), referências temporais (Copa, Hora, Guerra, Janeiro), ajuda (R, Deus, Casa, Vida, Jesus) e outros itens que passaram pelo filtro por possuírem letra maiúscula (É, Não). A descrição da composição do corpus permite visualizar como este se distribuiu quantitativamente, o que dá margem para entender que a abordagem já exposta de Steinberger [83][84] é útil para obter uma representação do conhecimento sobre o evento estudado. Além disto, permite identificar categorias associadas ao domínio específico estudado e reconhecer instanciações destas categorias em linguagem natural. Observa-se a manutenção de categorias com a mudança de filtro, mas os valores que preenchem cada uma mudam muito, apontando para a validade do uso dos filtros na identificação de determinados valores semânticos. Isto auxilia na determinação de etiquetas semânticas que vão compor a rede pretendida. Os filtros possuem o papel de segregar palavras e expressões quanto a características padrões, que podem ser colocadas em uma 45 lista de palavras e, consequentemente em uma distribuição de frequência, para a impressão em arquivo de etiquetas léxico-gramaticais, enquanto a determinação de categorias determina as etiquetas semânticas a serem aplicadas. O estudo das frequências demonstra que, à medida que os filtros são aplicados na busca por palavras com alto valor semântico, as palavras tendem a ter uma distribuição de frequência mais uniforme, possível de se visualizar pela medida de representatividade percentual das 100 primeiras ocorrências sobre o recorte maior dado pelo filtro, que decai a cada filtro mais específico aplicado. Isto se alinha a ideia que palavras com frequências mais baixas possuem significado mais bem definido que o contrário. Segundo a Lei de Zipf [49] o número de significados possíveis de uma palavra/expressão é proporcional a raiz quadrada de sua frequência. Assim, a aplicação de filtros na determinação de que palavras possuem alto valor semântico é validada, por demonstrar que, ao passo em que são aplicados, as frequências entre palavras se tornam mais uniformes e os seus significados mais bem definidos. Também o alto número de entidades resgatadas pelo filtro com este fim, seja como entidades, propriamente dito, ou por meio de referências a governos (por localização ou governantes) ou mídia (entidades difusoras de informação), é um bom resultado. Isto porque somente 11 de 100 elementos categorizados não foram colocados dentro de categorias como a que correspondem entidades demonstradas, o que aponta que um simples método de aplicação de filtros por comandos de busca de padrões retorna 89% de eficácia. 3.3.2. Trabalho com Collocations Criando-se uma variável que corresponde ao conjunto de textos sob o formato Text, foi possível executar um comando de identificação de collocations no corpus 46 do Haiti. Estas combinações são tipos especiais de expressões multi-palavras (multiword expression), um pequeno conjunto lexical que possui significado e propriedades não possíveis de serem expressas pela soma dos significados e propriedades de suas partes [5]. Através de comandos de contabilização de itens e contagem de expressões foi possível levantar dados de frequência de aparecimento no texto dos itens lexicais que compõem a concordância, calcular probabilidades e medidas estatísticas de validação da collocation de forma a demonstrar que os retornos obtidos representam associações não aleatórias dos itens, tais como a razão Observado/Esperado (O/E), Informação Mútua (I) e o Escore T (T), além da importante informação sobre intervalo médio de ocorrência da palavra no corpus estudado. O valor de O/E deve ser interpretado como quantas vezes um valor é maior que o esperado probabilisticamente, enquanto um valor de I maior que 3 e/ou de T maior que 2 indicam associações não aleatórias entre palavras, sendo que quanto maior os valores, mais forte é a associação entre o nódulo (A) e o colocado (B) [78]. A investigação sobre as collocations se estende no sentido de promover uma tomada mais abrangente sobre o corpus estudado do que possibilita o default do comando (que retorna apenas nos primeiros vinte resultados para collocations entre bigramas - pares de palavras presente sequencialmente no texto). Com o corpus composto e descrito, tratado em termos de filtros e delimitadas as collocations, parte-se para o tratamento das unidades léxico-semânticas (expressões que apresentam valor semântico). Para isto, toma-se aqui as 200 palavras mais frequentes no conjunto resultante do filtro 3, descrito na tabela 2, e os retornos das buscas pelas 50 collocations em bigramas e trigramas (devido a sua apresentação combinada este passo configura o trabalho com 61 unidades léxicosemânticas). Estas escolhas se devem, no primeiro caso, ao fato de que os filtros aplicados eliminaram 48,26% de ocorrências acumuladas – tokens e 4,14% das ocorrências exclusivas – types. Estes valores levados juntamente ao de palavras que ocorre apenas uma vez (hapax legomena [78]) sobem para 52,04% e 7,92%, respectivamente. Assim, em termos do conjunto de expressões resultante, as 200 primeiras ocorrências representam 26,71% dos tokens (ou 13,82% do total). Já a quantia de collocations foi guiada pela frequência destas. Considerando que a 200ª 47 palavra mais frequente possui 122 ocorrências, que uma collocation é composta por duas palavras e que se pode então duplicar a frequência de collocations em termos de cada uma de suas partes; um conjunto “collocation” de análise em que cada retorno tem, no mínimo, uma ocorrência, para se igualar a última palavra das listas das mais ocorrentes, deve ter 122/2 entradas, ou 61 entradas, o que se obteve da forma descrita acima. Os comandos na busca por collocations retornaram: Porto Príncipe; São Paulo; Nações Unidas; dos EUA; Estados Unidos; Zilda Arns; República Dominicana; René Préval; América Latina; Dilma Rousseff; direitos humanos; Celso Amorim; semana passada; Forças Armadas; ajuda humanitária; das Nações; comunidade internacional; Cité Soleil; ano passado; Nova York. A Tabela 6 apresenta estes resultados e os correspondentes valores de índices de validação, intervalos médios de ocorrência e frequência. Tabela 6. Dados de aplicações sobre frequências de collocations. Concordância (A+B) f(A|B) f(A) f(B) Intervalo médio de ocorrência O/E I (Informação Escore T Mútua) Porto Príncipe 382 406 386 1123,3901 1046,03 10,0307079 19,52614 São Paulo 331 440 393 1296,4804 821,4416 9,68201424 18,17126 Nações Unidas 98 107 99 4378,9286 3970,096 11,9549583 9,897001 dos EUA 231 1823 624 1857,7273 87,14343 6,44532002 15,02427 Estados Unidos 95 157 98 4517,2105 Zilda Arns 101 181 122 4248,8614 1962,804 10,9387003 10,04476 República Dominicana 90 141 91 4768,1667 3010,065 11,5555791 9,483681 René Préval 76 84 131 5646,5132 2963,855 11,5332591 8,714857 América Latina 73 132 73 5878,5616 3251,023 11,6666779 8,541376 Dilma Rousseff 73 177 78 5878,5616 2269,075 11,1478888 8,540238 direitos humanos 67 103 97 Celso Amorim 62 67 123 6921,5323 3228,537 11,6566647 7,871569 semana passada 69 198 85 6219,3478 1759,377 10,7808489 8,301903 Forças Armadas 49 56 49 8757,8571 7663,125 12,9037171 6,999087 ajuda humanitária 73 363 113 5878,5616 763,7157 6405 2649,67 11,3715971 9,743116 2877,795 11,4907479 8,182508 9,5768919 8,532816 48 das Nações 83 1225 107 5170,3012 271,7391 8,08607846 9,076907 comunidade internacional 63 96 214 6811,6667 1315,981 10,3619225 7,931222 Cité Soleil 44 47 51 9753,0682 7877,322 12,9434895 6,632408 ano passado 72 363 154 5960,2083 552,7122 9,11038477 8,469929 Nova York 51 101 80 8414,4118 2708,649 11,4033578 7,138792 Transpassando os vinte primeiros retornos apresentados por definição na execução do comando collocations, por meio da especificação do número de retornos pretendido e janela de busca (2 para entre bigramas, 3 entre trigramas, n para n-gramas) foram realizadas consultas para quantificar as ocorrências deste fenômeno. Para collocations imediatas (entre bigramas) o pacote retorna 16389 ocorrências, enquanto que para a ocorrência padrão intermediada por uma palavra entre a collocation (busca entre trigramas) existem 16222 ocorrências. Para buscas em distâncias maiores do que estas não houve retorno. Estes trabalhos foram executados pensando-se em realizar classificações dos itens como grupos em uma rede discursiva, definir discretamente (nós) itens lexicais que concentram significado e propriedade próprios, seja individualmente ou por combinações sob o formato aqui apresentado (desde que validado quantitativamente). Dentre as collocations apresentadas, observa-se que, se categorizadas, resultaram em algo como localização, personalidades de atuação política, entidade, ajuda, tempo e outros, o que aponta para a persistência das categorias apresentadas na aplicação de filtros exposta anteriormente e demonstra que, as categorias com combinações que possuem combinações de real valor semântico podem ser diferenciadas quantitativamente pelos índices de validação, como indica a análise do O/E, que para collocations com valores abaixo de 800 determina a presença nas categorias de tempo e outros. Todas as collocations apresentadas foram validadas pelos índices com este propósito e devem ser tratadas, no momento das etiquetagens, como elementos únicos. A quantificação geral aponta o horizonte de atuação sobre collocations e, conjuntamente com a descrição do corpus dentro do filtro estudado, de determinação dos nós sobre a rede pretendida. 49 Obviamente que as collocations selecionadas possuem bem mais que uma entrada, o que leva que as análises aqui ocorrentes possuem maior cobertura do que o esperado pelo mecanismo que delimitou a quantidade de collocations, tornando os resultados mais robustos e havendo margem para perdas derivadas do tratamento mostrado. Para este tratamento, buscou-se a aplicação dos comandos de delimitação de raiz e lematização. 3.3.3. Tratamento de Unidades Léxico-Semânticas Tendo como foco a busca de padrões em redes de co-ocorrência que permitam a aplicação dos conceitos até aqui apontado e verificação do uso de análises pertinentes ao PLN para a caracterização da expressão da inteligência social em desastres naturais, pelo caso estudado, um conjunto é tomado como amostra (como já detalhado) para tratamento e posterior inferência de padrões. A Figura 10 mostra a evolução das primeiras 200 palavras mais frequentes acumulativamente no corpus do Haiti. Figura 10. Perfil acumulativo das 200 palavras mais frequentes no corpus do Haiti. 50 As collocations são mostradas na tabela 7, bem como sua frequência. Tabela 7. Dados sobre 63 collocations entre bigramas e trigramas. Representatividade de Collocation ID Concordância (A+B) sobre Tokens [2*f(A|B)] 1 Porto Príncipe 764 2 São Paulo 662 3 Nações Unidas 196 f(A|B) 382 331 98 4 5 6 7 8 9 10 11 12 13 14 15 dos EUA Estados Unidos Zilda Arns República Dominicana René Préval Pastoral (da) Criança América Latina Dilma Rousseff direitos humanos Celso Amorim semana passada Forças Armadas 462 190 202 180 152 162 146 146 134 124 138 98 231 95 101 90 76 81 73 73 67 62 69 49 16 17 18 19 20 21 que () não ajuda humanitária das (Nações) Unidas das Nações comunidade internacional Rio (de) Janeiro 622 146 166 166 126 114 311 73 83 83 63 57 22 23 24 Cité Soleil ano passado Cima () Hora 88 144 92 44 72 46 25 disse () que 366 183 26 secretário (- ou direto) geral 186 93 27 28 29 30 porta (-) voz Nova York Relações Exteriores nos últimos 100 102 80 138 50 51 40 69 31 Hillary Clinton 100 50 32 Direitos H (h) umanos 86 43 33 Barack Obama 90 45 34 Cruz Vermelha 74 37 35 segundo turno 110 55 36 Nelson Jobim 80 40 37 Floriano Peixoto 68 34 39 40 41 Baby Doc governo haitiano pode ser 74 146 148 37 73 74 43 pelo menos 138 69 51 44 longo prazo 74 37 45 Luiz Inácio 64 32 46 acordo com 142 71 47 governo brasileiro 128 64 48 Bertrand Aristide 58 29 49 dos Estados 462 231 50 cada vez 88 44 51 por exemplo 118 59 52 militares brasileiros 96 48 53 Bel Air 44 22 54 União Européia 50 25 55 World News 66 33 56 Além disso 68 34 57 por causa 106 53 58 nos EUA 132 66 59 após (o) terremoto <286 <143 60 paz (da) ONU 134 67 61 Conselho (de) Segurança 106 53 62 missão (de) paz <160 <80 63 últimos anos 48 24 TOTAL 9490 4745 As collocations de identificação 59 e 62 não puderam ter suas frequências contabilizadas até o momento, por dificuldades em obter estes dados pelos comandos do pacote NLTK, já que os “candidatos” a assumirem a intermediação entre as palavras que as forma são bastante comuns nos textos colhidos, o que inviabiliza, por hora, sua contagem (conta palavra por palavra). Assim, nos tratamentos apresentados na sequência estas serão desconsideradas. O tratamento pelo pacote NLTK para identificação de raízes de palavras por meio dos lematizadores Porter e Lancaster são mostrados para as 200 palavras mais frequentes na Tabela 8. Tabela 8. Busca de raízes nas 200 palavras mais frequentes. não é Haiti Brasil à país governo terremoto disse ser ONU presidente está EUA anos já sobre são há ontem também ainda pessoas É mil São até estão Porto Paulo só Não Príncipe países onde diz às Lula ajuda ano dia segundo após dois mundo ter pode Sem Estado militares R brasileiro maior hoje missão US milhões parte menos Folha haitianos tratamento Minustah fazer Segundo haitiano vai bem capital apenas Rio cidade contra será grande desde deve três outros política todos SP Exército dias água agora internacional têm vez brasileiros cerca primeiro porque americanos dinheiro brasileira situação semana duas 52 Porter Lancaster ministro tempo trabalho militar paz ex segurança afirmou vítimas lado população antes vida grupo todo caso Zilda crianças havia cada mortos Dilma novo número primeira haitiana meio outro região outras sido tropas sob força assim tragédia janeiro Estados local Obama reconstrução tudo Jean aqui passado conta meses Há FOLHA sendo casa TV podem história melhor general geral lugar José quase sempre República americana News alguns cinco momento Nacional acordo lá pouco soldados comando América poder Já Préval faz além americano nada vezes Irã crise fez ajudar muitos outra centro falta forma quatro relação ruas exemplo fato Amorim eleições violência Arns ações morte projeto não é Haiti Brasil à paí governo terremoto diss ser ONU president está EUA ano já sobr são há ontem também ainda pessoa É mil São até estão Porto Paulo só Não Príncipe país ond diz às Lula ajuda ano dia segundo apó doi mundo ter pode Estado militar R brasileiro maior hoje missão US milhõ part meno Folha haitiano Minustah fazer Segundo haitiano vai bem capit apena Rio cidad contra será grand desd deve trê outro política todo SP Exército dia água agora internacion têm vez brasileiro cerca primeiro porqu americano dinheiro brasileira situação semana dua ministro tempo trabalho militar paz ex segurança afirm vítima lado população ant vida grupo todo caso Zilda criança havia cada morto Dilma novo número primeira haitiana meio outro região outra sido tropa sob força assim tragédia janeiro Estado local Obama reconstrução tudo Jean aqui passado conta mese Há FOLHA sendo casa TV podem história melhor gener geral lugar José quas sempr República americana News algun cinco momento Nacion acordo lá pouco soldado comando América poder Já Préval faz além americano nada veze Irã crise fez ajudar muito outra centro falta forma quatro relação rua exemplo fato Amorim eleiçõ violência Arn açõ mort projeto não é hait brasil à paí governo terremoto diss ser onu presid está eu ano já sobr são há ontem também aind pessoa é mil são até estão porto paulo só não príncipe país ond diz às lul ajud ano dia segundo apó doi mundo ter pod estado milit r brasileiro mai hoj missão us milhõ part meno folh haitiano minustah faz segundo haitiano vai bem capit apena rio cidad contr será grand desd dev três outro polític todo sp exército dia águ agor internac têm vez brasileiro cerc primeiro porqu americano dinheiro brasileir situação seman dua ministro tempo trabalho milit paz ex seguranç afirmou vítimas lado população ant vid grupo todo caso zild criança hav cad morto dilm novo número primeir haitian meio outro região outra sido tropa sob forç assim tragéd janeiro estado loc obam reconstrução tudo jean aqu passado cont mes há folh sendo cas tv podem histór melh gen ger lug josé quas sempr repúblic american new algun cinco momento nac acordo lá pouco soldado comando améric pod já préval faz além americano nad vez irã cris fez ajud muito outr centro falt form quatro relação rua exemplo fato amorim eleiçõ violênc arn açõ mort projeto Já a aplicação do comando WordNet Lemmatizer para a lematização, que é mostrado como associado ao comando de tokenização (divisão automática de expressões), não apresenta nenhum resultado que possa ser apresentado, além da própria separação promovida por tal comando: n ã o é Haiti Brasil à pa í s governo terremoto disse ser ONU presidente est á EUA anos j á sobre s ã o h á ontem tamb é m ainda pessoas É mil S ã o at é est ã o Porto Paulo s ó N ã o Pr í ncipe pa í ses onde diz à s Lula ajuda ano dia segundo ap ó s dois mundo ter pode Estado militares R brasileiro maior hoje miss ã o US milh õ es parte menos Folha haitianos Minustah fazer Segundo haitiano vai bem capital apenas Rio cidade contra ser á grande desde deve tr ê s outros pol í tica todos SP Ex é rcito dias á gua agora internacional t ê m vez brasileiros cerca primeiro porque americanos dinheiro brasileira situa ç ã o semana duas ministro tempo trabalho militar paz ex seguran ç a afirmou v í timas lado popula ç ã o antes vida grupo todo caso Zilda crian ç as havia cada mortos Dilma novo n ú mero primeira haitiana meio outro regi ã o outras sido tropas sob for ç a assim trag é dia janeiro Estados local Obama reconstru ç ã o tudo Jean aqui passado conta meses H á FOLHA sendo casa TV podem hist ó ria melhor general geral lugar Jos é quase sempre Rep ú blica 53 americana News alguns cinco momento Nacional acordo l á pouco soldados comando Am é rica poder J á Pr é val faz al é m americano nada vezes Ir ã crise fez ajudar muitos outra centro falta forma quatro rela ç ã o ruas exemplo fato Amorim elei ç õ es viol ê ncia Arns a ç õ es morte projeto Em resumo, essas últimas tarefas buscaram a delimitação sobre uma amostra de trabalho para a confecção das primeiras redes para análise, na tentativa de execução de tratamentos que padronizem as expressões mais ocorrentes, e permitam também a padronização das collocations delimitadas para estudo, por meio do pacote NLTK. Como a visualização dos resultados deste tratamento permite observar, não houve bons resultados que permitissem avanças a partir daí. A limitação dos comandos aplicados para este fim se dá em grande parte pelo foco na língua inglesa que o pacote NLTK apresenta. As saídas para este problema estão no tratamento manual dos dados (para estudos com número reduzido de dados), busca de comandos em módulos em linguagem Python que executem o tratamento com foco no português ou a busca por padrões por meio de etiquetagem do corpus. 3.3.4. Etiquetagem de Corpus A utilização do pacote NLTK mostrou-se útil na composição do corpus, sua descrição, na verificação de collocations e, principalmente, na demonstração da possibilidade de trabalhos em língua portuguesa para tanto. O prosseguimento do trabalho mostra que este pacote se faz muito útil no respaldo a composição de redes discursivas por meio da quantificação de ligações e ocorrências de expressões de referência a entidades assistenciais, bem como respaldando a discretização de conjuntos lexicais para análise, como sentenças ou arquivos dentro do corpus. Para usos além destes por aplicações do NLTK nesta pesquisa, Bird et. al. [10] aponta ser possível a realização de etiquetagem do corpus (permite a busca por padrões de ações de entidades em sentenças) e mesmo a identificação de entidades (acesso 54 direta a informação semântica de presença de entidades e seu relacionamento), ações de extrema afinidade com a busca aqui empreendida e que segue a lógica de Extração de Informação em textos brutos para formatos estruturados, o que passa pela segmentação de sentenças, tokenização, etiquetagem, reconhecimento de entidades e suas relações, como mostra esta literatura e ilustra a Figura 11 [10]. Figura 11. Extração de Informação partindo de texto bruto até uma lista de tuplas do tipo (entidade, relação de entidade) [10]. Nesta primeira tarefa, a etiquetagem se mostra dependente da execução do comando de tokenização, aplicando-se após a separação de expressões lexicais comandos de busca de similaridade tendo como referência um corpus da língua estudada já etiquetado que faça parte do pacote [10]. Ocorre que, como mostrado acima, o comando de tokenização aplicado ao português não apresenta bons resultados. Além disto, os corpora de referência para o português dentro do NLTK são o “Floresta” e o “Mac_morpho” [10], cuja aplicação sobre textos importados na comparação não se mostrou possível. Uma saída apontada para isto via NLTK seria a identificação de padrões da língua natural estudada (no caso o português) e a criação de regras por meio de funções que imprimiriam no corpus a etiqueta correspondente ao padrão ao localizá-lo em um item lexical [10]. A de se convir, entretanto, que o levantamento destes padrões na concepção de um etiquetador 55 para o português, incluindo busca por superação do problema da tokenização que se não levada em conta acaba por separar expressões de collocations, representa por si só um trabalho de pesquisa, não sendo objetivo deste trabalho. Para superar este problema, utilizou-se um recurso on-line de etiquetagem em língua portuguesa (entre outros recursos de apoio, principalmente ao ensino [47]) criados dentro de um projeto chamado Visual Interactive Syntax Learning (VISL) [9]. Este projeto promove a pesquisa e desenvolvimento de ferramentas na internet baseada na educação e pesquisa sobre gramática [9], realizada pelo Institute of Language and Communication (ISK) na University of Southern Denmark (SDU) desde setembro de 1996 [9]. Especialmente no módulo em português utilizase a máquina analisadora de sentenças, subindo os arquivos que compõe o corpus de análise para o retorno destes em etiquetados por meio de uma segmentação total morfossintática, que atribuí etiquetas semânticas, o que se faz muito útil para esta pesquisa. Com isto, é possível utilizar o NLTK aplicado aos corpora etiquetados, o que o torna uma ferramenta de gerenciamento e manipulação de corpus para este trabalho, permitindo o acesso ao conjunto léxico de estudo, aplicação de filtros com base um determinado padrão e determinação de ligações da rede buscada pela quantificação de dados sobre a ocorrência de itens lexicais de referência a entidades assistenciais nos textos e por etiquetas. A questão passa a ser então que etiquetas se associam as entidades assistenciais, permitindo o reconhecimento destas. Em termos de reconhecimento de entidade Bird et. al. [10] aponta que é esta uma das finalidades da aplicação de recursos para estruturação de dados e extração de informação em linguagem natural. Para isto, se faz necessária a execução do particionamento das sentenças do corpus em porções nominais e verbais (chunking), o que obviamente depende da etiquetagem do corpus, na composição de árvores que demonstram que elementos lexicais atuam de que forma sobre que outros elementos, sendo comum a apresentação em árvore [10]. O que atravanca a aplicação por meio do NLTK nesta tarefa é a necessidade de uma etiquetagem que siga o corpus de referência para a língua estudada, o que fica explícito na execução de comandos de identificação de entidades e suas relações que levam em conta relações de entidades já 56 estabelecidas por árvores de relacionamento de itens lexicais etiquetados. Outro problema está no chunking, também dependente da etiquetagem e concebido para a língua inglesa, o que leva a resultados não pertinentes assim como a tokenização. Assim, ganha importância a associação etiqueta-entidade para o trabalho aqui realizado. Entendendo que a tarefa de reconhecimento de entidades por meio das etiquetas é essencial para o objetivo de extrair as entidades assistenciais e suas relações na concepção de uma rede léxico-semântica, para o tema apresentado, apresenta-se na próxima seção informações sobre esta tarefa relevante para esta pesquisa, o Reconhecimento de Entidade Mencionada. 4. RECONHECIMENTO DE ENTIDADES MENCIONADAS 4.1. Origem e Definições O Reconhecimento de Entidades Mencionadas (Named Entity RecognitionNER) foi concebido para extração de informações estruturadas de textos não estruturados, como artigos de jornal, sobre atividades de companhias e relacionados à defesa, sendo que os primeiros trabalhos neste sentido surgiram em 1991, com extração e reconhecimento de nomes de companhias baseados em regras heurísticas [66]. O termo Named Entity (amplamente usado em PLN) foi cunhado na 6ª Conferência de Entendimento de Mensagem (Sixth Message Understanding Conference – MUC-6) em 1996, inicialmente cobrindo nomes de pessoas, locais, organizações e expressões numéricas (hora/ data/ dinheiro/percentual) [79], o que 57 permite o uso prático de extração de informações, aplicado a amplos domínios independentes, automaticamente e com alta acurácia, primeiro objetivo do MUC-6 [38]. Desde então tem se mostrado como uma importante subárea da Extração de Informações, chamado também de Named Entity Recognition and Classification (NERC) [79]. A ideia principal que perpassa aplicações de NERC é restringir em um nome expressões de entidade que realizem a mesma atividade (o que implica em consequente categorização) [66]. Uma das técnicas de NERC é o reconhecimento de nomes próprios, em que se abordam pessoas, locais e organizações (“enamex”), onde cada um pode ser mais bem refinado [66]. Além destas, outras entidades reconhecidas são produtos, tempo, dinheiro, porcentagem (estas três últimas dentro da categoria “numex”), além de algumas específicas aplicadas a estudo de domínios, como proteínas, DNA, RNA, tipo de célula, entre outras em aplicações de bioinformática, por exemplo [66]. Existem esforços no sentido de desenvolver sistemas de extração de entidade independente do domínio, cobrindo uma grande parte dos refinamentos possíveis mais frequentes, alcançando cerca de 200 categorias [66]. Busca-se também a aplicação de NERC no processamento de informação multimídia, como também abordagens semi e não supervisionadas para coleções muito grandes de texto e categorias de NE [66]. Porém o método mais difundido é a aprendizagem supervisionada baseada em regras de sistema ou início de algoritmo de etiquetagem em sequência a partir de um conjunto de treinamento [66]. Este método exige um grande corpus anotado para captura de instâncias de determinados tipos de entidades por meio de regras [66]. A indisponibilidade e custo deste corpus anotado levam a buscar as soluções semi e não estruturadas [66]. Técnicas para aplicação de aprendizagem supervisionada incluem Modelos Ocultos de Markov, árvores de decisão, modelos de máxima entropia, Suport Vector Machine (SVM) e campo aleatório condicional; isto é, técnicas de aprendizado de máquina que desambiguam e memorizam entidades em um grande corpus anotado para posterior identificação em textos fora deste [66]. A medição de desempenho fica por conta de uma taxa de recall 58 (entidades identificadas em relação ao total presente em um texto) para palavrasteste sem repetição em um texto [66]. Modelos de aprendizagem semi-supervisionados se baseiam na entrada de alguns exemplos de entidade buscada, identificando padrões de aparecimento destes exemplos no texto e procurando outras ocorrências que se enquadram em tal padrão [66]. Estes padrões podem ser regras fixas de controle lexical, restrições impostas, nomes próprios, similaridade ou técnicas de test stropping, por exemplo [66]. Há o registro em pares de contexto ortográfico e a ortografia correspondente (pode ser alguns destes pares entrada para o sistema onde as entidades são classificadas) e as ocorrências mais frequentes se transformam em conjuntos de regras contextuais, aplicadas a busca de novas regras ortográficas, refinando o processo [66]. Por fim o método não supervisionado, que se baseia na busca de padrões em corpus não anotado em termos lexicais e/ou estatísticos, com destaque na aplicação de clusterização, havendo também pesquisas que trabalham com conceitos de hipo/hiperônimos (com marcação de entidades vinda do WordNet) e co-ocorrência de palavras em recortes sentenciais [66]. Como atributos de referência para NERC existem os de níveis de palavras, incluindo o de caixa (alta ou baixa), pontuação e caractere (mapeamento de padrões por código), dígito (importante para entidades de números e tempo), morfologia (afixos e raízes na determinação de profissões, nacionalidade/língua e organizações), partes do discurso e função (aplicação de não alfabéticos e n-gramas na formação de nomes de entidades) [66]. Também existem os atributos com relação à apresentação em lista de entidades e seus significados, concebido pela frequência no corpus de análise, podendo ser uma lista geral (permite desambiguação), de entidade (palavras que se agregam formando nomes de organizações, como Association ou General, por exemplo) ou de “pistas” desta (palavras que demarcam contexto, permitindo inferir padrões de ocorrência de entidades por sua forma normatizada); podendo também ser aplicada como tratamentos que padronizam pequenas variações de palavras e som [66]. Além 59 destes, existem as atributos referentes aos documentos e ao corpus utilizados como recurso a aplicação de NERC, que dizem respeito à múltipla ocorrência (contabilização de ocorrências maiúsculas e minúsculas), localização sintática (identificação de entidade e demarcação semântica), meta informação (identificação de entidades em cabeçalhos de início de notícias) e frequência de corpus (palavras raras e longas em maiúscula, além de cálculo de “vida” da palavra - comparativo de suas várias aparições no corpus) [66]. A avaliação de NERC é um ponto importante, contrapondo a saída de linguistas que trabalham com linguagem natural e máquinas [66]. Existem três tipos principais de avaliação [66]. A avaliação MUC trabalha com uma média harmônica de precisão e recall baseados na contabilização de tipos de entidades encontradas e texto atribuído para cada nome dentro da entidade [66]. Já a avaliação de correspondência exata usa uma medida de micro-média que analisa o percentual de acerto conforme a correspondência exata da entidade como solução [66]. Por fim, a avaliação ACE, mais complexa por trabalhar com subtipos e classes atribuindo pesos a estas na composição de grupos de entidades que tem seus erros descontados do valor 100%, o Valor de Reconhecimento e Detecção de Entidades [66]. O NERC é aplicado para a delimitação de entidades que se prestam como respostas em sistemas de pergunta-resposta [61], criação de sistemas multilíngues [8], transposição de conhecimento entre línguas [81] e respaldo a mapeamentos de conhecimento e tomadas de decisão, como ficará mais claro na próxima seção sobre aplicações em determinados domínios. Aplicado a problemática definida na apresentação do domínio, o NERC identifica as entidades presentes em um corpus de referência a notícias sobre os terremotos estudados, permitindo, a marcação semântica destes que leva a composição de um mapeamento do conhecimento sobre suas ações em termos de integração, sobreposição, diferenças e omissões. Para tanto, é preciso observar o que se tem em trabalhos delimitados a domínios e, especialmente, ao domínio de entidades geográficas, na qual se subscreve o domínio de entidades de desastres naturais, entre elas algumas das entidades assistenciais buscadas. Também o que se tem desenvolvido para o português é algo 60 relevante, uma vez que os textos que compõe os corpora para análise estão nesta língua. 4.2. Aplicação sobre Temas Diversos Dentro do trabalho de NERC uma das definições básicas está no domínio de aplicação, para levantamento de trabalhos naquela linguagem natural e de que método permite o reconhecimento das entidades, uma vez que com o domínio, varia o quadro geral que permite a delimitação de um contexto específico, e assim, variam também as entidades a serem identificadas. Um domínio que se destaca na aplicação de NERC e mesmo desenvolvimento desta tarefa é o das ciências biológicas [66]. Isto porque a abundância de documentos (textos, patentes, relatórios de indústria e artigos científicos [95]) leva a necessidade de aplicação de técnicas de mineração de dados no domínio biológico [3]. A aplicação de NERC em avanços na identificação de genes e células mencionadas é uma das mais comuns, dividindo espaço com usos em motores de busca e identificação de tendência no espaço midiático [66]. Em especial há o interesse em determinar entidades biológicas e suas relações em artigos científicos [3]. As dificuldades estão no volume a ser analisado, na dinâmica própria de inclusão de novas entidades e descarte de outras, diferentes usos e variantes de uma entidade por diferentes comunidades dentro da grande área de ciências biológicas [3]. O trabalho com NERC em ciências biológicas passa pela construção de corpus e aplicação de técnicas de aprendizado de máquinas para reconhecer, classificar e identificar entidades biológicas [3]. 61 As técnicas combinam correspondência de padrões, tokenização, marcação baseada em Modelos Ocultos de Markov, desambiguação heurística, SVM, similaridade semântica, classificadores bayesianos ingênuos e/ou análise morfológica [3]. Estas são aplicadas na determinação de nomes de genes, proteínas, abreviaturas biomédicas, composição de dicionários e gerenciamento de ontologias [3], entidades químicas (drogas) e sua correspondência com estruturas reconhecidas por computador para desenvolvimento de medicamentos [95], doenças, sintomas e diagnósticos realizados [27]. A busca pelo reconhecimento destes nomes culminou no projeto GENIA [66]. Este projeto busca a construção de ontologia e corpus simultaneamente por meio de resumo de pesquisas no banco de dados MEDLINE (dedicado a ciências biológicas), para aplicação de tecnologia de PLN na extração de informações sobre genoma (especificamente biologia molecular) de seu grande volume não-estruturado [69]. Anotou-se entidades por meio de NER que tem por base a ontologia, fontes, anotação do corpus, cumprindo um dos objetivos deste projeto [69]. O destaque a este domínio se dá por conta de que os trabalhos sobre impacto de gênero textual e sobre domínios específicos são negligenciados pela literatura de NERC, se restringindo a trabalhos com e-mails, textos científicos, textos religiosos e boletins eletrônicos de notícias [66]. Outro domínio, de interesse para esta pesquisa, é o de entidades geográficas. Neste caso, dentro da possibilidade de aplicação dos mesmos métodos apresentados acima, realiza-se a identificação de entidades que se baseiam na existência de um espaço, mais especificamente o geográfico, como Países, Estados, Municípios, Distritos, Bairros, Rios, Planícies, Propriedades Territoriais [21], Povoados, Demarcadores Culturais ou Sociais, Religiões [22], entre outros. Isto é, realiza-se um maior refinamento a partir de uma das entidades básicas determinadas para marcação no início dos trabalhos de NERC, a de locais [53]. Dada a especificidade e o interesse nas tarefas de NERC aplicadas a este domínio, é considerada uma sub-tarefa, o Reconhecimento de Entidade Geográfica (Geographic Entity Recognition – GER) [80], que se insere em pesquisas de 62 Extração de Informações Geográficas [17]. Isto permite a integração de conhecimentos geográficos, compilação de diferentes referências na composição de uma ontologia dedicada ou pareamento de palavras de diferentes línguas e construção de bases de conhecimento que sirvam a sistemas de pergunta-resposta [21], classificadores de documentos de acordo com seu âmbito geográfico, criação de interfaces de recolhimento de informação para consultas geográficas e interfaces XML para consultas a almanaques geo-temporais [20]. A ideia é que os textos estão para GER assim como dados estruturados e geo-referenciados estão para Sistemas de Informação Geográfica (SIG) [52]. 4.3. Trabalhos em Diferentes Línguas Como citado acima, outro fator relevante na aplicação de NERC é a língua abordada. Grande parte dos trabalhos é realizada para o inglês, embora o alemão, holandês, espanhol e japonês tenham ganhado destaque em uma das mais importantes conferências da área (CoNLL – Conference on Computational Natural Language Learning) [66]. Um grande volume de trabalhos tem sido realizado em chinês, grego, francês, português, italiano e árabe [66]. No português, os trabalhos em NERC ocorrem de forma mais maciça por meio de uma plataforma de recursos para o Processamento Computacional de Língua Portuguesa, chamada Linguateca. Este centro de recurso surgiu de um projeto chamado Processamento Computacional do Português ocorrido entre 1998 e 2000, que buscava a melhoria da qualidade do processamento que dá nome ao projeto, por meio da produção de recursos sofisticados, monitoramento e disseminação da área, e organização de iniciativas condizentes a avaliação da 63 atividade e dos sistemas existentes [47]. Atualmente a Linguateca se presta a facilitar o acesso aos recursos já existentes (por meio de rede), desenvolver os recursos considerados mais urgentes em colaboração com os interessados, e organizar avaliações conjuntas que envolvam a comunidade como um todo [47]. Dentro desta central de recursos uma dos temas que desencadeou avaliação conjunta de pesquisadores foi o NERC para português, culminando no HAREM, acrônimo para “Avaliação de Reconhecimento de Entidades Mencionadas” [62]. Este é o trabalho de destaque em português na área de reconhecimento de entidades mencionadas [66]. Com organização iniciada em 2005, o HAREM se inspirou no MUC e veio a suprir uma demanda por formas de NERC em português padronizadas e automatizadas [75]. A ideia do HAREM é a de um grande projeto que engloba a formação de um conjunto de textos dos mais diferentes gêneros (Coleção HAREM – CH) para aplicação de anotações semânticas sobre as entidades realizadas por humanos seguindo determinados padrões (Coleção Dourada – CD, disponível pelo projeto Acesso a Corpora/Disponibilização de Corpora – AC/DC) [75]. Esse conjunto é utilizado depois, dentro da metodologia e terminologia definida pelo HAREM para a comparação com textos não anotados para a classificação, isto é, um modelo de avaliação de sistemas automáticos de NERC para o português [75]. O HAREM estabelece, portanto, um padrão de NERC em português e uma forma de avaliação, que engloba hoje a comparação e o uso de parâmetros estatísticos (já na versão mini-HAREM), mantendo-se fiel ao MUC, para sistemas como CaGE (Grupo XLDB, Universidade de Lisboa), Cortex (PUC-Rio/CLIC), ELLE e SMELL (Pólo da Linguateca no LabEL), Malinche (INAOE), NERUA (Universidade de Alicante), PALAVRAS-NER (University of Southern Denmark), RENA (Universidade do Minho), RSN-NILC (NILC), SIEMÊS 1 e 2 (Pólo do Porto da Linguateca), Stencil/NooJ (IST e LASELDI, Université de Franche-Comté) [75]. Já se trabalha atualmente com conceito de Segundo HAREM, seguindo a mesma lógica do primeiro, mas incluindo duas novas tarefas/pistas: a de reconhecimento e normalização de expressões temporais e a de reconhecimento de relações semânticas entre entidades mencionadas, o ReRelEM (Reconhecimento de Relações entre Entidades Mencionadas) [62]. Seguindo este conceito atualizado 64 aponta-se os (PORtuguese sistemas Temporal CaGE (Capturing EXpressions Tool), Geographic Priberam, Entities), R3M, PorTexTO REMBRANDT (Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto), REMMA (Reconhecimento de Entidades Mencionadas do MedAlert), SEI-Geo (Sistema de Extração, Anotação e Integração de Conhecimento Geográfico) e SeRELeP (Sistema de reconhecimento de RElações em textos de Língua Portuguesa) [62]. O conhecimento desta terminologia adotada pelo HAREM e os sistemas que por ele são avaliados é de fundamental interesse desta pesquisa, na determinação de padrões que permitam o reconhecimento das entidades assistenciais como pretendido e avaliação de sistemas presentes e estabelecidos para tanto, contraposto a ideia de realizar a tarefa por conta própria, utilizando uma metodologia baseada na modelagem Linguística já descrita. 4.4. NER por Etiquetas nos Corpora de Trabalho Apresentados os conceitos de NER e as limitações do trabalho (impostas pelo pacote NLTK) que levam a busca por meio de etiquetas de entidades assistenciais, é o momento de se apresentar o trabalho com etiquetas. Seguindo a demonstração manual apresentada na metodologia e o trabalho com filtros que buscou entidades por caixa alta (seção 2.3.1) o caminho a ser seguido primeiramente é de busca de uma etiqueta que marque nomes próprios. Para a anotação no VISL realizada a etiqueta que isto indica é “PROP”, como se demonstra no exemplo de sentença da Tabela 9, onde Haiti, Comitê Internacional, Cruz Vermelha e CICV são nomes próprios marcados por “PROP” (grifo verde). 65 Tabela 9. Sentença original e etiquetada que exemplifica anotação “PROP”. Sentença Original O acesso limitado a água, comida e atendimento médico tem elevado as tensões no Haiti e deixado as pessoas “mais agressivas” na luta pela sobrevivência, passada uma semana desde o terremoto , informa comunicado do Comitê Internacional da Cruz Vermelha ( CICV ) Sentença Etiquetada O [ o ] <*> < artd > < dem > DET M S [ ele ] <*> PERS M 3S ACC [ o ] <*> < ac - sign > N M S [ O ] <*> N M S acesso [ acesso ] < event > < Lpath > < f right > N M S [ acessar ] < vt > V PR 1S IND VFIN limitado [ limitado ] ADJ M S [ limitar ] < vt > V PCP M S a [ o ] < artd > < dem > DET F S [ ela ] PERS F 3S ACC [ a ] PRP [ a ] < ac - sign > N M S à ¡ gua [ à ¡ gua ] < cm - liq > < drink > < f - q > N F S [ aguar ] < vt > < vi > V IMP 2S VFIN [ aguar ] < vt > < vi > V PR 3S IND VFIN \, comida [ comida ] < food - h > < occ > N F S [ comer ] < vt > < vi > V PCP F S e [ e ] KC [ e ] < ac - sign > N M S atendimento [ atendimento ] < act > N M S mà © dico [ mà © dico ] ADJ M S [ mà © dico ] < Hprof > N M S tem [ ter ] < vt > V IMP 2S VFIN [ ter ] < vt > V PR 3S IND VFIN elevado [ elevado ] ADJ M S [ elevado ] < Lpath > N M S [ elevar ] < vt > V PCP M S as [ o ] < artd > < dem > DET F P [ elas ] PERS F 3P ACC [ a ] < ac - sign > N M P tensões [ tensà £ o ] < f - q > < percep - f > N F P em [ em ] < sam -> PRP o [ o ] <- sam > < artd > DET M S Haiti [ Haiti ] <*> PROP M S e [ e ] KC [ e ] < ac - sign > N M S deixado [ deixar ] < vt > < vtK > V PCP M S as [ o ] < artd > < dem > DET F P [ elas ] PERS F 3P ACC [ a ] < ac - sign > N M P pessoas [ pessoa ] < H > N F P mais [ mais ] <* 1 > < atemp > ADV [ mais ] <* 1 > < kc > ADV [ muito ] <* 1 > < quant > < KOMP > ADV [ muito ] <* 1 > < quant > < KOMP > DET M / F S / P agressivas [ agressivo ] <* 2 > ADJ F P em [ em ] < sam -> PRP a [ o ] <- sam > < artd > DET F S luta [ luta ] < fight > N F S [ lutar ] < vi > < vt > V IMP 2S VFIN [ lutar ] < vi > < vt > V PR 3S IND VFIN por [ por ] < sam -> PRP a [ o ] <- sam > < artd > DET F S sobrevivência [ sobrevivência ] N F S \, passada [ passada ] < act - d > N F S [ passado ] ADJ F S [ passar ] < ve > < vt > V PCP F S uma [ um ] < quant > < arti > DET F S [ um ] < card > NUM F S semana [ semana ] < dur > N F S desde [ desde ] KS [ desde ] PRP o [ o ] < artd > < dem > DET M S [ ele ] PERS M 3S ACC [ o ] < ac - sign > N M S terremoto [ terremoto ] < occ > N M S \, informa [ informar ] < vt > V IMP 2S VFIN [ informar ] < vt > V PR 3S IND VFIN comunicado [ comunicado ] < sem r > N M S [ comunicar ] < vt > < vi > V PCP M S de [ de ] < sam -> PRP o [ o ] <- sam > < artd > DET M S Comitê = Internacional [ Comitê = Internacional ] <*> PROP M / F S / P de [ de ] < sam -> PRP a [ o ] <- sam > < artd > DET F S Cruz = Vermelha [ Cruz = Vermelha ] <*> PROP F S .- CICV [ CICV ] <*> PROP M / F S / P -. Também é interessante buscar referências a entidades que não o seu nome, e isto se mostrou possível por uma série de etiquetas semânticas utilizadas pelo VISL na marcação adotada. Isto porque, além de se criar redes que relacione 66 referenciais a ações (verbos) com nomes próprios por sentença, é possível também manter redes com outras referências a estas entidades. Mais ainda, uma rede de coocorrência destes dois conjuntos léxicos em textos limitaria os possíveis valores dos itens lexicais marcados por etiquetas semânticas dentro dos nomes próprios coocorrentes. As próximas subseções detalham estes dois estágios de reconhecimento de entidades, bem como o de verbos (também colhidos por meio de marcação aplicada pelo VISL). 4.4.1. Etiqueta PROP Identificada a etiqueta PROP para nomes próprios, desenvolveu-se um algoritmo aplicado ao IDLE do NLTK para isolar, primeiramente as sentenças que continham esta marcação. Este algoritmo envolveu a criação de laços onde um comando de sentenças identificava se uma sentença continha “PROP” e gravava em uma lista, que então era gravada em um arquivo txt. O conteúdo deste arquivo foi então copiado e aplicado em um editor de texto uma substituição de forma que cada item lexical ficasse em uma linha (tomando como referência o marcador “[”). Estas linhas então foram filtradas em uma planilha eletrônica para que somente o léxico contendo a marcação “PROP” fosse isolado (destaque para uma falha ocorrida em uma primeira tentativa que fez o filtro ser aplicado somente a primeira sentença, causando uma distorção notável nos dados que levou a necessidade de uma correção em um momento seguinte, aplicando-se o filtro a todas as sentenças), e então este léxico marcado foi isolado em um arquivo em txt. Pode-se assim, novamente com o pacote NLTK, por meio de comandos que permitiram criar uma lista de itens lexicais de nomes próprios por meio do último arquivo criado, da 67 frequência condicional e de filtros isolar os nomes próprios para os diferentes corpora. 4.4.2. Etiquetas Semânticas Dentro da determinação de etiquetas semânticas do VISL existem marcadores para protótipos de animais, plantas, humanos, lugares e espaços, veículos, protótipos abstratos, anatômicos, sobre objetos, sustâncias, vestimentas, protótipos coletivos, de tempo e evento, de características, comida, conceito, sobre partes, percepções, produtos semânticos, estado das coisas, ferramentas e clima. Existem ainda as etiquetas semânticas que marcam categorias, como categoria pessoa, organização ou grupo, lugar, evento, trabalho de arte, categoria abstrata, sobre objetos, tempo e valor numérico. A escolha entre as etiquetas disponíveis e ocorrentes se deu direcionada pela definição de tipos mais ocorrentes de entidades por Bird et. al. (organização, entidade geopolítica, pessoa, localização, data, tempo e dinheiro [10]) e também pela busca por definir léxicos que permitam localizar as entidades assistenciais e o cenário no qual se enquadram (o que levou a inclusão de etiquetas com referência a evento). A Tabela 10 apresenta estas etiquetas e seus dados: categoria atribuída para este trabalho, presença de correspondente no HAREM, etiqueta e categoria no HAREM (caso possua correspondência). Embora levantados, os dados sobre as correspondências das etiquetas trabalhadas com o HAREM não tiveram grande interferência neste trabalho, já que as etiquetas HAREM não são utilizadas na marcação imposta ao corpus. Estes dados são então, indicativos de convergência entre a etiquetagem utilizada e o projeto HAREM. 68 Tabela 10. Etiquetas semânticas e seus dados. Etiqueta Categoria atribuída HAREM Etiqueta HAREM Categoria HAREM Descrição inst Organization/ GPE/ Location x EMPRESA ORGANIZACAO Instituição admin Organization/ GPE x ADMINISTRACAO/O RG ORGANIZACAO Corpo administrativo org Organization/ GPE x INSTITUICAO/ EMPRESA ORGANIZACAO Organização media Organization/ GPE x EMPRESA ORGANIZACAO Mídia party Organization/ GPE x INSTITUICAO ORGANIZACAO Partido suborg Organization/ GPE x SUB ORGANIZACAO Suborganização company Organization/ GPE x EMPRESA ORGANIZACAO Companhia group Organization/ GPE ORGANIZACAO Grupo groupind Organization/ GPE x GROUPOIND ORGANIZACAO Grupo particular groupoffici al Organization/ GPE x GROUPOCARGO ORGANIZACAO Grupo oficial grouporg Organization/ GPE x GROUPOMEMBRO ORGANIZACAO Grupo de encontro social H Person Humanos HH Person Grupos Hattr Hbio Person Person Atributos Critério biológico Hfam Person Relação familiar Hideo Person Ideologia Hmyth Person Mito Hnat Person Nacionalidade Hprof Person Profissional Hsick Person Doença Htit Person Título de pessoa pos-na Person Posição anatômica pos-soc Person Posição social 69 hum Person x INDIVIDUAL PESSOA Nome de pessoa official Person x CARGO PESSOA Função oficial member Person x MEMBRO PESSOA Membro L Location Lugares Labs Location Lugares abstratos Lciv Location Civilização Lcover Location Coberturas Lh Location Lugares funcionais Lopening Location Abertura Lpath Location Caminho Lstar Location Objetos estelares Lsurf Location Superfície Ltip Location Lugares em topos e abismos Ltop Location Lugares geográficos naturais Ltrap Location Armadilha Lwater Location Lugares de água bar Location Obstáculo build Location Construção top Location x GEOGRAFICO LOCAL Localização geográfica civ Location x ADMINISTRACAO/L OC LOCAL Civilização address Location x CORREIO LOCAL Endereço site Location x ALARGADO LOCAL Lugares funcionais virtual Location x VIRTUAL LOCAL Lugares virtuais astro Location x OBJECTO LOCAL Astros road Location x ALARGADO LOCAL Rodovias dur per temp unit Time/ Date Time/ Date Time/ Date Time/ Date/ Money Duração Período Tempo Unidade de dinheiro ou tempo 70 month date hour period Time/ Date Time/ Date Time/ Date Time/ Date Mês x DATA COISA/TEMPO Data x HORA COISA/TEMPO Hora x PERIODO COISA/TEMPO Período x CICLICO COISA/TEMPO Tempo cíclico cyclic Time/ Date mon Money Dinheiro cur Money Moeda currency Money x MOEDA COISA/VALOR occ Event x ORGANIZADO ACONTECIMENTO event Event x EVENTO ACONTECIMENTO history Event x EFEMERIDE ACONTECIMENTO Moeda Evento organizado Evento não organizado Tempo histórico de ocorrência Escolhidas as etiquetas, executaram-se as mesmas rotinas realizadas para a etiqueta “PROP”, para cada uma das etiquetas escolhidas que não apresentaram contabilização igual à zero, em um dos corpora. A diferença aqui fica por conta da identificação de alguns marcadores no grupo final de léxico obtido, o que exigiu a filtragem destes também para obtenção de itens lexicais que realmente expressavam os tipos de entidades etiquetadas. 4.4.3. Verbos A localização dos verbos nos corpora de estudo se faz necessária aqui como demonstrativa de ações desempenhadas pelas entidades buscadas. Isto se deu por meio de etiquetas de valência de referência a verbos na marcação do VISL aplicada (do tipo <v*). Assim, tomando cada um dos corpora como um conjunto de palavras 71 (por um comando específico no NLTK), buscou-se palavras que se enquadrassem na apresentação entre colchetes normalizada e que eram sucedidas por marcações dentro do padrão das aplicadas a verbos. A lista resultante foi então, para cada corpus, tokenizada, submetida a filtros e colocada em uma nova lista que pudesse ser utilizada em processos subsequentes. É importante notar que os itens lexicais obtidos pela busca por essas etiquetas foram os únicos não gravados em um arquivo txt (embora seja possível fazê-lo facilmente). A explicação para isto está no método de captação deste item lexical, que não demandou uma posterior “limpeza” dos dados levantados no momento de seu uso em processamentos seguintes (para extração de etiquetas e isolamento de item lexical, como foi no uso do léxico identificado pelas etiquetas PROP e Semânticas), resultante do padrão de aplicação das etiquetas <v* pelo texto. 4.4.4. Busca por Resultados para Análise Tendo as etiquetas e seus itens lexicais correspondentes, partiu-se para as ações com estas utilizando-se o NLTK, tomando ainda apenas o corpus do Haiti. A primeira abordagem neste sentido foi buscar dados sobre co-ocorrência de itens lexicais correspondentes as etiquetas semânticas remanescentes em textos (Tabela 11) e co-ocorrência entre itens lexicais e etiquetas, que determina como cada item lexical está marcado (Tabela 12). Também se realizou um cruzamento por frequência condicional entre os itens lexicais anotados pela etiqueta PROP e as sentenças que possuem marcações com as etiquetas semânticas (Tabela 13) e o cruzamento de itens lexicais PROP com textos (Tabela 14). Isto segue uma lógica na qual se buscou, quantitativamente, dentre as etiquetas semânticas, aquelas que são correspondências a entidades assistenciais, pela co-ocorrência com outras 72 referências sabidamente de entidades deste tipo (de nome próprio), bem como organizar a informação de co-ocorrência em textos das entidades etiquetadas e itens lexicais marcados com PROP. Este dados de co-ocorrência foram organizados em matrizes, representados para cada um dos casos conforme mostram as Tabelas abaixo. Tabela 11. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por etiquetas semânticas e textos do corpus Haiti. Item lexical 1.txt 10.txt 100.txt 101.txt 102.txt 103.txt 104.txt panamà 0 1 0 0 0 0 0 tratar 0 0 0 5 0 0 0 tupiniquim 0 0 0 0 0 0 0 velório 0 0 14 2 0 0 0 barragem 0 0 0 0 0 0 0 nega 0 0 0 0 0 0 0 seguimento 0 0 0 0 0 0 0 respeitar 0 0 0 0 0 0 0 entà 2 0 0 0 0 0 0 React 0 0 0 0 0 0 0 ordinà 0 0 0 0 0 0 0 acadêmico 0 0 0 0 0 0 0 presente 0 0 0 0 0 0 0 prazo 0 1 0 0 2 0 0 Tabela 12. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por etiquetas semânticas e arquivos com sentenças de etiquetas semânticas. Item lexical H.txt HH.txt Hattr.txt Hbio.txt Hfam.txt Hideo.txt Hnat.txt sobrado 0 0 0 0 0 0 0 panamà 0 1 0 0 0 0 0 infrator 0 0 1 0 0 0 0 saver 0 2 0 0 0 0 0 asià 0 0 0 0 0 0 9 magistrado 0 0 0 0 0 0 0 tratar 1 0 0 0 0 0 0 tupiniquim 0 1 0 0 0 0 3 10 2 0 0 0 0 0 seguimento 0 2 0 0 0 0 0 respeitar 0 1 0 0 0 0 0 entà 0 5 0 0 0 1 0 React 0 0 0 2 0 0 0 51 0 0 0 1 0 0 nega presente 73 Tabela 13. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por PROP e textos do corpus Haiti. Item lexical 1.txt 187.txt 191.txt 208.txt 266.txt 278.txt 279.txt Welcome 0 2 0 0 0 0 0 Worst 0 0 0 0 0 0 0 Wilson 0 0 0 0 0 0 0 Wandinha 0 0 2 0 0 0 0 Vanessa 0 0 0 0 0 0 0 Vh1 0 0 0 0 0 0 4 Edison 0 0 0 0 2 0 0 Califórnia 0 0 0 0 0 2 0 Caraguatatuba 0 0 0 0 0 0 0 Lavalas 0 0 0 0 0 0 0 Rocha 0 0 0 0 0 0 0 Tribilasyon 0 0 0 0 0 0 0 KELLES 0 0 0 2 0 0 0 Toledo 0 0 0 0 0 0 0 Tabela 14. Trecho representativo de matriz de cruzamento de ocorrência entre itens lexicais marcados por PROP e arquivos com sentenças de etiquetas semânticas. Item lexical H.txt HH.txt Hideo.txt Hmyth.txt Hnat.txt Hprof.txt Htit.txt Welcome 0 0 0 0 0 2 0 Worst 2 2 0 0 0 0 0 Wilson 2 2 0 0 0 2 0 Wandinha 0 0 0 2 0 0 2 Vanessa 2 0 2 0 0 2 0 Vh1 2 0 0 0 2 0 0 Edison 2 0 0 0 0 6 2 12 10 0 0 6 18 6 Caraguatatuba 2 0 0 0 0 0 0 Lavalas 6 10 0 0 0 16 0 Rocha 4 4 0 0 0 14 2 Tribilasyon 0 0 0 0 0 2 0 KELLES 0 0 0 0 0 2 0 Toledo 8 0 0 0 2 8 0 Califórnia A partir destes dados buscou-se então obterem-se representações em rede, onde itens lexicais etiquetados como entidades e outros marcados com PROP se ligariam por estarem presentes em um mesmo texto. Para este formato matricial o UCINET aparece como uma interessante. O UCINET é um pacote de software para a análise de dados de redes sociais com a ferramenta de visualização da rede em 74 um programa chamado NetDraw, ambos desenvolvidos por pesquisadores de tecnologias de análise da Universidade de Harvard e voltados para aplicações no sistema operacional Windows [12]. Porém o problema para a aplicação é que este programa prevê matrizes que explicitem diretamente as relações (uma matriz binária entre itens lexicais marcados por PROP e etiquetados semânticos presentes no mesmo texto). O processamento utilizando o NLTK para obter estes dados não é trivial. De fato, o cruzamento por frequência condicional entre os itens lexicais é inviável (cruza lista de itens lexicais com arquivos de texto). A solução seria então buscar laços iterativos, que pelo volume de operações e iterações tornou inviável operacionalmente a obtenção de dados no modo requerido pelo UCINET. Por meio de comandos no pacote NLTK, envolvendo laços, contadores de indexação de sentenças e palavras e uso de marcadores, obteve-se então uma forma de promover a associações de itens lexicais por co-ocorrência que permitissem a confecção e estudo em redes em um suplemento do Excel chamado NodeXL. Este suplemento foi concebido para a execução de representações gráficas de redes sociais, bem como sua análise em diferentes aspectos e exportação de dados para outros programas de análise de redes sociais, como o Pajek [56]. Nele as relações são descritas por duas colunas de vértices, onde o valor à direita está ligado ao valor imediatamente à esquerda. Este foi então a opção escolhida para a confecção das redes e realização de cálculos métricos sobre estas, suas relações e agrupamentos automáticos. Para organização de dados sobre as redes buscadas foi utilizada, como consequência da saída dos dados no NLTK e da entrada no NodeXL, a planilha eletrônica Excel. Neste momento idealizou-se a confecção de três redes (englobando também os itens lexicais marcados como verbos), a saber: rede de ligação entre verbos e nomes próprios (rede VP), rede de ligação entre verbos e palavras etiquetadas como entidades (rede VE) e rede de ligação entre nomes próprios e palavras etiquetadas como entidades pelo VISL (rede PE). Os dados para as redes VP e VE foram levantados em maiores problemas. Já para a rede PE, após 18 horas do início da execução das linhas de comandos no NLTK, foram relacionadas apenas 33 palavras etiquetadas com seus respectivos nomes próprios, passo seguido de um erro. A 75 limitação aqui está na capacidade de processamento do pacote NLTK e complexidade da operação, uma dificuldade já exposta acima. Diferentemente das associações VP e VE, onde a coocorrência é buscada em sentenças, para a associação PE só faz sentido coocorrências em textos, já que a ideia de buscar essa associação é determinar outras referências de organizações que não o nome próprio. Isto leva a composição de um laço onde cada uma das palavras etiquetadas é buscada pelos 842 textos de reportagens referentes ao terremoto do Haiti, e quando encontrada em um texto, busca todos os nomes próprios ali presentes, isto é, são duas buscas. Com isso o tempo de processamento aumenta muito e a exigência de processamento ultrapassa a disponível pelo pacote NLTK. Como este seria um resultado que se ligaria a estudos de correferência (outra referência lexical a um mesmo conceito) e estes estudos não são abordados neste trabalho, focou-se a partir daí nas associações VE e VP. Com a confecção das primeiras redes e com a manipulação do volume de dados entendeu-se que as filtragens para uso de itens lexicais isolados referentes aos três tipos de etiquetas utilizados deveriam atuar de forma mais relevantes, já que o algoritmo de identificação utilizado, por si só, não foi capaz de “barrar” algumas expressões sem qualquer informação relevantes para o estudo aqui executado. Novas filtragens foram aplicadas de forma a excluir estas expressões que, se não são muitas, com sua alta frequência destorcem os resultados. Assim, filtrou-se, partindo de conjuntos lexicais já delimitados como apresentou as subseções anteriores (para cada tipo de marcação), stopwords (inclusive em apresentação como título), marcações identificadas como léxico pertencente a um grupo etiquetado, itens lexicais com menos de dois caracteres e expressões numéricas ou símbolos. Este levantamento, mais maduro, obtido para o corpus do Haiti, foi então aplicado ao corpus do Chile, resultando nos valores de números de itens lexicais utilizados na composição de redes, para cada um dos grupos de etiquetas dentro de cada um dos corpora, apresentados pela Tabela 15 (para o corpus do Haiti apresenta-se também o percentual de redução com as novas filtragens). 76 Tabela 15. Valores de números de itens lexicais utilizados na composição de redes. Grupos de Etiquetas Chile Haiti % Redução no Corpus do Haiti PROP 1608 5118 0,49 Etiquetas Semânticas 1353 3655 5,04 Verbos 1394 2635 0,11 O apêndice A apresenta, para o corpus do Chile, os comandos utilizados no pacote NLTK para chegar a estes resultados, bem como as associações para VP e VE e o levantamento de itens lexicais mais frequentes em cada texto (levantados para análises e apresentadas no apêndice E para o Chile e no F para o Haiti). O apêndice B é o análogo ao A para o corpus do Haiti. Baseado nestes comandos, itens lexicais correspondentes a cada grupo de etiquetas e dados de associação entre estes se elaborou redes para análise. Estas redes compõem descrevem em si as entidades e ações que compõem o cenário apresentado por cada uma das catástrofes estudadas. Até este momento todas as aplicações se deram de modo não supervisionado, isto é, não houve nenhuma implicação manual, escolha ou filtro realizado, mas sim a aplicação de comandos na totalidade de registros que compõe os corpora. Mas a dissociação das entidades assistenciais e suas ações, em meio a outras identificadas, mostrou-se inviável desta forma. Partiu-se então, frente a identificação dos limites de aplicação de métodos não supervisionados, para uma abordagem supervisionada que toma como base resultados da primeira aplicação, caracterizando a utilização deste trabalho dos chamados métodos combinados. O método aplicado aqui foi o de partir de um conjunto de nomes próprios que façam referência a entidades assistenciais e identificar os verbos que se associam em cada sentença. Este conjunto foi extraído para cada corpus dentre os dez mais frequentes de cada texto, que após a identificação foram analisados de forma a apenas trabalhar-se com os nomes próprios que referenciem a entidades assistenciais. Após a identificação dos verbos associados, buscou-se as entidades etiquetadas a estes associados e também promoveu-se o caminho de volta, buscando nomes próprios que associam-se também a estes verbos, no todo e não 77 apenas no recorte inicial. O objetivo destas ações foi o de, primeiro, identificar as entidades assistenciais e suas ações, para os cenários estudados e, segundo, buscar padrões dentre estes resultados que permitam a aplicação de métodos totalmente automatizados de identificação de entidades. O resultado para estas ações forma, para cada um dos corpora, uma rede entre nomes próprios de referência a entidades assistenciais (supervisionados) e verbos associados em sentenças (rede VPS), outra entre estes verbos remanescentes e as entidades etiquetadas (rede VEA) e também entre os mesmos verbos e todos os nomes próprios (rede VPA). Os comandos para geração destas redes são apresentados nos apêndices C e D (para Chile e Haiti, respectivamente). 5. RESULTADOS As subseções seguintes, pertinentes a apresentação de resultados, são divididos em dois grandes blocos referentes à supervisão ou não explicitadas acima. Assim, as contribuições tanto em nível de entidades totais do cenário como as assistenciais em específico podem ser apresentadas e discutidas, bem como ficará mais evidente as limitações de métodos não supervisionados nesta busca pelas entidades assistenciais. 78 5.1. Método Não Supervisionado Os resultados apresentados nesta subseção são compostos pelas redes VP e VE elaboradas para cada uma dos corpora, bem como suas métricas e identificação de grupos, elaborada na busca por grupos que fossem compostos por entidades assistenciais e suas ações. 5.1.1. Haiti 5.1.1.1.Rede VP A primeira rede produzida por meio dos dados levantados e com o uso do NodeXL foi a VP para o Haiti, conforme é apresentado na Figura 12. Nesta rede, e em todas as seguintes, o tamanho do vértice varia com o número de ligações que apresenta com outros (quanto mais ligações, maior é). 79 Figura 12. Rede VP para o Haiti. Como é simples notar, o volume de informação impede qualquer arranjo que permita uma análise qualitativa sobre a rede apresentada. Para qualquer análise aqui, então, é necessário apoiar-se em dados quantitativos, apresentados pelas métricas de tal rede. Estes dados são mostrados na Tabela 16, onde os nomes em inglês destas métricas espelha as saídas do NodeXL. Tabela 16. Métricas de rede VP. Métrica Valor Vertices 7311 Unique Edges 108101 Edges With Duplicates 4 Total Edges 108105 Self-Loops 0 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 7311 Maximum Edges in a Connected Component 108105 80 Maximum Geodesic Distance (Diameter) 8 Average Geodesic Distance 2,998743 Graph Density 0,004045513 Minimum Degree 1 Maximum Degree 2734 Average Degree 29,573 Median Degree 9,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 4781065,610 Average Betweenness Centrality 7306,904 Median Betweenness Centrality 222,822 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,000 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,003 Average Eigenvector Centrality 0,000 Median Eigenvector Centrality 0,000 Minimum PageRank 0,174 Maximum PageRank 102,293 Average PageRank 1,000 Median PageRank 0,412 Buscou-se então dados de agrupamento dos vértices inerentes a aplicação de algoritmos próprios para a isso apoiados nas métricas de rede (clusterização). O NodeXL oferece três opções de algoritmos para isto, mas somente dois puderam ser aplicados aqui devido as dimensões da rede: Clauset-Newman-Moore (Algoritmo 1) e Wakita-Tsurumi (Algoritmo 2). Esta seção se limitará a apresentar os resultados da aplicação destes algoritmos, sendo o seu funcionamento detalhado na seção de discussão. O primeiro algoritmo resultou em 41 grupos, dissociados na representação gráfica por cores e formatos dos vértices. A Figura 13 apresenta esta representação (sem os nomes de cada vértice para melhor apresentação). 81 Figura 13. Rede VP clusterizada pelo algoritmo 1 para o Haiti. Igualmente a rede inicial, esta também não apresenta uma visualização que colabore para análises possíveis em redes menores. Porém a dissociação de vértices pela cor e visualização de sua representatividade em ligações (pelo tamanho) permite identificar elementos importantes no cenário descrito e dentro do grupo, sejam entidades ou ações, motivo pelo qual se apresenta esta rede como um resultado para a análise. A rede clusterizada apresenta também métricas próprias, referentes aos grupos identificados. Para o algoritmo 1 estas métricas são mostradas na Tabela 17. Os valores de Cor e Forma são mostrados em inglês, como a saída do NodeXL, e são citados aqui de forma a ajudar na localização gráfica dos grupos. Tabela 17. Métricas para rede VP clusterizada pelo algoritmo 1 para o Haiti. 33345 Maior Distância Geodésica 6 Distância Geodésica Média 2,957 222 11 4,501 Grupo Cor Forma Vértices Laços G1 Blue Disk 2464 G2 Orange Disk 175 Densidade 0,011 0,015 82 G3 Lime Disk 1495 5432 7 3,351 0,005 G4 Magenta Disk 2808 20877 6 2,981 0,005 G5 Yellow Disk 4 3 2 1,125 0,500 G6 Cyan 5 4 4 1,600 0,400 G7 Blue 138 173 11 4,067 0,018 G8 Orange 6 5 3 1,556 0,333 G9 Lime 3 2 2 0,889 0,667 G10 Magenta 8 7 2 1,531 0,250 G11 Yellow 15 17 6 2,702 0,162 G12 Cyan 4 3 3 1,250 0,500 G13 Blue 50 55 9 3,768 0,045 G14 Orange 3 2 2 0,889 0,667 G15 Lime 19 21 6 2,825 0,123 G16 Magenta 4 3 2 1,125 0,500 G17 Yellow 3 2 2 0,889 0,667 G18 Cyan 4 3 3 1,250 0,500 G19 Blue 8 7 4 2,063 0,250 G20 Orange 7 6 5 2,041 0,286 G21 Lime 10 11 6 2,360 0,244 G22 Magenta 4 3 2 1,125 0,500 G23 Yellow 3 2 2 0,889 0,667 G24 Cyan 8 8 4 1,875 0,286 G25 Blue Disk Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Sphere 10 10 6 2,400 0,222 G26 Orange Sphere 4 3 2 1,125 0,500 G27 Lime Sphere 16 16 6 2,961 0,133 G28 Magenta Sphere 2 1 1 0,500 1,000 G29 Yellow Sphere 2 1 1 0,500 1,000 G30 Cyan Sphere 4 3 3 1,250 0,500 G31 Blue Circle 3 2 2 0,889 0,667 G32 Orange Circle 2 1 1 0,500 1,000 G33 Lime Circle 2 1 1 0,500 1,000 G34 Magenta Circle 2 1 1 0,500 1,000 G35 Yellow Circle 2 1 1 0,500 1,000 83 G36 Cyan Circle 2 1 1 0,500 1,000 G37 Blue Square 4 3 3 1,250 0,500 G38 Orange Square 2 1 1 0,500 1,000 G39 Lime Square 2 1 1 0,500 1,000 G40 Magenta Square 2 1 1 0,500 1,000 G41 Yellow Square 2 1 1 0,500 1,000 Igualmente, para o segundo algoritmo apresenta-se na Figura 14 a representação gráfica da rede e na Tabela 18 suas métricas, incidente nos 36 grupos emergentes. Figura 14. Rede VP clusterizada pelo algoritmo 2 para o Haiti. Tabela 18. Métricas para rede VP clusterizada pelo algoritmo 2 para o Haiti. 21 Maior Distância Geodésica 5 Distância Geodésica Média 2,186 14 13 4 2,204 0,143 Disk 32 35 6 2,793 0,071 Magenta Disk 77 103 6 2,956 0,035 Yellow Disk 127 199 8 3,127 0,025 Grupo Cor Forma Vértices Laços G1 Blue Disk 21 G2 Orange Disk G3 Lime G4 G5 Densidade 0,100 84 G6 Cyan G7 Blue G8 Orange G9 Lime G10 Magenta G11 Yellow G12 Cyan G13 Blue G14 Orange G15 Lime G16 Magenta G17 Yellow G18 Cyan G19 Blue G20 Orange G21 Lime G22 Magenta G23 Yellow G24 Cyan G25 Blue Disk Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Sphere 86 110 6 2,732 0,030 239 708 7 3,321 0,025 307 795 6 2,973 0,017 262 1078 6 3,105 0,032 13 12 5 2,391 0,154 260 784 7 3,239 0,023 438 1659 6 3,085 0,017 77 81 7 2,963 0,028 93 93 6 2,184 0,022 329 1120 8 3,163 0,021 659 3546 6 2,670 0,016 77 86 6 2,535 0,029 252 684 7 3,175 0,022 84 100 8 3,298 0,029 145 160 6 2,442 0,015 365 2168 7 2,963 0,033 254 753 6 3,107 0,023 180 316 6 2,746 0,020 213 509 8 3,355 0,023 496 852 6 2,269 0,007 G26 Orange Sphere 271 629 6 2,819 0,017 G27 Lime Sphere 208 416 7 3,443 0,019 G28 Magenta Sphere 75 86 5 2,267 0,031 G29 Yellow Sphere 76 83 9 3,226 0,029 G30 Cyan Sphere 33 36 8 3,185 0,068 G31 Blue Circle 68 83 7 2,881 0,036 G32 Orange Circle 230 631 8 3,519 0,024 G33 Lime Circle 118 228 8 3,504 0,033 G34 Magenta Circle 1022 7328 8 2,974 0,014 G35 Yellow Circle 50 66 7 3,006 0,054 G36 Cyan Circle 60 67 6 2,877 0,038 85 5.1.1.2. Rede VE Para a rede de associação entre verbos e itens lexicais etiquetados como entidades (VE), a sequência de resultados apresentados é análoga a de rede VP. Assim, a rede inicial é apresentada na Figura 15. Figura 15. Rede VE para o Haiti. Embora aqui tenha se aplicado outro modo de arranjo dos nós, persiste o problema de analisar-se a rede pela sua simples observação. A Tabela 19 aponta então as métricas para esta rede que permitam maiores discussões. 86 Tabela 19. Métricas de rede VE. Métrica Valor Vertices 5907 Unique Edges 311974 Edges With Duplicates 40912 Total Edges 352886 Self-Loops 405 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 5907 Maximum Edges in a Connected Component 352886 Maximum Geodesic Distance (Diameter) 5 Average Geodesic Distance 2,158619 Graph Density 0,019034452 Minimum Degree 1 Maximum Degree 4658 Average Degree 112,5545962 Median Degree 35 Minimum Betweenness Centrality 0 Maximum Betweenness Centrality 3408836,205 Average Betweenness Centrality 3422,482648 Median Betweenness Centrality 22,056173 Minimum Closeness Centrality 0,000044 Maximum Closeness Centrality 0,00014 Average Closeness Centrality 7,91615E-05 Median Closeness Centrality 0,000081 Minimum Eigenvector Centrality 0 Maximum Eigenvector Centrality 0,00233 Average Eigenvector Centrality 0,000169292 Median Eigenvector Centrality 0,000073 Minimum PageRank 0,156594 Maximum PageRank 55,655977 Average PageRank 0,99999991 Median PageRank 0,409182 Para esta rede também foram aplicados os algoritmos de clusterização apresentados acima. A Figura 16 e Tabela 20 apresentam a rede gráfica e métricas dos 8 grupos identificados pelo algoritmo 1 e a Figura 17 e Tabela 21 apontam o mesmo para os 49 grupos localizados na aplicação do algoritmo 2. 87 Figura 16. Rede VE clusterizada pelo algoritmo 1 para o Haiti. Tabela 20. Métricas para rede VE clusterizada pelo algoritmo 1 para o Haiti. 13070 Maior Distância Geodésica 4 Distância Geodésica Média 2,247 57770 5 2,287 0,029 1966 94058 5 2,197 0,046 Disk 46 46 5 2,571 0,044 Red Disk 3 2 2 0,889 0,667 G6 Orange Disk 2 1 1 0,500 1,000 G7 Yellow Disk 3 2 2 0,889 0,667 G8 Lime Disk 2 1 1 0,500 1,000 Grupo Cor Forma Vértices Laços G1 Blue Disk 1950 G2 Cyan Disk 1935 G3 Dark green Disk G4 Light green G5 Densidade 0,007 88 Figura 17. Rede VE clusterizada pelo algoritmo 2 para o Haiti. Tabela 21. Métricas para rede VE clusterizada pelo algoritmo 2 para o Haiti. 4 Maior Distância Geodésica Not Applicable 2 Distância Geodésica Média Not Applicable 1,280 43 73 6 2,806 0,079 Disk 23 33 4 2,457 0,130 Red Disk 25 33 6 2,810 0,110 G6 Orange Disk 6 5 3 1,611 0,333 G7 Yellow Disk 17 20 4 2,228 0,147 G8 Lime Disk 272 1923 5 2,327 0,049 G9 Magenta Disk 265 2334 5 2,269 0,063 G10 Purple Disk 52 114 6 2,640 0,083 G11 Lilac Disk 7 6 3 1,633 0,286 G12 Steel blue 19 23 5 2,526 0,135 G13 Blue Disk Solid Square 48 96 6 2,743 0,083 Grupo Cor Forma Vértices Laços G1 Blue Disk 1 0 G2 Cyan Disk 5 G3 Dark green Disk G4 Light green G5 Densidade Not Applicable 0,400 89 G14 Cyan G15 Dark green G16 Light green G17 Red G18 Orange G19 Yellow G20 Lime G21 Magenta G22 Purple G23 Lilac G24 Steel blue G25 Blue G26 Cyan G27 Dark green G28 Light green G29 Red G30 Orange G31 Yellow G32 Lime G33 Magenta G34 Purple G35 Lilac G36 Steel blue G37 Blue G38 Cyan G39 Dark green G40 Light green G41 Red Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle 18 21 5 2,426 0,131 7 6 2 1,469 0,286 4 3 3 1,250 0,500 8 8 3 1,781 0,250 80 234 4 2,417 0,072 138 704 5 2,418 0,072 10 10 4 2,020 0,222 220 2109 5 2,172 0,082 118 545 5 2,379 0,076 62 118 6 3,008 0,062 11 10 5 2,149 0,182 109 424 5 2,519 0,069 116 487 6 2,393 0,071 182 978 6 2,512 0,057 299 3461 4 2,213 0,070 225 1516 4 2,404 0,056 856 5489 4 2,080 0,015 285 1882 5 2,397 0,043 245 1521 4 2,260 0,048 83 273 6 2,583 0,078 123 702 4 2,322 0,087 365 4260 4 2,297 0,057 130 594 5 2,227 0,068 167 612 5 2,218 0,043 295 1971 4 2,180 0,043 264 1819 5 2,361 0,048 28 46 5 2,452 0,119 51 84 5 2,517 0,064 90 G42 Orange G43 Yellow G44 Lime G45 Magenta G46 Purple G47 Lilac G48 Steel blue G49 Blue Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Sphere 19 24 5 2,360 0,140 137 642 4 2,477 0,066 303 1503 5 2,175 0,032 45 108 4 2,353 0,104 12 11 5 2,486 0,167 15 16 4 2,009 0,152 60 158 5 2,638 0,088 34 57 6 2,651 0,102 5.1.2. Chile 5.1.2.1. Rede VP As os trabalhos com o Haiti, os comandos formam reaplicados, agora para o corpus do Chile etiquetado. Como resultado, primeiramente para a rede VP, identificou-se o arranjo mostrado na Figura 18, e as métricas para esta rede estão na Tabela 22. 91 Figura 18. Rede VP para o Chile. Tabela 22. Métricas de rede VP. Métrica Valor Vertices 2755 Unique Edges 19467 Edges With Duplicates 0 Total Edges 19467 Self-Loops 1 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 2755 Maximum Edges in a Connected Component 19467 Maximum Geodesic Distance (Diameter) 7 Average Geodesic Distance 3,171811 Graph Density 0,005131226 Minimum Degree 1 Maximum Degree 825 Average Degree 14,132 Median Degree 6,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 803837,798 92 Average Betweenness Centrality 2992,170 Median Betweenness Centrality 171,609 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,000 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,007 Average Eigenvector Centrality 0,000 Median Eigenvector Centrality 0,000 Minimum PageRank 0,200 Maximum PageRank 54,100 Average PageRank 1,000 Median PageRank 0,527 Também aqui foram aplicados os algoritmos de clusterização. Para o algoritmo 1 tem-se a rede com 23 grupos da Figura 19 e as métricas da Tabela 23. Já para o algoritmo 2, com 29 grupos, está na Figura 20 e a Tabela 24 mostram as métricas correspondentes. Figura 19. Rede VP clusterizada pelo algoritmo 1 para o Chile. 93 Tabela 23. Métricas para rede VP clusterizada pelo algoritmo 1 para o Chile. 13 Maior Distância Geodésica 5 Distância Geodésica Média 2,520 893 5205 6 3,074 0,013 594 2691 7 3,228 0,015 Disk 524 1528 7 3,133 0,011 Yellow Disk 343 618 9 3,911 0,011 G6 Cyan 108 142 8 3,368 0,025 G7 Blue 127 309 8 3,051 0,039 G8 Orange 13 15 5 2,249 0,192 G9 Lime 14 15 7 2,837 0,165 G10 Magenta 60 60 9 3,732 0,034 G11 Yellow 6 5 3 1,611 0,333 G12 Cyan 12 11 6 2,486 0,167 G13 Blue 5 4 2 1,280 0,400 G14 Orange 12 16 6 2,528 0,242 G15 Lime 2 1 1 0,500 1,000 G16 Magenta 8 10 4 1,656 0,357 G17 Yellow 7 6 3 1,633 0,286 G18 Cyan 2 1 1 0,500 1,000 G19 Blue 2 1 1 0,500 1,000 G20 Orange 2 1 1 0,500 1,000 G21 Lime 2 1 1 0,500 1,000 G22 Magenta 3 2 2 0,889 0,667 G23 Yellow Disk Solid Square Solid Square Solid Square Solid Square Solid Square Solid Square Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle 2 1 1 0,500 1,000 Grupo Cor Forma Vértices Laços G1 Blue Disk 14 G2 Orange Disk G3 Lime Disk G4 Magenta G5 Densidade 0,143 94 Figura 20. Rede VP clusterizada pelo algoritmo 2 para o Chile. Tabela 24. Métricas para rede VP clusterizada pelo algoritmo 2 para o Chile. 2 Maior Distância Geodésica 2 Distância Geodésica Média 0,889 4 3 3 1,250 0,500 Disk 6 6 4 1,611 0,400 Magenta Disk 15 14 7 2,684 0,133 G5 Yellow Disk 56 178 5 2,099 0,116 G6 Cyan Disk 24 33 7 3,017 0,120 G7 Blue Solid Square 229 768 6 2,752 0,029 G8 Orange Solid Square 160 448 7 3,149 0,035 G9 Lime Solid Square 81 151 7 3,152 0,047 G10 Magenta Solid Square 142 297 6 2,998 0,030 G11 Yellow Solid Square 155 480 6 2,959 0,040 G12 Cyan 101 431 5 2,601 0,085 G13 Blue 55 71 7 3,144 0,048 G14 Orange 103 191 8 3,598 0,036 G15 Lime Solid Square Solid Diamond Solid Diamond Solid Diamond 150 369 7 3,414 0,033 Grupo Cor Forma Vértices Laços G1 Blue Disk 3 G2 Orange Disk G3 Lime G4 Densidade 0,667 95 G25 Blue Solid Diamond Solid Diamond Solid Diamond Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Solid Triangle Sphere 71 111 10 3,787 0,045 G26 Orange Sphere 155 454 8 3,273 0,038 G27 Lime Sphere 64 79 10 4,026 0,039 G28 Magenta Sphere 161 344 8 3,598 0,027 G29 Yellow Sphere 61 94 8 3,536 0,051 G16 Magenta G17 Yellow G18 Cyan G19 Blue G20 Orange G21 Lime G22 Magenta G23 Yellow G24 Cyan 26 26 6 3,160 0,080 91 266 7 2,957 0,065 35 43 10 4,075 0,072 172 448 8 2,977 0,030 136 347 7 3,074 0,038 174 502 6 3,111 0,033 64 94 6 2,962 0,047 161 228 7 2,735 0,018 100 145 7 3,043 0,029 5.1.2.2. Rede VE Similarmente ao feito para o Haiti, no corpus do Chile também houve a confecção de rede VE, que é mostrada na Figura 21 e tem suas métricas expostas na Tabela 25. 96 Figura 21. Rede VE para o Chile. Tabela 25. Métricas de rede VE. Métricas Valor Vertices 2764 Unique Edges 42598 Edges With Duplicates 30 Total Edges 42628 Self-Loops 11 Connected Components 2 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 2762 Maximum Edges in a Connected Component 42627 Maximum Geodesic Distance (Diameter) 6 Average Geodesic Distance 2,416168 Graph Density 0,149797 Minimum Degree 1 Maximum Degree 1945 Average Degree 30,834 Median Degree 14,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 1837234,494 97 Average Betweenness Centrality 1954,813 Median Betweenness Centrality 54,542 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 1,000 Average Closeness Centrality 0,001 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,009 Average Eigenvector Centrality 0,000 Median Eigenvector Centrality 0,000 Minimum PageRank 0,174 Maximum PageRank 64,855 Average PageRank 1,000 Median PageRank 0,532 Na aplicação dos algoritmos de clusterização obteve-se 27 grupos para o primeiro e 31 para o segundo, sendo estes descritos pelas Figuras 22 e 23 e pelas Tabelas 26 e 27, respectivamente. Figura 22. Rede VE clusterizada pelo algoritmo 1 para o Chile. 98 Tabela 26. Métricas para rede VE clusterizada pelo algoritmo 1 para o Chile. 3226 Maior Distância Geodésica 7 Distância Geodésica Média 3,118 895 8570 5 2,249 0,021 842 8148 6 2,677 0,023 Disk 196 280 10 3,713 0,015 Red Disk 29 30 7 3,420 0,074 G6 Orange Disk 2 1 1 0,500 1,000 G7 Yellow Disk 5 4 3 1,440 0,400 G8 Lime Disk 6 7 3 1,389 0,467 Grupo Cor Forma Vértices Laços G1 Blue Disk 714 G2 Cyan Disk G3 Dark green Disk G4 Light green G5 Densidade 0,013 G9 Magenta Disk 7 8 3 1,551 0,381 G10 Purple Disk 12 15 4 2,042 0,227 G11 Lilac Disk 5 4 2 1,280 0,400 G12 Steel blue Disk 2 1 1 0,500 1,000 G13 Blue Solid Square 3 2 2 0,889 0,667 G14 Cyan Solid Square 4 3 2 1,125 0,500 G15 Dark green Solid Square 5 5 3 1,280 0,500 G16 Light green Solid Square 2 1 1 0,500 1,000 G17 Red Solid Square 5 4 3 1,440 0,400 G18 Orange Solid Square 2 1 1 0,500 1,000 G19 Yellow Solid Square 3 2 2 0,889 0,667 G20 Lime Solid Square 8 8 4 1,938 0,286 G21 Magenta Solid Square 2 1 1 0,500 1,000 G22 Purple Solid Square 2 1 1 0,500 1,000 G23 Lilac Solid Square 3 2 2 0,889 0,667 G24 Steel blue 3 2 2 0,889 0,667 G25 Blue 3 2 2 0,889 0,667 G26 Cyan 2 1 1 0,500 1,000 G27 Dark green Solid Square Solid Diamond Solid Diamond Solid Diamond 2 1 1 0,500 1,000 99 Figura 23. Rede VE clusterizada pelo algoritmo 2 para o Chile. Tabela 27. Métricas para rede VE clusterizada pelo algoritmo 2 para o Chile. 1 Maior Distância Geodésica 1 Distância Geodésica Média 0,500 14 6 2,403 0,212 140 442 6 2,958 0,045 Disk 9 8 5 2,420 0,222 Red Disk 19 20 7 2,748 0,117 G6 Orange Disk 13 12 4 2,059 0,154 G7 Yellow Disk 164 728 5 2,694 0,054 G8 Lime Disk 111 227 7 3,044 0,037 G9 Magenta Disk 33 48 6 2,949 0,089 G10 Purple Disk 67 119 6 2,867 0,054 G11 Lilac Disk 133 451 6 2,878 0,051 G12 Steel blue Disk 67 117 6 2,788 0,053 G13 Blue Solid Square 232 1045 4 2,043 0,039 G14 Cyan Solid Square 135 370 7 2,883 0,041 G15 Dark green Solid Square 56 84 6 2,867 0,055 G16 Light green Solid Square 27 36 5 2,392 0,103 Grupo Cor Forma Vértices G1 Blue Disk 2 G2 Cyan Disk 12 G3 Dark green Disk G4 Light green G5 Laços Densidade 1,000 100 G17 Red Solid Square 172 442 7 3,115 0,030 G18 Orange Solid Square 141 487 6 2,848 0,049 G19 Yellow Solid Square 106 278 7 3,005 0,050 G20 Lime Solid Square 16 16 5 2,422 0,133 G21 Magenta Solid Square 113 284 7 2,941 0,045 G22 Purple Solid Square 156 677 6 2,658 0,056 G23 Lilac Solid Square 119 439 6 2,794 0,063 G24 Steel blue 51 77 6 3,037 0,060 G25 Blue 185 804 5 2,492 0,047 G26 Cyan 84 178 6 2,963 0,051 G27 Dark green 30 37 8 3,500 0,085 G28 Light green 121 294 6 3,017 0,040 G29 Red 27 28 5 2,348 0,080 G30 Orange 173 876 6 2,641 0,059 G31 Yellow Solid Square Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond Solid Diamond 50 62 6 2,704 0,051 5.2. Método Supervisionado Feitos os trabalhos sem nenhuma supervisão e apresentados seus resultados partiu-se, como descrito anteriormente, para busca de resultados supervisionando nomes próprios (marcados pela etiqueta PROP) que referenciassem entidades assistenciais. Os resultados abaixo apontam as redes obtidas nestas execuções para os corpora do Haiti e Chile. 101 5.2.1. Haiti A supervisão dos nomes próprios no corpus do Haiti permitiu identificar como referências a entidades assistenciais 42 itens lexicais, na seguinte forma: 'Unidas', 'POUPEX', 'Defesa', 'Western', 'ONG', 'ONU', 'Europeia', 'PNH', 'Itamaraty', 'OMS', 'CICV', 'Unesco', 'Minustah', 'Marinha', 'Defesa', 'MSF', 'UE', 'CGFome', 'Unicef', 'Pastoral', 'Fronteiras', 'Cruz', 'BID', ‘FMI’, 'CIRH', 'CIDH', 'Comiss\xc3' (Comissão), 'Direitos', 'PAM', 'GBS', 'Instituto', 'Aid', 'HRO', 'Organiza\xc3' (Organização), 'Internacional', 'Usaid', 'FAB', 'Na\xc3' (Nação/Nações), 'Viva', 'Crescente', 'Ocha', 'Comit\xc3\xaa' (Comitê). 5.2.1.1. Rede VPS Identificados os nomes próprios a serem utilizados na aplicação supervisionada identificou-se a rede associativa destes com verbos em uma mesma sentença, elaborando-se para tanto a rede VPS par ao corpus do Haiti como mostra a Figura 25 e suas métricas correspondentes na Tabela 28. 102 Figura 24. Rede VPS para o Haiti. Tabela 28. Métricas para rede VPS para o Haiti. Métricas Valor Vertices 1139 Unique Edges 3890 Edges With Duplicates 462 Total Edges 4352 Self-Loops 0 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 1139 Maximum Edges in a Connected Component 4352 Maximum Geodesic Distance (Diameter) 6 Average Geodesic Distance 2,847422 Graph Density 0,006358675 Minimum Degree 1 Maximum Degree 740 Average Degree 7,236 103 Median Degree 2,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 356351,204 Average Betweenness Centrality 1052,607 Median Betweenness Centrality 49,003 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,001 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,004 Average Eigenvector Centrality 0,001 Median Eigenvector Centrality 0,001 Minimum PageRank 0,246 Maximum PageRank 111,130 Average PageRank 1,000 Median PageRank 0,389 5.2.1.2. Rede VEA A partir dos verbos remanescentes do resultado da rede VPS (verbos presentes em tal rede), elaborou-se a rede VEA que associa estes verbos aos itens lexicais marcados como entidades pelo VISL, também para uma mesma sentença. A Figura 25 e a Tabela 29 expõem a rede VEA para o corpus do Haiti. 104 Figura 25. Rede VEA para o Haiti. Tabela 29. Métricas para rede VEA para o Haiti. Métricas Valor Vertices 4435 Unique Edges 258997 Edges With Duplicates 37380 Total Edges 296377 Self-Loops 335 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 4435 Maximum Edges in a Connected Component 296377 Maximum Geodesic Distance (Diameter) 4 Average Geodesic Distance 2,102139 Graph Density 0,02820798 Minimum Degree 1 Maximum Degree 3710 Average Degree 125,225 105 Median Degree 42,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 1724277,460 Average Betweenness Centrality 2444,492 Median Betweenness Centrality 7,809 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,000 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,002 Average Eigenvector Centrality 0,000 Median Eigenvector Centrality 0,000 Minimum PageRank 0,156 Maximum PageRank 43,803 Average PageRank 1,000 Median PageRank 0,421 5.2.1.3. Rede VPA Por fim, para aplicações deste método supervisionado sobre o corpus do Haiti, realizou-se o caminho de volta, tomando os mesmos verbos remanescentes utilizando nas duas redes anteriores e obtendo-se redes destas com nomes próprios presentes na mesma sentença, dentre todo o conjunto de nomes próprios do corpus de aplicação. Assim, os resultados pertinentes à rede VPA estão na Figura 26 e na Tabela 30. 106 Figura 26. Rede VPA para o Haiti. Tabela 30. Métricas para rede VPA para o Haiti. Métricas Valor Vertices 6061 Unique Edges 97924 Edges With Duplicates 0 Total Edges 97924 Self-Loops 0 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 6061 Maximum Edges in a Connected Component 97924 Maximum Geodesic Distance (Diameter) 5 Average Geodesic Distance 2,943611 Graph Density 0,005332148 Minimum Degree 1 Maximum Degree 2736 Average Degree 32,313 107 Median Degree 10,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 3899004,822 Average Betweenness Centrality 5890,614 Median Betweenness Centrality 237,214 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,000 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,003 Average Eigenvector Centrality 0,000 Median Eigenvector Centrality 0,000 Minimum PageRank 0,172 Maximum PageRank 99,752 Average PageRank 1,000 Median PageRank 0,401 5.2.2. Chile Similarmente ao Haiti, para o Chile também ocorreu a supervisão do corpus visando a identificação de entidades assistenciais entre os 10 nomes próprios mais ocorrentes em cada texto. Como resultado obteve-se 10 itens lexicais que cumprem este papel: 'For\xc3' (Força/Forças), 'Cruz', 'ONU', 'Itamaraty', 'Marinha', 'Defesa', 'GSI', 'CGFome', 'MSF', 'Samaritans'. 108 5.2.2.1. Rede VPS Por meio da identificação acima se elaborou a versão da rede VPS para o corpus do Chile, mostrada na Figura 27. A Tabela 31 traz as métricas que dão suporte a sua discussão. Figura 27. Rede VPS para o Chile. Tabela 31. Métricas para rede VPS para o Chile. Métricas Valor Vertices 223 Unique Edges 321 Edges With Duplicates 0 Total Edges 321 Self-Loops 0 Connected Components 1 Single-Vertex Connected Components 0 109 Maximum Vertices in a Connected Component 223 Maximum Edges in a Connected Component 321 Maximum Geodesic Distance (Diameter) 6 Average Geodesic Distance 3,214141 Graph Density 0,012968125 Minimum Degree 1 Maximum Degree 87 Average Degree 2,879 Median Degree 1,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 11800,805 Average Betweenness Centrality 247,377 Median Betweenness Centrality 0,000 Minimum Closeness Centrality 0,001 Maximum Closeness Centrality 0,002 Average Closeness Centrality 0,001 Median Closeness Centrality 0,001 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,016 Average Eigenvector Centrality 0,004 Median Eigenvector Centrality 0,003 Minimum PageRank 0,403 Maximum PageRank 29,023 Average PageRank 1,000 Median PageRank 0,434 5.2.2.2. Rede VEA Seguindo a mesma sequência de passos aplicada ao corpus do Haiti, obtevese também a rede VEA para o corpus do Chile, como mostra a Figura 28. Na Tabela 32 as métricas para esta associação. 110 Figura 28. Rede VEA para o Chile. Tabela 32. Métricas para rede VEA para o Chile. Métricas Valor Vertices 1583 Unique Edges 19110 Edges With Duplicates 6 Total Edges 19116 Self-Loops 3 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 1583 Maximum Edges in a Connected Component 19116 Maximum Geodesic Distance (Diameter) 5 Average Geodesic Distance 2,329422 Graph Density 0,015261713 Minimum Degree 1,000 Maximum Degree 1167,000 Average Degree 24,148 Median Degree 9,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 592599,715 111 Average Betweenness Centrality 1052,738 Median Betweenness Centrality 13,549 Minimum Closeness Centrality 0,000 Maximum Closeness Centrality 0,001 Average Closeness Centrality 0,000 Median Closeness Centrality 0,000 Minimum Eigenvector Centrality 0,000 Maximum Eigenvector Centrality 0,010986 Average Eigenvector Centrality 0,000631706 Median Eigenvector Centrality 0,000391 Minimum PageRank 0,179989 Maximum PageRank 53,202946 Average PageRank 0,999999676 Median PageRank 0,445241 5.2.2.3. Rede VPA Como último resultado de aplicações de elaboração de redes apresenta-se a Figura 29 e as métricas da Tabela 33, que fazem descrevem a rede VPA para o corpus Chile. 112 Figura 29. Rede VPA para o Chile. Tabela 33. Métricas para rede VPA para o Chile. Métricas Valor Vertices 1687 Unique Edges 9826 Edges With Duplicates 0 Total Edges 9826 Self-Loops 0 Connected Components 1 Single-Vertex Connected Components 0 Maximum Vertices in a Connected Component 1687 Maximum Edges in a Connected Component 9826 Maximum Geodesic Distance (Diameter) 6 Average Geodesic Distance 3,014355 Graph Density 0,006909301 Minimum Degree 1,000 Maximum Degree 825,000 Average Degree 11,649 Median Degree 5,000 Minimum Betweenness Centrality 0,000 Maximum Betweenness Centrality 487274,912 113 Average Betweenness Centrality 1699,60818 Median Betweenness Centrality 94,006783 Minimum Closeness Centrality 0,000144 Maximum Closeness Centrality 0,000313 Average Closeness Centrality 0,000200723 Median Closeness Centrality 0,000207 Minimum Eigenvector Centrality 0,000002 Maximum Eigenvector Centrality 0,005592 Average Eigenvector Centrality 0,000592787 Median Eigenvector Centrality 0,000457 Minimum PageRank 0,209908 Maximum PageRank 73,107809 Average PageRank 0,999999678 Median PageRank 0,470791 6. DISCUSSÃO 6.1. Método Não Supervisionado Os resultados apresentados na subseção de aplicação de método não supervisionado apresentam a limitação deste frente ao objetivo deste trabalho de extrair entidades assistenciais e suas relações em rede, por meio de suas ações. Pelo próprio conjunto de ações empreendidas na sua composição, as redes VP e VE para ambos os corpora possuem referenciais a entidades (dentre as quais as assistenciais) e ações (dentre as quais ações de entidades assistenciais) ocorrentes em cada desastre estudado. São estas redes, portanto, um registro do 114 conhecimento repassado `a sociedade sobre o cenário, manifestado pelo arranjo emergente de diferentes atores a partir dos dias de tremor, em cada caso. Esta estruturação a partir de comandos consolidados (pacote NLTK) e uma marcação de texto definida (VISL) permitem, então, estruturar informações e conhecimentos sobre entidades e ações expressos em linguagem natural. A apresentação destes resultados e sua discussão, mais do que a demarcação de um passo a resultados pertinentes ao objetivo buscado, demonstram a clara emersão de entidades e ações de todo o conjunto social, e posteriormente, de entidades assistenciais e suas ações destas (como discutido mais adiante). Outro ponto importante no qual se apoia a discussão destes primeiros resultados está no papel que entidades e ações, mesmo as que não são referentes a assistências, se apresentam como conectores entre estes, o que torna a comunicação mais econômica na prestação de ajuda. A própria análise de métricas referente à distância geodésica (número de passos entre dois vértices da rede, variando em média entre 2,1 e 3,2), densidade da rede (valores baixos que demonstram alta dispersão do conhecimento por toda a rede) e componentes conectados (1 ou 2 grupo formando toda a rede) reforça esta ideia. 6.1.1. Redes VP Para a rede VP observam-se para o Haiti 7311 vértices, o que representa em média aproximadamente 8,7 elementos (entidades e ações) por texto. Já o Chile com 2755 vértices possuem, então, 19,1 elementos por texto. Em termos de relacionamento entre estes elementos, o Haiti com 108105 tem uma média de 128,4 ligações por texto, enquanto o Chile tem 19467 e média de 135,2 ligações por texto. 115 Isto permite afirmar então que, as entidades referenciadas por nomes próprios e suas ações estão presentes, em média, durante o tempo de recorte estudado (um ano e um mês), em maior volume no Chile do que no Haiti. Porém, ao se analisar a média de ligações por vértices por texto (14,8 para o Haiti e 7,1 para o Chile) observa-se que os elementos dentro de cada texto são mais conectados entre si para o Haiti do que para o Chile, o que também mostra o número de grau (degree) médio apontado nas métricas (29,6 para o Haiti e 14,1 para o Chile). Isto indica maior interação entre entidades e sobreposição de entidades sobre uma mesma ação para o evento ocorrido no país caribenho e maior distribuição e independência de atuação às entidades no caso chileno. Embora próximos, os valores médios de distância mínima entre dois vértices pela ligação por outros vértices (geodésica) reforçam esta afirmativa, com valor menor para o Haiti (2,99) do que para o Chile (3,17). A medida de densidade do gráfico mostra que, entretanto, os vértices da rede do Haiti exploram menos as conexões disponíveis que as do Chile (0,004<0,005). A medida de centralidades vitais para a manutenção de componente de rede (betweennes centrality) com valor médio de 7307 para o Haiti, frente a 2992 para o Chile permite interpretar ainda que estas conexões mais presentes em média nos vértices da rede VP do Haiti tornam a rede mais compacta e, portanto, permitem um ganho em termos de tempo nas ações das entidades presentes no cenário que descreve (em poucos passos se alcança qualquer nó na rede pela presença elementos funcionando como distribuidores, hubs). Por fim, em termos de métricas gerais para redes VP tem-se que o valor mais elevado da mediana do PageRank para a rede do Chile do que para a do Haiti, demonstrando que a rede haitiana possui uma tendência central de ter maior número de elementos de menor importância que a do Chile, isto é, menor peso do que tange a afetar as ligações que um vértice alcançado possui e sua contribuição como representativo do conjunto. É válido alinha esta métrica ao citado acima, com relação à distribuição de ações por entidades, onde se estas estão bem distribuídas, todos possuem peso maior para a rede, e não o contrário, onde o peso se concentra em ações superatendidas e entidades centralizadoras, levando a carência de importância para a rede de outros elementos. 116 Pontualmente as métricas apontam valores importantes a determinados elementos, demonstrando a importância destes a rede. A Tabela 34 mostra os três valores com medida mais relevante para cada métrica discutida, dentro das redes VP. Tabela 34. Valores de Elementos mais Relevantes para Métricas das redes VP. Métrica Tipo de Elemento Haiti Chile Verbo Grau Nome Próprio Betweenness Centrality Verbo Nome Próprio PageRank Verbo Nome Próprio ser Haiti ser Haiti ser Haiti ir Brasil ir Brasil ir Brasil ter EUA ter EUA ter EUA ser Chile ser Chile ser Chile ir Brasil ir Brasil ir Brasil ter Piñera ter Piñera ter Piñera Observa-se que o verbo “ser” é o que apresenta os valores mais relevantes de métricas. Provavelmente por serem estas redes descritivas da situação, do cenário do terremoto. Também demarcam posições e papéis exercidos por entidades. Os verbos “ir” e “ter” mostram as necessidades de alcance do local atingido pelo desastre e de posse de elementos. Para os nomes próprios, as localidades onde ocorreram os eventos são as mais relevantes em cada caso (pela própria demarcação do sentido singular de cada evento). “Brasil” aparece muito bem colocado, o que se explica pela proximidade geográfica e importância geopolítica no contexto latino-americano, bem como bom relacionamento entre os governos do período entre Brasil e Chile, para o caso correspondente, e pela presença das Forças Armadas no Haiti e consequente influência neste país. Para o Haiti um nome próprio bem relevante é “EUA”, demonstrando também a importância deste país no pós-catástrofe do Haiti em 2010 e sua influencia neste país. Já para o Chile, o caso pontual fica por conta de “Piñera” (referenciado na rede como “PiÔ), sobrenome do atual presidente chileno, que tomou posse logo após o terremoto. A convergência dos valores dos elementos mais importantes com relação às métricas é algo de destaque nesta observação. Além disto, o levantamento destes valores demonstra uma limitação latente pertinente à lematização promovida na 117 etiquetação dos corpora. Determinados itens lexicais podem assumir mais de um valor quando tomados isoladamente e levados a sua forma sem flexão. Um exemplo é a palavra “como”, que muitas vezes aparece como advérbio, mas pode ser também flexão do verbo “comer”. O etiquetador utilizado assume todas as possibilidades, o que faz o verbo comer aparecer entre os mais relevantes, quando de fato isso não é real. Outro problema está em palavras como “ar” e “BB”, identificadas como relevantes quando na verdade não se enquadram nem como verbo e nem como nome próprio (“BB” aqui é uma etiqueta), o que demonstra a importância do passo de filtragem que leva as listas de verbos e nomes. Buscando entender não só os elementos mais significativos da rede, mas também aqueles que se mantêm nos valores médios (para o grau e betweenness centrality) ou medianos (PageRank) das métricas elaborou-se a Tabela 35. Tabela 35. Valores de Elementos com Valores Médios para Métricas das redes VP. Métrica Haiti Chile Grau Betweenness Centrality PageRank Nicolas STF Emergência Mount Bom Live Marginal Imagem Lisa acampar Sistema Austrà URSS Cavagnari AP Tavares Moreira Cayes Jordan Palestina Alex alternar YouTube Albert Hariri Guiana Sandra Cunha GILBERTO Gilles Leandro Chris Idade Campos Dizem Cybernet Plantà Vargas Guatemala Casas Vivo Projeto Tira Eliana Uganda Barros Polishop Diary Ipea Byrs Day Super Liga Micky Londres Miguel Claude Lucimar Vezes Luau Unesco Pai Stone Previdência Barcelona Elite badalar Manger Momentum Yahoo Enzo atentar Caio Espà cansar Toda estilizar Monsters Berlusconi colaborar comparecer constatar Valemont Lenine consultar cumprimentar diminuir empenhar erguer Par Supremacia estreitar fabricar figurar isolar lavar legendar lesar motorizar pontuar namorar percorrer poetar recusar reinar selecionar sortir topar torturar Governo Grà Anos achar Tendências Vai Bio Federaà Bruno Cristià France Canadà amentar Santa DANIEL GPS GEAN SANINO Ivan Ganso Fà Salvador agradecer Hernan Macondo PTB Marcos Adriano Gabriel avisar Mineiros Waikiki SC detectar Moacyr Alex Calvin Giorgio Obras citar Lei Demanda Arquivo Investimentos converter Machado dirigir disparar estradar Fundamental exportar federar interessar liderar quebrar vender mandar marinhar perigar render sentar Para estes valores observa-se que, no caso do Haiti, existe a preponderância de nomes próprios identificadores de nações. Especialmente a métrica de grau dos vértices apresenta muitos valores, sendo que os verbos ali presentes são 118 determinantes de ações de auxílio a vítimas. Já para o Chile se tem nomes próprios ligados a pessoas e organismos governamentais, como “Governo” e “FederaÔ (Federação) e os verbos possuem alguns valores ligados a assistência, embora nesta abordagem os problemas identificados e expostos acima se apresentam de forma a dificultar análises mais aprofundadas. 6.1.1.1. Agrupamento A realização de agrupamento, para todas as redes, demonstra que os diferentes algoritmos resultam em números diferentes de grupos. A razão disto encontra-se no entendimento de cada algoritmo, em discussão válida para os dois agrupamentos executados neste trabalho. O algoritmo 1 baseia-se na modularidade (propriedades de uma rede que determina divisão específica da rede em grupos levando em conta o grau dos vértices, as ligações entre vértices e todos os laços da rede), na fração de laços que se liga a um grupo e na fração de laços que liga vértices em um grupo [25]. A ideia é usar os dois últimos no cálculo do primeiro para cada par de vértices/grupos correspondentes, tomando o maior valor das linhas da matriz resultante na formação de uma lista. Depois, toma-se o maior valor desta lista, juntando-se os vértices/grupos correspondentes (passando estes a ter um próprio valor de modularidade) [25]. Então se atualiza a matriz de relações e se repete o processo até que a maior modularidade de qualquer valor da lista seja menor que 0, obtendo-se grupos de uma rede [25]. Já o algoritmo 2 surgiu da identificação de um problema de escalabilidade do algoritmo anterior causado pelo crescimento não uniforme de comunidades [98]. Em vista disto, determinou-se a taxa de consolidação do grupo (valor mínimo entre a razão do tamanho de dois grupos i e j, isto é, entre ci/cj e cj/ci) [98]. Esta taxa é multiplicada à modularidade 119 para cada par e o par que apresenta maior valor se junta em um novo grupo [98]. A iteração recomeça com a atualização dos valores de modularidade e volta a ocorrer até que esta modularidade, dentre todos os valores, apresente valor máximo negativo (como algoritmo anterior) [98]. O valor c (tamanho do grupo) pode ser definido por três heurísticas: pelo grau do grupo com relação a outros grupos, por meio do grau a partir da segunda iteração, ou pelo número de membros da comunidade [98]. Em termos de escalabilidade e tempo, a terceira heurística se sai melhor, seguida da primeira e da segunda [98]. Para o Haiti tem-se no agrupamento realizado pelo algoritmo 1 a observação que 3 (G1, G3 e G4) dos 41 grupos obtidos concentram 92,5% dos vértices, mas apenas 55,1% das ligações (conta-se apenas ligações entre componentes do grupo). São estes grupos também que possuem as densidades mais baixas entre os grupos (entre 0,005 e 0,011), o que é bastante compreensível frente ao número de ligações existentes para a quantidade de vértices, e demonstra que carregam a característica do todo da rede VP para o Haiti, um elevado número de elementos com baixa conectividade. Pontualmente, a Figura 13 vai visualizar a preponderância de vértices da cor magenta e forma disk, correspondentes ao grupo G4 (especialmente os nós “ser”, “fazer”, “ter” e “poder”), seguidos dos de cor lime e forma disk do grupo G3 (nós de destaque “governar”, “dar” e “trabalhar”) e de cor blue e forma disk do grupo G1 (nó “vir”), justamente os grupos concentradores de vértices. Um nó de destaque no G4 é “suar”, mais um dos itens lexicais lematizados de forma errada (na verdade faz referência ao pronome feminino “sua”). O esperado aqui acontece na presença de nós já apontados acima como relevantes para a rede, “ser” e “ter”. Outros nós mostram a execução de ações típicas de uma situação póscatástrofe que demanda realização de tarefas (“fazer” e “trabalhar”), possibilidades de ajuda (“dar”, “vir” e “poder”) e destaque de governança (“governar”). Mais importante ainda é notar que a maioria das palavras de destaque é verbo de ação, mostrando as dinâmicas a serem supridas por entidades após um desastre deste porte. Outro dado de análise importante é a distância geodésica média, em que grupos com quantias médias de vértices (entre 50 e 175) e ligações (entre 55 e 222) apresentam maiores medidas. De qualquer forma este número não ultrapassa 5 em 120 nenhum momento, demonstrando que grupos pequenos com baixo valor podem funcionar como “pontes” entre grupos maiores ou partes destes, tal qual a ideia de laços fracos de Granovetter em uma rede social [99]. Em contrapartida, o algoritmo 2 apresenta grupos mais homogêneos com presença de grupos com grande número de ligações. Destes, 5 grupos (G9, G12, G15, G16 e G34) dos 36 ultrapassam as mil ligações, sendo a soma destes responsável por 13,6% das ligações e 37,1% dos vértices. Em termos de densidade também há bastante equilíbrio, onde o grupo com menor densidade é um dos que mais possui vértices (G25 com 496 vértices e 852 ligações). Por se tratar da mesma rede os nós a serem destacados são os mesmos. O que muda é a forma como se distribuem nos grupos. Os itens lexicais “ser” e “ter” estão no G25, “poder” entre G26, “fazer” em G23, “dar” em G20, “governar” em G15 e “vir” em G6. Esta ampla distribuição permite uma análise mais de perto sobre tais grupos. O grupo G6 possui muitas referências ao meio artístico, mas possui também os itens lexicais “CICV” (Comitê Internacional da Cruz Vermelha), “Aid” (Action Aid) e “Fome” (GCFome), que são típicos de catástrofes pela atuação de entidades que carregam tais léxicos em suas denominações. O G15 apresenta palavras mais relacionadas ao contexto político, com denominação de partidos políticos e governantes brasileiros, o que exclui a ação “governar” identificada no grupo de ações assistenciais. G20 aponta vários léxicos de referência a aplicações tecnológicas (especialmente jogos), bem como léxicos de referência a atores do cenário político, econômico e social internacional, incluindo itens como “OTAN”, “Bird” e “FAO”. No grupo do item lexical “fazer” (G23) existe uma série de nomes próprios muito específicos, de referências a pessoas, mas também muitas referências a países pelo nome, conjuntos de países (“Bric”, “European”), bem como atores importantes no contexto de assistência como “MSF” e “Tropas”, além da identificação de ações como “angariar”. G25 tem uma variedade de léxico muito grande, com referência ao cotidiano brasileiro, esportes e educação, mas também descritiva da situação do terremoto, tais como “Eurásia” (referência a placas tectônicas), “Earthquake”, “morrer”, “estragar”, “arruinar”, além de abranger o verbo “ir” destacado em discussão anterior. Por fim, dentro destes grupos de análise o G26 demonstra que o item lexical “poder” está associado a 121 expressões de cunho econômico como “Brics” e “Economia”, mas também a entidades de assistência e pesquisa, como “ONU”, “NASA”, “AAAS”, “UFSC” e “University”, sendo, portanto um grupo de descrição de possibilidades de assistência financeira, social e de explicações e estudos sobre o evento. Os valores de distância geodésica dos grupos seguem o exposto na rede do algoritmo 1, com grupo médio (agora com valores entre 77 e 496 de vértices) com valores mais elevados, reforçando a ideia exposta sobre necessidade de vértices que interliguem estes grupos a outros que diminuam a distância média da rede de forma geral. Já para o Chile, a rede VP agrupada pelo algoritmo 1, embora apresente certa concentração de vértices em determinados grupos, demonstra que é mais distribuída que a sua correspondente para o Haiti. Os grupos G2, G3 e G4 concentram 73% dos vértices e 48,3% das ligações, sendo que estes grupos também possuem mais baixas densidades e, portanto, potencialidades de relações entre seus elementos de rede. Como itens lexicais de destaque na rede tem-se os verbos “ser” e “ter” na cor magenta e forma disk (G4), “dizer” na cor orange e forma disk (G2), “ir” na cor lime e forma disk (G3) e o nome próprio “Brasil” de cor yellow e forma disk (G5). O verbo “comer” também aparece em destaque (G7 de cor blue e forma solid square), incorrendo no mesmo problema já discutido acima, sendo, portanto, excluído de discussões seguintes. G2 é um grupo que concentra em si expressões de referência a países, especialmente latino-americanos, como “Argentina”, “Equador”, “Paraguai”, “Uruguai”, “Haiti”, o próprio “Chile” (e sua capital “Santiago”), além de outros como “EUA” e “China”. Também estão presentes, neste grupo, muitas figuras importantes do cenário político do período, como “Lula”, “Obama”, “Hillary”, “Bachelet” podendo sinalizar que estes foram porta-vozes do posiconamento de seus países frente ao evento, o que é reforçado pela presença de muitos verbos com afinidade nos campos de descrição e ajuda a um terremoto, como “abalar”, “atingir”, “acontecer”, “enfrentar”, “reconstruir”, “reerguer”, “recuperar”, “recolher”, “vir” e “poder”. Finalizando este grupo aparecem itens lexicais de referência a entidades de assistência tais como “Marinha”, “FAB”, “Itamaraty”, “ONU”, “Hospital”, “Fome”, “ProChile” e “Onemi”, o que torna este grupo muito importante, não só na caracterização do evento, mas também na visualização da 122 estruturação da informação tal como proposta neste trabalho. Em G3 existem muitas referências a programas televisivos e artistas, com a presença de palavras como “Dilma”, “Pinochet” e “ruir”, ou seja, com léxicos mais relacionados ao contexto político e histórico sobre o acontecido. No grupo dos itens “ser” e “ter” (G4) existem palavras que citam personalidades do meio artístico e esportivo, além de entidades próprias destes gêneros, com também delineamento claro de um cunho assistencial pelas ações expressas em “dar”, “encaminhar”, “comprometer”, aliadas a citações de instituições assistenciais tais como “OrganizaÔ (Organização), “GCFome” e “Samaritans”, e econômicas, como “Brics” e “OMC”. O grupo onde a expressão “Brasil” aparece como representante maior (G5) possui léxico intensamente ligado à política nacional, com a presença dos itens lexicais “votar”, “PSDB”, “DEM”, “Lei” e “Promessas”, o que permite dizer que este grupo não seria tão relevante no que tange à delimitação de entidades assistenciais no terremoto do Chile. Com relação às distâncias geodésicas médias observa-se que para grupos com valores de vértices e ligações na casa das centenas, estes são maiores, mas as diferenças são bem mais tênues do que no caso do algoritmo 1 aplicado à rede VP do Haiti. Na aplicação do algoritmo 2 as relações de verbos e nomes próprios do Chile novamente há um maior equilíbrio entre os grupos, com a concentração ocorrendo em cinco deles (G7, G8, G11, G19 e G21) sendo 32,3% dos vértices da rede e 13,6% das ligações. Esta porcentagem de ligações é a mesma dos grupos concentradores do algoritmo 1, mostrando que para o algoritmo 2 os grupos se apresentam mais conectados internamente (mesmo número de ligações para porção menor de vértices). As densidades destes grupos são baixas, mas não as mais baixas dentre todos os grupos, diferentemente das outras redes agrupadas discutidas até aqui, o que é reflexo também da presença de grupos concentradores mais conectados do que os anteriores. Os cinco itens lexicais de destaque analisados pontualmente junto aos seus grupos no algoritmo 1 apresentam-se em cinco grupos distintos no algoritmo 2. O item lexical “dizer” encontra-se no grupo G7 (cor blue e forma solid square) que também apresenta itens como “Chile”, “PiÔ (Piñera), “Obama”, “Bachelet”, “Hillary”, “matar”, “ajudar”, “socorrer”, “BID”, “Onemi”, “Haiti”, “Katrina”, “matar”, “socorrer”, “ajudar”, “salvar”, entre outros muitos, 123 principalmente de referência a ações. Isto coloca o grupo em um bom posicionamento tanto na descrição do desastre, como de sua situação frente a outros desastres, e também de como se portaram os diferentes atores do cenário político mundial frente ao evento. O grupo G10 (cor magenta e forma solid square) é o que possui o item “ter”, associado à presença de outros de referência a entidades de auxilio e assistência, tais como “MSF”, “ONG” e “Defesa”, e de ações típicas como “evacuar”, “necessitar”, “estabelecer” e “exercer”. Porém estes se encontram em meio a muitos itens lexicais associados a meio artístico e a notícias sobre geopolítica mundial. O item “ir” encontra-se no grupo G19 (cor blue e forma solid triangle) que tem grande preponderância de itens que se ligam a personalidades e eventos do meio artístico e esportivo, mas também revela afinidade com o terremoto do Chile em itens como “ReconstruÔ (Reconstrução), “SoluÔ (Solução), “Presidente”, “solucionar”, “OrganizaÔ (Organização) e “instituir”. O item lexical mais relevante em termos métricos da rede (“ser”) encontra-se no G23 (cor yellow e forma solid triangle), unindo-se a itens lexicais de citação a agentes assistenciais e econômicos, como “CGFome”, “Samaritans” e “Bric”, e ações como “orientar” e “repor”, que se misturam a itens pertinentes para a sociedade paulistana (pessoas e locais) e ao meio artístico. Por fim, “Brasil” está no grupo G24 e sua presença é delimitada da mesma forma que no algoritmo 1, com referências ao cenário político brasileiro por meio de itens como “votar” e “Tucanês” (Tucanões). As distâncias geodésicas dos grupos resultantes do algoritmo 2 possuem também maiores valores médio para grupo médios dentro de seus padrões (entre 24 e 160 vértices), seguindo o padrão geral de grupos emergentes de aplicação de algoritmos para esta métrica. 124 6.1.2. Redes VE A rede VE elaborada sobre o copus do Haiti apresenta um total de 5907 vértices e 352886 ligações, ou 7 vértices por texto e 419 ligações por texto, levando a uma média de aproximadamente 60 ligações por vértice em cada texto. Já para o Chile apresentam-se 2764 vértices (19,2 por texto) e 42598 ligações (aproximadamente 256 por texto), com média então de 15,4 ligações por vértice em cada texto. Estes resultados seguem o obtido para as redes VP, com demonstração de que os elementos de rede são mais conectados no evento do Haiti do que no do Chile, o que também é refletido pelo grau médio dos vértices calculado pelo NodeXL: 112,6 para o Haiti e 30,8 para o Chile. Também alinhado com as redes VP está o fato de os textos do Chile possuírem em média maior número de vértices que os do Haiti, acarretando nas mesmas implicações sobre a atuação de entidades no momento pós-catástrofe, seu grau de interação e sobreposição sobre ações, que é o que indica os dados da rede haitiana, e maior distribuição de ações nas entidades atuantes no terremoto do Chile. A distância geodésica média também acompanha as relações mostradas em redes VP, com valores menores para o Haiti do que para o Chile (2,16<2,42), reflexo claro do grau dos vértices em média para cada caso. A métrica de densidade gráfica deixa claro que os elementos da rede VE do Chile exploram muito mais as possibilidades de conexão que as do Haiti, com valor quase oito vezes maior que esta (0,15 para o Chile contra 0,02 da rede do Haiti), isto é, entidades e ações presentes na rede chilena se ligam de forma mais distribuída, mesmo que à custa de um caminho mais longo entre estes, delimitando bem ações para cada entidade. Para o valor médio de betweennes centrality a rede VE do Haiti possui um valor de 3422,5, contra 1954,8 do Chile, o que representa a manutenção com relação ao apresentado pelas redes VP. A métrica PageRank apresenta valores maiores de mediana para a rede do Chile do que para a do Haiti, desenhando uma reafirmação sobre a distribuição como característica de ações e entidades no caso 125 chileno, e a concentração no caso haitiano, que acarreta a este último maior peso a alguns vértices em detrimento de outros. Assim como para as redes VP, aqui também se apresenta os valores dos elementos de rede mais relevantes para cada métrica discutida, como mostra a Tabela 36. Tabela 36. Valores de Elementos mais Relevantes para Métricas das redes VE. Métrica Tipo de Elemento Haiti Chile Grau Betweenness Centrality PageRank Verbo Entidade Verbo Entidade Verbo Entidade ser Haiti ser Haiti ser Haiti ir país ir país ir país ter Brasil estar Brasil ter Brasil ser terremoto ser terremoto ser terremoto poder país poder país poder país ir dia ter ano ir dia Como esperado, os valores de verbos se mantém os mesmos (“ser”, “ir”, “ter” e “poder”) com relação às redes VP, já que a lista base de verbos, para todas as redes obtidas em aplicação destes métodos não supervisionados, é mesma. Também os valores de entidade “Haiti” e “Brasil” se repetem agora para redes VE. As novidades ficam por conta dos itens lexicais “terremoto”, “país”, “dia” e “ano”, o que segue a lógica de que estas redes são descritivas do cenário resultante da catástrofe, existindo a causa, o local e a data deste evento. Mais uma vez surgiram limitações pela forma de itens lexicais que passaram pelos filtros (como “nÔ referindo-se a “não”, que deveria ter sido barrado pelo filtro de stopwords) e também que foram codificados de forma a convergir para uma mesma expressão, mesmo referindo-se a coisas diferentes, devido a acentuações (como “sÔ que em geral se refere a “são”, mas também é citado como presente em textos que não possuem esta palavra pelo NLTK). Igualmente para as redes VP, também entre os itens lexicais de VE buscouse os que apresentavam valores médios ou medianos para as métricas discutidas, o que a Tabela 37 apresenta. 126 Tabela 37. Valores de Elementos com Valores Médios para Métricas das redes VE. Métrica Haiti Chile Grau taxa ataque acidentar varrer amplo Bolsa escoltar flagrar narrar interpretar imprimir desrespeitar despedir comprovar cessar aliviar Betweenness Centrality entà derrubar escombros permanecer pois recolher provar pesar moscar ligar PageRank exercà telhar poeira iraquiano pragmà judeu divisar compilar chicotear Sandra Coreia Dorival Marcelo amar falar faturar letrar obrar odiar pagar reunir telefonar France avaliar discursar Buenos Aires preparar valer ecoar Gatsby Para ambos os conjuntos o nível de ruídos encontrados devido aos problemas citados é muito elevado e dificulta a análise. O que se observa é que os elementos presentes para a métrica de betweenness centrality são representativos do cenário emergente de um terremoto, tais como “escombros”, “derrubar”, e de auxílio, expresso pelos itens “avaliar”, “recolher”, “discursar”, “preparar”. 6.1.2.1. Agrupamento O primeiro agrupamento a ser discutido para redes VE é o promovido pelo algoritmo 1 à rede VE referente ao corpus do Haiti. A Tabela 20 mostra que dos 8 grupos resultantes, somente três (G1, G2 e G3) correspondem a 99,1% dos vértices e 46,7% das ligações. Estes são também os grupos com menor densidade, junto ao grupo G4, que com apenas 46 vértices e ligações possui densidade menor que o G3 com 1966 vértices e 94058 ligações, mostrando que a ineficiência no aproveitamento das possibilidades de ligações se estendem os grupos médios, nos padrões desta rede analisada. Com relação a distância geodésica observa-se que para G4 tem-se o maior valor e a partir deste grupo, com o crescimento do tamanho do grupo, a distância decresce lentamente, e com a diminuição do tamanho essa média cai rapidamente, mantendo o padrão geral observado nas redes VP. Em 127 termos de itens lexicais, observa-se na disposição da rede maior distribuição dos graus, que determina o tamanho do vértice e torna visível ao reconhecimento como de destaque para a rede. Quantitativamente também é possível identificar então estes vértices, sendo “ser”, “ir”, “ter” e “estar” os com maior número de conexões. Todos estes itens lexicais estão no grupo G1 (cor Blue e forma disk). A extrema concentração de vértices neste grupo torna infrutífera qualquer análise mais aprofundada sobre seu conteúdo que possa delimitar seu uso nos fins propostos deste trabalho, exigindo um algoritmos que permita tal análise em grupos resultantes de uma maior distribuição dos elementos de rede, que é o obtido no algoritmo 2. Executando-se este algoritmo então se obtém 49 grupos, dos quais cinco (G8, G21, G28, G30, G35) são os que concentram maior número de ligações, totalizando 5% destas e 34% dos vértices. As densidades destes grupos estão entre as mais baixas, não sendo absolutamente os menores valores, mas permitindo visualizar que a eficiência na conexão com outros elementos de rede são passa os 8,2% (G21) para as redes concentradoras, derrubando a densidade gráfica como um todo nesta rede VE, ainda que este valor seja maior em na rede VE do Haiti do que na VP correspondente. Isto indica que referências a entidades por nomes simples são mais eficientes na conexão com ações. Porém dentro do objetivo do trabalho é importante ressalvar que boa parte dos nomes próprios é ou pode assumir, dentro de um contexto, o papel de entidade assistencial, diferentemente de nomes simples, onde entidades de tempo, por exemplo, são descritivas da situação, e não atuantes de fato. O que se pode dizer é que um valor de densidade maior representa então maior descrição de um cenário em uma rede que estrutura informações do póscatástrofe a partir de entidades gerais e verbos coocorrentes em sentenças. O grupo G30 (cor Orange e forma solid diamond) possui três dos itens lexicais de destaque na rede VE do Haiti, “ser”, “ir” e “estar”, enquanto em G44 (cor Lime e forma solid triangle) está o item lexical “ter”. G30 é um grupo que apresenta léxicos ligados a discussões sobre a resistência a algum auxílio externo ao Haiti que poderia macular sua soberania, com itens lexicais tais como “imperialista”, “colonizador”, “soberano”, “invasor”, “antiamericanista”, “nativo”. Também léxicos com relação a características e eventos subsequentes ao terremoto, como “sacudido”, “incªndio” (incêndio), 128 “rachadura”, “fogo”, “esmagar”, “agitar”, “policiamento”, “guarda”, “executar” e “suprir”. Está identificação abre margem para idealizar uma identificação de necessidades emergentes após o desastre pela caracterização do cenário resultante e cobertura sobre o que atuam as entidades. A distância geodésica apresenta números bem parecidos entre os grupos, com valores menores aplicados a grupos menores. A atenção especial fica por conta do grupo G1 com apenas um vértice (“perdido”), o que não permite a aplicação de nenhuma métrica. Na aplicação de agrupamento em rede VE correspondente ao Chile, com o algoritmo 1, obteve-se 27 grupos. Os grupos G1, G2 e G3 concentram em si 88,7% dos vértices e 46,2% das ligações. Juntamente com o grupo G4, são os que apresentam densidade gráfica mais baixa, mais uma vez seguindo o padrão geral de redes agrupadas até aqui onde os valores menores se concentram nos grupos de tamanho grande e médio. Um perfil parecido é desenhado pela distância geodésica média, com valores baixos para grupos pequenos, maiores para grupos médios e levemente menores para grupos grandes. Para a rede VE chilena os itens lexicais mais destacados são “ser”, “poder”, “ir”, “ter” e “estar”. Estes dois últimos estão no grupo G1 (cor Blue e forma disk), enquanto que “ser” e “ir” estão em G2 (cor Cyan e forma disk) e “poder” em G3 (cor Dark green e forma disk). Pela discussão já promovida para o agrupamento da rede VE do Haiti sobre concentração em poucas redes e dos papéis que nomes simples podem assumir como entidade, qualquer análise sobre estes grupos não será de grande valia, já que sua concentração leva o estudo de um grupo a algo próximo a totalidade da rede como algo único. O algoritmo 2 possui cinco (G7, G13, G22, G25 e G30) de seus 31 grupos emergentes concentrando 32,9% dos vértices e 9,7% das ligações. As densidades destes grupos são baixas se comparadas à densidade de grupos com número de vértices e ligações na casa das dezenas. A distância geodésica segue a tendência de crescimento com o tamanho da rede representativa do grupo, atingindo seus maiores valores em grupos que possuem entre 30 e 172 vértices e entre 37 e 442 ligações, decaindo a partir daí para grupos maiores e concentradores de forma pouco acelerada. Quanto aos itens lexicais de destaque apontados na aplicação do algoritmo 1, para o algoritmo 2 cada um se encontra em um grupo. Em G8 (cor Lime 129 e forma disk) encontra-se o item lexical “ir”, sendo um grupo que apresenta itens lexicais que caracterizam o pós-catástrofe e o auxílio aos atingidos, como “castigar”, “incªndio” (incêndio), “facilitar”, “montante” e “defesa”. O item lexical “ter” está em G12 (cor Steel blue e forma disk) que se define como um grupo com traços de execução de ações por ter também vértices como “exercer”, “organizar” e “lideran” (liderança). O maior nó da rede, o item lexical “ser” situa-se no grupo G13 (cor Blue e forma solid square) que tem itens lexicais que se alinham bem com o caráter descritivo deste verbo, tanto da situação como da ajuda, como “rachar”, “vazar”, “cortado”, “emergªncia” (emergência), “prestador”, “policial”, “parceria”, “mobilizar”, “instalar” e “restauraÔ (restauração). Em G23 (cor Lilac e forma solid square) o item lexical “estar” acompanha itens lexicais pertinentes ao meio escolar, como “aluno” e “universitÔ (universitário), ao artístico [“músico” (músico), “cinema”, “avatar”, “show”] e à política brasileira (“eleitorado”, “petista”, “socialista”), não sendo tão pertinente ao buscado aqui. “poder” está em G25 (cor Blue e forma solid diamond) que se define com três conjuntos de léxicos principalmente: os de referência a ações de auxílio com itens como “cooperar” e “assinar”, de prestação de contas e notícias como “informar” e “manifestar”, e de atores auxiliadores como “alianÔ (aliança), “doador”, “autoridade”, “organismo”, “instituiÃ" (instituição) e “corporaÔ (corporação). Dos grupos analisados em redes VE este último foi o mais interessante por apresentar, reunido em si, muitas referências comuns a entidades assistenciais e conjunto destas. 6.2. Método Supervisionado Frente às limitações do método não supervisionado em delimitar claramente entidades assistenciais e suas ações, como apresentado em seus resultados e 130 discussão, parte-se para a análise dos resultados de um método supervisionado. É importante ressalvar, entretanto, que a discussão promovida até aqui aponta que, embora com limitações, o método não supervisionado aplicado mostra a possibilidade de estruturação da informação geral contida no texto, sendo este segundo bloco de discussões dedicado a entender como esta metodologia de estruturação já utilizada pode, com alguma supervisão, alcançar o objetivo específico de estruturar um conhecimento específico buscado, no caso conhecimento sobre as entidades assistenciais e suas ações nas catástrofes naturais estudadas. 6.2.1. Redes VPS Partindo dos nomes próprios mostrados na seção de resultados para a rede VPS do Haiti obteve-se a relação destes com 1096 verbos, de um total de 2635 (reduzindo a 41,6% os verbos, portanto). Para o Chile este valor foi de 213 entre 1394 (15,3%). Com isto, entende-se que para o evento do Chile as ações de ajuda estão muito mais delimitadas por entidade do que para o Haiti, onde as entidades acabam por executar um número de ações maior. Tomando a média de ações de ajuda por entidade assistencial tem-se que para o Haiti são de aproximadamente 26, enquanto para o Chile o número cai para 21. Se mantivesse a média do Haiti a rede VPS para o caso chileno teria 48 elementos a mais (verbos). A rede haitiana formada apresenta em média 1,35 elementos de rede por texto e 5,17 ligações, comparada a 1,55 elementos de rede e 2,23 ligações no caso do Chile. Estes dados permitem concluir então que, em média, cada elemento da rede do Haiti possui 3,83 ligações e no caso do Chile 1,44. Embora também apresentem que o Haiti possui mais ligações por entidade que o Chile, os valores comparados aos extraídos dos 131 números absolutos de rede e os por texto são bastante divergentes. Como os textos possuem relação direta com o tempo, fica clara então uma distribuição não uniforme para os dois casos. Como mostra a Figuras 3 e 5 de distribuição de textos no tempo para os dois corpora existem um volume muito grande de reportagens logo do início do recorte estudado (logo após os terremotos), onde existem muitas necessidades emergentes, sendo neste instante que se apresenta o maior número de ações de ajuda e entidades, e nos momentos seguintes uma longa cauda onde entidades se relacionam a poucos verbos. O ganho que se tem com os primeiros dados é a dissociação dos elementos de rede no cálculo da média, e dos últimos com o estudo da distribuição destes no tempo. A mesma equivalência apresentada por estes dados reflete no degree das redes, com a rede do Haiti apresentando valor 7,2 e do Chile 2,9. Isto é, a média identificada da métrica de grau da rede para o caso haitiano é maior do que para o chileno, mostrando que os elementos de rede do país caribenho se conectam mais vezes que o do andino em média, consequência de um movimento já identificado nas redes já discutidas de sobreposição de entidades sobre uma mesma ação e abrangência muito grande de atuação destas no cenário estudado. A distância geodésica média do Chile maior mostra que a maior discretização de entidades assistenciais leva a maior distância entre as entidades e suas ações. Assim, se ganha em customização da ajuda prestada, mas perde-se em flexibilidade de atuação conjunta de entidades sobre ações. Porém, a densidade de gráfico maior também para o Chile mostra um aproveitamento maior da possibilidade de ligações, o que indica que as entidades assistenciais estão relacionadas com as ações correspondentes de maneira muito mais direta. Em suma, as necessidades emergentes demonstradas pelas ações são bem cobertas pelas entidades. A medida de betweenness centrality maior para o Haiti e do que para o Chile (em média) demonstra a dependência na execução de ações por parte de entidades no caso haitiano, em que ações cobertas por mais de uma entidade e entidades cobrindo muitas ações elevam esta medida para estes blocos de elementos para o qual, em termos estruturais da rede, serve como conector. A nulidade da mediana desta métrica para o Chile indica que os blocos de ações estão bem distribuídos, 132 sem muita flexibilidade de atuação ou grande número de nós indispensáveis a rede (na mediana, na ausência de uma entidade outra supriria sua atuação, na ausência de uma ação duas entidades que atuam em conjunto por meio desta atuam juntos também por outra). Justamente este peso dos elementos de rede do Chile em suprir eventuais ausências é o que eleva o valor da mediana do PageRank. Estas métricas analisadas em conjunto apontam para uma atuação com traços de planejamento muito forte no Chile: distribuição de ações de maneira rígida para entidades, relacionamentos entre estas de forma a existirem relacionamentos e atuações conjuntas, sem indícios de grande sobreposição de ações, arranjo de atuação que permite cobrir todo o espectro de ações necessárias ou associação de entidades importante para o sucesso do resgate de forma que a ausência de um elemento não impacta a rede. Já o Haiti demonstra uma atuação que vai se constituindo conforme surgem as necessidades, com sobreposição sobre ações e não exploração das ligações disponíveis (embora haja um volume grande de ligações), aumentando a concentração de ações sob determinadas entidades que se tornam indispensáveis na composição do cenário de assistência. Observando as entidades e ações da rede têm-se os elementos de destaque mostrados na Tabela 38. Tabela 38. Valores de Elementos mais Relevantes para Métricas para redes VPS. Métrica Tipo de Elemento Haiti Grau PageRank Verbo Entidade Verbo Entidade Verbo Entidade ser ONU ser ONU ser ONU Minustah ir Minustah ir Minustah Defesa ir ter Chile Betweenness Centrality Defesa ter Defesa ter ser Força ser Força ser Força ter Marinha ter Marinha ter Marinha ir ONU ir ONU ir ONU Observa-se que, independentemente da métrica, os valores mais relevantes para os elementos em cada rede são os mesmos. Nos dois casos “ONU” apresenta destaque, mostrando seu papel atuante em coordenar a assistência no póscatástrofe. As entidades complementares nos dois casos são entidades ligadas a Forças Armadas que auxiliam na execução de determinadas diretrizes e busca, além 133 de “Defesa” (Civil), que auxilia junto ao tipo anterior na reestabilização da ordem e zelo pela integridade física de civis. Os verbos, também os mesmos para os dois casos, mostrando que os textos que compõem os corpora expõem o posicionamento de entidades sobre suas responsabilidades (“ser”), ações (“ter”) e projeções de atuação (“ir”). Aqui a análise mais importante talvez seja a dos verbos relacionados ao conjunto supervisionado de nomes próprios, que deu continuidade nos trabalhos para obtenção das redes VEA e VPA. Na Tabela 39 se encontram todos estes verbos, onde os considerados como referentes a ações assistenciais por esta discussão estão marcados na cor amarela. Tabela 39. Verbos em Redes de Métodos Supervisionados. Chile abalar acabar acusar admitir adotar afetar afirmar agradecer aguar ajudar alastrar alegar alertar aliar amplificar analisar anunciar apoiar apontar aprovar ar armar assentar assentir assumir atacar atender atingir aumentar avaliar bolar buscar cair cancelar casar centrar chegar cincar comandar combater comer comerciar conseguir considerar construir consultar contatar contestar controlar conviver correr criticar cruzar culpar cumprimentar curtir dar declarar decolar decretar defender delegar demonstrar demorar desabrigar descartar descobrir desconfortar destinar deter devastar dever disparar distribuir divulgar dizer drogar eleger elogiar emitir entrar entregar entrever entrevistar entusiasmar enviar equipar errar esperar estar estender estimar estudar evacuar exigir exportar expressar falar falhar falir falsar faltar fazer ferir ficar financiar fomentar fossar fugir futurar gerar governar haver impedir implementar imprensar indicar informar instalar instaurar instituir ir jogar levar ligar listar livrar mandar manter marinhar matar mear medir militar ministrar mobilizar montar morrer motivar notar novar oar ocorrer ofertar olhar ordenar pacificar parecer partir passar pedir perder perigar permitir pesquisar pilotar podar poder preparar prestar pretender propor proporcionar proteger provar prover publicar querer recolher reconhecer recorrer recusar redar referir relatar respaldar respeitar responsabilizar ressaltar restar retornar reunir revelar riscar roubar ruir sacar sair segar seguir ser seriar significar sobrar sobreviver soterrar suar sustentar telefonar tender tentar ter tirar tocar tomar trabalhar trocar ver vir visar visitar viver zonar Haiti Resultar abaixar abalar abandonar abolir abortar abrigar abrir abster abusar acabar acalentar acalmar acampar acatar aceitar acelerar acentuar acertar acessar achar acionar aclamar acompanhar acontecer acordar acostumar acreditar acrescentar acrescer acuar acumular acusar adaptar adequar adiantar adiar adicionar administrar admirar admitir adotar adquirir advertir advogar afastar afetar afirmar afrontar agendar agilizar agir agradecer agravar agredir agregar aguar aguardar ajudar alar alarmar alastrar alegar alertar aliar alimentar aliviar alterar alugar amamentar amanhecer amar ambientar amentar amigar amontoar amostrar amparar ampliar analisar ancorar andar antever anunciar apadrinhar aparatar aparecer aparentar apedrejar apelar apelidar aplaudir aplicar apoiar apontar apor aposentar apostar aprender apresentar aprofundar aprovar aproveitar aproximar apurar ar argumentar armar arrasar arrastar arrecadar articular artilhar ascender aspar assaltar assassinar assegurar assentar assentir assessorar assinalar assinar assistir associar assumir assuntar atacar atar atender atentar ater aterrissar aterrorizar atingir atirar ativar atrair atrapalhar atrasar atravessar atribuir atualizar atuar aumentar autorizar auxiliar avaliar avisar baixar balar balir bancar banhar barrar barricar barrir basear bastar batalhar batizar beber beneficiar blindar bloquear bolar bolsar bordar botar brigar brincar buscar caber cadastrar cair calcular calmar caminhar campar canalizar cancelar 134 cansar capitanear captar capturar carecer carnar carregar casar cascar causar ceder centrar cercar chamar chancelar checar chefiar chegar cheirar chocar cifrar cincar circular citar clorar cobrar cobrir cocar colaborar colar coletar colher colocar colorar comandar combater comemorar comentar comer comerciar cometer comparar comparecer compartimentar compensar compilar complementar completar complicar compor comprar comprometer comunicar conceder concentrar concertar conclamar concluir concordar concorrer condecorar condenar condicionar conduzir confessar confirmar conflagrar conformar confrontar conhecer conquistar conseguir consertar conservar considerar consolidar constar constituir construir consultar contabilizar contaminar contar contatar contemplar contender contentar conter contestar contingentar continuar contradizer contrariar contratar contribuir controlar convencer convencionar conversar converter convidar convocar coordenar copar coroar correr corresponder corrigir costumar cotar cozinhar credenciar creditar crescer criar criticar cruzar culpar cultivar cumprimentar cumprir cunhar cursar custar custear danar danificar dar datar debater debelar debilitar decidir declarar decolar decretar dedicar defender definir degradar deixar delinear demandar demitir demorar dentar denunciar depauperar depender depor deputar derivar derrotar derrubar desabar desabrigar desacreditar desafiar desaparecer desarmar desautorizar descaber descartar descobrir desconfortar desconhecer desconjuntar descrever desembarcar desempenhar desencadear desenhar desenvolver desesperar desfilar designar desistir deslocar desmantelar desmoronar desorientar despachar despedir despejar desproteger destacar destinar destituir destruir desviar detalhar detectar deter deteriorar determinar devastar dever devir devolver dialogar dificultar difundir digerir diminuir direcionar dirigir discar discordar discursar discutir disparar dispor disputar disseminar dissuadir distinguir distribuir ditar divergir divulgar dizer doar dobrar documentar doer dominar dourar drogar duplicar durar ecoar editar efetivar elaborar eleger elevar eliminar elogiar embarcar embargar emboscar emergir emitir emocionar empenhar emperrar empregar empresar emprestar enaltecer encaixar encaminhar encampar encarar encarregar encerrar encomendar encontrar endossar endurecer enfileirar enfraquecer enfrentar enganar engenhar enlatar enquadrar enraizar ensaiar ensinar entender entoar entrar entregar entrepor entrever entrevistar enunciar enveredar enviar envolver equilibrar equipar equiparar erguer escalar escapar esclarecer escolher escoltar esconder escrever esfriar esgotar esmaecer esmagar espalhar especializar esperar espressar esprimir esquecer estabelecer estabilizar estacionar estar esteirar estender estilar estimar estimular estivar estocar estourar estradar estragar estrangeirar estrear estreitar estrelar estruturar estudar esvaziar evitar evoluir exagerar excepcionar executar exemplar exemplificar exercer exibir exigir exilar existir exortar experimentar explicar explodir explorar expor exportar expressar externar extremar facilitar falar falecer falhar falir faltar fantasiar farpar fatiar fatorar fazer fechar ferir ficar fichar filar filhar filiar filmar filtrar financiar finar firmar fixar florar florir focar folgar folhar fomentar forjar formalizar formar formatar formular fornecer fossar fotografar fracassar fraudar frequentar frutar fugir funcionar fundar fundir furar futurar ganhar garantir gastar gemer generalizar gerar gerenciar golfar governar gozar gradar graduar gramar gravar grupar guardar habilitar haiter haitir haver homenagear honrar idear identificar ignorar ilhar ilustrar imaginar impedir implementar impor importar impostar imprensar imprimir inaugurar incendiar incentivar inclinar incluir incomodar incorporar incrementar indagar indenizar indicar indiciar individuar induzir infectar influenciar informar ingressar iniciar insistir inspirar instalar institucionalizar instrumentar integrar intensificar interceder interessar interferir intermediar internar interromper intervalar intervir invadir investigar investir ir irritar janelarosser janelarossir jantar jogar julgar juntar justificar lamentar lanchar languir largar lavar legar legendar lembrar ler lesar levantar levar liberar lidar liderar ligar limitar limpar listar livrar lixar localizar locar lotar lucrar lutar madrugar mandar mandatar manifestar manipular manobrar manter marcar marchar maridar marinhar matar mear medalhar mediar medicinar medir melhorar melindrar memorar mencionar mercar mesquinhar meter militar minimizar ministrar minutar mobiliar mobilizar modelar moderar modernizar moldar monitorar montar morar morrer mostrar motivar motorizar mover movimentar mudar murar nadar nascer negar negociar nomear nortear notar noticiar novar oar obedecer objetar objetivar obrar obrigar observar obter ocorrer ocupar odiar oferecer ofertar oficializar oficiar olhar operar opor ordenar organizar orgulhar orientar originar ouvir ovar pacificar pagar pairar palestrar parar parecer parir parlamentar participar partir passar patinar patrocinar patrulhar pausar pedir pegar penar pendurar pensar perceber percorrer perder perdoar perguntar perigar permanecer permitir persistir perspectivar pertencer pesar pesquisar pilar pilotar piorar placar planar planejar podar poder policiar poluir ponderar pontar popularizar portar posicionar positivar possuir postar potencializar pousar preceder precipitar precisar preestabelecer preferir pregar prejudicar prender preocupar preparar prepor prescindir presentar preservar presidir pressionar prestar prestigiar 135 pretender prever priorizar processar procurar produzir profundar prognosticar programar projetar prolongar prometer promover pronunciar propagandear propor proteger protestar provar prover provocar publicar pulverizar quadrar qualificar quebrar quedar querer questionar quintar quitar radicar rasgar ratificar reabrir reafirmar reagir realizar reativar reavaliar rebater recapturar receber recepcionar recidivar reclamar recolher recompensar recompor reconhecer reconstruir recordar recorrer recrudescer recrutar recuar recuperar redar redobrar reduzir reeditar reembolsar reerguer referir reformar registrar regrar regredir regressar regulamentar reiterar rejeitar relacionar relatar relativizar relembrar relutar remover remunerar rendar render renomear renovar reparar repartir repassar repetir replicar reportar representar reprimir reprisar requintar reservar resgatar resistir resolver respaldar respeitar responder responsabilizar responsar ressaltar ressarcir restabelecer restar restaurar restringir resultar resumir retardar retirar retomar retornar retratar retroceder reunir revelar rever reverter revestir revisar revistar rezar rir riscar ritmar rodar romper rosar rotar ruir rumar saber sacar sacrificar sagrar sair saldar saltar salvar sambar saquear saudar secar secretar sedar sediar segar segredar seguir segurar selecionar sentir separar sequestrar ser serenar seriar serrar servir significar situar sobrar sobrecarregar sobreviver sobrevoar socorrer sofrer solar soldar solicitar somar sondar sonhar sortir soterrar suar suavizar subir sublinhar subordinar subsidiar substituir sugerir sujar superar suplantar supor suportar surgir surpreender surtir suspeitar suspender sustentar tardar taxar tecer telefonar temer tender tentar ter terminar testar testemunhar tirar titular tomar tornar torturar trabalhar traduzir tramar transcorrer transferir transformar transmitir transportar transtornar tratar trazer treinar trocar tumultuar twitter ultrapassar unificar unir urgir urinar usar utilizar vagar vagir valar valer variar vazar vaziar velar vencer vendar vender ver verificar vestir vetar vezar viajar vincular violar violentar vir virar visar visitar vivenciar viver vizinhar vociferar voltar volver votar Esta classificação (assim como similares subsequentes) é feita aqui de forma qualitativa, tendo como base o conhecimento sobre os corpora acumulado deste sua captação até a concepção das redes. A apresentação de todos os valores, e não só os classificados como ações assistenciais visa o contraste dos valores. Para o conjunto de verbos do Chile identificou-se como ação assistencial 66 (30,98% do total) e para o Haiti 162 (14,78%). A análise do todo permite visualizar que estes valores percentuais poderiam ser maiores caso alguns problemas já apontados na discussão de redes oriundas de métodos não supervisionados, tais como a presença de léxicos que não são verbos em meio destes conjuntos (itens como “twitter”, “ar”), de léxicos que derivam de erros de grafia em reportagens que acabaram por ser lematizados como verbos (como “janelarosser”, “janelarossir”, “oar”, “haitir”, “haiter”) e principalmente léxicos que são verbos pouco usuais a língua, a redação de textos jornalísticos ou que não se enquadram aos contextos que aparecem, por não estarem de fato presentes, mas sim lematizados pelo etiquetador a partir de nomes, advérbios, adjetivos e outras classes gramaticais de maneira equivocada (como “comer”, “exortar”, “barrir”, “aparatar”, “languir”, “rotar”, “militar”, “falsar”, “zonar”, “vezar”, “vociferar”, entre outros). A exclusão destes verbos permitiria dissociar os verbos remanescentes em três categorias bem delimitadas: verbos de descrição (estado e localização), de consequências derivadas da ocorrência do terremoto e de 136 assistência (descatados para este último, de interesse na discussão deste trabalho). A eficiência maior na identificação de ações assistenciais no corpus do Chile se deve ao seu volume menor com relação ao Haiti. Um corpus grande possui maior variedade de itens lexicais (como fica claro na comparação promovida na Tabela 15), e pela lei de Zipf, por conta da alta frequência de algumas palavras que possuem diferentes valores semânticos, o que leva a lematização errônea que cria o ruído mais prejudicial aos objetivos deste trabalho. 6.2.2. Redes VEA A rede VEA parte dos verbos emergentes da rede VPS (todo o conjunto mostrado na Tabela 39), estruturando associações destes com nomes simples marcados como entidades. Para o Chile foram 1302 as entidades emergentes deste processo (96,23% do total de entidades etiquetadas representando uma média de 6,11 entidades por ação assistencial), enquanto para o Haiti este número fica em 3573 (97,75% do total com média de 3,3 entidades por ação assistencial emergente de VPS). Esta redução mínima leva a conclusão de que este método não supervisionado não é uma abordagem eficiente na busca por filtrar este tipo de léxico, como foi para os verbos. Também reforça o citado acima sobre a contribuição destes itens lexicais para a discretização de entidades assistenciais, como bastante limitado por conta dos problemas identificados. O primeiro deles é promover associações entre palavras etiquetadas por PROP e etiquetados semânticos, o que abriria margem para discussões sobre correferência que poderiam levar a caminhos restrições de valores de entidades sob a forma de nomes simples. Outro é o espectro de opções que uma entidade pode ser referenciada como nome simples. Embora o óbvio seja guiar a busca por etiquetas como “inst” e “org”, por exemplo, o 137 estudo do corpus permite entender que as entidades de assistência podem assumir um volume igualmente, e mesmo mais relevante em outras etiquetas, com de referencia a espações geográficos e pessoas, por agirem estes como entidades assistenciais em um determinado período. Além disto, existem os ruídos, tais como para os verbos (porém com relevância menor para a baixa eficiência do estudo de entidades do que a apresentada pelos verbos), em que há itens lexicais que transpusseram os filtros aplicados ou que são acentuados e, por conta de problemas em codificação destes marcadores, aparecem por convergirem para uma mesma expressão considerada entidade. As redes VEA em termos de proporção de métricas na comparação entre as estruturações realizadas para Chile e Haiti mantêm as mesmas características das já discutidas para as redes VE. Isto demonstra que a rede VEA tem a mesma finalidade da rede VE, de descrever o cenário do pós-catastrofe, devendo-se as diferenças quantitativas de suas métricas ao menor número de elementos de rede (entidades e principalmente verbos). Já com relação aos itens lexicais mais relevantes da rede do Chile para cada tipo de elemento, para todas as métricas os verbos mais relevantes são “ser”, “ir” e “ter”, também presentes como mais relevantes na rede VE. A única diferença encontra-se nas entidades semânticas mais relevantes. “terremoto” e “país” continuam sendo importantes aqui como eram já na em VE, porém os itens lexicais “dia” e “ano” não aparecem mais tão relevantes, mas sim “presidente”, referência a uma pessoa que exerce ações assistenciais. Isto indica que, ainda que de maneira tímida, a eliminação de poucos elementos de rede com esta operação simples eleva a importância de referências a entidades buscadas dentro da rede resultante, mas não de forma a permitir uma visualização clara, já que entidades de ocorrência como “terremoto” se perpetuam como muito influentes e relevantes na rede. Em discussão análoga para o Haiti, a única diferença para os dados das redes VEA e VE (deste último apresentados na Tabela 36) é a presença do item lexical “ONU” em detrimento de “Brasil” entre os itens lexicais mais relevantes no que tange a betweenness centrality, indicando o mesmo que incida a presença de 138 “presidente” a rede chilena, já que o organismo “ONU” é notoriamente um órgão de assistência nestas situações estudadas e “Brasil” somente dentro de determinados contextos. 6.2.3. Redes VPA A rede VPA elaborada a partir dos verbos remanescentes da rede VPS para o Haiti possui um total de 4506 nomes próprios relacionados a estes, de acordo com levantamento realizado no pacote NLTK, o que representa 88% dos nomes próprios totais levantados para o corpus haitiano. No caso do Chile foram 1403 nomes próprios (87% do total). Embora aqui também as reduções do conjunto não tenham sido grandes (como foram para os verbos na rede VPS), uma diferença na casa dos dois dígitos percentuais é uma evolução, ainda mais em se tratando de referências diretas a entidades assistenciais que ocorrem sob a forma de nomes próprios. Nesta nova estruturação existem aproximadamente 4 entidades sobre cada ação na rede correspondente ao terremoto no Haiti e 7 para o do Chile. Estes dados se alinham à maior disponibilidade de cobertura de ações executadas por entidades assistenciais no caso do Chile, o que vai de encontro com a métrica de betweenness centrality. Isto por mostrar que, em média, a concentração de ações por uma entidade na rede de forma que sua eliminação provoque grandes perdas à atuação de assistência é menor para o Chile (ações distribuídas por várias entidades, cobrindo a totalidade). Por texto o Haiti possui, de acordo com esta rede, 7,2 vértices e 116,3 ligações (média de 16 ligações por vértice), enquanto o Chile tem 11,7 vértices e 68,2 ligações (5,8 ligações por vértice) em média para cada texto. Estes dados demonstram que existe maior uniformidade 139 na distribuição de ações pelas entidades emergentes no caso chileno (média de ligações por vértice e ligações entre ações e entidade próximas) do que no caso do Haiti (números bem divergentes devido à atuação de entidade por meio de ações de maneira desigual no tempo, como discutido para redes VPS). A métrica degree apresenta em média a mesma proporcionalidade apresentada acima, valor de grau médio dos elementos de rede maior na rede haitiana, levando as mesmas conclusões. Por consequência destes números a média da distância geodésica é maior para a rede do Chile, apontando para uma atuação de entidades assistenciais de maneira bem delimitada ao seu escopo, e não sobreposta, como os dados indicam para o Haiti. A eficiência desta delimitação é demonstrada pelo maior valor de densidade do gráfico, que aponta então que as entidades e ações no caso do Chile se conectam em número maior dentro das possibilidades, isto é, as possibilidades, pelo próprio arranjo da rede, determinam delimitação de atuação de entidades em maior grau do que para as entidades presentes no caso do país caribenho. Pontualmente a Tabela 40 apresenta os itens lexicais mais relevantes para cada métrica em discussão. Tabela 40. Valores de Elementos mais Relevantes para Métricas para redes VPA. Métrica Tipo de Elemento Verbo ser Haiti Chile ir Grau Entidade Betweenness Centrality Verbo Entidade Haiti ser PageRank Verbo Entidade Haiti ser Haiti Brasil Brasil ir Brasil ir ter ONU ter ONU ter ONU ser Chile ser Chile ser Chile ir Brasil ir Brasil ir Brasil ter Piñera ter ONU ter Piñera Como se vê os valores são os mesmos para cada tipo de elementos independente da métrica. Os verbos mantêm-se os mesmos dos identificados para redes VP e VPS, portanto já discutidos em termos de sua presença na rede. Para a entidade representada por nome próprio, os valores mudam bem com relação à rede VPS (valores “Haiti”, “Brasil”, “Chile” e “Piñera” em detrimento de “Minustah”, “Defesa”, “Força” e “Marinha”). Estes valores são os ocorrentes na rede VP, apontando a alta relevância destes na prestação de ajuda nos respectivos eventos que se referem. Nos valores mais relevantes para entidades na rede VP encontra-se 140 ainda “EUA”, que tem o lugar ocupado agora por “ONU”, demonstrando que frente a uma estruturação promovida com um conjunto de verbos comuns a entidades assistenciais esta entidade ganha destaque por sua atuação no pós-catastrofe do Haiti. Alguns problemas crônicos se perpetuam também para esta rede, como a análise de seus elementos de rede permite ver. Tais problemas são o de não filtragem de alguns marcadores de texto como “PR” e “KC”, a consideração como verbo de palavras que não o são como “ar” e “militar” (não no contexto para este último) e lematização equivocada como em “comer”. Igualmente ao trabalho realizado com os verbos nas redes VPS, busca-se classificar como entidades assistenciais os nomes próprios remanescentes nas redes VPA, por meio da mesma análise qualitativa promovida naquele momento. A Tabela 41 apresenta os valores assumidos para entidades na rede VPA e os marcados em amarelo são os classificados como entidades assistenciais. Tabela 41. Nomes Próprios em Redes VPA. Chile Richter Alà Sebastià Bachelet Hamburgo Haiti Estado Unià Santiago Governo Heine Lula Josà Oncken Forà Grà Nova Stanley Dà Silva Reino Pià Futebol Lorito Michelle Havaà Associaà Luiz San Pierre BB Sul Chile Felipe Queixa EUA Menezes Monitor Washington Hà Museu Peru Eduardo Organizaà Brasil Sà Altman Jocelyn Daniele Casa Telhanorte Canales Poit Arte Prà Angola Caà Bandeira Paulo Moà Plugado Marinha Alfredo Amà Johannesburgo ONU Jerà Kleist Marcus Companhia Gonzà Edmundo Ministà Defesa Caribe Folha Naà Venezuela Itamaraty UNFPA Fundo Argentina Mapocho Miriam Exà Maule Uruguai Punta Nurya Nà Adà Pablo Europa Turismo Bric Jorge Presidência China Vale Vargas Japà Santa Bà US Turquia Francides Financial Bruno Carlos Fernanda Rio Rodrigo Araya Hillary Paraguai Kacef Gomes Osvaldo Pinto Estrela Solange Jardim STB Fiesp Bernardita RJ Campos Ismael Kirchner Tendências Estados Brastemp DANIEL Vià Està IPOs Celina Obama Cristià Boas SIM Gandra Bolsa Michael Loreto El France Mariane Irà Cepal Moscou TVs Mar Kimmel Palacios GMAC Gusan Santos Zou Comissà Cordero Credit Eguiguren Relaà Departamento Benjamà SBT Conselho SPTV Beyruti Coreia Hugo Norte Coconut Rià Aguas Ricardo Valdivia Samaritans Edelnor Reà Grupo Grande Reconstruà Hilo Providência Porto Emergência Programa Pedro Talca Timor Cuba Bolà Guatemala Barack Provà Brasà Montevidà Quirguistà Guinà Cabo Ushahidi Embaixada Mercosul Sri Sandra Tratado Filipinas Austrà Costa Mà Equador Perigo Mundo Buzinaà Canadà Economist The Honduras Indonà Panamà Colà Ar Hyderabad Onemi Juan Flix Paixà Discovery Gene Co VT News Jesi Cine Bandsports Ben World Live Guerra Dirty Curta Campeonato Lute Castle Production Law Las CNN Supermotor Clipe Olho Your Quais Criminal Coisas Larry Pena Bakugan Kid AXN Tieta Cotton Copa Excesso Dia Rodada Confidential Investigaà Business Criss Pronto Papo Faixa Magazine Miami Cartoon Mestres CSI Pesaro Casper Psique Driving Los Order NCIS Johnny Vegas Và Thundercars Conversa GPS Alphaville Presidencial Iguatemi ATP Ban Kim JK Distrito Clijsters Davis Orà Palà Riscos Escolhas Cerro Nicolas St Unasul MSF Rysselberghe Landrino Jacqueline DRH Oriente Deus Luciana Ideb Ità EIU Tarcisio Joà Escola Vaticano Cà Andrà Thomas Desperate Paul Igreja Lyon Quênia La LL Felicity Will ASSUSTATION Scrubs Natal Jornal Super Hori Júnior Padrinho Coquimbo BBB Sob 141 VMB Comeà Luca Fuà PAC Big Seraphin PSDB Tofoni CDPI RESTART Belle John Rede Direto Rebolation Georgia Puerto BARANGOLà Hernan Facebook Chris Erick Valparaà PTB Day LHC Tal Novo Cruz Taà My Antes Especial Segunda FAB Alianà Kinoplex Teatro Ugly Sesctv RC Lúcio Record Black Demanda Patrick Beverly Alejandro Marcos DF GEAN Harvard Areano Felix Florentino Programaà Aerosmith Kant Humberto Marcilia Aloizio Dasa FLà Phillip Sergio Morte New Symantec Dilma Rock Laà ProEcho Elano Ferdinand Instrumental Vai Sebastian Arena Ciro Peas SP Coldplay Fala Doc Churchill Hinzpeter Moody Notà Globo Sportv Morro Esmir Levantamos Artes Justià Lanza Monaco Help Urzúa Danà Franco TCM SANINO Lideranà Todo Sonhos Jogo Koba Teen Eyed Interfood Franz Dià Tà Aà Twitter TV Contenda Zeca Cesar Letelier Ory Beyoncà Green McCartney Multi Fiuk Imagem Shows Ghost Farias Edson Neymar Baby Guns ITF Fletcher Lima Pai Santo SLW Everybody Mato Pà SONY Dorival Seinfeld Pe Cabrera PT Ritmo Campo Lou Ana MTV Melhores Julio GSI Clube Levantemos Andes Serra Acoording Mercado Atlà Ter Milton Roberto Mayo Luftal MIT Praga Sorbonne Alencastro Dom Irene Katrina George Adilson Bom Marcelo LAN Luis Primeiro Ganso Novas Cantagalo Telefà ONG Renda Antonio Famà CTBC Pavà Meninos Adimark Caruaru Energia Sete Novos Lisboa Tremor GfK Dieese Alexandre Muammer Servià Bingol Marà Curto Clarà ProChile Pernambuco Bariloche Voltaire Vilalva Taquaritinga Okcular Patrà Wilson Elazig Centro Polinà Adriano Chiloà Instituto Araújo Paradoxal Clia Kress Iraque Marina Cruise Valor Presidente BM Clinton Baccetti Peter Oportunidade DeShazo Panamericano Center McAfee Francisco Windows Muricy Harry Mall Google Kissinger Engadget Joel Shlaudeman Ubabef Unica Rafael Reginaldo Treviso Xynthia Franà CSS MSN Pyongyang Hora National Sonia Calà Obras Ivan Anaconda Padrinhos Mineiros Bahamas TVZ Torres Saudade Talcahuano Enrique Josh Luan Silvio True Trilhas Cynthia Pizza Arquivos Bellavista Raúl Cousià Kel Conta ISA Vida Febraban Caraà Drake Neruda Itacarambi Prefeitura Kenan Robinson Manual Bob Belo Allende Georgina Invasà Joey Nicktoons Nazca Tayyip Diddy Glamurama Atividade Mustafa Renovaà Auxiliares Dr Information Victor Winston Kassab Artibonite Economic Vicente Priscila Saint BID Manuel Festival Caixeiro Cristina Condell Reuters Música Nasa TEPT Vinson Richard USS Belas Cofins Nigà IPVA Gana Rodoanel Canto Valle Alberto Federaà PELà Marco Miss Joyce Sandro Lay Ribeirà Pinochet Cultura Alemana Braga Energà Agents Pitty Omegle Claude Reinoso Uganda Anne Chade Datena CVM Golfinho James Claudio Norton KRISTEN Abba Lei Genebra Difà Responsabilidades Rolex Edgardo Jane Maratona Augusto Benin Rapesta Oficina Biquinho Investimentos Salim Grant Tancredo Kika CGFome Council Libà AgBank Musso Charles DJs Carla Veja Andrade Mali Axxion Londres Lola Norberto Queiroz Espanha Frank Racionar República Brasileira Marisa Burkina FT Gonà Luà Projeto Suà Camila Jordà Alasca Maria Virada SsangYong Darwin Corpo Esforà Israel Pelaa Milità Vietnà Vemos Le Conjunto Dantec Núcleo Maxwell Aparecida Secretaria Foreign Polà DEM Nextel Bio Moacyr Alex Top VTR Calvin Giorgio Fundaà Blade Despertar Telecine Publifolha Maravilhas Prazo Inventos Dragà Noite Mission Medical Hulk Quantum SVU Controle Miralles Cidades Beethoven Detetives Tootsie Brothers TNT Shrek Brooke Universal Noivas THC Cidade Julia Reclamaà Federer CBN Artur LGBT ABGLT Zà FM NYT Vilaà Josefa Lin DBM CQC Bovespa Renzo YouTube Colorado Cabral BIEBER GNS Fà Administraà Consulado Tonga Nature Beavan Niuatoputapu TechCrunch ABL Silveira Lukas Rússia Ria Legacy HORACIO Bracelpa Cotas Adriana Piva Ibama Petrobras Crescente William Eqecat Universidade Operaà Thorne CIA Faria Sendai Maracanà Jacmel Abiec Alemanha Leogane Evo Tarifa Oliveira Aderbal Arnaldo Lafis Otà Rabobank Santher Abaixo Papelada Braganà Gerardo Forbes WikiLeaks SMSs Apas Pipoca Codelco Buenos Inglaterra Ocha Trens Anos Vik Esalq Cem Spiandorin Alexander Christian Barretos Cunha Alckmin Cristo Atton Gabriel Corinthians Stefano Oscar Cearà Ferreira Louisiana Intercontinental Opus Associated Orlando Imogen Camargo Roma Eugenio Elizabeth Aires Chega Getting Assembleia Macondo Machado SC Goulart Dirigentes Geraldo Pequim FPF Fernando Executivo Cone CBAr Esporte Jian Marfrig Lisa Hasan Boston Fasano Mendoza Ortobom Mariano Michel Colo Tiago Oxana Joice Mano Abrablin Massachusetts David Pontifà Ernesto Jaime Marta Capità Kathleen Guarda Philipe Ustà Ronaldo Miguel Antà Banco Abipecs Good DVD Ano Deluxe Jara Mario Outubro WTA Salvador Resultados Dezembro GESTà Mairiporà Valparaiso Sym Matilde Snob Kiss Carneiro Desentendimentos Personal Portugal DSi Autoridade Escravos Rebelià Lilian Manuela Bloomberg Burundi Kia Sidney Casablanca Andy Roy Schwarcz ICCA Copas Unique PJ Assis Reis Comunidades Fifa Ipanema Tiger TigerText Wired SMS Fogo Hong Rostov Livres Luigene Inpres Quase Bamba Minas Tales YOGO Julian Metropolitana Denise Mark NA Bilionà Giovanna Delegacia Wikipà Covas Toda Boa Esperanza Cap Supremo Fundamental Jay Ipea Retrato OMC Brics Samoa In MADE BRAZIL Alastair Phoenix SWU Planeta Pixies Hot Cambridge Modelo Rage Promessas 142 Cingapura Kings Queens Mika Scotti ELITE Tropa Bienal Nuno Playlist Chatroulette Josias Croà Rockgol Fez Wagner Lista Randà Studio Ritcher Bento Mamà Itwire Academia ICMBio Sap Titanic Paris Gatsby Comando Comitê Concha Edu GALFIELD Montes Waikiki Dentinho Chrysler General Telecomunicaà Tempo Pelluhue Hospital Desfeito Separaà Negrà Mistà Apple Aliado Socopa Yadin Osmar Boeing Yukari Mediterrà Ibovespa Vara Air Chi Maradona MAX Appaloosa Gonzalo Gabriela Destino Via Onda Onde Mothern Arquivo Happy Gran SUPLICY Reflexo Patagà SE Saia Angra Fukushima XGAMES LIV CNPJ Esqueceram Temuco Potsdam Buena Encontro Tabarà Correntes Frio GNT HBO Andrew Ambiente Starte Show Pacaembu Army Multishow Extreme Nicanor Correa Carta Deportivo Dias Entrevista MGM Infraero Dawson Onno UFRN Wembley Rob Parceria Itabaiana Recife Nicarà Garcia Soluà Avenida Diego Codice Xinhua Guido Sexo Tira Jamaica Vila Fashion Guarulhos RocknRolla Charmed Exterior Kdabra ARTS Cliente Lie Rosemary Marcello Estaà Art Bate Martin FILM Naked Historinhas Madeline Mitsubishi FOX Sagwa Master Zenith Special Camille ESPN Sala Clara Sportscenter On Eurofestival Hannity Geraà Uberlà Eurocurtas Cagliari Gatinha Gretchen Madonna Inconfidência Kenneth West Yes Porfirio Laurence BNDES Lautaro Bank Kovancilar Well Tracker Libra Shell Rancagua Heinrich Parece Dudi Club Harel Sampa Valpo Ali Nutrin Rà Guardian BBC Elasa Gabinete Giannini UE Tamà Edward Jesus Fecomà Transtorno Osama Laden Yolanda Chilenos PMDB Novak Roger Enem Drudge Ocidente League UEFA Leitura Tarde Infomerciais Fulham Manhà Superpop RedeTV Piragibe Get Tunà Kick MICASA Saideira Palavra Sevilha Prêmio JCTV Vino Cruce FEAUSP TVA ADIà Tribuna Lucianta RODOLFO Romance Educativas Isabel Ruta Santuà Welcome Eric EMà Grand SALLE Momentos Receita Terà Mara Amadeo Ibero Inter Insper Cassino EM Industrializados Depto Leviatà Filhos Treinadores Dialogue AL Limongi Alan Fotorama Feria Medalhà Novena Maratonando Recessà IDSA Culturais Ally Huffington Agência Mercadà MAM Band Sexta Clementina Corà Simone Meio Hu Fome Olivieri Kà Golden Preparaà Movistar USGS Giovani Houston Fulbright Al\xc3 Nig\xc3 Barquisimeto REGINA Jos\xc3 Valpara\xc3 M\xc3 Programa\xc3 Vi\xc3 F\xc3 Est\xc3 Pi\xc3 Fam\xc3 Reconstru\xc3 PEL\xc3 S\xc3 WANDERLEY Not\xc3 Britto Panam\xc3 Hava\xc3 Col\xc3 A\xc3 Capit\xc3 Pr\xc3 Minist\xc3 Am\xc3 Sebasti\xc3 Jer\xc3 Organiza\xc3 Presid\xc3\xaancia C\xc3\xbapula Mastercard Na\xc3 VISA D\xc3 Wen Gyegu Prov\xc3 Vietn\xc3 Bras\xc3 M\xc3\xbasica Fran\xc3 Or\xc3 Pal\xc3 Intercine Ara\xc3\xbajo Ensino For\xc3 Armadilha Opera\xc3 Telecurso Prepara\xc3 Tempos Jap\xc3 Mo\xc3 B\xc3 V\xc3 Sinh\xc3 Uni\xc3 Gr\xc3 Haiti AR Alckmin New Viva Ano Nelson Clube Cada Comitê Acton Unidas Naà Cità NYT Mahmoud Maradona Quà Tom Caribe Shannon Palavra Manigat Lie Gilberto Juanito Paixà Animais FOX Instituto Destino Romeu Junior WSJ Nicolau EXPN RAQUEL Gero Big Pode Hoffenheim Batista Dancer Glee Hà Tasso Igreja Direto Wall Vida Litro Prato Cà Game Paraguai Juventus News Art Brenda Michele Noite Martelly Lei Balanà Daily Là Boletim Jean Francisco Alemanha Santos Bola Inter Burn Smithsonian Bayer Zhu Eurochannel Hope Studio Mr Bom Lipstick Federaà Bate Milan Iguatemi Tendências Wyclef FILM ESPN Maluf Inità Live Quanto Jude Guerra Lixo Ahmadinejad Leitura Dà Hollywood Mozart Kirchner Historinhas Três Sarah TV Assembleia Joelson Julieta Magazine Estados Mundo Messi Cleiton Nota Rosà Segundo Bento Cambiasso Ciência Milà Escolas Pequeno Morte Campeonato Taubatà Real Palmares Cuneo Museu Beirute Và Hoje Jogo Tesouro Canadà Amor Zanetti Ciro Europa SZAJMAN Brasis Congresso ARTS Dias Marà Saturday George Celebraà Temptation Hugo Hizbollah Japà Inspetor Edivilson Honduras Perfect Famà French Sportscenter VERDADEIRO Chà Danà Vamos Nome Mirlande Guanabara Terra Vestida Ibam Henrique Michel Eragon Copa Coq FT Dia GO The Gerald Gawker Comà Eva Brasileiro Recife At BARBALHO Fome Eurofestival Vinicius Ninguà Contra Argà Vez Bruxa Higuaà Itamaraty One Salzburgo Shuqing Marginal Poupex Bradesco Embaixada Olimpà Angola Tegucipalpa Deixando Opà Cúpula After Stephanes Escolhendo Moisà Tropicà Twitter Eurocurtas Sri Catunda Ministà Cidade Lobo Fecomercio MTV Defesa Roma Sunday Heartland Planeta War Trentino FMI Coleà Penitencià Crusoe Panetone Goià Geraà Porfirio Vaticano NatGeo Futura Washington Terceira Malvinas Comissà Carlos Democrà Gaza ALVES República Libà Ilustrada Oliveira Congo Osasco Fashion Wandinha Buenos Militares Aeronà Militar Bellino Organizaà Flà Science Antoine Joà Roth BBC Universidade Studies PNLD Complexo NGO Uganda Nader Guayaquil Programa Irlanda Pereira Wim Corte Mostra Especial Ben Milionà Himalaia Isabel Irvine Carolina Aires Rússia Hans Rufino DJ CSKA Grant Texas Cinema Ruanda Gracyanne EPP Missà Toussaint Imagem Barbosa Al MMPRJ Comunidade Canal Masp Sodoma Lisa Vietnà Outro Pastoral Xinhua Ideia Fà Brasà OAB Newsweek PSDB Tà Aà Bel PAC Angelania Amazongate Bertrand Jesus Carvalho Zelaya Tirone Paris 143 Rodriguez Mystil Cobranà Marcus Reis Marinha Departamento Gomorra Telegraph Barros CNC Parece InCor Galileia Exposià Yvio Peixoto Floriano Você Internautas Nepal Izard Rodrigue EDUARDO Centro CICV Campus Conselho Mano OMS Maykon Domingos Bush James Bieber Usinas Sisfron Ferreira Inà Dutra Stupar Agora Grace Turgeaut PV Jonas OEA Edwin Israel Gabeira Nunes Joseph Seguranà Dessalines Michael Morales Unifil Suà UOL Fronteiras URSS Boa Aloysio CPE Supremo Luiz Sistema Miami Huguette Mackenzy Moda Maicon Presidente Documenta Claude Duvalier Zaninni Eleià Stefano UE Inflaà Austrà Selic Silveira Central RC Uribe Paul BTS Salà SIDNEI Bolà Antonio CIA AP PMDB Sarney Argentina Traduà Playlist Williams Rockgol Quênia Natal Giovanna Amano Alphaville Rà Baú Life Facebook Make Global Scrap Fontes Record Reuters Familiares Right Grand It CPTM Controle ANCHIETA Anhanguera Top Centros Entrevista Notà El Guardian Filho MVRDV Google France Maket Green Ira Teen Thom Castello David Raposo Sap Rede Inovaà Abidine Tavares Kurzban Guerlane Ushahidi Amo Nobre Duas Lavalas Turquia Disputa Jornal Madonna Kara Gama Quico John Planejamento Chaves Sobre Esporte Santo CHUMSCRUBBER Valà LEWIS Silvio Lopez Macedà AnnCurry Eugenio BASIC Revista Tarde Uruguai Mesquita Oriente Reinaldo Serge Vigà Harold Beatles Mora Wayne Sr Veja Foreign Marco Council Aspa Baixando Coisas Fabio Octavio Marie Indonà Protesto Moreira Sob Barà Mulher PSB Salto Helena Friedman Gore Neto Gara Juliana Bulgà MULET Abraham Poder Primeira McDonald Julio Coelho CNN Dois FATTON Sangue Afonso MP Clà Justià Hamas Regininha Curitiba Bruijn Edmond Laurent Lucas Discovery Cely Vale Anna Estudiantes Les Genebra Channel Windows Cristina Rei Myra Damaris Kipman Adolfo Cayes Mobius Jordan Pimco Boca Shimon Kleist Jobim Aeronautica Ramos Mark Perplexidade Belimaire Laferrià Pentecostal Desfeita Conferência PCs Lilla Dany Joanesburgo Jacques Asset Palestina Alan Roseana FAB NEYMAR Apple Mujica Prejuà Globonews Giuliana Linha Brice Tania Laura Jordà FAO Mariana Igor Zero IDC Beken Diana Zanin Neves Amazonas Abstenà Klein Peter Jerry Bà Makenson Filipinas Armador Bronx Figueiredo Palà Mercado Estrela Mundial Virada Postos Xangai Leo Tal Eletrobrà Portugal Montreal Mil Staten CEOs Equador Servià Desviar MARQUETà Vieira Deus SPFW Alex Correa Hall Quadro Dzhennets Marcelinho Sean MAURO Fasano UnB Paolo Ellus Atà Petrobras Random Sans YouTube Floor Penn Alpes Reagan Manhattan Jorge Jim Jaime Sbardelini Marta Gavioli Aretuza Adriano Wegener Davos Universal Deu Mercedes Lindsay Adriana Fuvest Músico Skol Avanà Borgela USGS Bohemia Jovem Odebrecht Procuradoria Energia Teerà Público Nixon Galvà Albert Queiroz Comunidades Parlamento Petit Rafik Hariri Ramalho Copenhague My Declaraà Camargo Guiana Muricy Matà Pioneira Rodrigo Grande Apae Laà Sandra Iraque Aiea Susan Andrade Tobago Esmir Torres Polà Melhores Caradeux Nardini Norberto Base Trinidad Guantà Jorginho Sonhos Panamà Luiza Suriname Luis Social Ipanema Norte Baby Sinthoresp Richard Pan Santa Agência Acordo Palestra Sabin World Ana Ribeiro Sala Inglaterra Fernandez Almaghabi Cassandra Martinage Cunha ETs Primetime Bacellar Natasha Leonel Juvenal Alencar ODM Fundaà Madame Max MEA Federer Artibonite Christopher Companhia Urano Garcia Farc Keen Mariza Pesquisa Apolo Amazà Bellerive Estimativas Confederaà Andrà Faculdade Eletrobras Ahmedinejad Microsoft Inquisià PATRUS AGOP Morus Houaiss Saca OMC Gates RS Peru Brics Olà Bill Neymaradona Todo Sakineh Holanda Jack Superior Capiberibe Elio Doutrina Cameron Amapà PPS Warner Jerà Roberval Operaà Zagallo Amado Tapete Monumental FGTS Janete Doc Tribunal Funcex Zapata Gilles DEM Papa Cosan Santiago Borges Wendy Kà Munique Faz Congregaà UNpol Gilvam Cirurgia Poupelard Maurà Cansar Rodolfo Lorich Alicerce Priscila TUCA Murilo Land Negro Paà FHC Blaise Kimmelman Massimo Thomas AeroLula AEROALCKMIN Sandy Castro Belà MPB Fafà RUY Jared Qatar Caricom Cohen Le Petraeus Roy Mehmet Alain Afeganistà Maxipark Usaid Padre Cultura Alberto Subash Elton Caminho Carioca Chand Gerdau Trilhos Saúde MEC Skaf Somà Livro TEPT Ocha Bruno Berzoini PTB Minas Lex Pepe Shah Leandro Lovely Pp Porfà Enem Candidato Marshall SC UNFPA Troy Deauphin Blumenau Clark Tanto Nuca Allianz Fidel Chico Nicarà Fundo Granja Impà Logo Recà Salvador FV Està Jamaica Roberto Aramic DALLARI TVs Toledo ESTEVAM Regià Unicamp Connecticut PUC Campos Cristopher Michaà Moradores Damasio Pacaembu HERMà Ed Samuel Desvio LUà Pena Martins Campala Júnior Ory Cracolà GISELA Ives FABRà Marger Pedro Nigà Cesare Amos Rica Foco Coraà Taleban BNDES Reynald Battisti Mapocho Sebastià Bachelet Escà Martissant Katrina Punta Senger Brad Explosà Carrefour Hamann Crescente Solimões Bernardes Ajuda Delmas Paquistà Provà Espraiadas Crise Miriam Pià Kraft Summa Stephen Huffington OTAVIO Christina Spektor Ramà Montrà Rogà CCoPaB Seitenfus Maior Preval Band Epidemia Chancelaria Bien Marcelo Foer Herath Mello Multiner Rodada Fernandes Eugur Cuà Doha Grupamento Getúlio Fort Raesa Jardim Cavagnari Itaú Augusto Miranda Giancarlo Ken Itaquerà 144 Jon Yves Profecia Bartheloy OAS Jair Marcos Felix Maquiavel Vitor Evan Opep Uzeda Viver FSM Ney Lippi Simões Quintal Licenà Seguros Louise Especialistas Yushu Tempos Euler Hinche Bataille Tratz Sensus Boeing Nigel Cancún Thompson Ronald Dizem PDT Gabinete Engenharia Busca Leclerc Riachuelo Ormà Ngozi Carpegiani Boston Contas Palladini Callahan Michelle Pans Zuccaro BENONE Dann Cotton Drudge Elito Libertaà Associated Receita Bernard Robert Darcy Convenà UPP SBT Empresa Lesly Renot Cesar JK Postalis Quase Pelà Energy Siqueira Rita Gonaives Rambo Patrà Joel Arnaldo Okonjo Oded Perez Nicolà Vargas Abin Lima GBS Paz Fleury PE Ativistas Greenpeace Rosenthal Jango IEE Hilde Tudo Sichuan BP Gaillot Gleissimar PNDH Alexandra Interprograma Profissà TVZ Bratz Alternativo Alternativa Parenthood Star Tecnologia Appaloosa Cardà All Rua Banda Challenge Agenda Hora National Segundos Quarto Onde Crà Obras Assuntos Bagdà Passagem Literatura Jimmy Amantes Zonas Menina Arquivo Vestà Zoey Matador School Diferente Josh Arnold Zona Happy Cine Geeks Amorosa Feitià Saia Banca Chanel Guatemala Mile Aberto Elizabeth Conta Curvas Casas Naked Tropas Peterson Rosas Dr Hairspray Princesa Mercy Horà Nalu Tamanho Mar HBO Versões Ficar Drake Project Fragmentos Rock Verà Burns William Conexões GNT Via MGM Umas Stuff Sound Predadores Ei Models Tradià Spoons Morgana Shakespeare Quebrando Supernanny Mamà Prime Sex Manual Vivo Oliver City Show Rob Beleza Lugar Multishow Mad Orlando Coco Mulheres IMFC Arte Projeto Jamie Army Batman High Primeiro Superbonita Mob Sexo LIV Sexy Tira Resident Segredos Bugsy Two Oprah Diddy Unicef Hedi Frei Editora Massa Infraero Adeus Economist EX REDD Annabi Pulmões Eliana RENZIO Alceu Atoz Jaboticabal Esalq Ambev Boas CLAUDIA Cepea Maxpress Estadista Mercadotecnia Fadel SANTANDER Odete Multiplus Ashton Associaà Orlà Paula Alessandra Camila Rhodia Raniero Tebo Ucrà Antissemitismo Kofaviv Villard Vargem Dorival Malya Bahia Jael Bolsa FC Paramaribo Aramco Petronas Bing USNS Cantinho Ceci PAM Ilha Vibrio Manaus Reconstruà Reintegraà Mapre Billings Praga Kirby Miragoane CNDDR Ness Paranà Rosena Sophie Eni Kid Olivenà Eurasia CLAUVIS Care Kassab Falta Camep Brasileira Guarda LAMERIQUE Gondim Ian Medidas Sylvio Atlà Comfort Sabesp Garibaldo Alerta Wang Modene Orà Dubai Zà Paus Integraà TUNIN Elisabeth Crowley Pensa Tim Rochelle Livre Diferentemente Blue Leste Joshua Talca Raúl Timor Scarlett Karel Kakà Lassegue Cukier Jeffrey Grandes Antunes Humvee Philippe Dave Barcellos HQs Ensaio Forlà Lubini Resgate Policarpo Player Kendrick Horas Everlast VIRGà Bolduc Ipea Esfera Patrick DF Calc McKean Champs Joyandet Monte Berto Caritas Pew Guido Armero Heni ESPM Aldofe Semana Mercadoria Sesc Antà Guinà Plano Quais Armando Delete Constituià Predator Evelyne Islà Hilda Aneel Joe On Kim Iniesta Sandman Tabarre ADAUTO Parks HOHAGEN Parceria Fundadora Ay Angelina Baraka Pessoa Padrà Unasul Daniela Quirguistà Guy Byrs Hermano Cap Summer Conab Guilherme Cabo Firmeza Passa Governador Moà Los Homens Center Quero Gonà Escola Londrina IBGE Lulafolia Futuro Romero Devassa RR Jefferson Unidade Mangueira Pyongyang Imogen Tratado Partidà Itaipu Embarcaà PCO Okinawa COP FBI Mudanà Edmundo Save Internet Simon Quantos CBS Transparência Rubens Agente Flix Abc Rihanna Raising Gene Som Flash Comportamento Truck Steven Vozes Emile Filme Bandsports Evo NCI Mercadante PRB Curta Production Law Galatasaray Filmes Clipe AXN Diyarbakirspor Criminal Henry Vegas Bric Papo Scooby Executivos Cartoon CSI Aliados Caà Vigilante Platoon NCIS Las Lost Faixa Madagascar Arroz Allan Comer Cityville Estrangeiro Abbassian VICTOR Jonathan Farmville Ser FPF Petrocaribe Geovane Fun Honra Chris Nagasaki Sebastian Moritz VMB Fuà RESTART Belle Georgia Memà Peas Shows LL Black Aerosmith Koba Ferdinand Day Coldplay Lanza Niemeyer McCartney Eyed Franz Beyoncà Lucimar Guns Lou General Sibà Suzana Macau Batalhà Oficina Keller Marques Cursinho Belo Retirada Baltimore Group Bernice Robertson ICG Terceiro Juno SMS Yasmine Gabriel Ruth Bonfim ARIE Cristila Torre Silvia Watson Dom Julme Amecia Saint Petithomme Roska Zhouqu Bailong Aparecida GM Rocha Clifford Claudio Estratà Brasileiros European Jose Outras Regina Gabrielle Interior Mortos Sacrà Faltou Raymundo Donos Copom Andes Western Amazon Jen TVneja Granma WALTER Armstrong Liga Faces Dominique Cemei Maguire Tracey Norah Rocky Caspian Sukiyaki Confecom Head Altas Paraà Estrada MLB Natural Trocas Momentos Rivaldo Fernanda Consuelo Bernardo Itamar Franco Southwest PDVSA Clijsters Miss Jocelyn Tobey Starte Anivaldo SXSW Strauss Kahn Nick Irritando Cozinhar CineNews Visita Riscos Aranha Almanaque Música Tiro Aramick Kindle South Anistia Lassà Lavalà Passeio Letra BBB CAMARGOS KRISTEN Mion Charles Janela Tap Angra Ecoprà Love Luther AnimaTV Cafà Almagro Sweet Folhateen Evans Murdoch King Tucuruà Viola Humoristas HIV Bob Teatro Nardes Roda Lulatube Martin Pagot Marcia Micky Baker Swedish Johan Plata Ronaldinho Sudeste Ibero Kennedy Everglades PAUNETONE Titide Dama Sirleaf Empreendedores Prêmio UPPs Unidades Germano Kofi Muro Benedicte Paisagens Galula Valores 145 Dirceu ODA Medellà Professor Eliane Poul Guimarà Telefà Ligaà Raimundo Drà St SOBRA Fabiana Representantes Guerras Garcà MST Colombo Edison PSTU DRH Focus Rodoanel Bilardo PF PA Aloizio Alfred Dnit Luciana Facilidades TCU Landrino Akamai Alfonsà Austin Parada Lobà FTI Ideb Rochitte Mbps Mohamed Oito Vanessa Netinho Racing Perpà Bloomberg Acre Maranhà Fovest Edvaldo Lorena Corine Bonyads Mohammed Artes Khamenei Manoel Botucatu Sol Fim Rota Viagem Gutemberg KIDDER Tempo Infomerciais Espaà Jo Dell Shakira Mesa Sonia Vannuchi Anderson CB Estaà SE Tatit Dalva Aaron PREs CIDH Kevin Correndo Curto Arcade Equus Ricky NY Sabrina Dito IBC Soundcheck Entrecordas Cantor Walà Ciências Modelo Londres Fanmi Gerson Nobel Ema Mensalidades Dabliú Abuncare Wilhelm Jennifer FoxNews Acústico Credicard Aracaju Miguel Saad Melhor Wisnik Estilista Mario Demi Cigana Carole Carlinhos Ensino Emenda SDA MARMO Falklands Caso Anglo Made Unesco With Mauricio Andre Quartier TELMO Suprema Ponta Holy Fatem Zynga Raul Agudelo Avaliaà Scrubs Hoover Confirmado Honorà Viena MARCONDES Guarujà Ernest Weeds Evandro McDonough Septieme Lazzarini Corregedoria Vander Financial Felicity Kat Ilair Alf Sphere Livraria Cartilha Fuga Poetas SAE Pindamonhangaba Indio ISA Supertucano Cinderela TKM Praia Willian Super Superliga Hori VT Fight Eike Fugitive Delatour Alexander Cult Jogos Angelo Kuait Araraquara Guias Organismo Meier Ecos Sportv Conrad Valência Living Union Zeca Seraphin Hashimi Hildegard Telecine Chuva Drukens Murray Shelter Padrinhos Digg Naha Desafios Soldado Mustafà Time Cry CT Cessna Datena Blakney Transnordestina Pai Esquadrà Curtas Dragà Hebe Philip Half Roddick Caco Nexus Ara Conservation Disaster CTEx Freetown Depeche Renato Martha Otimismo NBB NBA Djokovic Voz Ink Cent Aleijadinho Alejo Donald Lenny Gigante MIGIRO Empire Louisiana Louverture Atlanta Transamà Winhurst Hannibal Gordimer Valle Red PACINI Crimes Trujillo Mount Alvin Gerardo Piauà Marketing Fiesp Leslie Tess Makeover SONY SPTrans Raio AGRELLA Risco Angel IVAN Airbus Luz Hiper Kel Stone Sindicato Atletico Rainha Will Morrer Eric Brazil Revkin Beverly PressTV Kirstie Kobe Carpentier That Maroon Zepherin Carne Dassault Andreza Roll Cinco Earthquake Trico Amir Previdência Creu Evodie Vital Madeline Programaà Morricone Islande McMillan Month Pacà Kant Ransom Arquiteto Pranked Marcilia Pato Pica Vinci Dick Mistà Questões JFK Toyota Barcelona Gamma Unesp CQC If United Sesctv Simplesmente Mayday Mona Micro Reduà Sagwa Extreme Hollyscoop Alfie Maldita Pesadelo Hannity Alca Sumà Cybernet Special Leth Veneza Sambistas Instrumental Bartali Medium Speechless ASHA Combate Videografia Arena Vant Designer Cont Produà Cadillac Robinho American Hegel Debenedetti Heloà Your Fazenda Interlagos Furfles Cid Canaà Fala Grazi Katyn Leis Cearà Capitalismo Uns According People Diretor GCM Reprise Delegacia Scott Sinai Tarso Kenan Azzurra Arezzo Obra Fiorentina Lakers Metallica Proteste Minik Pinto Nicholas Cadeiras TCM Lideranà Picardias Snoop Shourd Chateau Yakult Espanhol Malucos Elite Vampire Rachel Futurama Cold Dezembro Tio Lafuente Martinho Capità Antena McChrystal Publifolha Natureza Epità Olido Teoria Esvaziado Calà Qin Leilà Moscou Castelle Profissões Holder Schelling Catà CKamura Dià ACS ETeimoso Tokio Firewall Bela Scratch Melting Pucca Efeito Investigaà Quarteto Camisetas Criaturas Contenda Rockaway Gustavo State Quatro America Aristidas UFRJ Gênio Rent Estabilizaà Deyvid Fiuk Meninas Pregnant Friends Ghost Adote Joey MARAVILHA Pesca Wolverine Complexions Anatole Urzúa PSOL Mascotes OCDE Palermo Matheus Fletcher Lance Tribunais Billie GLO Pequenas Shigeru Seinfeld Broadway Egito Sportvnews Esperanà Mallorca Kitchen Estrelas ADPM Michà Fahid Ter Patricia Human Unplugged DVD Holiday Keeping Yahoo Tariq Any Coronel Nosferatu Cristiano Suez Rafale Ordem Danny GP Third Grey Manuel Gatinha Almir Total Vasos Marinho Brigada Sexarama Gossip Folie Espanyol Holocausto Reforma Johnny Tommaso Charmed Impacto Paraquedista Desastre Nicktoons Private Sebrae Giselle Dostoievsky CNPq Copacabana Yeda Toussant Ministro Humvees Enzo Romà Dzhennet Armadeira Eroshima Darelus Aux Tchechênia Dmitri Ria Ademir Taiwan Voo Royal We Abreu Najara Lionel Puerto Povos Corral Yele Tunà Teleton Festa Fonkoze Avaà Lakay Zico Andrea Duque Zito Caxias Istambul Trem Lubit Pequim Voltaire Salvatti Portela Elie Thaà Daniel Monique Vanderlúcia Advocacia Varejo Vira Tancredo Goulart TAC PPV Contrato Nicole Rivellino Pat Esquerda Verdà Moacyr Dorothy Xuxa Carpeggiani Adà Parà Perigos Flamengo Sylvinha Aldir Irene Nestor Temas Esportes Tahiane Loyo HSBC Substituirà BC Meio Revoluà Yeoshua Fanatismo Arturo Shaterzadeh Cargos Baitullah Barbara IE Sergio Orkut Yvonne Setembro Guangming PCC Beira Baixada PC Mike Objetivos Garà Corcovado Luanda Madri Phil Marcha Pedrocà Carta Renda Ubatuba Fifi Cedrick Almirante Jimanà GOUVEA MORADEI Pequenos Muammer Beaumont Gustav Lisboa Fafibe Caribbean Caio Saudade Lehman Catedral Bope Marc Rotary Bingol Nilo Nargis Okcular Club Vodu Brothers Dinamarca Elsie Presidenciais Elazig Mato Bandeiras Noruega Luxemburgo Edith Urbi Doutora Atraà Herrero IPVA Itapira Talitha Emmanuella Altamira Tietê Cotait 146 Schincariol Nestlà Vera Alejandro Alicia Looking Okabe Pitbull Vidda Livestrong Swat Hiato Alabama Anne Iorubalà Elias Swiss Rolf Vladimir Nikhil Andean Volta Daerp Sydney Tecnosol Benin Bender Bombeiros Morris Noaa IPCC Gascov IPTU NOS DE Dunga Campanha Ivà Baccetti London Eugênio Architecture Valor Panamericano Fez Bakontou Inês Andezo Cadyabosou Digitademanbre Temporà British Gazeta Comandante CNBB Luan BALATOUR Protestos CE Fed Sherlyne Mellon KAWALL AFA Belas Academia Farofa Morgan Manaquiri Forminha Barretos Kamukama DOS Nutrimental SDE Sasikala Defensoria Leonardo Henri Mangà Sonho Ti Cambridge Amaral Imdb OLPC Espà Lygia Fagundes Massachusetts Joaquim Ag Matt Montgomery Vip Ellen Camarote Cerqueira Cezar Rismond CARLOMANHO BRAZ Piracicaba Coca Cerveja Sacerdote Marchand Vendemos GPS Map Sally Futsal Caminhos Sessà Pequena Overhaulin Auto Confissões Destemidos Tenacious Poker Today Zoombido Megaconstruà Indo Avant Ritmo Dupla Loucas Leões Denizlispor Easy Mythbusters Fenerbahce Larry Eurocopa In Feitos Gà Business Criss Momento Olhar Goal Harry Inteligado Alma Aventuras Avanti Bielo West Leopoldo Loucademia Ace GREICE Madoff Conor DVDs Sorocaba Uà ARRUDEIE Boicote Lady Emà Beijing Seul Toyama Camp Kentaro Membro Dessaiville AES Saved Caroline AFP Humanidades PesquisaObraForm CNT Swamen Figueroa TBA Tehran STJ Haitis Araguaia Grêmio Esquerdistas Azueie Eletrosuriname Corpo Bogotà Pra Estadual Galeria Aperto Forest GRELLET Proclamaà BARRETTO Sucursal Tetris Independência Camarões Natà Pnud Lúcifer Baratos AVPD Tove Dantas Rolling Estocolmo AUDREY Caixa Fedex Baresi Lc MRE Destruià Fabienne Aerocracia Bellanton Policial Garota Sacolada Casillas Xavi Emaús Wimbledon Demà Mecanismo Antonin Zimbà CDH Mosley Shane Firefox Nizan Thatiana Pagung Movimento Philips Renan Globocop Robinson Bin Emerlinda Laden Seis Loris Plantà Panda Minority Preta Itacarambi Botafogo Jorgen Confronto Polishop RN Rui Camisa Conexà Lulu Antiquarius THC Sensei Dragonlance Expresso Chapolin Assombraà Catscratch Bebel Amaury Unfabulous Implicated Votatoon Nascido Equilà Romance Ren Changed Dieu Edemar Ferb Mobilizaà Miúcha Sharon Cougar Ilhas Role Zeke Gaspard Adrenalina Mariangela Kronk Diary Amil Marido Escorpià Terror UFC Mercenà Quantum Vezes Aquamarine Nashville Caraà Luau Troca Castle Brà Momentum Noiva Instinto Morando Idade Open Rescue Feira Trià Quebra What CDHU Prison Mira Detetives Tamanduateà Ugly Monsters Expedià Tayyip Toda Dawson Propostas Liceu Herões SVU Mega Alta Ivanhoà Palladino Maratona Making Riqueza Village Princesinha Aventura Valemont Phineas Formiguinhaz Shrek Catania Serginho Ponte Triunfos Desastres Poltergeist Luta Antecedentes Karku Lenine Par RedeTV TNT Good Waldomiro Supremacia Cachoeira Friburgo Monsterquest Faà Accidentally Mustafa Kick Kung Pinochet OK Weisbrot Agências Vara CDC Berlusconi Pondà Malhaà Rupert Jesu Forquilhinha Glà Bon Magrà CEPR Racha UGT Lions Spogli Kwasniewski Don Rajiv Economia Ivam SATYROS CTB Mirabelais CGTB Putin Payot Wald Jasmin Atuaà Corail Saco Pum Manolo Lucro PRE Marcello Eremildo Hispaniola Lew Salomon Dean Maico Heleni Skype Helder Espora Zuzu MultiPoint Phorm Kirinda Core BT Bredi Monia Ibsen Antilhas Gamage TBWA Totti Slashdot Barners Piarroux Renaud Erenice Edmont Playboy Machu Gadi Lourenà Eqecat Hu Wagner Chappaqua Pioneiro Havaà AMAURI Sarandi Viamà Hino Aloma NPD Reforà Abdolreza Sales Olayiwola Cerimà Lineu BURGNICH BSB Tiririca Anacleto Leblon Zaire Iwo FPU Valdivia Tailà Pouca PTI Davi Marinara Temodal Deportivo Filha Ginette Arimatà Daphne Lemazor Teotà Age Anatel TRANS Baptiste Citou Consenso Wycleaf Bouille Trà Marechal Pro Jutahy PABLO Natuza Lilia Ordaz CPMF Roberta MURALI Fritz Intel ROMAN DAN Hirst Superinteressante Gartner Amores Enrà Delcir Comenta DIS MS Kosovo Eletrosul Luciano Missões Rico Eurides MT Ideli Flyboys Blade Stargate Boudica Gigolà Desperate Arizona SAG Inventos Submarino Velozes Tempestade Situaà Vinganà Independiente Stop River Naves Corredor Melrose Indiana Algenor Pecado Chefe Treino Hitler Klute Scarface Diva Drop Pearl Sujou Contratado Monk Awake Hot Entra Queime Giganto Armadilhas Mick Forrest Ross Grito Jekyll Cassino Prêmios Collateral Three Raj Malà Desafio Filhos Rules Gatilho Graham Til Stardust Construindo Monstros Oz Normal Moby Bonanza Paparazzo Next Inside Graus Community Torneio Dolittle Sai Gary Contador Combates Casanova Mordidas Norbit Corridas Sir Shogun Namoro Hellboy Torquato Figo Zidane Pauleta Benfica XGAMES Andrew Vicenzo Nida Hiroshima Manger Bombocados Ralph Omar Dwight Brasileirinhas Klotz Louco Levy AIEX Nair Guarulhos Niger ImageMagica Etienne Angeli Aprendiz VCP Classmate QG Adnet Lauryn Foster Bertin Napoleà Oi Sede ROBSON Leibniz Louisdon Amec Juventude Vox Berny Fausto Cerimonial Mats Dar Atari AnimePro Ariel Gertrude PwC Cemig Damon Mandela Ciloni Oxfam Crawford Pombal Trending Raras Annual Rebelià CANCELLIERO Santana Racionar Camboja Responda Jeremy Desinteresse Viaoeste Marat BlackRock Transformaà COF CGFome Sudà Sete Camilla Monica Lado Tanzà 147 Evenson Dante Weber Carla Arthur Josias Responsabilidades Mangabeira Picasso Contradià Sanctis Retrà HAROLDO Quisqueya Gorbatchov Mali Josephine CNBC Quatrich Breath Dedo Usiminas Anjos Je CRECK Foz Rumiana Vagner Alacir Steve Braskem Angie HMU Marsh Berkeley Cepal Erudito Glenn Revolta PRTB Casemiro Evidente KIKA Markus Jumbor ExpoXangai Burkina Alvarenga Katherine Angà Reading CEà Tareck Edson Mindlin NA Ermilus JBS Bonitinha RNPP How Cuenca PhDs Anac Bashir Auschwitz AVOTAR GSI Jesse Bial Imaginaà Exame Friboi Mercosul MAURILIO Ganso Alfredo Preferencialmente Maitê Claudinei HOELTGEBAUM MARLI Binyamin Nardoni Aipac Atenas Hamilton Monitor Wings Mirage UTI Linda SITJA Christian UFMG Fortec Kama Vants Programas Emprego PJ Financeiro Tatuà Medalha Abbasi Carnegie Lang Evita Salve Dezoito Cristovam Procurados Marassa Ansanm Comida Opportunity CVM Teletime ICIJ Euna Javà Pascal ITV UFSC Condà Mara Jornalista Eliezer Rodolpho Thimothe LAN Durval Bronca Wilmà TVA Mundaú Angelus Santuà Encontro Paola Kerigma Feminino Medalhà Euro WTA COB Resultados Outubro University Esforà Civilizaà Otà McDermott Wisconsin Lawrence Chipre Eusà Reinhold Manchester Abacha Inas Corà Hayak Spirit Sani MUGGAH Influência Helio Expansà Commodities Controladoria Jaramillo Independente Aftenposten Sancak Cemile Espanhola Vemos Noivas Mitsui McPhee Desventuras Saddam Espelhos Caminhoneiros Prenda Maravilhas Babà Nanny Alianà Alasca Madre Gressier Yadin Mares PCB Jaques Metropolitan Wilson Pura Laurentus Valmon Rodini Yukari Darlene Olibert Inteligência Wipro Luizà Marcio Aid Oceà Franklin Nazilda Fritzner Juma Raniel Premji Azim Cristiana Oceania Seà Colbert Petra Tucanês Fabiano Malvino Sacconato Superintendência Sevilla Calabar Lerebours Zhang Clement Tegucigalpa Chrysotile Quixeramobim Darfour Xique Faktor Júlio Palocci Renata Perasso Boi Juan Mocidade Tuvalu Brahma Fred Abu Aldo Marquês Illinois Bradley Sapucaà Tiaes Mohsen Vanderlei Perugino MIRELLA Clemente Jornada CTNBio Lyon Vià Wavin Boardview Videonews Seleà NFL Cone Retratos Bad Monaco Pague Informerciais Minnesota Helifly Storytellers Kubica Maiores Mikhail Soul Novak Bandas Lola Amigas Celebrity Linhas Geisy Get Tokitika Djabon Expor Taxista Ibirapuera KOMPA Rap Heinrich Brooklyn Software FGV Ivor Sylvain Shell Lynn CIRH UPS LEC Matias Crescem Ducange Aelio CUBAPEDIA Wikipedia Kuala Esso Sanon Robespierre ESTER Mediaset Artur CBN Desafetos Mianmar Nouriel GZero Enio Homero Darfur Cintia Fillity ZANCO Montevidà Caraguatatuba Otacà Imposto DBM UniFiam Mwalimu Informal Ouanamine Levantamento Planos Concessões SIMONE Exius Insper Yukiya Armà Francesca Edward Inconfidência Macumba BIC Secretà Selinho Bambiada Dobradinha Data MJ Slama Catalunha ABDIAS CARMEN Carapicuà LAERTE Plà Leonam Eletronuclear Jay LAURO Guerrilha LYRIO Tucanagem Thales Romulus Observer BERWANGER Galeà Hilà LGBT JOSUà Che Kan Zurique Muller DoD Buzz Julius Hungria Puskas Nyerere CTA Chernobyl Sam Autoridade Columbia Luna Karibe MDB Ferdinando Campeonatos Cebri Toronto Frantz Climatizada Sutileza Narcisse Motel Eunà Participaram Articulaà Eliot BA KLB Rollemberg Odair ACM HADDAD Bolinha Ficha Oslo Luisà PSBD NEUMANN Cinemark Forro Vigilantes Jesimene Pete Ganhe Casos Vrum Kyle Pegadinhas Jequiti Nip Anhangabaú Tuck XY Ratinho Einstein Fabiane Simpi Osteria Labadee Michelin Ming Transtorno Gazprom Doi Fugees Thermilus Georgetown Pensilvà NYC Warren Perda Desmatamento Jacob Unilever Krugman Idalbert Embaixador Hasan Totalmente CGU Lucia Geddel Karl Marx Ilustrà Brunhera Tony Cemità DOLOROSA Bauru Toniko Berners Natalie NK Penetra VALENTIM Borba Braganà Tomie Georg Rafard Yara SWEIG Clash Takai Silvano Catherine CORRà Cairo Cadernos Pagu PSDC Pedrinho Aposentadorias Ravello SMSs Kleber Dambala Bussunda Othman Maryse Gean Jeanne SulAmà Aquassab Pamela Georgiana Salahadin Gerard Chrisner Burt Affonso Rick Claes Job Vanel Corriere Luzia Auxiliares Willy Expo Guinle Timothy USA Jukka Stark Bashon Latin Kesner Samba Logà Ramdin Lelly Michella Alentina Eliphet Hammoud Ai DANNER Marisa CBF Gente AEB McGill Fritznel Bird Daqui Leherke Dalila Otan Bresser OIT Arjun Lunie Lusa Klà HRO Medika Gisele Nadal Roland Bahamas Caicos Turks Coyote Ibama Coter Cianê Fritura BAPTISTA Villela Coordenaà Noam Dalai Papda Melbourne Camille Wimhurst Manuela Cavour Noà Secosa Abimilho Sindifranca ESM Palmeirinthians Indústrias Cial Deloitte Turbo Sysomos Pecuà Rastreado Ernst Esposas Companheiro GPP Wellington Cantagalo Bestshop Christine AAAS Gana Novena Doug Tribuna Stoichkov East Vivabeleza JCTV Orestes CDES Harlem OQ Feiras Osama Pavà Tempesta Estige Raà Novos Lloyd React Goldman Desentendimentos Bebê Agnelo Burundi Reinos Consciência Lugares Guarapuava Coloccini Ici Reaproximaà Arabia Etna Sicà Marjorie Piragibe Gastos Imprensa Transerp Transporte Martely Prado Repasses Pfizer Titanyen Papua Cingapura Vanuatu Escolha Itaim Mediolanum ETA Sinhà Poema Hannah Telecurso Caldeirà Corujà KENNETH Zorra Shangai SPTV Ipiranga Roger Eletronorte Hernane Guillermo Mercados Recessà Rener Luigene Chicago 148 Emannuel Christophe PACs LIMONGI Mensalà Soweto Dimmi Umazinha Celiana Emanuela Forbes Senac Faxion Denise Perfumes Nespresso Givenchy Bilionà Fields Wikipà Alvarez Erics Raymond Lajeunesse UFSCar McCain Dunhill Covas TCE Vicente Laos Adelà Tiago Norman Ciberpegadinhas NETTO Gianfranco Prazeres TERENCE Ubuntu Aceh JBC MSNBC Soma Ave Taiti YOGO Anglade IRAN Dora Rumos Camundongos Caillou Pingu Shaun Contos Mari Doctv Invenà Alfonso Cynthia Univesp Mestres Emmanuelle Ask Voando Tropa Cama Ataque Zoobomafoo Racismo AskMen Bienal Conar Godzilla Nuno Compacto Cartas Insensato Favela Conama Afanazio Mordaà AIDS HD Family Soraia Biquà UBDS Leila Amy INVERTà Andres Beckham Provas Laur McAslan Ocean Medicina HERMELINO Phoenix ADOGO Pixies SWU Nives Rage DAGMAR Ingrid Kings Queens Mika Enriquillo Andy Quadrinhos Stan Noivo Adolescência Percy Seduà Transformers Bobeou Trato Delgo Mergulho Armaà Sahara Hombre Flame Carga Eliesse Ferrari AAPM Madonnou Florenà Pacha SPTuris Drummond TRACY Penzo Galinho Ferver Delúbio Cortado Godofredo Titanic Veà Neil BMG Holbrook Gregory Naomi ARGOLLO Beijou Edu Montes Morro Golfo Jessica Trecho IRL GRINGA Chiquinho Ford Abellard Nina Alinne Less Intercine Domingà Vasco Transforme RouCHEFE Núcleo Stylista Animania Kipper Espià Ratava Mexico Ray Temperatura Tancredi Lars Chuck Pixote Interzone Honey Moonlight Port JANUà Zapping Retrato Aldeia Eduarda AURà VIVIANE Samu Cooperativas Rolinha Mohammad HOMSI RIEDER Manifestaà Bandeira Code Odilo Abib Gadael Jerseylicious Garfield Debussy Gaetano Raccontami Decisões Trumbo Poirot Electra ABDIAN Bryan Tupà Georges Racionamento Reynold Siafi Membros WADY Globalizaà Itu Eurythimics Tommy Duran Grava CoBrA Valdir Graduate Amsterdà Chaignat Manno Claire Small RO Hemisfà Suazilà Woodley Nintendo Jockey Edouard Duval MacArthur Aigle Megaman Matriz Fanny Tereza Mistureba Tonton Cicero SEYED FOROUGHI Sacomà Brava Tide Artista Tribilasyon Cazaquistà Ramires Hector Kleberson Fania EBC Tristeza PhD Continuidade Alec Guerrit Benito AIB Tailon Gatorade Abit Dublin Javier Interpol Produto Sipri Matthew Fotos Derek Arcahaie Patos Replay Gregoire Unctad Tabarà Hubert Sergey MIT Cartagena Bloco SUPLICY Sequestro VIDIGAL Itabaiana Azea Cordinha Drouin Mohallem LG Arkansas Pelerin Fonds GRAGNANI Lavagem Van Contrapõe Mazzola Indian Robben Tchecoslovà Sneijder Beija Uberaba Rubem Bike Ciclistas ESTRUPADOR Camboriú Cristianismo Faria BUENO ZECCHIN Parma Dudalina Digimon Serial Parasitas Orgulho Jibber Rep Ibitirama Schalke Razà Talk Vivendo NCAA Pronto Pariani Virginia ACB Lagun Bor Wake Preconceito Psique Jesi Castellana Apeoesp Andújar Institutions Pozo Geography Napoli GOLLOP Yo Nara Italo Pepsi JANINE Exercà LEà FABà Chimbote Tangshan Rom Hama Mascherano Di Tevez Pastore CSN Bolatti Maxi Samara Vinda Hummer Maynard DeGroot Aulas Sabu Bruce Reedià Pouso Kovancilar Freud Issa Torcedor Querendo MAM ANTIESCRAVISMO Desimà Incertezas Garanhus Iugoslà Piloto CFO Rubinho Vende Dread CEIs PORTALEGRE Pillay SAUVA Ovando Asignatura Otra Hate So Nelly Rehab Quità Smurf Pecho Ne Leona Fulanito ELLOS Raghav Say Keep Because Jambà Hanna Cedric Oma Mikael Galaxy Mitsubishi Clara Wallander Senai Rocinha TERSIO Ficà Chandon Cruzamento Fanta Eleuses Mossad Athletic Legià FM PMs Jerusalà Sinfà Mini Psych Shockwave Princesinhas Perdendo Carte Medical Navigator Android ProUni Unibanco Fipase ATP Larica Bossa Houston Autotà Jeke DJs Boate Laidback Passione Superpop Manhà Repetir Ouiiiii Restavec FEAUSP Lênin Laudo Juruà Andirà Juscelino Guajarà AM Behind Williard Ru Stand Divaldo Revealed Lembranà Short Quest Bakugan Frida Late Apollo Pokemon Exposed Naughty Californication Zoboomafoo Hilaria Pink Manifesto Patrice Mirland Inesc Curro ALLAIN ORIOL CANDELORI Wadih Samoa Antecipaà BELLEAU Madison Amarà AVOMITAR Nadir PGPM Naji Natalia TYLER Welcome Nadege PM SALLE Beto FILIPE Faculdades Hanover Just ES Rudy RBS Depto Dartmouth Floresta Jundiaà Taà MORONI Aterro Voto LSI FFLCH CURY Pulitzer Cfemea MORI Boaventura Jonatham Renault Quebrangulo Justine AlecJRoss StateDept PAEC Linense Recuperaà Citibank Prefeituras Moema Datasus Astro Detran Nasa CareFusion Preparaà Entertainment Haaretz Jerusalem MSN Diablo Worst MARCEL SEIXAS AC Violette BALLOTI Sampa Ikea Taria Hemisf\xc3 Organiza\xc3 Al\xc3 Pr\xc3\xaamio P\xc3\xbablico Ren\xc3 Ex\xc3 H\xc3 Pr\xc3 C\xc3 Bel\xc3 For\xc3 N\xc3 Jos\xc3 D\xc3 Ribeir\xc3 Tr\xc3\xaas Amanh\xc3 Ci\xc3\xaancia Civiliza\xc3 Caldeir\xc3 J\xc3 Sim\xc3\xb5es Funda\xc3 Seguran\xc3 Or\xc3 Helo\xc3 S\xc3 Not\xc3 Pol\xc3 Constitui\xc3 At\xc3 F\xc3 Bras\xc3 Fam\xc3 Fran\xc3 Su\xc3 Afeganist\xc3 A\xc3 Justi\xc3 Ir\xc3 Comiss\xc3 Pel\xc3 Presid\xc3\xaancia Pulm\xc3\xb5es Minist\xc3 Rela\xc3 Educa\xc3 Alian\xc3 Na\xc3 M\xc3 Cit\xc3 Am\xc3 Amap\xc3 Rep\xc3\xbablica Cear\xc3 Ch\xc3 Col\xc3 Ningu\xc3 Patr\xc3 Kl\xc3 149 Foram contabilizadas, portanto, 45 referências entre os nomes próprios como entidades assistenciais explícitas para o Chile e 73 para o Haiti. Percentualmente (ao total de itens lexicais marcados por PROP identificados) isto corresponde a 3,1% e 1,6%. Estes são números extremamente baixos. Porém a classificação promovida se deu sobre entidades que são explicitamente entidades assistenciais. Os outros valores (a grande maioria) podem ser classificados como citações a governos por meio do nome do país (“Brasil”, “EUA”), divisões governamentais (“Secretaria”, “Exterior”, “MP”), pessoas com peso político de decisão (“Lula”, “Bachelet”), artistas e atletas contribuintes com doações (“Angelina”, “Ronaldo”), bem como organizações privadas (“Carefusion”, “HSBC”), esportivas (“Corinthians”, “Vasco”), religiosas (“Igreja”, “Universal”) e órgãos de apoio à pesquisa (“UFSC”, “MIT”, “AAAS”), regulamentações e de fiscalização (“CDES”, “PM”). Além destas, existem nomes que podem ser classificados como de descrição do terremoto (“DestruiÔ, “Emergência”), necessidades (“ReconstruÔ, “Ajuda”), de comunicação (“Reuters”, “Jornal”). Excetuando-se estes elementos que atuam como entidades assistenciais, e os de descrição e necessidade, o que se tem são palavras que passaram pela aplicação de filtros realizados e itens lexicais referentes a programas televisivos que não agregam a discussão. Portanto a rede VPA apresenta um cenário estruturado bastante pertinente à atuação de entidades assistenciais por meio de entidades explícitas ou de outros agentes que não possuem em essência a finalidade de ajuda a em momentos após desastres naturais, mas assumem tal papel em algum momento pela execução de determinada ação. Estes dados levantados permitem também determinar que a rede VPS obtida contempla 22,22% das entidades assistenciais categorizadas aqui para o Chile e 57,53% para o Haiti. Assim, tais redes são representações bastante abrangentes para as atuações de entidades referenciadas por nomes próprios que prestaram assistência nos casos estudados. Este fato e a discussão promovida para as redes VPS e VPA foram de grande importância na verificação da hipótese de pesquisa e na consecução dos objetivos deste trabalho. 150 7. CONCLUSÃO Esta pesquisa partiu do problema da falta de integração ou incompatibilidade entre informações em registros em linguagem natural sobre a atuação de entidades assistenciais. O horizonte escolhido para tratamento do problema foi a dinâmica promovida pela emersão da Inteligência Social desta atuação dada a ocorrência de novas catástrofes naturais. Elaborou-se então como hipótese que de que é possível extrair informação sobre domínios de conhecimento específicos por meio do tratamento automático de relatos em linguagem natural. A verificação desta hipótese foi tomada então como objetivo central do trabalho e o alcance deste objetivo exigiu então a busca por um retrato de ações que organizasse a informação sobre eventos de prestação de ajuda no pós-catástrofe, tomando o espaço de atuação de entidades que prestaram esse auxílio como um sistema social. Isto demandou a investigação de métodos de Processamento de Linguagem Natural (PLN), Linguística de Corpus (LC) e aplicações de Modelagem Linguística (estatísticas e redes), para entender como estes são capazes de extrair informações sobre a atuação de entidades assistenciais em situações de desastres e de gerar automaticamente redes léxico-semânticas que representem o campo dos comportamentos de ação emergencial em catástrofes do tipo estudado. Além da conceituação teórica, o insumo deste trabalho foram os corpora de notícias dos terremotos ocorridos no Haiti e no Chile. Sua composição permitiu apontar por meio de pequenos exemplos já de referência a um dos corpora estudados (Haiti) a ideia de estruturação de conhecimento, contrapondo o arranjo do mapa de conhecimento de determinadas entidades com uma estruturação em grafo. Permitiu ainda entender o funcionamento e limitações primárias do pacote NLTK utilizado, tais como a manipulação de uma collocation como um elemento único no particionamento de uma sentença, a lematização de palavras e a etiquetagem dos corpora, que tem implicações muito importantes sobre este trabalho. O problema 151 com collocations evidenciou-se na presença de nomes compostos de entidades assistenciais, tornando pouco intuitivas algumas análises ou mesmo levando a não consideração de alguns elementos por conta de o item lexical que representaria a entidade ser barrado por um filtro. Já a impossibilidade de promover uma etiquetagem levou à busca por algo externo a este ambiente e a lematização falha não permitiu um tratamento que resultasse em uma etiquetagem com menor número de ruído em sua marcação (já que assume todas as formas do item lexical que ali se lematiza), o que impactou bastante na definição dos elementos de rede como discutido. Por consequência, foi necessário concentrar estudos sobre NER e partir para uma estruturação em redes com base em etiquetas (oriundas do uso do VISL) aplicadas às expressões, em especial etiquetas de nomes próprios, verbos e etiquetas semânticas. Com o uso novamente do NLTK se dissociou os conjuntos lexicais pertinentes a cada uma destas etiquetas e promoveram-se associações, por meio de comandos de filtros, frequências, condicionais e laços. Aqui também algumas limitações surgiram, contornáveis, como a disposição dos dados finais para sua inclusão no ambiente de composição de redes (NodeXL) ou não, como a associação de entidades semânticas e nomes próprios por questões de suporte ao processamento. A composição das redes apresentadas, suas métricas e análise ocorreram em dois momentos até a verificação positiva da possibilidade de estruturação de entidades assistenciais e suas ações por meio de redes. O primeiro momento foi a confecção de redes com todo o conjunto resultantes para os tipos de léxico estudados (definidos pelas etiquetas) e associações possíveis entre estes. Este primeiro estudo permitiu verificar que a estruturação por meio de linguagem natural era possível, mas até aquele momento definindo aspectos gerais do cenário de desastre, inclusive em termos de relevância de determinados elementos de rede e diferenças entre dois cenários. A aplicação de agrupamentos sobre tais redes não se mostrou útil na obtenção de grupos de entidades e/ou ações de assistência, mas sim no detalhamento de diversas particularidades do cenário que envolve determinados atores e suas execuções. O algoritmo 2 de agrupamento mostrou-se 152 mais eficaz para fiz de análise de seus grupos, por resultar em perfil mais distribuído de vértices por grupo, o que de fato leva estes a se afastar da rede total e traçar um perfil específico para a rede interna do grupo, como apresentado nas discussões de alguns destes. Buscou-se então na supervisão de nomes próprios e uso de presença de associações como novos filtros aplicados a conjuntos de tipos de léxicos obtidos elementos que permitissem confeccionar uma rede específica em termos das entidades assistenciais e suas ações. Os resultados e análises mostram que é possível estruturar redes com nomes próprios que espelham atores que, em sua maioria, desempenham papel de assistência, definido por verbos também bem delimitados (embora mais afetados pelos problemas derivados da lematização citado acima). Assim, a supervisão permite destacar das redes não supervisionadas as informações e conhecimentos sobre assistência a vítimas após os terremotos estudados. Em termos de entidades assistenciais explicitas, marcadas na discussão e que desempenham assistência constantemente no texto e em cenários de desastres em geral, não só é possível extrair tais informações, como estas tem qualidade suficiente para interpretações e análises próprias. Neste sentido, identificou-se que no evento ocorrido no Chile o arranjo estruturado de entidades assistenciais demonstra uma atuação já planejada em momento anterior, com distribuição de ações de forma bem delimitada por entidade ou grupos de entidades que cobre bem o conjunto de ações relacionadas. No Haiti, a estruturação resultante aponta para a constituição de formas de atuação das entidades conforme surgem as necessidades, com sobreposição de ações e não-exploração das ligações disponíveis, a despeito de seu maior número de ligações. Isto provoca um aumento natural da concentração de ações em determinadas entidades, o que torna toda a estrutura dependente destes vértices de entidade para o fluxo de informações e conhecimentos decorrentes da prestação de ajuda. Trabalhos futuros decorrentes deste poderão explorar pelo menos duas questões de especial importância. A primeira é o tratamento do ruído das estruturas concebidas, partindo do desenvolvimento de módulos que possibilitem superar as limitações no NLTK e refinamento da etiquetagem aplicada (podendo mesmo 153 executar uma etiquetagem própria e independente) de forma a eliminar principalmente os problemas decorrentes da lematização. A segunda é o problema da correferência entre nomes próprios aplicados a entidades assistenciais, que poderia tratar melhor a informação em linguagem natural de modo automático e estruturado. A impossibilidade de associar etiquetados como entidades semânticas e nomes próprios, e a multiplicidade de valores que podem assumir itens lexicais com a marcação de entidades são dificuldades não abordadas aqui e que merecem atenção no tipo de proposta que desenvolvemos. Vale mencionar ainda uma questão adicional como possível objeto de estudos futuros. Não se explorou aqui as implicações do foco em entidades assistenciais no campo de desastres como temática escolhida. Adotar um outro foco, por exemplo, o das vítimas, permitiria repensar as redes e verificar novas possibilidades de estruturação léxico-semântica no domínio da comunicação de catástrofes e desastres. Certamente quaisquer destas possibilidades, contudo, levaria em conta a contribuição dada nesta pesquisa, apontando uma metodologia que permite partir de textos em linguagem natural e estruturá-los (por Modelagem Linguística) em redes passíveis de análise sobre o conhecimento que estruturam. 8. REFERÊNCIAS BIBLIOGRÁFICAS [1] ABBASI, Alireza; HOSSAIN, Liaquat; HAMRA, Jafar; OWEN, Christine. Social Networks Perspective of Firefighters’ Adaptive Behaviour and Coordination among them. In: 2010 IEEE/ACM International Conference on Green Computing and Communications & 2010 IEEE/ACM International Conference on Cyber, Physical and Social Computing. [2] ALTMANN, Eduardo G.; PIERREHUMBERT, Janet B. e MOTTER, Adilson E. Niche as a determinant of word fate in online groups. Computation and 154 Language. ArXiv, Cornell University, setembro de 2010. Disponível <http://faculty.wcas.northwestern.edu/~jbp/publications/Niche_WordFate.pdf>. Acessado em 15 de novembro de 2010. em: [3] ANANIADOU, Sophia; FRIEDMAN, Carol; TSUJII, Jun’ichi. Introduction: named entity recognition in biomedicine. Guest Editorial - Journal of Biomedical Informatics. Vol. 37, p. 393–395. Elsevier Inc., 2004. [4] ARBESMAN, Samuel; STROGATZ, Steven H. VITEVITCH, Michael S. The Structure of Phonological Networks Across Multiple Languages. International Journal of Bifurcation and Chaos. Vol. 20, No. 3, p. 679–685. 2010. Disponível em: <http://129.237.66.221/Arbesman_et_al_10_IJBC.pdf>. Acessado em 15 de novembro de 2010. [5] BALDWIN, Timothy; KIM, Su Nam. Multiword Expressions. In: Nitin Indurkhya and Fred J. Damerau, editors, Handbook of Natural Language Processing, 2ª Edição. Morgan and Claypool. 2010. [6] BEAUDOIN, Christopher E. Mass media use, neighborliness, and social support: Assessing causal links with panel data. Communication Research. Vol. 34, nº6, p. 637–664. Sage, 2007. [7] BEDFORD, Denise; FAUST, Leona. Role of Online Communities in Recent Responses to Disasters: Tsunami, China, Katrina, and Haiti. In: ASIS&T '10 Proceedings of the 73rd ASIS&T Annual Meeting on Navigating Streams in an Information Ecosystem – vol. 47. Maryland: American Society for Information Science Silver Springs, 2010. [8] BERING, Christian; DROZDZYNSKI, Witold; ERBACH, Gregor; GUASCH, Clara; HOMOLA, Petr; LEHMANN, Sabine; LI, Hong; KRIEGER, Hans-Ulrich; PISKORSKI, Jakub; SCHÄFER, Ulrich; SHIMADA, Atsuko; SIEGEL, Melanie; XU, Feiyu; ZIEGLER-EISELE, Dorothee. Corpora and evaluation tools for multilingual named entity grammar development. In Proceedings of Multilingual Corpora Workshop at Corpus Linguistics, pages 42–52. Lancaster, 2003. [9] BICK, Eckhard. Visual Interactive Syntax Learning – VISL. Syddansk Universitet, Dinamarca. Disponível em: <http://beta.visl.sdu.dk/visl/pt/>. Acessado em 07 de junho de 2011. [10] BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing with Python - Analyzing Text with the Natural Language Toolkit. O'Reilly, 2009. [11] BOLSHAKOV, Igor A.; GELBUKH, Alexander. Computational Linguistics: Models, Resources, Applications. Serie Ciencia de la Computación. Instituto Politécnico Nacional. Primeira Edição. Cidade do México: 2004. [12] BORGATTI, S.P.; EVERETT, M.G.; FREEMAN, L.C. Ucinet for Windows: Software for Social Network Analysis. Harvard, MA: Analytic Technologies, 2002. 155 [13] BRAGA, T.M.; OLIVEIRA, E.L.; GIVISIEZ, G.H.N. Avaliação de metodologias de mensuração de risco e vulnerabilidade social a desastres naturais associados à mudança climática. São Paulo em Perspectiva, São Paulo, Fundação Seade, v. 20, n. 1, p. 81-95, janeiro/março de 2006 [14] CANCHO, R. F., SOLÉ, R.: The Small World of Human Language, Proc. Royal Soc. London. B 268 p. 2261 – 2265, 2001. Disponível em: <http://complex.upf.es/~ricard/SWPRS.pdf>. Acesso em: 07 de julho de 2011. [15] CAMPOS, Maria Luiza de Almeida. Modelização de Domínios de Conhecimento: uma investigação de princípios fundamentais. Ciência da Informação. Brasília, v. 33, n. 1, p. 22-32, 2004. Disponível em: <http://www.scielo.br/pdf/ci/v33n1/v33n1a03.pdf>. Acesso em: 12 de julho de 2010. [16] CANTOS GÓMEZ, Pascual. Do We Need Linguistics When We Have Statistics? Universidad de Murcia. D.E.L.T.A., 18:2, 2002. [17] CARDOSO, Nuno. Novos rumos para a recuperação de informação em português. In: COSTA, Luís Costa, SANTOS, Diana; CARDOSO, Nuno. (eds.). Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10 anos. Linguateca, 2008, pp. 71-85. [18] CARIBBEAN DISASTER EMERGENCY MANAGEMENT AGENCY. CDEMA. Disponível em: < http://www.cdera.org/>. Acesso em: 12 de março de 2011. [19] CENTRO DE NOTICIAS ONU. 2010, el año de más muertes por desastres naturales en dos décadas, reporta ONU . Servicio de Noticias de las Naciones Unidas. Disponível em: <http://www.un.org/spanish/News/fullstorynews.asp?newsID=20114&criteria1=desas tres&criteria2=>. Acessado em 28 de janeiro de 2011. [20] CHAVES, Marcirio Silveira. Criação e expansão de geo-ontologias, dimensionamento de informação geográfica e reconhecimento de locais e seus relacionamentos em textos. In: COSTA, Luís Costa, SANTOS, Diana; CARDOSO, Nuno. (eds.). Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10 anos. Linguateca, 2008, p. 49-59. [21] CHAVES, Marcirio Silveira. Estado da arte: Extração de Informação (geográfica). In: III Simpósio Doutoral da Linguateca. Lisboa, outubro de 2006. [22] CHAVES, Marcirio Silveira; SANTOS, Diana. What Kinds of Geographical Information Are There in the Portuguese Web? In: Computational Processing of the Portuguese Language: 7 th International Workshop, PROPOR 2006. Itatiaia, Brasil, maio de 2006. [23] CHILE. Ministerio del Interior. Oficina Nacional de Emergencia - Onemi. Disponível em: <http://www.onemi.cl/html/top/top_197.html>. Acessado em 12 de março de 2011. 156 [24] CHRISTOFOLETTI, Antonio. Modelagem de sistemas ambientais. São Paulo: Edgard Blucher, 1999. [25] CLAUSET, Aaron; Newman, M. E. J.; MOORE, Cristophere. Finding community structure in very large networks. Physical Review E. The American Physical Society, 2004. Disponível em: <http://www.ece.unm.edu/ifis/papers/community-moore.pdf>. Acessado em 03 de abril de 2012. [26] DEHBOZORGI, Leila.; FAROKHI, Fardad. Effective Feature Selection for Short-term Earthquake Prediction Using Neuro-Fuzzy Classifier. In: 2010 Second IITA International Conference on Geoscience and Remote Sensing. Qingdao, agosto de 2010. [27] DEMNER-FUSHMAN, Dina; CHAPMAN, Wendy W.; MCDONALD, Clement J. What can natural language processing do for clinical decision support? Journal of Biomedical Informatics. Vol. 42, p. 760–772. Elsevier Inc., 2009. [28] DILMAGHANI, Raheleh B.; RAO, Ramesh R. An Ad Hoc Network Infrastructure: Communication and Information Sharing for Emergency Response. In: IEEE International Conference on Wireless & Mobile Computing, Networking & Communication. Avignon: outubro de 2008. [29] DILMAGHANI, Raheleh B.; RAO, Ramesh R. Hybrid Communication Infrastructure and Social Implications for Disaster Management. In: Proceedings of the 40th Hawaii International Conference on System Sciences. Waikoloa, Hawai: janeiro de 2007. [30] ELMASRI, Ramez e NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4 ed. Rio de Janeiro: LTC, 2005. [31] FELIPPO, Ariani Di; DIAS-DA-SILVA, B. C.. Uma introdução à Engenharia do Conhecimento Linguístico. Revista de Letras da Universidade Católica de Brasília. Volume 1 – Número 2 – Ano I – nov/2008. Disponível em: <portalrevistas.ucb.br/index.php/RL/article/.../786/82>. Acessado em 13 de dezembro de 2008. [32] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças Bruno; STEINBERGER, Margarethe Born. A Multi-agent Model for Panic Behavior in Crowds. In: Fourteenth Portuguese Conference on Artificial Intelligence (EPIA 2009), 2009b, Aveiro. IEEE Proceedings The 14th Portuguese Conference on Artificial Intelligence, 2009b. p. 463-474. [33] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças Bruno; STEINBERGER, Margarethe Born; OMAR, Nizam. Simulating Collective Behavior in Natural Disaster Situations: a Multi-Agent Approach. In: D'AMICO, Sebastiano (Org.). Earthquake Research and Analysis. Rijeka, Croatia: Intech Open Access Publisher, 2011, Vol. 05. In: D'AMICO, Sebastiano (Org.). Earthquake 157 Research and Analysis - Statistical Studies, Observations and Planning. : InTech, 2012, p. 435-460. [34] FRANÇA, Robson Dos Santos; MARIETTO, Maria Das Graças Bruno; STEINBERGER, Margarethe Born. Proposing a Cognitive Multi-agent Model for the Panic in Crowds Phenomenon. In: The Second International Conference on the Applications of Digital Information and Web Technologies (ICADIWT 2009), 2009a, London. IEEE Proceedings The Second International Conference on the Applications of Digital Information and Web Technologies, 2009a. p. 737-742. [35] FRANÇA, Robson Dos Santos. Simulação multi-agentes modelando o comportamento coletivo de pânico em multidões. Tese de Mestrado (Engenharia da Informação), Universidade Federal do ABC. Santo André, SP. 2010. [36] GLobal IDEntifier Number – GLIDE. About GLIDE. Disponível em: <http://www.glidenumber.net/glide/public/about.jsp>. Acessado em 03 de novembro de 2010. [37] GUIMARÃES, F.J.V.; MELO, E.S. Diagnóstico utilizando análise de redes sociais. 2005. Monografia (Especialização) - Programas de Pós-Graduação de Engenharia, Universidade Federal do Rio de Janeiro, Rio de Janeiro. 2005. [38] GRISHMAN, Ralph; SUNDHEIM, Beth. Message Understanding Conference - 6: A Brief History. Proceedings of COLING, Vol. 96 p. 466-471, 1996. [39] HERMELIN, D.. Desastres naturales y medios en Colombia: ¿una comunicación hacia la prevención? Revista Gestión y Ambiente. Vol. 10, No. 2, Medellín Universidad Nacional de Colombia y Universidad de Antioquia, pp. 101-108. 2007. [40] HOSSAIN, Liaquat; KUTI, Matthew. Disaster response preparedness coordination through social networks. Disasters 34(3): p. 755−786. Malden, Maryland: Blackwell Publishing, 2010. [41] INTERNATIONAL STRATEGY FOR DISASTER REDUCTION - ISDR. A Conferência Mundial sobre a Redução de Desastres & seus resultados. United Nations. Redução de Desastres em África -EIRD Informes, 5 Edição, 2005. [42] KIM, Yoon Ho; PARK, Young. e-Gov net based Emergency Management Service. In: Second International Conference on Future Generation Communication and Networking. Hainan Island: dezembro de 2008. [43] KRAUSE, Jens; RUXTON, Graeme D.; KRAUSE, Stefan. Swarm intelligence in animals and humans. Trends in Ecology & Evolution. Vol. 25, nº1. p. 28–34. 30. [44] LACERDA, Gláucia Dutra; STEINBERGER, Margarethe Born. Técnicas e métodos de modelagem linguística comparada em corpora de desastres naturais. In: I Workshop da Pós-graduação de Engenharia da Informação, 2011, 158 Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da Informação, 2011. [45] LA RED. La Red. Disponível em: <http://www.desenredando.org/lared/>. Acessado em 18 de agosto de 2010. [46] LÉVY, Pierre. Inteligencia coletiva: por una antropología del ciberespacio. Washington: Organização Panamericana de Saúde, março de 2004. [47] LINGUATECA. Linguateca. Fundação para a Computação Científica Nacional, Portugal. Disponível em: <http://www.linguateca.pt/>. Acessado em 20 de abril de 2011. [48] LUGER, George F; STUBBLEFIELD, William A. Artificial Intelligence: Structures and Strategies for Complex Problem Solving. Addison Wesley Longman, Terceira edição, 1998. [49] MANNING, Christopher D.; SCHUTZE, Hinrich. Natural Foundations of statistical natural language processing. Massachusetts Institute of Technology, 1999. [50] MARKOSOVÁ, Mária. Network model of human language. Physica. A 387, fevereiro de 2008. Disponível em: <http://arxiv.org/pdf/0709.3045v1>. Acessado em 15 de novembro de 2010. [51] MARQUES, Roberto Ligeiro; DUTRA, Inês. Redes Bayesianas: o que são, para que servem, algoritmos e exemplos de aplicações. Rio de Janeiro: [s.n.], 2008. Disponível em: <www.cos.ufrj.br/~ines/courses/cos740/leila/cos740/Bayesianas.pdf>. [52] MARTINS, Bruno; SILVA, Mário J.; CHAVES, Marcirio Silveira. O sistema CaGE no HAREM - reconhecimento de entidades geográficas em textos em língua portuguesa. In: SANTOS, Diana; CARDOSO, Nuno (eds.). Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2008, p. 97-112. [53] MARTINS, Bruno; SILVA, Mário J. O HAREM e a avaliação de sistemas para o reconhecimento de entidades geográficas em textos em língua portuguesa. In: SANTOS, Diana; CARDOSO, Nuno (eds.). Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, 2008, p. 77-86. [54] MATURANA, Humberto. A Ontologia da Realidade. Belo Horizonte: Ed. UFMG, 1997. [55] MEL’ĈUK, Igor A; POLGUÈRE, Alain. A Formal Lexicon in the Meaning-text Theory (or How to Do Lexica with Words). Computational Linguistics Vol. 13, números 3-4, Julho-Dezembro 1987. Disponível em: 159 <portal.acm.org/ft_gateway.cfm?id=48166&type=pdf>. Acessado em 29 de junho de 2011. [56] MICROSOFT RESEARCH. NodeXL: Network Overview, Discovery and Exploration in Excel. Disponível em: <http://research.microsoft.com/enus/projects/nodexl/>. Acessado em 29 de novembro de 2010. [57] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Criando um corpus sobre desastres climáticos com apoio da ferramenta NLTK. In: 8º Brasilian Symposium in Information and Human Language Technology. 5 p. Cuiabá, MT: Sociedade Brasileira de Computação, 2011. [58] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Grafos Conceituais na Estruturação de Conhecimento Expresso em Linguagem Natural: a Cruz Vermelha no Terremoto do Haiti. In: I Workshop da Pós-Graduação em Engenharia da Informação. 2 p. Santo André, SP: Universidade Federal do ABC, 2011. [59] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Relatório Final - Modelagem linguística de informação em revistas técnicas setorializadas. 2009. [60] MOLINA, Rafael Antonangelo; STEINBERGER, Margarethe Born. Testando a ferramenta NLTK em Corpora Etiquetados para Extração de Redes de Assistência a Desastres. Submetido In: XI Encontro de Linguística de Corpus (XI ELC). 9 p. São Carlos, SP: Sociedade Brasileira de Computação, 2012. [61] MORICEAU, Véronique; TANNIER, Xavier. FIDJI: using syntax for validating answers in multiple documents. Inf Retrieval 13:507–533. Springer Science+Business Media, LLC 2010. [62] MOTA, Cristina; SANTOS, Diana. Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca, 2008. Disponível em: <http://www.linguateca.pt/LivroSegundoHAREM/>. [63] MURAKAMI, Thierry Okuyama Solva. Extração de redes léxico-semânticas do Português em um corpus de turismo. 2011. Dissertação (Mestrado em Engenharia da Informação), Universidade Federal do ABC. Santo André, SP. 2011. [64] MURAKAMI, Thierry Okuyama Solva; STEINBERGER, Margarethe Born. Extração de redes léxico-semânticas em um corpus de turismo: estudo da categoria food. In: I workshop da pós graduação em engenharia da informação, 2011, Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da Informação, 2011. [65] MURPHY, Brenda L. Locating social capital in resilient community-level emergency management. Natural Hazards. Vol. 41, p. 297–315. 2007. 160 [66] NADEAU, David; SEKINE, Satoshi. A survey of named entity recognition and classification. Linguisticae Investigationes vol 30, n.1, p. 3-26. National Research Council Canada / New York University, 2007. [67] NATURAL LANGUAGE TOOLKIT. NLTK. Disponível em: <http://www.nltk.org/>. [68] OCTAVIANO, Daniel; STEINBERGER, Margarethe Born. Modelagem Conceitual de Normas de Segurança contra Incêndios: estudo lexical da área de materiais. In: I Workshop da Pós-graduação de Engenharia da Informação, 2011, Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da Informação, 2011. [69] OHTA, Tomoko; TATEISI, Yuka; KIM, Jin-Dong. The GENIA corpus: an annotated research abstract corpus in molecular biology domain. In: Proceedings of the second international conference on Human Language Technology Research. San Diego, California, março de 2002. [70] ORGANIZAÇÃO DAS NAÇÕES UNIDAS - ONU. II Conferência Mundial sobre a Redução de Desastres promovida pela ONU. Kobe, 2005. Disponível em: <http://www.unisdr.org/2005/wcdr/wcdr-index.htm>. Acessado em 28 de janeiro de 2011. [71] PALEN, Leysia; ANDERSON, Kenneth M.; MARK, Gloria; MARTIN, James; SICKER, Douglas; PALMER, Martha; GRUNWALD, Dirk. A Vision for TechnologyMediated Support for Public Participation & Assistance in Mass Emergencies & Disasters. In: International Academic Research Conference. The University of Edinburgh, abril de 2010. [72] PEREIRA, Fernando. Formal grammar and information theory: Together again? Philosophical Transactions of the Royal Society A 358, p. 1239–1253. 2000. Disponível em: <www.cis.upenn.edu/~pereira/papers/rsoc.pdf>. Acessado em 4 de julho de 2011. [73] REPÚBLICA DO HAITI. Decree of the Interim Haiti Recovery Commission (IHRC). Disponível em: <http://www.cirh.ht/sites/ihrc/en/About%20Us/Documents/IHRC_Decree.pdf>. Acessado em 12 de março de 2011. [74] ROGERS, Everett M. Diffusion of innovations. Simon & Schuster, 3º ed. Nova Iorque. The Free Press 2003. [75] SANTOS, Diana; CARDOSO, Nuno. A golden resource for named entity recognition in Portuguese. In: VIEIRA, Renata; QUARESMA, Paulo; NUNES, Maria da Graça Volpes; MAMEDE, Nuno J.; OLIVEIRA, Cláudia; DIAS, Maria Carmelita (eds.), 7th Workshop on Computational Processing of Written and Spoken Language (PROPOR'2006). Itatiaia, RJ, maio de 2006. Springer, p. 69-79. 161 [76] SANTOS, Patrícia Dias dos. Redes colaborativas interdisciplinares: um estudo cienciométrico de universidades federais brasileiras. 2010. Dissertação (Mestrado em Engenharia da Informação), Universidade Federal do ABC. Santo André, SP. 2010. [77] SANTOS, Patrícia Dias dos; STEINBERGER, Margarethe Born. Extração de redes de autoria interdisciplinar em um portal de publicações científicas. In: I Workshop da Pós-graduação de Engenharia da Informação, 2011, Santo André, SP. Anais do I Workshop da Pós-Graduação de Engenharia da Informação, 2011. [78] SARDINHA, Tony Berber. Lingüística de Corpus. Barueri, SP: Manole, 2004. [79] SEKINE, Satoshi; RANCHHOD, Elisabete. Named Entities: Recognition, Classification and Use. Benjamins Current Topics. Vol. 19 de. 168 p. John Benjamins Publishing Company, 2009. [80] SILVA, Mário J.; MARTINS, Bruno; CHAVES, Marcirio Silveira; CARDOSO, Nuno; AFONSO, Ana Paula. Adding Geographic Scopes to Web Resources. In: Workshop on Geographic Information Retrieval, SIGIR '04. Sheffield, Reino Unido, 2004. [81] SOLORIO, Thamar; LÓPEZ, Aurelio López. Learning Named Entity Recognition in Portuguese from Spanish. In: CICLing'05 Proceedings of the 6th international conference on Computational Linguistics and Intelligent Text Processing, p. 762-768. Springer-Verlag Berlin, Heidelberg, 2005. [82] SOWA, John F. Conceptual graphs for a database interface. IBM Journal of Research and Development, 1976. Vol. 20, no. 4: p. 336-357. [83] STEINBERGER, Margarethe Born. Discursos Geopolíticos da Mídia: jornalismo e imaginário internacional na América Latina, São Paulo: Cortez e Fapesp, 2005. [84] STEINBERGER, Margarethe Born. Estudo sobre as Condições de Produção de Relatos de Catástrofes e Desastres na América Latina. In: IV Colóquio BrasilEUA de Ciências da Comunicação, 2010, Caxias do Sul, RS. Anais do IV Colóquio Brasil-EUA de Ciências da Comunicação, 2010. [85] STEINBERGER, Margarethe Born. Modelagem linguística como recurso de análise em Gestão de Conhecimento. 15 p. Santo André, SP: UFABC, 2009. [86] STEINBERGER, Margarethe Born; MURAKAMI, Thierry Okuyama Solva. Recursos tecnológicos aplicáveis a bases de dados geográficos para extração de informações relevantes na área do turismo. Anais do XXXII Congresso Brasileiro de Ciências da Comunicação, Curitiba, PR, 2008. [87] STEVANAK, J.T.; LARUE, David M.; CARR, Lincoln D. Distinguishing Fact from Fiction : Pattern Recognition in Texts Using Complex Networks. eprint 162 arXiv:1007.3254. Julho de 2010. Disponível em: <http://arxiv.org/pdf/1007.3254v2>. Acessado em 29 de junho de 2011. [88] SUGIMOTO, Megumi; OKADA, Norio; FANG, Liping. Modeling and Analysis of Aid Coordination Processes for Post-disaster Education in Indonesia after the 2004 Indian Ocean Tsunami. In: IEEE International Conference on Systems, Man, and Cybernetics. San Antonio, Texas: outubro de 2009 [89] TAKAZAWA, Aiko. YouTube space as the propagative source for social power: an experimental study on the social meaning of disaster. In: ASIST 2010. Pittsburgh, Pensilvânia: outubro de 2010. [90] TUMMOLINI, Luca; CASTELFRANCHI, Cristiano. The cognitive and behavioral mediation of institutions: Towards an account of institutional actions. Cognitive Systems Research. Vol.7, Issues 2–3, junho de 2006, p. 307–323. [91] TUNJUELITO. Plan de Desarrollo Económico, Social y de Obras Públicas de la Localidad Sexta de Tunjuelito, D.C., 2009 – 2012. Tunjuelito, Localidad Positiva: Activamente Participativa y Comprometida com um Vivir Mejor. Documento para la deliberación Pública, 2008. [92] UNITED NATIONS DEVELOPMENT PROGRAMME - UNDP. Reducing disaster risk: a challenge for development, a global report. UNDP Bureau for Crisis Prevention and Recovery. New York: UNDP, 2004. [93] UNIVERSIDADE DE BRASÍLIA - UNB. Observatório Sismológico. Instituto de Geociências. Disponível em: <http://www.obsis.unb.br/>. Acessado em 01 de fevereiro de 2011. [94] UNIVERSIDADE FEDERAL DO ABC - UFABC. Pós-Graduação em Engenharia da Informação. Engenharia da Informação. Disponível em: <http://posinfo.ufabc.edu.br/index_arquivos/EngenhariaInformacao.htm>. Acessado em 12 de julho de 2010. [95] VAZQUEZ, Miguel; KRALLINGER, Martin; LEITNER, Florian; VALENCIA, Alfonso. Text Mining for Drugs and Chemical Compounds: Methods, Tools and Applications. Molecular Informatics. Volume 30, Issue 6-7, p. 506–519. Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim, junho de 2011. [96] VIEWEG, Sarah; HUGHES, Amanda L.; STARBIRD, Kate; PALEN, Leysia. Microblogging During Two Natural Hazards Events: What Twitter May Contribute to Situational Awareness. In: CHI 2010: Crisis Informatics. Atlanta, Georgia: 10–15 de abril de 2010. [97] VOS, Femke; RODRIGUEZ, Jose; BELOW, Regina; GUHA-SAPIR, D.. Annual Disaster Statistical Review 2009 - The numbers and trends. Centre for Research on the Epidemiology of Disasters. Brussels, 2010. 163 [98] WAKITA, Ken; TSURUMI, Toshiyuki. Finding community structure in megascale social networks. Computers and Society; Physics and Society. Cornell University, arXiv.org: 2007. Disponível em: <http://arxiv.org/pdf/cs/0702048v1.pdf>. Acessado em 03 de abril de 2012. [99] WATTS, Duncan J. Six Degrees. The Science of a Connected Age. New York: W. W. Norton &Company, 2003. [100] YATES, Dave; PAQUETTE, Scott. Emergency knowledge management and social media technologies: A case study of the 2010 Haitian earthquake. Proceedings of the American Society for Information Science and Technology. Vol. 47, p. 1–9, novembro/dezembro de 2010. [101] ZUJI, Qiang; ZUOXUN, Zeng; JIE, Wang; AI’NAI, Ma; XIE, Hongjie. Study on Short-term and Imminent Earthquake Prediction Using the Satellite Thermal Infrared Technique. In: Fourth International Conference on Cooperation and Promotion of Information Resources in Science and Technology. Beijing, novembro de 2009. 164 APÊNDICE A – Comandos para Corpus Chile em Método Não Supervisionado Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. **************************************************************** Personal firewall software may warn about the connection IDLE makes to its subprocess using this computer's internal loopback interface. This connection is not visible on any external interface and no data is sent to or received from the Internet. **************************************************************** IDLE 2.6.6 >>> # -*-coding: iso-8859-1 -*>>> import nltk >>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Chile' >>> from nltk.corpus import PlaintextCorpusReader >>> wordlists= PlaintextCorpusReader(corpus_root, '.*') >>> sentenc = wordlists.sents() >>> len(sentenc) 3187 >>> i=0 >>> strsenti = '' >>> while i <= 3186: if sentenc[i].count('PROP') != 0: strinst = " ".join(sentenc[i]) strsenti = strsenti + strinst + '###' strinst = '' i +=1 continue >>> listinst = strsenti.split('###') >>> len(listinst) 1899 >>> k=0 >>> while k <= 1898: output_file.write(listinst[k] + "\n") k +=1 continue >>> listinst[1898] '' >>> listinst[1899] Traceback (most recent call last): File "<pyshell#21>", line 1, in <module> listinst[1899] IndexError: list index out of range >>> palverb = wordlists.words() >>> len(palverb) 1128585 >>> etverb = [w for w in palverb if w.startswith('v')] 165 >>> etverb[:10] ['vt', 'vi', 'vt', 'vi', 'vt', 'vt', 'vt', 'vt', 'vi', 'vda'] >>> len(etverb) 27874 >>> len(set(etverb)) 330 >>> etverb = set(etverb) >>> len(etverb) 330 >>> verbs = [] >>> i=0 >>> while i <= 1128584: if palverb[i] in etverb: if palverb[i-1] == '<': if palverb[i-2] == ']': verbs.append(palverb[i-3]) i +=1 continue >>> verbs[:15] ['escalar', 'escalar', 'atingir', 'matar', 'noticiar', 'noticiar', 'ir', 'ser', 'ir', 'ser', 'afetar', 'durar', 'ir', 'ser', 'sentir'] >>> len(verbs) 15697 >>> verbosd = set(verbs) >>> len(verbosd) 1396 >>> verbosd set(['vomitar', 'acordar', 'desembocar', 'tratar', 'receitar', 'suar', 'infectar', 'parir', 'retirar', 'precisar', 'exigir', 'filar', 'relaxar', 'desligar', 'afirmar', 'pipocar', 'possuir', 'rotinar', 'revestir', 'atingir', 'vaguear', 'casar', 'desconvidar', 'decidir', 'encarar', 'exibir', 'velar', 'mencionar', 'enxergar', 'maridar', 'economizar', 'nascer', 'enfrentar', 'emaranhar', 'revolver', 'reembolsar', 'explorar', 'brigar', 'custar', 'preparar', 'ater', 'embarcar', 'futurar', 'acertar', 'lamentar', 'jurar', 'mercar', 'declarar', 'difundir', 'morar', 'aplaudir', 'alunar', 'certificar', 'soldar', 'barricar', 'unir', 'comparecer', 'comemorar', 'gravar', 'reformular', 'papear', 'rugir', 'contaminar', 'continuar', 'mexer', 'sortir', 'pertencer', 'destruir', 'melhorar', 'necessitar', 'surtir', 'vagar', 'desfilar', 'adquirir', 'repor', 'valar', 'surpreender', 'apagar', 'titular', 'erguer', 'recolocar', 'expressar', 'significar', 'polir', 'patentear', 'parcelar', 'soterrar', 'incentivar', 'ordenar', 'pacificar', 'preferir', 'sentir', 'copar', 'igualar', 'aliar', 'romper', 'arrecadar', 'enxugar', 'carnar', 'elencar', 'elevar', 'recusar', 'abonar', 'proibir', 'efetivar', 'bestar', 'normalizar', 'surgir', 'potenciar', 'pifar', 'mear', 'pontar', 'perguntar', 'sublinhar', 'abordar', 'contornar', 'promover', 'tremer', 'pairar', 'escapar', 'reservar', 'procurar', 'ensaiar', 'riscar', 'conquistar', 'ousar', 'matar', 'carregar', 'asfaltar', 'finar', 'acontecer', 'entrar', 'improvisar', 'realizar', 'bater', 'alterar', 'dispersar', 'deixar', 'adotar', 'render', 'utilizar', 'batalhar', 'cornar', 'encolher', 'agregar', 'pulsar', 'industriar', 'amarelar', 'repassar', 'lecionar', 'gerar', 'assolar', 'esquiar', 'corresponder', 'evoluir', 'abrir', 'reativar', 'propagar', 'cicatrizar', 'cheirar', 'reproduzir', 'dominar', 'protocolar', 'crescer', 'bombardear', 'sentenciar', 'saquear', 'indignar', 'piscar', 'deliberar', 'salvar', 'estacionar', 'ignorar', 'receber', 'desfazer', 'conceder', 'desviar', 'programar', 'regular', 'acusar', 'responder', 'amanhecer', 'regressar', 'deputar', 'datar', 'caber', 'despir', 'anunciar', 'encurtar', 'relacionar', 'motivar', 'arrombar', 'comportar', 'reconquistar', 'somelier', 'imprimir', 'comprar', 'torturar', 'olhar', 'acreditar', 'policiar', 'enforcar', 'alertar', 'cancelar', 'dividir', 'marcar', 'campar', 'alarmar', 'aumentar', 'sair', 'restar', 'adiar', 'museodelamemorir', 'classificar', 'aparar', 'mineirar', 'demostrar', 'justificar', 'falar', 'concluir', 'estrear', 'transportar', 'irritar', 'reverter', 'desativar', 'cumprimentar', 'centralizar', 'intrigar', 'basear', 'puxar', 'capturar', 'desabafar', 'plantar', 'bordar', 'atribuir', 'perseguir', 'demover', 'filmar', 'assegurar', 'reajustar', 'perigar', 'predeterminar', 'taxar', 'mobilizar', 'processar', 'anteceder', 'cabecear', 'tombar', 'interessar', 'reter', 'remediar', 'encontrar', 'mentir', 'consolidar', 'servir', 'pitar', 'ir', 'computar', 'frutar', 'alimentar', 'cobrir', 'contingentar', 'atracar', 'livrar', 'grupar', 'pescar', 'afetar', 'portar', 'inquietar', 'aparecer', 'produzir', 'aderir', 'obstruir', 'calmar', 'musicar', 'restaurar', 'figurar', 'desaparecer', 'lutar', 'brochar', 'cursar', 'rondar', 'destacar', 'enterrar', 'ancorar', 166 'expor', 'comprometer', 'torcer', 'duplicar', 'esconder', 'aportar', 'aprender', 'adequar', 'agrar', 'negar', 'abandonar', 'pesquisar', 'cilindrar', 'aparentar', 'eclodir', 'enrolar', 'rever', 'arcar', 'beneficiar', 'testemunhar', 'impulsionar', 'apontar', 'circuitar', 'respingar', 'dentar', 'excluir', 'habilitar', 'modelar', 'chicotear', 'implicar', 'corar', 'estranhar', 'refazer', 'encostar', 'decorar', 'sediar', 'afundar', 'frustrar', 'salvaguardar', 'assustar', 'empenhar', 'remover', 'seguir', 'telefonar', 'solar', 'ceder', 'culpar', 'rotular', 'antecipar', 'deparar', 'umedecer', 'cumprir', 'amentar', 'atenuar', 'ganhar', 'desmantelar', 'condenar', 'encarregar', 'minar', 'prover', 'liberar', 'aparelhar', 'saber', 'entrevistar', 'derrotar', 'zerar', 'fornir', 'optar', 'intensificar', 'rodar', 'documentar', 'fantasiar', 'obrar', 'martelar', 'arrebatar', 'armazenar', 'levantar', 'providenciar', 'esquecer', 'museodelamemorer', 'armar', 'endurecer', 'ver', 'abaixar', 'empatar', 'educar', 'debater', 'anotar', 'funcionar', 'minutar', 'placar', 'montar', 'regularizar', 'querer', 'calcular', 'seduzir', 'participar', 'aproximar', 'manejar', 'saltar', 'quedar', 'chorar', 'vigorar', 'locar', 'mudar', 'conceber', 'enganar', 'militar', 'resenhar', 'descender', 'desistir', 'desertar', 'ostentar', 'localizar', 'desembolsar', 'discordar', 'finalizar', 'papar', 'suceder', 'decretar', 'repudiar', 'pilhar', 'chocar', 'persistir', 'prejudicar', 'limpar', 'garantir', 'varrer', 'facilitar', 'exilar', 'tirar', 'conviver', 'trazer', 'apostar', 'construir', 'incrementar', 'perder', 'conduzir', 'roncar', 'desmoronar', 'agendar', 'colocar', 'bolsar', 'ligar', 'aproveitar', 'guiar', 'atar', 'suspeitar', 'esperar', 'controlar', 'sofrer', 'legendar', 'trepidar', 'acionar', 'vezar', 'escalar', 'estender', 'oscilar', 'atrapalhar', 'tabelar', 'totalizar', 'objetar', 'migalhar', 'passar', 'emprestar', 'temer', 'destituir', 'determinar', 'esculhambar', 'castigar', 'disciplinar', 'presentear', 'citar', 'encaixotar', 'respirar', 'engravidar', 'organizar', 'agir', 'dispor', 'partir', 'nominar', 'fazer', 'sugerir', 'travar', 'convocar', 'migrar', 'driblar', 'acrescentar', 'reprovar', 'insistir', 'deslizar', 'registrar', 'instaurar', 'cincar', 'acirrar', 'suspender', 'misturar', 'chutar', 'namorar', 'preencher', 'avaliar', 'poupar', 'ajustar', 'enfraquecer', 'contribuir', 'aceitar', 'alar', 'beber', 'lucrar', 'quantificar', 'pegar', 'mergulhar', 'r', 'restabelecer', 'reclamar', 'mandatar', 'banhar', 'requerer', 'apoiar', 'convencer', 'luxar', 'mangar', 'reconstituir', 'submeter', 'idear', 'despencar', 'convidar', 'alastrar', 'assessorar', 'responsar', 'enfeitar', 'disputar', 'morder', 'liderar', 'colorir', 'refugar', 'descasar', 'enviar', 'prestar', 'arquitetar', 'focalizar', 'justar', 'agradar', 'aprofundar', 'ouvir', 'perspectivar', 'inocentar', 'confundir', 'confiar', 'soltar', 'remarcar', 'fuzilar', 'ressaltar', 'quintar', 'referir', 'descer', 'rolar', 'carecer', 'decapitar', 'blindar', 'presenciar', 'empregar', 'baldar', 'contar', 'danar', 'emanar', 'varejar', 'instruir', 'descobrir', 'lamber', 'estar', 'federar', 'agravar', 'vender', 'achar', 'manifestar', 'licitar', 'aposentar', 'refletir', 'ministrar', 'consumar', 'segmentar', 'solicitar', 'raiar', 'desafiar', 'crer', 'comer', 'acometer', 'repartir', 'acabar', 'inteirar', 'entregar', 'mapear', 'bolar', 'administrar', 'denunciar', 'findar', 'externar', 'conciliar', 'restringir', 'rodear', 'estrelar', 'conformar', 'preocupar', 'evidenciar', 'desmontar', 'flexibilizar', 'adentrar', 'planar', 'zonar', 'ensejar', 'deitar', 'simbolizar', 'balir', 'entrincheirar', 'medir', 'devolver', 'iluminar', 'arder', 'contemplar', 'coriscar', 'pressionar', 'empurrar', 'apressar', 'parar', 'patrocinar', 'mimar', 'postar', 'enlouquecer', 'podar', 'contrapor', 'duelar', 'anestesiar', 'desarmar', 'librar', 'viver', 'fragmentar', 'voar', 'estimular', 'fracassar', 'consultar', 'estressar', 'falhar', 'vagir', 'violentar', 'fabricar', 'compreender', 'equipar', 'criticar', 'comungar', 'ofertar', 'publicar', 'virar', 'barrir', 'coincidir', 'positivar', 'contatar', 'atender', 'reciclar', 'vazar', 'desbancar', 'reinar', 'ocupar', 'desabrigar', 'centrar', 'tornear', 'luzir', 'compartilhar', 'decifrar', 'engomar', 'premeditar', 'transformar', 'excepcionar', 'aguar', 'monitorar', 'firmar', 'discutir', 'reagir', 'premir', 'dormir', 'ultrapassar', 'colapsar', 'colher', 'desesperar', 'notar', 'desembarcar', 'exemplar', 'elogiar', 'fugir', 'cadastrar', 'ar', 'mover', 'financiar', 'cooperar', 'pedir', 'usufruir', 'originar', 'extraviar', 'largar', 'gerenciar', 'correr', 'separar', 'superlotar', 'legar', 'tumultuar', 'adiantar', 'desculpar', 'viajar', 'acumular', 'aplicar', 'inflacionar', 'existir', 'socorrer', 'assentar', 'precipitar', 'ferir', 'pousar', 'comerciar', 'faixar', 'reconhecer', 'dirigir', 'revezar', 'provar', 'afiar', 'enriquecer', 'narrar', 'ter', 'protestar', 'estabilizar', 'passear', 'liberalizar', 'sanear', 'situar', 'exportar', 'abalar', 'variar', 'modular', 'descansar', 'machucar', 'congelar', 'comprovar', 'desamparar', 'refinar', 'evitar', 'argumentar', 'banir', 'acender', 'desiludir', 'vir', 'ampliar', 'movimentar', 'caiar', 'obrigar', 'provocar', 'prever', 'amigar', 'descrever', 'incluir', 'expedir', 'rebaixar', 'assuntar', 'colidir', 'popularizar', 'recolher', 'espelhar', 'levar', 'bancar', 'centrifugar', 'ressalvar', 'sacar', 'baixar', 'engendrar', 'objetivar', 'iniciar', 'relatar', 'interromper', 'concordar', 'evacuar', 'possibilitar', 'maravilhar', 'voltar', 'retomar', 'botar', 'herdar', 'saldar', 'gozar', 'reconstruir', 'respaldar', 'distribuir', 'pilotar', 'torrar', 'fundamentar', 'desempregar', 'fundar', 'exterminar', 'rotar', 'aquecer', 'resgatar', 'segurar', 'juramentar', 'leiloar', 'demorar', 'buscar', 'afastar', 'clicar', 'curtir', 'consolar', 'valorar', 'ficar', 'vivenciar', 'completar', 'sonhar', 'profundar', 'subir', 'enumerar', 'acostumar', 'estalar', 'cercar', 'multar', 'visitar', 'interpretar', 'fossar', 'mirar', 'tencionar', 'envolver', 'agitar', 'bloquear', 'revoltar', 'difer', 'deslocar', 'encaminhar', 'ilhar', 'analisar', 'fiar', 'aprovar', 'divulgar', 'atravessar', 'falir', 'prender', 'esfalfar', 'aguardar', 'sitiar', 'extinguir', 'admitir', 'buzinar', 'radicar', 'retornar', 'bifar', 'apelidar', 'parlamentar', 'gemer', 'conhecer', 'priorizar', 'disponibilizar', 'ingressar', 'transitar', 'fixar', 'lubrificar', 'revisar', 167 'novar', 'assistir', 'revogar', 'gessar', 'relativizar', 'cobrar', 'revelar', 'monopolizar', 'instituir', 'internar', 'arrasar', 'recear', 'tentar', 'advogar', 'encantar', 'coordenar', 'amar', 'permanecer', 'sentar', 'direcionar', 'liquidar', 'desolar', 'estreitar', 'superar', 'elaborar', 'rachar', 'retratar', 'festar', 'informatizar', 'discursar', 'sustentar', 'emitir', 'depender', 'revistar', 'ruir', 'sobreviver', 'sustar', 'afligir', 'conturbar', 'assumir', 'estocar', 'cogitar', 'chilepersonfinder', 'intervalar', 'aprontar', 'grudar', 'cessar', 'albergar', 'ser', 'especializar', 'agigantar', 'individuar', 'demonstrar', 'tender', 'esvaziar', 'merecer', 'esgoelar', 'esclarecer', 'ofender', 'pagar', 'vulnerar', 'Kissinger', 'descontar', 'solucionar', 'discernir', 'errar', 'latir', 'experimentar', 'cortar', 'alhear', 'considerar', 'desconhecer', 'operar', 'atear', 'disparar', 'imaginar', 'juntar', 'andar', 'alinhar', 'impelir', 'dizer', 'cruzar', 'tarifar', 'esquentar', 'equilibrar', 'derrubar', 'recomendar', 'criar', 'chegar', 'empilhar', 'gerir', 'entusiasmar', 'reformar', 'devir', 'ensinar', 'abolir', 'abranger', 'deter', 'guardar', 'repetir', 'cantar', 'reduzir', 'vaziar', 'piar', 'durar', 'arremessar', 'impedir', 'vitimar', 'acolher', 'segar', 'premiar', 'filhar', 'impostar', 'rir', 'entrever', 'madrugar', 'conter', 'quadrar', 'orquestrar', 'aldear', 'vendar', 'contestar', 'conectar', 'focar', 'autorizar', 'recompensar', 'folhar', 'complicar', 'desconfortar', 'doar', 'acampar', 'resumir', 'desacostumar', 'apreciar', 'acarretar', 'sofisticar', 'recorrer', 'conversar', 'reeleger', 'usinar', 'propor', 'desenhar', 'avistar', 'verificar', 'globalizar', 'sequestrar', 'furtar', 'combinar', 'apresentar', 'mandar', 'ocorrer', 'ajudar', 'informar', 'emigrar', 'azarar', 'tomar', 'formar', 'volver', 'desacelerar', 'piorar', 'madeirar', 'permitir', 'comover', 'duvidar', 'exteriorizar', 'mostrar', 'ressacar', 'comparar', 'eliminar', 'emocionar', 'comandar', 'rebater', 'editorar', 'transmitir', 'injetar', 'tocar', 'secar', 'impor', 'avisar', 'aliviar', 'prevenir', 'acompanhar', 'emalhar', 'agradecer', 'gastar', 'integrar', 'projetar', 'hospedar', 'limitar', 'estabelecer', 'escolher', 'visar', 'telhar', 'granir', 'exercer', 'poder', 'votar', 'inundar', 'detalhar', 'selar', 'descarregar', 'indicar', 'tardar', 'articular', 'delinear', 'favorecer', 'implementar', 'proteger', 'engolir', 'lembrar', 'caminhar', 'recordar', 'demitir', 'recair', 'difir', 'nevar', 'protagonizar', 'contratar', 'cotar', 'ativar', 'representar', 'industrializar', 'pretender', 'alugar', 'estrangeirar', 'manter', 'definir', 'acalmar', 'desenvolver', 'abreviar', 'atrasar', 'atualizar', 'privar', 'palestrar', 'amontoar', 'honrar', 'orgulhar', 'empresar', 'vestir', 'secretar', 'pular', 'ocultar', 'apaixonar', 'roubar', 'entender', 'estimar', 'estivar', 'atacar', 'noticiar', 'defender', 'madurar', 'esgotar', 'valer', 'cozinhar', 'desanimar', 'recuperar', 'subscrever', 'colaborar', 'tremar', 'ler', 'falecer', 'destinar', 'atrair', 'constatar', 'escudar', 'oficiar', 'espantar', 'causar', 'substituir', 'pesar', 'executar', 'comentar', 'aclamar', 'tragar', 'perceber', 'assaltar', 'supor', 'anoitecer', 'beirar', 'prolongar', 'trocar', 'opor', 'dedicar', 'seriar', 'danificar', 'responsabilizar', 'expandir', 'conferir', 'permear', 'animar', 'importar', 'inaugurar', 'circular', 'lotar', 'editar', 'estudar', 'inspirar', 'decolar', 'extremar', 'redirecionar', 'patrulhar', 'extrair', 'arrastar', 'aconselhar', 'descartar', 'delegar', 'prazer', 'meter', 'rendar', 'lustrar', 'traumatizar', 'dubrar', 'aguentar', 'criminar', 'esmagar', 'cunhar', 'desejar', 'listar', 'treinar', 'concorrer', 'testar', 'pisar', 'vencer', 'dever', 'encravar', 'imprensar', 'dar', 'gritar', 'selecionar', 'contrair', 'contrastar', 'engenhar', 'fornecer', 'convir', 'consertar', 'contabilizar', 'diferir', 'disseminar', 'vizinhar', 'multiplicar', 'orientar', 'odiar', 'diversificar', 'desmotivar', 'que', 'jogar', 'cair', 'pautar', 'apelar', 'invernar', 'abastar', 'suportar', 'interligar', 'vigiar', 'demandar', 'acalorar', 'instalar', 'detectar', 'isolar', 'aspirar', 'tramar', 'drogar', 'privilegiar', 'capar', 'haver', 'vingar', 'despertar', 'eleger', 'respeitar', 'associar', 'letrar', 'observar', 'dosar', 'dobrar', 'quebrar', 'trancar', 'ecoar', 'obsoletar', 'fingir', 'abastecer', 'sedar', 'gestar', 'poetar', 'explicar', 'recuar', 'adaptar', 'tornar', 'espiar', 'confrontar', 'desempenhar', 'gramar', 'atuar', 'frequentar', 'exagerar', 'terminar', 'desenfrear', 'vidrar', 'pensar', 'consagrar', 'explodir', 'estruturar', 'girar', 'escassear', 'deslanchar', 'apertar', 'encerrar', 'topar', 'desabar', 'pingar', 'orlar', 'escrever', 'granar', 'fitar', 'palitar', 'identificar', 'interferir', 'esfaquear', 'fermentar', 'rumar', 'vetar', 'acelerar', 'apor', 'redar', 'devastar', 'confirmar', 'carbonizar', 'ambientar', 'acentuar', 'trabalhar', 'marchar', 'combater', 'formatar', 'assimilar', 'barrar', 'conseguir', 'faturar', 'beijar', 'parecer', 'submergir', 'marinhar', 'apurar', 'apavorar', 'compor', 'gradar', 'faltar', 'encarcerar', 'espumar', 'posar', 'afrouxar', 'medicinar', 'reerguer', 'desprender', 'chamar', 'sublevar', 'cortejar', 'sobrar', 'massacrar', 'abrigar', 'transferir', 'concentrar', 'falsar', 'competir', 'retardar', 'constituir', 'traduzir', 'entornar', 'interpor', 'dificultar', 'amenizar', 'degradar', 'inviabilizar', 'interditar', 'governar', 'racionar', 'acenar', 'sacudir', 'homenagear', 'encarecer', 'nadar', 'jantar', 'quadruplicar', 'rezar', 'reunir', 'resultar', 'fechar', 'resistir', 'estradar', 'fortalecer', 'costumar', 'resolver', 'assentir', 'diminuir', 'desaquecer', 'ritmar', 'sujeitar', 'presentar', 'ditar', 'desencadear', 'assinar', 'morrer', 'estragar', 'doer', 'aventurar', 'adicionar', 'amplificar', 'consumir', 'somar', 'investir', 'usar', 'sacramentar', 'fomentar', 'triscar', 'acessar', 'chacoalhar', 'barulhar', 'primar', 'saudar', 'obter', 'questionar', 'lidar', 'proporcionar', 'checar', 'brilhar', 'enunciar', 'brincar', 'espalhar', 'qualificar', 'alegar', 'converter', 'inexistir', 'deformar', 'negociar', 'empanar', 'inflamar', 'invadir', 'arrumar', 'regrar', 'prosseguir', 'balar', 'oar', 'investigar', 'apetrechar', 'oferecer', 'esfacelar', 'auxiliar', 'descontrair', 'prometer', 'pilar', 'encharcar', 'fundir', 'vistoriar', 'percorrer']) 168 >>> stopwords = nltk.corpus.stopwords.words('portuguese') >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords) >>> fd2 <FreqDist with 1395 outcomes> >>> sw2 = [w.title() for w in stopwords] >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd2 <FreqDist with 1394 outcomes> >>> verbosf = fd2.keys() >>> texto = wordlists.fileids() >>> len(texto) 144 >>> grandstr = '' >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in verbosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> output_file2 = open('VC.txt', 'w') >>> output_file2.write(grandstr) >>> k 144 >>> grandstr[:10] '1.txt;ir;5' >>> output_file2.write(grandstr) >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Chile/PROP' >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 63418 >>> palavras[:10] ['[', 'Richter', ']', '<*>', 'PROP', 'M', '/', 'F', 'S', '/'] >>> i=0 >>> ent=[] >>> while i <= 63417: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 4606 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 4239 outcomes> >>> ent[:10] ['Richter', 'Argentina', 'La', 'La', 'Prov\xc3', 'Clar\xc3', 'San', 'San', 'Instituto', 'Inpres'] >>> propriosf = fd3.keys() >>> grandstr = '' 169 >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:10] '1.txt;PS;1' >>> grandstr[:20] '1.txt;PS;11;@@@10.tx' >>> grandstr[:50] '1.txt;PS;11;@@@10.txt;PS;11;@@@100.txt;PS;7;@@@101' >>> sw2.append('PS') >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 4238 outcomes> >>> propriosf = fd3.keys() >>> grandstr = '' >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:50] '1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;primeiro;3' >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha() and w.istitle()) >>> fd <FreqDist with 10 outcomes> >>> fd <FreqDist with 10 outcomes> >>> fd3 <FreqDist with 3009 outcomes> >>> propriosf = fd3.keys() >>> propriosf.count('PSDB') 0 >>> propriosf.count('Chile') 1 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha() and w.istitle() or w.upper()) >>> fd3 <FreqDist with 4606 outcomes> >>> propriosf = fd3.keys() >>> propriosf.count('PSDB') 1 >>> grandstr = '' >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) 170 strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:50] '1.txt;S;133;@@@10.txt;M;455;@@@100.txt;M;104;@@@10' >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 4238 outcomes> >>> prointer = = fd3.keys() SyntaxError: invalid syntax >>> prointer = fd3.keys() >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle() or w.upper()) >>> fd4 <FreqDist with 1624 outcomes> >>> propriosf = fd4.keys() >>> propriosf.count('PSDB') 1 >>> propriosf.count('Chile') 1 >>> propriosf.count('S') 0 >>> grandstr = '' >>> K=0 >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:50] '1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;primeiro;3' >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle()) >>> prop1 = fd4.keys() >>> fd5 = nltk.FreqDist(w for w in prointer if w.upper()) >>> prop2 = fd5.keys() >>> prop2[1550:] ['Veja', 'Vejo', 'Vemos', 'Venezuela', 'Via', 'Vicente', 'Victor', 'Vida', 'Videografia', 'Vietn\xc3', 'Vigilantes', 'Vik', 'Vila', 'Vilalva', 'Vila\xc3', 'Vino', 'Vinson', 'Virada', 'Vivo', 'Vizinho', 'Vi\xc3', 'Voltaire', 'V\xc3', 'WANDERLEY', 'WTA', 'Wagner', 'Waikiki', 'Washington', 'Welcome', 'Well', 'Wembley', 'Wen', 'West', 'WikiLeaks', 'Wikip\xc3', 'Will', 'William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'XGAMES', 'Xinhua', 'Xynthia', 'YOGO', 'Yadin', 'Yes', 'Yolanda', 'YouTube', 'Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3', 'emerg\xc3\xaancia', 'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar', 'propor\xc3', 'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo'] >>> prop1[1200:] ['William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'Xinhua', 'Xynthia', 'Yadin', 'Yes', 'Yolanda', 'Your', 'Yukari', 'Zeca', 'Zeke', 'Zenith', 'Zou'] >>> prop2[1608] 'amanh\xc3' >>> prop2[1606:1608] ['Zou', 'Z\xc3'] 171 >>> propriosf = prop1 + prop2[:1608] >>> len(propriosf) 2825 >>> len(set(propriosf)) 1608 >>> propriosf = set(propriosf) >>> len(propriosf) 1608 >>> grandstr = '' >>> k=0 >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:100] '1.txt;Chile;4;@@@10.txt;S\xc3;4;@@@100.txt;Chile;2;@@@101.txt;Brasil;10;@@@102.txt;Jap\xc3;4;@@@ 103.txt;Br' >>> output_file2 = open('PC.txt', 'w') >>> output_file2.write(grandstr) >>> resPV = [] >>> I=0 >>> i=0 >>> k=0 >>> ent=[] >>> nomesP = [] >>> strp = '' >>> len(sentenc) 3187 >>> len(verbosf) 1394 >>> while k <= 1393: while i <= 3186: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> verbosf.index('ajudar') 71 >>> resPV[71] 172 'ajudar--->Folha Sebasti\xc3 ONU Bachelet Carlos Talca Haiti EUA Gonz\xc3 Uni\xc3 Santiago Timor Rio H\xc3 Hillary Paraguai Lula Cuba Jos\xc3 Uruguai Gr\xc3 Bol\xc3 Jardim Conselho Guatemala RJ Barack D\xc3 Venezuela Silva DANIEL Prov\xc3 Pi\xc3 Obama Brasil S\xc3 Bras\xc3 Michelle Montevid\xc3 PI\xc3 Quirguist\xc3 Guin\xc3 Presid\xc3\xaancia Cabo Luiz Ushahidi Embaixada Pr\xc3 Angola Mercosul Paulo Mo\xc3 Sri Sandra Chile Am\xc3/n' >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPC.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 1394 >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Chile/ETIQUETADOS Chile - Léxico' >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 174010 >>> palavras[:10] ['H', '[', 'crian\xc3', '\xa7', 'a', ']', '<', 'H', '>', 'N'] >>> i=0 >>> ent=[] >>> while i <= 174009: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 12281 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 11786 outcomes> >>> propriosf = fd3.keys() >>> texto = wordlists.fileids() >>> grandstr = '' >>> k=0 >>> len(propriosf) 1353 >>> fd3 <FreqDist with 11786 outcomes> >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:100] '1.txt;norte;6;@@@10.txt;ser;19;@@@100.txt;extremo;3;@@@101.txt;n\xc3;15;@@@102.txt;maremoto;3; @@@103.tx' >>> output_file2 = open('EC.txt', 'w') >>> output_file2.write(grandstr) >>> i=0 >>> k=0 >>> ent=[] 173 >>> nomesP=[] >>> resPV = [] >>> strp = '' >>> len(sentenc) 3187 >>> len(verbosf) 1394 >>> while k <= 1393: while i <= 3186: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> verbosf.index('ajudar') 71 >>> resPV[71] 'ajudar--->ano dia terremoto segundo pa\xc3 hora regi\xc3 presidente governo brasileiro chileno cidade centro setor parte pessoa passado ser casa s\xc3 maior cat\xc3 falha m\xc3 local morador v\xc3 rua fam\xc3 equipe fundo onda militar semana bem caso forte pr\xc3 morte pol\xc3 popula\xc3 ser\xc3 aeroporto segunda emerg\xc3\xaancia encontro hospital ponte falta acesso jornalista maioria rio vez chin\xc3\xaas corpo enviado funcion\xc3 maremoto p\xc3\xbablico dinheiro est\xc3 l\xc3 pai poder direito embaixador manh\xc3 n\xc3 ordem recurso veio especialista linha volta c\xc3 prefeito p\xc3 contato escola demora habitante reuni\xc3 alto andar d\xc3 ex quarta agente bar chegada comida cr\xc3 fila parada t\xc3 vizinho zona entidade financeiro receita sobrevivente cidad\xc3 colega limite representa\xc3 terreno avan\xc3 barraca corretor cuba doa\xc3 premi\xc3\xaa recess\xc3 sa\xc3 solar via aposta assento auto boliviano dom inverno multid\xc3 tremor contribui\xc3 esquerdista fogo gar\xc3 volunt\xc3 assistente banheiro democrata doador efetivo mo\xc3 pescador r\xc3 vereador cozinha crist\xc3 fuzileiro gestor revolta veterano/n' >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVEC.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 1394 174 APÊNDICE B – Comandos para Corpus Haiti em Método Não Supervisionado Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. **************************************************************** Personal firewall software may warn about the connection IDLE makes to its subprocess using this computer's internal loopback interface. This connection is not visible on any external interface and no data is sent to or received from the Internet. **************************************************************** IDLE 2.6.6 >>> # -*-coding: iso-8859-1 -*>>> import nltk >>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Haiti' >>> from nltk.corpus import PlaintextCorpusReader >>> wordlists= PlaintextCorpusReader(corpus_root, '.*') >>> sentenc = wordlists.sents() >>> len(sentenc) 20325 >>> i=0 >>> strsenti = '' >>> while i <= 20324: if sentenc[i].count('PROP') != 0: strinst = " ".join(sentenc[i]) strsenti = strsenti + strinst + '###' strinst = '' i +=1 continue >>> i 20325 >>> listinst = strsenti.split('###') >>> len(listinst) 12214 >>> output_file = open('PROPH.txt', 'w') >>> k=0 >>> while k <= 12213: output_file.write(listinst[k] + "\n") k +=1 continue >>> listinst[12213] '' >>> listinst[12214] Traceback (most recent call last): File "<pyshell#21>", line 1, in <module> listinst[12214] IndexError: list index out of range 175 >>> listinst[12212] 'Zilda [ Zilda ] <*> PROP M / F S / P \\, segundo [ segundo ] < rel > < ks > < prp > ADV [ segundo ] < NUM - ord > ADJ M S [ segundo ] < dur > < unit > N M S a [ o ] < artd > < dem > DET F S [ ela ] PERS F 3S ACC [ a ] PRP [ a ] < ac - sign > N M S freira [ freira ] < Htit > N F S \\, fez [ fez ] N M S [ fazer ] < vt > < vtK > V PS 3S IND VFIN sua [ seu ] < poss 3S / P > < si > DET F S [ suar ] < vi > < vt > V IMP 2S VFIN [ suar ] < vi > < vt > V PR 3S IND VFIN \xc3\xbaltima [ \xc3\xbaltimo ] < sem - c > < sit > N F S [ \xc3\xbaltimo ] < NUM - ord > ADJ F S palestra [ palestra ] < sem - s > N F S [ palestrar ] < vi > V IMP 2S VFIN [ palestrar ] < vi > V PR 3S IND VFIN com [ com ] <* 1 > PRP muito [ muito ] < quant > ADV [ muito ] < quant > DET M S entusiasmo [ entusiasmo ] <* 2 > < am > < percep - f > N M S [ entusiasmar ] <* 2 > < vt > V PR 1S IND VFIN .' >>> palverb = wordlists.words() >>> etverb = [w for w in palverb if w.startswith('v')] >>> etverb = set(etverb) >>> len(etverb) 737 >>> len(palverb) 6890079 >>> verbs = [] >>> i=0 >>> while i <= 6890078: if palverb[i] in etverb: if palverb[i-1] == '<': if palverb[i-2] == ']': verbs.append(palverb[i-3]) i +=1 continue >>> verbs[:15] ['oferecer', 'ajudar', 'ajudar', 'governar', 'pedir', 'coordenar', 'preparar', 'preparar', 'casar', 'mostrar', 'monitorar', 'ajudar', 'ajudar', 'dizer', 'ir'] >>> len(verbs) 96344 >>> verbosd = set(verbs) >>> len(verbosd) 2638 >>> verbosd set(['vomitar', 'lesar', 'acordar', 'desembocar', 'tratar', 'desorientar', 'receitar', 'massificar', 'suar', 'escriturar', 'serpentar', 'infectar', 'superaquecer', 'parir', 'divertir', 'retirar', 'deslumbrar', 'fazer', 'exigir', 'filar', 'ensandecer', 'relaxar', 'desligar', 'hesitar', 'afirmar', 'atinjir', 'pipocar', 'possuir', 'rotinar', 'travar', 'atingir', 'imperar', 'casar', 'condizer', 'desencavar', 'folgar', 'decidir', 'rasteirar', 'encarar', 'exibir', 'acobertar', 'reapresentar', 'incorporar', 'mencionar', 'ansiar', 'piar', 'aterrar', 'calibrar', 'gratificar', 'ciar', 'silenciar', 'convocar', 'encorajar', 'economizar', 'estagnar', 'pausar', 'presidir', 'sensibilizar', 'nascer', 'admirar', 'enfrentar', 'obedecer', 'emperrar', 'revolver', 'reivindicar', 'reiterar', 'desdobrar', 'nacionalizar', 'reembolsar', 'restar', 'interrogar', 'brigar', 'custar', 'fertilizar', 'preparar', 'ater', 'embarcar', 'futurar', 'direitolatrir', 'acertar', 'suquir', 'aplainar', 'libertar', 'anular', 'lamentar', 'jurar', 'mercar', 'declarar', 'imergir', 'difundir', 'morar', 'driblar', 'aplaudir', 'alunar', 'desocupar', 'recontar', 'certificar', 'desembarcar', 'barricar', 'unir', 'esteirar', 'comparecer', 'comemorar', 'origamir', 'pupilar', 'gravar', 'sinalizar', 'reformular', 'desmatar', 'itinerar', 'desesperar', 'encher', 'contaminar', 'saber', 'vegetar', 'pecar', 'mexer', 'prescindir', 'relar', 'pendurar', 'baratear', 'sortir', 'pertencer', 'destruir', 'melhorar', 'subentender', 'configurar', 'cassar', 'entortar', 'tolerar', 'reprovar', 'necessitar', 'lampejar', 'surtir', 'vagar', 'serrar', 'sepultar', 'desfilar', 'adquirir', 'escurecer', 'arrancar', 'repor', 'golear', 'trasladar', 'escarnecer', 'valar', 'surpreender', 'filtrar', 'apagar', 'transplantar', 'titular', 'devassar', 'erguer', 'retroceder', 'recolocar', 'expressar', 'significar', 'timbrar', 'regredir', 'brecar', 'parcelar', 'inchar', 'soterrar', 'folhamemorir', 'vislumbrar', 'ressuscitar', 'ordenar', 'pacificar', 'cincar', 'substantivar', 'preferir', 'sentir', 'copar', 'fichar', 'igualar', 'banalizar', 'diferenciar', 'aliar', 'extrapolar', 'enviar', 'arrecadar', 'fadar', 'aparatar', 'rebelar', 'transtornar', 'elencar', 'elevar', 'teclar', 'recusar', 'aventar', 'desprezar', 'guindar', 'cerrar', 'abonar', 'crer', 'janelarossir', 'reprimir', 'efetivar', 'bestar', 'antever', 176 'normalizar', 'assemelhar', 'surgir', 'desfavorecer', 'inclinar', 'potenciar', 'sobrevalorizar', 'moldar', 'infestar', 'uniformizar', 'chifrar', 'hidratar', 'cochilar', 'pelar', 'invocar', 'mear', 'pontar', 'perguntar', 'fatorar', 'sublinhar', 'pedalar', 'abordar', 'empoeirar', 'assoberbar', 'contornar', 'velar', 'promover', 'pleitear', 'tremer', 'reescrever', 'pairar', 'desencantar', 'escapar', 'reservar', 'romantizar', 'procurar', 'preceder', 'sincronizar', 'ensaiar', 'financiar', 'conquistar', 'bolhar', 'ousar', 'haitir', 'mentir', 'retransmitir', 'matar', 'namorar', 'reconfortar', 'cruciar', 'sussurrar', 'personalizar', 'atordoar', 'mitigar', 'arredondar', 'situar', 'denominar', 'bailar', 'finar', 'aspar', 'acontecer', 'entrar', 'improvisar', 'realizar', 'bater', 'arrogar', 'alterar', 'dispersar', 'deixar', 'adotar', 'emagrecer', 'desmilitarizar', 'sumir', 'render', 'produzir', 'batalhar', 'interpretar', 'encolher', 'maquiar', 'agregar', 'pulsar', 'rescaldar', 'salientar', 'industriar', 'rastrear', 'amarelar', 'defasar', 'insinuar', 'repassar', 'avaliar', 'gerar', 'assolar', 'ratificar', 'abater', 'concorrer', 'evoluir', 'abrir', 'estarrecer', 'suplementar', 'picar', 'rasar', 'restaurar', 'capacitar', 'cicatrizar', 'cheirar', 'alquebrar', 'reproduzir', 'dominar', 'esmolar', 'protocolar', 'crescer', 'bombardear', 'desvincular', 'provir', 'disparar', 'saquear', 'indignar', 'reputar', 'vicejar', 'engarrafar', 'piscar', 'deliberar', 'desqualificar', 'salvar', 'bradar', 'estacionar', 'lanchar', 'atribular', 'ignorar', 'ambicionar', 'municipalizar', 'receber', 'desfazer', 'agilizar', 'captar', 'estofar', 'conceder', 'amiudar', 'programar', 'furar', 'traquejar', 'regular', 'cifrar', 'sistematizar', 'acusar', 'tirotear', 'transar', 'depauperar', 'responder', 'amanhecer', 'regressar', 'exercitar', 'medicar', 'persuadir', 'deputar', 'datar', 'magoar', 'radicalizar', 'caber', 'desatar', 'aprimorar', 'sugar', 'anunciar', 'emudecer', 'xeretar', 'recapturar', 'relacionar', 'motivar', 'comportar', 'reconquistar', 'agoniar', 'desconcertar', 'imprimir', 'dilacerar', 'fluir', 'proliferar', 'alocar', 'implorar', 'comprar', 'torturar', 'olhar', 'desalentar', 'acreditar', 'policiar', 'egossintoner', 'bordar', 'desgovernar', 'alertar', 'cancelar', 'denegrir', 'despejar', 'dividir', 'empecilhar', 'soer', 'marcar', 'campar', 'alarmar', 'r', 'sair', 'explorar', 'nortear', 'babar', 'enternecer', 'enfartar', 'cuspir', 'adiar', 'irmanar', 'classificar', 'aparar', 'advertir', 'mineirar', 'amparar', 'justificar', 'falar', 'concentrar', 'artilhar', 'girar', 'expatriar', 'enxugar', 'irritar', 'ocorrer', 'jantar', 'civilizar', 'mastigar', 'direitolatrer', 'cumprimentar', 'centralizar', 'basear', 'puxar', 'capturar', 'desabafar', 'mandatar', 'plantar', 'enfiar', 'atribuir', 'perseguir', 'creditar', 'filmar', 'tecer', 'assegurar', 'trespassar', 'perigar', 'confinar', 'taxar', 'desamparar', 'caranguejar', 'emigrar', 'processar', 'anteceder', 'cabecear', 'impingir', 'tombar', 'interessar', 'reter', 'Resultar', 'remediar', 'encontrar', 'curvar', 'consolidar', 'servir', 'abusar', 'progredir', 'ir', 'computar', 'frutar', 'alimentar', 'cobrir', 'contingentar', 'empossar', 'despontar', 'alternar', 'pricipar', 'evitar', 'descriminalizar', 'declinar', 'elitizar', 'livrar', 'coalhar', 'coletar', 'englobar', 'medrar', 'desenterrar', 'grupar', 'pescar', 'afetar', 'portar', 'desfalcar', 'entremear', 'inquietar', 'aparecer', 'estourar', 'aderir', 'obstruir', 'calmar', 'musicar', 'proclamar', 'violar', 'digerir', 'visualizar', 'louvar', 'figurar', 'arriscar', 'impressionar', 'clonar', 'ensaboar', 'desaparecer', 'lutar', 'desamar', 'copiar', 'cursar', 'rondar', 'destacar', 'perturbar', 'enterrar', 'ancorar', 'expor', 'comprometer', 'torcer', 'duplicar', 'desiludir', 'origamer', 'perambular', 'gemer', 'esconder', 'aportar', 'aprender', 'preterir', 'adequar', 'perseverar', 'manusear', 'agrar', 'negar', 'abandonar', 'pesquisar', 'solfejar', 'eroder', 'soldar', 'coibir', 'aparentar', 'devorar', 'vincular', 'superbonder', 'eclodir', 'enrolar', 'culpar', 'retrucar', 'Estar', 'divergir', 'arcar', 'beneficiar', 'rasgar', 'testemunhar', 'impulsionar', 'neutralizar', 'apontar', 'circuitar', 'sobrepor', 'respingar', 'moscar', 'pentear', 'rosar', 'distanciar', 'dentar', 'refundar', 'excluir', 'habilitar', 'ressoar', 'modelar', 'corrugar', 'colorar', 'engasgar', 'batizar', 'implicar', 'corar', 'estranhar', 'refazer', 'encostar', 'talhar', 'morder', 'lavar', 'sediar', 'impacientar', 'afundar', 'surdir', 'medalhar', 'flagrar', 'descampar', 'afazer', 'perdoar', 'frustrar', 'vaticinar', 'colorir', 'assustar', 'impugnar', 'empenhar', 'entoar', 'subsistir', 'remover', 'descongestionar', 'seguir', 'telefonar', 'solar', 'ceder', 'recomprar', 'rever', 'penar', 'rotular', 'esprimir', 'antecipar', 'espetar', 'depurar', 'cumprir', 'amentar', 'perpetrar', 'repartir', 'ganhar', 'desmantelar', 'condenar', 'desviar', 'minar', 'triunfar', 'prover', 'escavar', 'apropriar', 'liberar', 'aparelhar', 'aniversariar', 'continuar', 'digitar', 'entrevistar', 'instrumentalizar', 'derrotar', 'panar', 'depor', 'zerar', 'publicar', 'posicionar', 'rejeitar', 'optar', 'intensificar', 'humilhar', 'rodar', 'esposar', 'arrebentar', 'surfir', 'fantasiar', 'obrar', 'martelar', 'absorver', 'franjar', 'urgir', 'armazenar', 'levantar', 'providenciar', 'esquecer', 'confrontar', 'saltitar', 'adubar', 'encrencar', 'espressar', 'armar', 'reiniciar', 'golpear', 'estuprar', 'endurecer', 'primer', 'distinguir', 'ver', 'aforar', 'abaixar', 'inferir', 'empatar', 'brandir', 'dissipar', 'educar', 'detestar', 'foscar', 'debater', 'anotar', 'funcionar', 'minutar', 'promulgar', 'placar', 'estrilar', 'decepcionar', 'montar', 'desguarnecer', 'consentir', 'regularizar', 'querer', 'exemplificar', 'monetizar', 'circuncidar', 'encomendar', 'equiparar', 'calcular', 'seduzir', 'autuar', 'participar', 'cocar', 'rememorar', 'estipular', 'manejar', 'saltar', 'quedar', 'chorar', 'pintar', 'turvar', 'subdelegar', 'colonizar', 'gramar', 'mudar', 'conceber', 'derivar', 'enganar', 'prezar', 'militar', 'resenhar', 'abranger', 'desistir', 'erradicar', 'desertar', 'publisher', 'mobiliar', 'redistribuir', 'acampar', 'indagar', 'usurpar', 'degelar', 'prendar', 'localizar', 'extravasar', 'rosnar', 'anistiar', 'desembolsar', 'discordar', 'desobstruir', 'cabriolar', 'desprover', 'secar', 'finalizar', 'sucumbir', 'desalojar', 'reger', 'remeter', 'encenar', 'remodelar', 'espinhar', 'suceder', 'decretar', 177 'repudiar', 'pilhar', 'chocar', 'descrever', 'eivar', 'prejudicar', 'limpar', 'honrar', 'zelar', 'entrepor', 'mesquinhar', 'varrer', 'patentear', 'incumbir', 'expelir', 'delimitar', 'facilitar', 'exilar', 'efetuar', 'reatar', 'tirar', 'conviver', 'trazer', 'apostar', 'construir', 'modernizar', 'incrementar', 'chicotear', 'perder', 'conduzir', 'soltar', 'desmoronar', 'conceituar', 'desconjuntar', 'agendar', 'colocar', 'presumir', 'bolsar', 'ligar', 'aproveitar', 'palestrar', 'remar', 'ascender', 'florar', 'vacinar', 'atar', 'suspeitar', 'explicitar', 'esperar', 'controlar', 'sofrer', 'legendar', 'tapar', 'autoproclamar', 'acionar', 'vezar', 'barganhar', 'escalar', 'sortear', 'debhaitir', 'estender', 'embargar', 'asilar', 'desonerar', 'atrapalhar', 'afugentar', 'graduar', 'rescindir', 'escoltar', 'dilatar', 'tabelar', 'totalizar', 'subestimar', 'indenizar', 'pormenorizar', 'objetar', 'vermelhar', 'decorar', 'sorrir', 'passar', 'abarcar', 'flagelar', 'renascer', 'emprestar', 'navegar', 'retrair', 'temer', 'idolatrar', 'falcatruar', 'destituir', 'boicotar', 'requintar', 'determinar', 'esculhambar', 'castigar', 'apadrinhar', 'disciplinar', 'insultar', 'linchar', 'terceirizar', 'presentear', 'imiscuir', 'citar', 'eternizar', 'vasculhar', 'caracterizar', 'respirar', 'engravidar', 'confortar', 'fritar', 'organizar', 'regravar', 'agir', 'dispor', 'partir', 'macerar', 'gesticular', 'precisar', 'sugerir', 'estacar', 'generalizar', 'revestir', 'grafitar', 'maridar', 'recrudescer', 'migrar', 'averiguar', 'minimizar', 'enquadrar', 'embrulhar', 'acrescentar', 'incentivar', 'emoldurar', 'insistir', 'derrocar', 'deslizar', 'incubar', 'registrar', 'pespegar', 'instaurar', 'entranhar', 'acirrar', 'amainar', 'suspender', 'presenciar', 'misturar', 'chutar', 'colapsar', 'reprisar', 'distar', 'alcoolizar', 'carregar', 'entediar', 'reafirmar', 'superestimar', 'torrar', 'envidar', 'prognosticar', 'preencher', 'serenar', 'manobrar', 'renovar', 'poupar', 'rugir', 'ajustar', 'andaimar', 'telhar', 'contribuir', 'aceitar', 'alar', 'dialogar', 'descentralizar', 'beber', 'lucrar', 'compilar', 'desmobilizar', 'quantificar', 'pegar', 'mergulhar', 'reaparecer', 'aumentar', 'restabelecer', 'amputar', 'repulsar', 'reclamar', 'motorizar', 'banhar', 'desabitar', 'requerer', 'desencarnar', 'apoiar', 'convencer', 'luxar', 'mangar', 'detonar', 'arranjar', 'reconstituir', 'valorizar', 'submeter', 'vaguear', 'debhaiter', 'idear', 'escrachar', 'convidar', 'advir', 'alastrar', 'forjar', 'formular', 'assessorar', 'replicar', 'responsar', 'enfeitar', 'simplificar', 'disputar', 'rematar', 'dizimar', 'folhamemorer', 'proferir', 'liderar', 'solidarizar', 'descasar', 'fretar', 'enraizar', 'triturar', 'romper', 'propinar', 'insurgir', 'prestar', 'revender', 'arquitetar', 'justar', 'olvidar', 'agradar', 'aprofundar', 'dissimular', 'noivar', 'retomar', 'reconsiderar', 'nocautear', 'encobrir', 'universalizar', 'penetrar', 'reavaliar', 'carnar', 'desencontrar', 'enfocar', 'ouvir', 'perspectivar', 'inocentar', 'folhear', 'choramingar', 'confundir', 'confiar', 'cansar', 'vocalizar', 'minorar', 'remexer', 'dramatizar', 'fuzilar', 'sondar', 'ressaltar', 'quintar', 'escravizar', 'referir', 'desmoralizar', 'descer', 'rolar', 'carecer', 'mediar', 'travestir', 'decapitar', 'desacatar', 'blindar', 'calar', 'empregar', 'cismar', 'satisfazer', 'baldar', 'venerar', 'contar', 'danar', 'atrelar', 'bojar', 'jorrar', 'emanar', 'enlatar', 'varejar', 'instruir', 'descobrir', 'estar', 'federar', 'acentuar', 'desproteger', 'vender', 'achar', 'fir', 'manifestar', 'aposentar', 'moralizar', 'cortinar', 'renunciar', 'indiciar', 'renegociar', 'licenciar', 'refletir', 'ministrar', 'borbulhar', 'alforriar', 'consumar', 'saturar', 'segmentar', 'solicitar', 'concretizar', 'raiar', 'plebiscitar', 'desafiar', 'proibir', 'comer', 'atentar', 'acometer', 'atenuar', 'acabar', 'inteirar', 'ciscar', 'suavizar', 'entregar', 'atestar', 'equivaler', 'aleijar', 'mapear', 'zincar', 'bolar', 'aterrorizar', 'administrar', 'maltratar', 'imobilizar', 'perdurar', 'denunciar', 'findar', 'externar', 'conciliar', 'restringir', 'acalentar', 'desnudar', 'rodear', 'estrelar', 'conformar', 'reabilitar', 'preocupar', 'celebrar', 'empobrecer', 'convencionar', 'desmontar', 'atropelar', 'repensar', 'banir', 'adentrar', 'planar', 'zonar', 'agarrar', 'fulanizar', 'assorear', 'combalir', 'inserir', 'redigir', 'utilizar', 'pastar', 'simbolizar', 'bocar', 'balir', 'cochichar', 'medir', 'requisitar', 'devolver', 'iluminar', 'arder', 'contemplar', 'coriscar', 'infringir', 'impar', 'arejar', 'sagrar', 'sancionar', 'pressionar', 'apinhar', 'empurrar', 'apressar', 'desvelar', 'arruinar', 'prumar', 'macular', 'descarrilar', 'desrespeitar', 'derrubar', 'desancar', 'beijar', 'patrocinar', 'mimar', 'postar', 'enlouquecer', 'podar', 'contrapor', 'duelar', 'transcender', 'anestesiar', 'hospitalizar', 'desarmar', 'viver', 'discar', 'refutar', 'fragmentar', 'alisar', 'cascar', 'voar', 'engajar', 'algemar', 'assombrar', 'dementar', 'acostumar', 'arregalar', 'estimular', 'esterilizar', 'realimentar', 'fracassar', 'difir', 'consultar', 'estressar', 'pronunciar', 'bicar', 'encampar', 'falhar', 'vagir', 'amostrar', 'violentar', 'fabricar', 'compreender', 'mazelar', 'apreender', 'equipar', 'entristecer', 'criticar', 'intitular', 'legar', 'ofertar', 'sobressair', 'comissariar', 'pressupor', 'fornir', 'proceder', 'virar', 'barrir', 'coincidir', 'profissionalizar', 'power', 'desestabilizar', 'haiter', 'afeitar', 'positivar', 'cotar', 'contatar', 'cear', 'atender', 'reciclar', 'atritar', 'censurar', 'vazar', 'cremar', 'outorgar', 'reinar', 'ocupar', 'bastar', 'desabrigar', 'tripudiar', 'propalar', 'centrar', 'rebolar', 'intercalar', 'tornear', 'luzir', 'compartilhar', 'despistar', 'festejar', 'entorpecer', 'encalhar', 'pretender', 'engomar', 'golfar', 'gradar', 'transformar', 'excepcionar', 'repercutir', 'aguar', 'monitorar', 'firmar', 'discutir', 'envergonhar', 'reagir', 'premir', 'adjetivar', 'escovar', 'dormir', 'repostar', 'descascar', 'ultrapassar', 'matricular', 'modificar', 'colher', 'sonegar', 'forrar', 'julgar', 'particularizar', 'palpar', 'notar', 'freq\xc3\xbcentar', 'enferrujar', 'intermediar', 'exemplar', 'elogiar', 'esquivar', 'iludir', 'malfazer', 'fugir', 'cadastrar', 'ar', 'mover', 'riscar', 'quitar', 'frisar', 'santificar', 'bispar', 'protelar', 'cooperar', 'impregnar', 'carimbar', 'reinventar', 'pedir', 'usufruir', 'espumar', 'inventar', 'avolumar', 'influir', 'orar', 'originar', 'culminar', 'largar', 'booker', 'estilar', 'alfabetizar', 178 'gerenciar', 'revolucionar', 'correr', 'separar', 'alegrar', 'superlotar', 'alaranjar', 'tumultuar', 'isentar', 'adiantar', 'desculpar', 'viajar', 'acumular', 'legitimar', 'aplicar', 'inflacionar', 'existir', 'perfumar', 'esfriar', 'socorrer', 'assentar', 'balizar', 'prorrogar', 'escusar', 'divisar', 'precipitar', 'ferir', 'pousar', 'equivocar', 'comerciar', 'desenrolar', 'faixar', 'reconhecer', 'dirigir', 'florescer', 'designar', 'revezar', 'picotar', 'provar', 'desagradar', 'atabalhoar', 'afiar', 'sacrificar', 'chumbar', 'enriquecer', 'narrar', 'ter', 'peitar', 'trucar', 'propiciar', 'protestar', 'criminalizar', 'estabilizar', 'amaciar', 'moitar', 'passear', 'desaguar', 'transcorrer', 'escutar', 'agredir', 'semear', 'conflagrar', 'asfaltar', 'exportar', 'incomodar', 'abalar', 'berrar', 'variar', 'transportar', 'machucar', 'congelar', 'comprovar', 'mobilizar', 'circundar', 'shiborer', 'atirar', 'refinar', 'raivar', 'argumentar', 'unificar', 'flexibilizar', 'desaprovar', 'arrebanhar', 'transir', 'curar', 'vir', 'ampliar', 'marginar', 'movimentar', 'confidenciar', 'sufixar', 'rcandelorer', 'caiar', 'enfatizar', 'obrigar', 'aniquilar', 'propagar', 'provocar', 'transbordar', 'desapontar', 'vaiar', 'mancar', 'abdicar', 'prever', 'amigar', 'encarregar', 'refluir', 'exaltar', 'instrumentar', 'incluir', 'documentar', 'rebaixar', 'fortalezar', 'assuntar', 'consubstanciar', 'camuflar', 'revidar', 'popularizar', 'assassinar', 'recolher', 'espelhar', 'levar', 'bancar', 'ressalvar', 'sacar', 'baixar', 'validar', 'prosar', 'objetivar', 'iniciar', 'pretextar', 'contrabandear', 'esmerar', 'relatar', 'interromper', 'lograr', 'concordar', 'pinscher', 'revir', 'possibilitar', 'maravilhar', 'voltar', 'corrigir', 'rubricar', 'botar', 'herdar', 'implantar', 'saldar', 'gozar', 'reconstruir', 'respaldar', 'aterrissar', 'deitar', 'distribuir', 'imitar', 'coonestar', 'germinar', 'catapultar', 'retribuir', 'pular', 'apegar', 'mercadejar', 'fundamentar', 'desempregar', 'fundar', 'escorrer', 'sinistrar', 'dotar', 'rottweiler', 'sedimentar', 'rotar', 'resgatar', 'tributar', 'balear', 'segurar', 'emboscar', 'juramentar', 'alojar', 'invejar', 'leiloar', 'demorar', 'confiscar', 'buscar', 'desvendar', 'desautorizar', 'fardar', 'afastar', 'clicar', 'frigir', 'curtir', 'tartamudear', 'relutar', 'consolar', 'valorar', 'ficar', 'desvirtuar', 'vivenciar', 'completar', 'embasar', 'falsar', 'profundar', 'subir', 'enumerar', 'tematizar', 'radiar', 'cercar', 'cooptar', 'induzir', 'sucatear', 'multar', 'visitar', 'independer', 'infamar', 'endividar', 'fossar', 'crivar', 'subsidiar', 'apaixonar', 'tencionar', 'envolver', 'legislar', 'descaber', 'agitar', 'bloquear', 'revoltar', 'difer', 'onerar', 'enojar', 'deslocar', 'obcecar', 'encaminhar', 'estrondar', 'estilizar', 'corroer', 'ilhar', 'expirar', 'analisar', 'refrigerar', 'comunicar', 'corromper', 'atormentar', 'represar', 'influenciar', 'desaforar', 'fiar', 'aprovar', 'prensar', 'divulgar', 'atravessar', 'raciocinar', 'falir', 'prender', 'pilotar', 'aguardar', 'extinguir', 'trilhar', 'contender', 'admitir', 'urinar', 'buzinar', 'odorar', 'radicar', 'estancar', 'veicular', 'acautelar', 'retornar', 'estivar', 'salpicar', 'amarrar', 'enveredar', 'regulamentar', 'secretariar', 'apelidar', 'angariar', 'tesar', 'reflorestar', 'parlamentar', 'murar', 'apedrejar', 'conhecer', 'noticiar', 'esticar', 'disponibilizar', 'ingressar', 'materializar', 'fixar', 'lecionar', 'revisar', 'novar', 'recatar', 'tungar', 'assistir', 'revogar', 'emergir', 'flutuar', 'autorizar', 'cobrar', 'desconfortar', 'monopolizar', 'instituir', 'internar', 'arrasar', 'recear', 'religar', 'substanciar', 'tentar', 'poluir', 'torpedear', 'cegar', 'domar', 'ratinhar', 'encantar', 'desunir', 'coordenar', 'amar', 'permanecer', 'sentar', 'franger', 'perfilar', 'subalternar', 'dissolver', 'revitalizar', 'aproximar', 'confluir', 'interceder', 'direcionar', 'contentar', 'alfabetar', 'estirar', 'estreitar', 'irromper', 'enamorar', 'alvitrar', 'extraditar', 'retaliar', 'superar', 'elaborar', 'ilustrar', 'languir', 'agraciar', 'defender', 'retratar', 'festar', 'credenciar', 'informatizar', 'discursar', 'minguar', 'atravancar', 'sustentar', 'reativar', 'emitir', 'depender', 'revistar', 'ruir', 'melindrar', 'politizar', 'concernir', 'sustar', 'flertar', 'brindar', 'afligir', 'bendizer', 'assumir', 'estocar', 'deteriorar', 'cogitar', 'intervalar', 'aprontar', 'individualizar', 'sanar', 'marinar', 'desavisar', 'entravar', 'ondular', 'recompor', 'cessar', 'manger', 'ser', 'confessar', 'especializar', 'individuar', 'dourar', 'demonstrar', 'avariar', 'tender', 'convergir', 'agonizar', 'esvaziar', 'desfechar', 'merecer', 'esclarecer', 'escorregar', 'coadjuvar', 'constar', 'descortinar', 'ofender', 'viabilizar', 'pagar', 'vociferar', 'vulnerar', 'desbancar', 'alagar', 'estremecer', 'asfixiar', 'descontar', 'apodrecer', 'parecer', 'discernir', 'escorar', 'errar', 'latir', 'experimentar', 'enaltecer', 'cortar', 'alhear', 'considerar', 'formalizar', 'massacrar', 'fraturar', 'operar', 'invalidar', 'sentenciar', 'imaginar', 'juntar', 'desperceber', 'farpar', 'dimensionar', 'andar', 'alinhar', 'cimentar', 'impelir', 'dizer', 'cruzar', 'tarifar', 'esquentar', 'equilibrar', 'parar', 'partidarizar', 'recomendar', 'criar', 'chegar', 'politicar', 'empilhar', 'recobrar', 'gerir', 'entusiasmar', 'reformar', 'devir', 'gargalhar', 'ensinar', 'reparar', 'abolir', 'descender', 'deter', 'teimar', 'comprimir', 'guardar', 'repetir', 'cantar', 'auditar', 'reduzir', 'vaziar', 'enxergar', 'durar', 'cercear', 'arremessar', 'impedir', 'vitimar', 'reorganizar', 'judiciar', 'rogar', 'acolher', 'segar', 'premiar', 'filhar', 'autografar', 'contradizer', 'professar', 'impostar', 'restituir', 'rir', 'debandar', 'entrever', 'madrugar', 'carrear', 'estampar', 'bajular', 'conter', 'quadrar', 'desidratar', 'orquestrar', 'aldear', 'rifar', 'preestabelecer', 'mascarar', 'vendar', 'contestar', 'desorganizar', 'conectar', 'arrebatar', 'focar', 'relativizar', 'absolver', 'castrar', 'recompensar', 'folhar', 'complicar', 'revelar', 'doar', 'reagrupar', 'ostentar', 'resumir', 'expropriar', 'elucidar', 'apreciar', 'concertar', 'sofisticar', 'recorrer', 'mendigar', 'aplacar', 'conversar', 'profetizar', 'reeleger', 'usinar', 'propor', 'desenhar', 'verificar', 'retorcer', 'sequestrar', 'revirar', 'subornar', 'depositar', 'combinar', 'apresentar', 'mandar', 'reverter', 'debilitar', 'enfermar', 'ajudar', 'informar', 'apanhar', 'rcandelorir', 'azarar', 'tomar', 'formar', 'remunerar', 179 'rebatizar', 'escoar', 'fraudar', 'descaminhar', 'volver', 'desacelerar', 'polvilhar', 'afrontar', 'piorar', 'tingir', 'debelar', 'urdir', 'reencarnar', 'compensar', 'madeirar', 'oficializar', 'prostrar', 'permitir', 'fatiar', 'comover', 'duvidar', 'mostrar', 'descontentar', 'acrescer', 'prosperar', 'conspirar', 'comparar', 'eliminar', 'emocionar', 'comandar', 'rebater', 'debitar', 'sossegar', 'editorar', 'transmitir', 'injetar', 'tocar', 'advogar', 'impor', 'avisar', 'empolgar', 'consistir', 'aliviar', 'prevenir', 'acompanhar', 'fragilizar', 'trucidar', 'pulverizar', 'agradecer', 'suprimir', 'enfileirar', 'esmaecer', 'Haitir', 'gastar', 'apaziguar', 'reconduzir', 'integrar', 'projetar', 'hospedar', 'papar', 'limitar', 'estabelecer', 'escolher', 'fotografar', 'visar', 'enfraquecer', 'granir', 'controverter', 'exercer', 'poder', 'votar', 'inundar', 'detalhar', 'selar', 'descarregar', 'chapar', 'conglomerar', 'assinalar', 'divorciar', 'chefiar', 'desfrutar', 'indicar', 'assinar', 'articular', 'compassar', 'delinear', 'favorecer', 'implementar', 'proteger', 'desbloquear', 'alardear', 'arrotar', 'engolir', 'lembrar', 'anuir', 'antologiar', 'trombetear', 'democratizar', 'recordar', 'demitir', 'recair', 'alongar', 'traficar', 'nevar', 'abismar', 'recepcionar', 'reportar', 'protagonizar', 'contratar', 'memorar', 'ativar', 'representar', 'industrializar', 'decifrar', 'aquiescer', 'suprir', 'moderar', 'persistir', 'intimidar', 'encalacrar', 'conjugar', 'remir', 'manchar', 'aguerrir', 'alugar', 'estrangeirar', 'manter', 'definir', 'supervisionar', 'bichar', 'esfarrapar', 'desconsiderar', 'acalmar', 'colecionar', 'desenvolver', 'grafar', 'engatinhar', 'atrasar', 'atualizar', 'privar', 'amontoar', 'garantir', 'enredar', 'orgulhar', 'premer', 'enroscar', 'empresar', 'redesenhar', 'vestir', 'reencontrar', 'custear', 'secretar', 'assar', 'espancar', 'ocultar', 'canelar', 'mirar', 'roubar', 'carretar', 'entender', 'estimar', 'maldizer', 'afunilar', 'jazer', 'acuar', 'atacar', 'priorizar', 'rachar', 'madurar', 'esgotar', 'lixar', 'valer', 'cozinhar', 'desanimar', 'viciar', 'segredar', 'envelhecer', 'recuperar', 'recidivar', 'indigitar', 'privatizar', 'prevalecer', 'vibrar', 'exortar', 'colaborar', 'tremar', 'institucionalizar', 'ler', 'falecer', 'destinar', 'ludibriar', 'acatar', 'atrair', 'constatar', 'naufragar', 'satanizar', 'oficiar', 'exaurir', 'espantar', 'triplicar', 'causar', 'desmentir', 'precaver', 'ovar', 'substituir', 'abundar', 'ralar', 'pesar', 'executar', 'preservar', 'comentar', 'enforcar', 'ninar', 'prefixar', 'planejar', 'apitar', 'fer', 'desacreditar', 'lascar', 'aclamar', 'desapropriar', 'arraigar', 'incendiar', 'trair', 'perceber', 'assaltar', 'tripular', 'trajar', 'sobreviver', 'decepar', 'abortar', 'embolar', 'capitanear', 'pasmar', 'malhar', 'supor', 'abster', 'beirar', 'prolongar', 'trocar', 'alhar', 'opor', 'dedicar', 'seriar', 'danificar', 'responsabilizar', 'reacender', 'imigrar', 'patinar', 'expandir', 'perpassar', 'tatear', 'clamar', 'prescrever', 'conferir', 'panfletar', 'estudar', 'harmonizar', 'animar', 'importar', 'especificar', 'inaugurar', 'circular', 'militarizar', 'lotar', 'conclamar', 'omitir', 'tramar', 'intervir', 'permear', 'grassar', 'acanhar', 'inspirar', 'decolar', 'extremar', 'dissuadir', 'despachar', 'patrulhar', 'bulir', 'medicamentar', 'extrair', 'arrastar', 'aconselhar', 'eviscerar', 'descartar', 'diluir', 'delegar', 'recargar', 'prazer', 'relevar', 'rendar', 'traumatizar', 'fumegar', 'esbravejar', 'sintonizar', 'aguentar', 'ressarcir', 'gangrenar', 'pichar', 'turbar', 'esmagar', 'cunhar', 'punir', 'surfar', 'reviver', 'desejar', 'listar', 'treinar', 'testar', 'pisar', 'vencer', 'adestrar', 'dever', 'encravar', 'imprensar', 'dar', 'guiar', 'homenagear', 'contrair', 'encapsular', 'fartar', 'contrastar', 'reabrir', 'interceptar', 'engenhar', 'fornecer', 'convir', 'consertar', 'contabilizar', 'margear', 'deplorar', 'partilhar', 'disseminar', 'acomodar', 'vizinhar', 'inverter', 'horrorizar', 'relegar', 'dragar', 'reverberar', 'multiplicar', 'orientar', 'nomear', 'odiar', 'praticar', 'florestar', 'quietar', 'sobrevoar', 'diversificar', 'reaver', 'despedir', 'prestigiar', 'discorrer', 'ceifar', 'que', 'contrariar', 'desacordar', 'saciar', 'jogar', 'cair', 'pautar', 'apelar', 'engavetar', 'invernar', 'redobrar', 'tisnar', 'remanejar', 'gafar', 'interligar', 'fissurar', 'suportar', 'gamar', 'arrojar', 'vigiar', 'filiar', 'demandar', 'acalorar', 'instalar', 'detectar', 'isolar', 'aspirar', 'desmanchar', 'editar', 'conturbar', 'decorrer', 'drogar', 'parodiar', 'examinar', 'encarnar', 'repatriar', 'privilegiar', 'capar', 'marejar', 'haver', 'foder', 'desnutrir', 'vingar', 'despertar', 'foliar', 'eleger', 'encaixar', 'respeitar', 'colar', 'formigar', 'refrescar', 'pregar', 'associar', 'letrar', 'marginalizar', 'esburacar', 'compelir', 'parabenizar', 'entulhar', 'negligenciar', 'observar', 'planificar', 'oitar', 'resignar', 'denotar', 'brilhar', 'fiscalizar', 'dosar', 'redirecionar', 'dobrar', 'cozer', 'desordenar', 'quebrar', 'pontuar', 'doutrinar', 'trancar', 'cavar', 'ecoar', 'obsoletar', 'endossar', 'florir', 'soar', 'fingir', 'abastecer', 'sedar', 'gestar', 'piratear', 'poetar', 'empinar', 'explicar', 'ovacionar', 'recrutar', 'ingerir', 'pifar', 'recuar', 'adaptar', 'tornar', 'obscurecer', 'ofuscar', 'barbear', 'prepor', 'atalhar', 'nutrir', 'sindicar', 'desempenhar', 'descrer', 'suscitar', 'locar', 'infernar', 'atuar', 'garimpar', 'frequentar', 'exagerar', 'Haiter', 'terminar', 'inibir', 'clorar', 'empreitar', 'manipular', 'desenfrear', 'vidrar', 'pensar', 'vacilar', 'arrolar', 'sabatinar', 'consagrar', 'corresponder', 'equacionar', 'explodir', 'estruturar', 'meter', 'arear', 'tesourar', 'polarizar', 'deslanchar', 'apertar', 'encerrar', 'dispensar', 'majorar', 'ajoelhar', 'topar', 'desabar', 'pingar', 'orlar', 'suplantar', 'propagandear', 'sobrecarregar', 'escrever', 'granar', 'abastar', 'vogar', 'rapinar', 'alistar', 'fitar', 'inscrever', 'molhar', 'identificar', 'interferir', 'esfaquear', 'rumar', 'vetar', 'acelerar', 'apor', 'redar', 'devastar', 'xingar', 'confirmar', 'raptar', 'abrandar', 'ocasionar', 'carbonizar', 'distorcer', 'ambientar', 'agravar', 'palpitar', 'trabalhar', 'alienar', 'frangir', 'lesionar', 'enxurrar', 'marchar', 'combater', 'exalar', 'formatar', 'assimilar', 'amadurecer', 'barrar', 'conseguir', 'encurralar', 'faturar', 'entalar', 'caminhar', 'pernoitar', 'tranquilizar', 'solapar', 180 'desarticular', 'solucionar', 'chover', 'evocar', 'marinhar', 'suturar', 'chamuscar', 'degenerar', 'apurar', 'reerger', 'indeterminar', 'compor', 'versar', 'complementar', 'subordinar', 'antiquar', 'faltar', 'zumbir', 'queimar', 'cutucar', 'condecorar', 'incinerar', 'espremer', 'vedar', 'encorpar', 'encarcerar', 'comercializar', 'notabilizar', 'posar', 'ferrar', 'escancarar', 'notificar', 'medicinar', 'aborrecer', 'suspirar', 'reerguer', 'demolir', 'tresloucar', 'boxar', 'grifar', 'desprender', 'relembrar', 'chamar', 'sublevar', 'latinizar', 'cortejar', 'desgastar', 'almejar', 'descumprir', 'compactar', 'coroar', 'sobrar', 'descolar', 'desconhecer', 'abrigar', 'ferver', 'transferir', 'guinar', 'ponderar', 'concluir', 'congestionar', 'sonhar', 'competir', 'atracar', 'emplacar', 'janelarosser', 'cultivar', 'retardar', 'constituir', 'traduzir', 'ironizar', 'entornar', 'adorar', 'dificultar', 'estrear', 'catalisar', 'contextualizar', 'amenizar', 'degradar', 'condicionar', 'inviabilizar', 'arquivar', 'serrotar', 'renomear', 'interditar', 'gritar', 'governar', 'racionar', 'acenar', 'mutilar', 'sacudir', 'selecionar', 'encarecer', 'nadar', 'tarar', 'desativar', 'abatir', 'compartimentar', 'quadruplicar', 'fumar', 'rezar', 'reunir', 'resultar', 'bochechar', 'apossar', 'mesclar', 'fechar', 'resistir', 'estradar', 'shiborir', 'esvair', 'desferir', 'fortalecer', 'idealizar', 'especular', 'costumar', 'resolver', 'aglomerar', 'intimar', 'gelar', 'assentir', 'redundar', 'brotar', 'afogar', 'diminuir', 'eclipsar', 'despovoar', 'drenar', 'ritmar', 'menosprezar', 'habitar', 'sujeitar', 'presentar', 'cometer', 'ditar', 'conservar', 'twitter', 'recarregar', 'manufaturar', 'desencadear', 'tardar', 'reeditar', 'morrer', 'preconizar', 'canalizar', 'feder', 'estragar', 'doer', 'aventurar', 'atolar', 'adicionar', 'estufar', 'consumir', 'somar', 'investir', 'afincar', 'usar', 'sacramentar', 'incrustar', 'emendar', 'sufocar', 'ervar', 'sujar', 'rechear', 'ressurgir', 'fomentar', 'triscar', 'acessar', 'expurgar', 'chacoalhar', 'introduzir', 'barulhar', 'primar', 'desinteressar', 'saudar', 'obter', 'questionar', 'microfilmar', 'acotovelar', 'conjurar', 'lidar', 'larvar', 'potencializar', 'alfinetar', 'proporcionar', 'embalar', 'jardinar', 'checar', 'empreender', 'enunciar', 'brincar', 'chancelar', 'perfazer', 'esquartejar', 'tramitar', 'espalhar', 'qualificar', 'egossintonir', 'peregrinar', 'alegar', 'converter', 'exonerar', 'martirizar', 'enrascar', 'inexistir', 'aquartelar', 'avizinhar', 'constranger', 'deformar', 'negociar', 'irradiar', 'sambar', 'incitar', 'inativar', 'invadir', 'arrumar', 'envaidecer', 'regrar', 'diplomar', 'reajustar', 'prosseguir', 'simular', 'balar', 'desvalorizar', 'paralisar', 'oar', 'investigar', 'trunfar', 'esbarrar', 'oferecer', 'descansar', 'esfacelar', 'badalar', 'auxiliar', 'descontrair', 'prometer', 'pilar', 'expulsar', 'amamentar', 'fundir', 'inutilizar', 'prontificar', 'domesticar', 'vistoriar', 'percorrer']) >>> stopwords = nltk.corpus.stopwords.words('portuguese') >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords) >>> fd2 <FreqDist with 2637 outcomes> >>> sw2 = [w.title() for w in stopwords] >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> etiquetas = ['PR', 'IMPF', 'PS', 'FUT', 'IMP'] >>> sw2 = sw2 + etiquetas >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd2 <FreqDist with 2635 outcomes> >>> verbosf = fd2.keys() >>> texto = wordlists.fileids() >>> len(texto) 842 >>> grandstr = '' >>> k=0 >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in verbosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> k 842 >>> output_file2 = open('VH.txt', 'w') 181 >>> output_file2.write(grandstr) >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/PROP' >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 390443 >>> palavras[:10] ['[', 'EUA', ']', '<*>', 'PROP', 'M', 'P', '\\,', 'Barack', '='] >>> i=0 >>> ent=[] >>> while i <= 390442: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 29011 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 27237 outcomes> >>> propriosf = fd3.keys() >>> k=0 >>> grandstr = '' >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:50] '1.txt;PR;17;@@@10.txt;PR;74;@@@100.txt;PR;34;@@@10' >>> etiquetas = ['PR', 'IMPF', 'PS', 'FUT', 'IMP'] >>> sw2 = sw2 + etiquetas >>> len(sw2) 208 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 27216 outcomes> >>> propriosf = fd3.keys() >>> k=0 >>> grandstr = '' >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:50] '1.txt;Haiti;10;@@@10.txt;KC;15;@@@100.txt;Arns;12;' >>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper()) 182 >>> prop2 = fd5.keys() >>> prop2[:10] ['AAAS', 'AAPM', 'ABC', 'ABDIAN', 'ABDIAS', 'AC', 'ACB', 'ACM', 'ACS', 'ADAUTO'] >>> len(prop2) 5130 >>> prop2[5110:] ['Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro', 'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows'] >>> prop2[5119] 'aids' >>> prop2[5117:5119] ['Zynga', 'Z\xc3'] >>> fd4 = nltk.FreqDist(w for w in propriosf if w.istitle()) >>> prop1 = fd4.keys() >>> propriosf2 = prop1 + prop2[:5119] >>> len(propriosf2) 9000 >>> len(set(propriosf2)) 5119 >>> len(prop1) 3881 >>> prop1[3875:] ['Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga'] >>> propriosf = set(propriosf2) >>> len(propriosf) 5119 >>> grandstr = '' >>> k=0 >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:100] '1.txt;Haiti;10;@@@10.txt;KC;15;@@@100.txt;Arns;12;@@@101.txt;KC;13;@@@102.txt;KC;14;@@@103.txt ;KC;9;' >>> sw2.append('KC') >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 27215 outcomes> >>> propriosf = fd3.keys() >>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper()) >>> prop2[5110:] ['Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro', 'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows'] >>> prop2[5117:5119] ['Zynga', 'Z\xc3'] >>> fd4 = nltk.FreqDist(w for w in propriosf if w.istitle()) >>> prop1 = fd4.keys() >>> propriosf2 = prop1 + prop2[:5119] >>> len(propriosf2) 9000 183 >>> prop1.count('KC') 0 >>> prop2.count('KC') 1 >>> propriosf.count('KC') 0 >>> fd5 = nltk.FreqDist(w for w in propriosf if w.upper()) >>> prop2 = fd5.keys() >>> prop2[5110:] ['Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro', 'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows'] >>> prop2[5116:5118] ['Zynga', 'Z\xc3'] >>> propriosf2 = prop1 + prop2[:5118] >>> len(propriosf2) 8999 >>> propriosf = set(propriosf2) >>> len(propriosf) 5118 >>> grandstr = '' >>> k=0 >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:100] '1.txt;Haiti;10;@@@10.txt;US;10;@@@100.txt;Arns;12;@@@101.txt;Direitos;6;@@@102.txt;Lula;10;@@@1 03.tx' >>> output_file2 = open('PH.txt', 'w') >>> output_file2.write(grandstr) >>> resPV = [] >>> i=0 >>> k=0 >>> ent=[] >>> nomesP = [] >>> strp = '' >>> len(sentenc) 20325 >>> len(verbosf) 2635 >>> while k <= 2634: while i <= 20324: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) 184 i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> verbosf.index('ajudar') 115 >>> resPV[115] 'ajudar--->NYT Turquia Cantinho Jovem China TVs Z\xc3 Thomas Paus Integra\xc3 Pa\xc3 Silva Unidos TUNIN Secretaria Klein Elisabeth Holanda Organiza\xc3 Al\xc3 Crowley Pensa Fernandez Tim Rochelle Usaid Bruijn Celso Livre Diferentemente Edmond Sebasti\xc3 Bachelet B\xc3 Castro Blue SIM Montr\xc3 Leste Seitenfus Instituto Jo\xc3 Joshua Comando Clinton Nicolas Talca Vale Festival Estado BBC Come\xc3 Ki Aristide Uni\xc3 Ra\xc3\xbal Nova Sexta Ren\xc3 Timor Ex\xc3 Rio H\xc3 John Scarlett Igreja Domingo Pr\xc3 Karel Kak\xc3 Comunica\xc3 Manaus Lassegue Hillary Holmes R\xc3 Bush Sobre Cukier Jeffrey C\xc3 Grandes Gates Antunes Paraguai Lula Humvee Mundial Corinthians Philippe Oscar Peixoto Santo Desde Programa USS Cuba Dave Facebook Barcellos L\xc3 Irlanda FERNANDES Jean In\xc3 HQs Costa Folha Alemanha For\xc3 Santos Gr\xc3 Ensaio Forl\xc3 Novo Bol\xc3 SP Rica Cruz Eletrobr\xc3 Amorim Quarta Ar\xc3 Antes Lubini Kipman Agora Resgate Brad Policarpo Alagoas Termo Grupo STF CEOs Player Kendrick Horas Opera\xc3 Wyclef Floriano Kirby Guatemala Everlast N\xc3 Miranda VIRG\xc3 Bolduc ONU Barack Peru PT Ipea Felipe OAS Guerra Jos\xc3 R\xc3\xbassia Parque D\xc3 Casas Esfera Patrick Rufino DF Calc TV McKean Rep\xc3\xbablica WikiLeaks Vieira Minustah Louis Bunker Estados Internacional Champs Felix Mundo Joyandet Todos Bruxelas Berlim Arns Uruguai Monte Mogi Ros\xc3 Deus Berto Jobim Rodrigo Amanh\xc3 Segundo Reino Bento Ruanda Israel Caritas ONGs Moradores Ficar Ramos Grande Dilma Washington J\xc3 Andr\xc3 Pew Alain Obama Sandra Seguros Guido Barueri Iraque Real Fernando Armero Heni ESPM V\xc3 Hoje Aldofe Seguran\xc3 Semana Correa Canad\xc3 Max Comunidade Ainda Mercadoria Europa Laferri\xc3 Brasil Nigel Congresso Sesc Quinta Ant\xc3 Sean S\xc3 Confer\xc3\xaancia Guin\xc3 Dias Bolsa Outro Gabinete Plano Ban Rafael Quais Pastoral Armando Bernardes Delete Constitui\xc3 George Hugo Paulista Haiti At\xc3 CELY Petrobras Douglas Predator Kid EUA It\xc3 Filho Google Evelyne Callahan Bras\xc3 Poupelard Fam\xc3 Ajuda Isl\xc3 Ch\xc3 France Aramic Terra Ontem Caetano Fran\xc3 Hilda YouTube Distrito Sarkozy Gilles Afeganist\xc3 Malvinas Associated Atualmente Henrique Aneel Dona Fronteiras City Joe Penn Copa Col\xc3 Sob Alpes Bernard Robert On Kim Diz Caricom Iniesta Sandman Sa\xc3\xbade Palmeiras Espanha Bill Europeia Papa Tabarre Mulet T\xc3 Sul ADAUTO Helena Parks Paquist\xc3 Fidel Venezuela HOHAGEN Jorge Parceria Morador Casa Justi\xc3 Fundadora Ay Angelina Osasco Crise ROG\xc3 PAC Sbardelini Som\xc3 Baraka Ningu\xc3 Pessoa Gilmar Padr\xc3 Palestina Pel\xc3 Unasul Daniela Quirguist\xc3 Guy Presid\xc3\xaancia Adriano Byrs Guarda Itamaraty Apple Hermano Luiz Luis Neto Miami Cap Summer Cristo Marginal Conab Bertrand Projeto Bradesco Serra Angola Guilherme Nicol\xc3 Vinson Davos Pi\xc3 Cabo Universal Abin Lima Diego Firmeza Santa Passa Twitter Adriana Homem New Governador Paulo Mo\xc3 Campo Sri Los Minist\xc3 Mendes Homens Center Cidade Emerg\xc3\xaancia Ocha Porto Est\xc3 MSF Quero Rela\xc3 Gon\xc3 Pesquisa Carnaval Julio Pierre Educa\xc3 Marinha BB Defesa Escola Argentina Londrina Departamento Atl\xc3 Nelson Jamaica Comit\xc3\xaa Acton Ushahidi Montana Unidas Barros Na\xc3 Igor Zilda US Rousseff UE Pedro CNN Ribeiro M\xc3 Chile Souza RENZIO Morumbi Carl Bellerive Dois IBGE Zanin Lulafolia Am\xc3 Futuro/n' >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPH.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 2635 >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/ETIQUETADOS Haiti - Léxico' >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 1114353 185 >>> palavras[:10] ['H', '[', 'pessoa', ']', '<', 'H', '>', 'N', 'F', 'P'] >>> i=0 >>> ent=[] >>> while i <= 1114352: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 79668 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 72910 outcomes> >>> prointer = fd3.keys() >>> prointer[:100] ['ano', 'dia', 'pa\xc3', 'segundo', 'terremoto', 'governo', 'brasileiro', 'haitiano', 'ser', 'm\xc3\xaas', 'miss\xc3', 'mulher', 'presidente', 'hora', 'parte', 'pessoa', 'militar', 'capital', 'campo', 'ministro', 'americano', 'centro', 'm\xc3', 'regi\xc3', 'tempo', 'pol\xc3', 'maior', 'ponto', 'fundo', 'cidade', 'final', 'mundo', 'passado', 'lugar', 's\xc3', 'corpo', 'caso', 'estado', 'base', 'for\xc3', 'pra\xc3', 'bem', 'deve', 'local', 'v\xc3', 'grupo', 'semana', 'vida', 'defesa', 'fim', 'ex\xc3', 'crian\xc3', 'fam\xc3', 'tropa', 'elei\xc3', 'principal', 'casa', 'empresa', 'dinheiro', 'direito', 'rua', 'trag\xc3', 'pr\xc3', 'guerra', 'popula\xc3', 'noite', 'candidato', 'ser\xc3', 'rio', 'homem', 'morte', 'turno', 'geral', 'nova', 'setor', 'poder', 'secret\xc3', 'soldado', 'momento', 'rede', 'copa', 'general', 'meio', 'acesso', 'comando', 'prazo', 'banco', 'movimento', 'evento', 'filho', 'organiza\xc3', 'terra', 'falta', 'entrevista', 'diretor', 'encontro', 'n\xc3', 'comunidade', 'l\xc3', 'escola'] >>> len(prointer) 3655 >>> prointer[3650:] ['xingar', 'x\xc3', 'zorra', 'zumbir', '\xc3\xaaxodo'] >>> propriosf = prointer >>> texto = wordlists.fileids() >>> grandstr = '' >>> k=0 >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = '%s;%d;' % fd.items()[0] grandstr = grandstr + texto[k] + ';' + strent + '@@@' k +=1 continue >>> grandstr[:100] '1.txt;Haiti;10;@@@10.txt;ser;15;@@@100.txt;m\xc3;19;@@@101.txt;n\xc3;17;@@@102.txt;sobre;12;@@ @103.txt;sob' >>> output_file2 = open('EH.txt', 'w') >>> output_file2.write(grandstr) >>> i=0 >>> k=0 >>> ent=[] >>> nomesP=[] >>> resPV = [] >>> strp = '' >>> len(sentenc) 20325 186 >>> len(verbosf) 2635 >>> while k <= 2634: while i <= 20324: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> resPV[0] 'Estar--->ser rio secret\xc3 haver corredor Brasil h\xc3 assistente j\xc3 receber sair pen\xc3 recebido/n' >>> verbosf.index('ajudar') 115 >>> resPV[115] 'ajudar--->ano dia pa\xc3 segundo terremoto governo brasileiro haitiano ser m\xc3\xaas miss\xc3 mulher presidente hora parte pessoa militar capital campo ministro americano centro m\xc3 regi\xc3 tempo pol\xc3 maior ponto fundo cidade final mundo passado lugar s\xc3 corpo caso estado base for\xc3 pra\xc3 bem deve local v\xc3 grupo semana vida defesa fim ex\xc3 crian\xc3 fam\xc3 tropa elei\xc3 principal casa empresa dinheiro direito rua trag\xc3 pr\xc3 guerra popula\xc3 noite candidato ser\xc3 rio homem morte geral nova setor poder secret\xc3 soldado momento rede copa general meio acesso comando prazo banco movimento evento filho organiza\xc3 terra falta entrevista diretor encontro n\xc3 comunidade l\xc3 escola ag\xc3\xaancia forte hospital gente plano ent\xc3 funcion\xc3 passo professor c\xc3 desastre escravo maioria autoridade feita espa\xc3 presen\xc3 vez in\xc3 reuni\xc3 vice aeroporto p\xc3\xbablico entrada recurso d\xc3 oficial processo negro segunda chefe doa\xc3 equipe lado obra policial presente cara exterior comiss\xc3 comida institui\xc3 minuto valor leitor internet passagem argentino jornalista pequeno embaixador familiar porta site fonte cat\xc3 china pris\xc3 p\xc3 mercado pesquisa sociedade comandante resgate pai terreno manh\xc3 veio entidade efetivo mostra tarde alto claro deputado enviado posto acampamento amanh\xc3 natural per\xc3 tipo amigo fran\xc3 porto produto pessoal chanceler membro povo representante caminho estrangeiro f\xc3 t\xc3 estrutura padre justi\xc3 congresso franc\xc3\xaas volta conflito doador continente debate na\xc3 tomada civil sede cuba estudo ex irm\xc3 menor morador ator deus especialista jogador ordem ter c\xc3\xbapula lideran\xc3 queda via chegada gabinete tonelada falha marca contingente gangue sa\xc3 bolsa imprensa parceria partida aberta cr\xc3 emerg\xc3\xaancia futuro bloco ch\xc3 igreja est\xc3 fronteira pal\xc3 profissional tenda bairro curso espera quarto contato desafio desaparecido domingo norte quinta central custo oportunidade rea\xc3 su\xc3 time clube coordenador destino dire\xc3 marinha altura cabo cerim\xc3 paciente renda volunt\xc3 meta sobrevivente ter\xc3 companhia cujo fase frente marido sexta sorte costa doutor etapa golpe minist\xc3 vale financeiro gasto parente perda quadro amor aula confer\xc3\xaancia fila funda\xc3 fun\xc3 partido vizinho assessor empres\xc3 latino privada quarta sinal carnaval hotel interior foco sismo socorro vi\xc3\xbava Afeganist\xc3 cidad\xc3 cl\xc3 fator limite trabalhador abalo europeu junta onda verba ambiente come\xc3 contra cubano premi\xc3\xaa santo tucano zona estudante ir margem traficante criada cristo italiano acidente chin\xc3\xaas pleito prefeitura rod\xc3 surto tenta venda cobertura di\xc3 esp\xc3 estar organismo ru\xc3 abrigo atleta or\xc3 parceiro paulista religiosa suar agente solo Haiti cientista garoto rota classe haver mission\xc3 venezuelano cinema cliente conselho interessado abertura avan\xc3 capa dizer engenheiro fuzileiro gera\xc3 guarda conjunto cota forma\xc3 primeira primeiro torna ajudar caf\xc3 187 companheiro fiscal mau muda rebelde alma avenida contexto demora imediato ind\xc3\xbastria lama leva peru religioso tai baixo buraco despesa governante invas\xc3 prometido EUA al\xc3 anivers\xc3 arrecada\xc3 bandido beb\xc3\xaa campe\xc3 capit\xc3 comer competi\xc3 contr\xc3 estatal formado grande hemisf\xc3 inf\xc3 li\xc3 menino mo\xc3 realista vencedor advers\xc3 arredores artista criado desvio filar governar parque partir temporada agr\xc3 benef\xc3 bombeiro canto estreia goleiro intelectual licen\xc3 motorista tr\xc3 ativa at\xc3 chileno democrata divis\xc3 dominicano greve original auxiliar depend\xc3\xaancia destro\xc3 economista evitar externo liga\xc3 ontem preparo sobre subsecret\xc3 sucess\xc3 tarifa todo vila acusado entrar enviar fazer fogo frustra\xc3 la\xc3 legislativa mil\xc3 multid\xc3 pouso atacante cardeal caseiro comit\xc3\xaa construtor coordenada defensor elevado ficar inst\xc3 protagonista representa\xc3 todos visitante barato dar empreiteiro extremo industrial montanha recesso titular Brasil afirmar ainda cerca detido empreendedor h\xc3 litro lutar palanque podar precedente propriet\xc3 rapper rodovia seguran\xc3 sobrinho torre Minustah Porto benefici\xc3 casar colapso construtora diminui\xc3 esfera formar freira f\xc3\xbaria ganhar gestor jantar levar mar\xc3 m\xc3\xbasico pastor pouco rastro r\xc3 saia voltar ONU agora ajuda ativista bloqueio bom candidatar cont\xc3 deixar desde dever encarregado feira folhar monte palestino patrocinador paz pois prov\xc3 quanto refei\xc3 acontecer algum alimento a\xc3 cirurgi\xc3 coleta copar diabo empresar enxurrada festival frade holand\xc3\xaas imp\xc3 iniciado j\xc3 leito lona marcar oceano panorama perder porque presta\xc3 republicano saber sobrar socorrista solar trabalhar aventura batizado chegar cobertor compatriota cozinha delega\xc3 dez diretoria embora grego imprensar juntar morrer nada pedido pesado precisar problema quatro receber sair seguida sim templo tremor ver aguar aqui balc\xc3 barreira considerar controlar cortada crioulo demonstra\xc3 descendente distribuir dois escoltar esmola gal\xc3 grupar inverno leil\xc3 oper\xc3 outro passar quedo recompensa ruir secular seguir soldar tamb\xc3 tele tornar transformar trilha CNN Copa Folha Lula admirador assim atender atuar auto biblioteca caro cidadezinha cinco civiliza\xc3 colocar congressista criar cumprir dentista econ\xc3 eleger entrevistar equatoriano estimar falante falar fiscalizar folha instru\xc3 legado lula nadar not\xc3 novar novo parar perto pretender prometer quedar querer reconstruir relevo rodada sa\xc3\xbade sobretudo subsidiado sul tamanho total tudo viver vizinhan\xc3 Argentina Berto Canad\xc3 Fran\xc3 PT Rep\xc3\xbablica abrir almo\xc3 aparecer apoio aumentar bastante b\xc3 caminhar caminh\xc3 centrar condi\xc3 confirmar conseguir cortado defender deputar distribuidor distribui\xc3 eclos\xc3 encontrar esfor\xc3 esgotar excel\xc3\xaancia federal feito garantir hoje int\xc3 mandar manuten\xc3 matar moinho mundial m\xc3\xbatua nacional opera\xc3 parca pedir pensar policiar prender presid\xc3\xaancia privado privar relatar restaura\xc3 risco salvar situa\xc3 sob sugerir tanto tender usar vir Berna Bolduc Costa Cuba Dilma It\xc3 Jean Jos\xc3 Julio Pel\xc3 Ren\xc3 acabar adepto adiantar afetado afetar agendar agir alertar algo animal antes aprovar armar assegurar assist\xc3\xaancia avaliar avalia\xc3 avi\xc3 bancar bando barata bloquear bra\xc3 buscar cada card\xc3 cart\xc3 causar chamado chegado chuva cima cincar circo circular cnn coisa comboio conduzir conforme conhecer controle convocar coordenar cubar cuidado dalai decidir dentro destacar destruir desviar devido dificuldade dif\xc3 dirigir dispon\xc3 disputar divulgar encaminhar ente entregar entrever envio equipar errar escolher escoteiro escrever escultor esquecer estima estrat\xc3 exclusivo expressar faltar fluir fog\xc3 forma formiguinha fragata funcionamento funcionar gastar gritar hecatombe humanit\xc3 idear importante incluir informar interessar leigo liberar limitar mandante manter marinhar material mear medo merecer ministerial monta mortandade morto multilateral nado necess\xc3 novembro n\xc3\xbamero objetivo obter ocorrer oferecer onde operar op\xc3 pagar pedra planejar pobre por\xc3 possibilidade preciso preocupar preocupa\xc3 preparar presidencial prociss\xc3 procurar qualquer quase quest\xc3 rancho reconstru\xc3 redar reforma reformar render resgatar responder resultado resultar retornar revelar riscar rito saudar save saver savir seguido seriar servir servi\xc3 sobreviver sobrevoar socorrer sonegador suicida sustentar tema temer tempor\xc3 tem\xc3 tentar tentativa teto tolo tomar tr\xc3\xaas t\xc3\xaanue unir utilizar valer volver \xc3\xbaltimo \xc3\xbanico Alain Al\xc3 Am\xc3 BBC Ban Barack Bellerive Bernardes Bill Bolsa Bradesco Bras\xc3 Casa Chile Col\xc3 C\xc3 DF Everlast Fidel Floriano George Homem Iraque Jeffrey Kendrick Luiz Marinha Miami Minist\xc3 Mo\xc3 Mundial Na\xc3 Nova ONGs Obama On Paquist\xc3 Peru Player Pr\xc3 Robert Santos US Uni\xc3 Venezuela Washington Zilda abalar abrigar acessar acidentar aeronauta africano agenda aglomerar agregar alega\xc3 algu\xc3 ali alterar ambos amenizar amparar animador animar anteontem anual apesar apressar aprovado aproveitar arredor artigo atacar atentar atingir atoleiro atr\xc3 atual atualmente atua\xc3 aumento aux\xc3 bacana bacano bar boa busca caber camiseta campar carga carregado carregar car\xc3 centena certo chamar chino cine cio cofre comum comunicar comunica\xc3 comunit\xc3 concentrado concentrar conformar constitui\xc3 conter contingentar continuar contista crescer cria\xc3 crise cuidar dano dan\xc3 declarar definir democr\xc3 derrubar desabrigado 188 desabrigar desaparecer desigualdade despachante destitui\xc3 devastar diante diariamente dignidade diplom\xc3 discutir disponibilizar diverso diversos documento dormir durante economia educa\xc3 eleitoral eliminar enquanto enxurrar equipamento errado escombros especial esperar esportivo esquema estabelecer estabiliza\xc3 estopim estrago estrangeirar evangelista exemplo exigir fabrica\xc3 falto fato fen\xc3 fevereiro fez focar fossar fundar furac\xc3 futurar gest\xc3 gostar gravar grave horas ideia ilustrador imagem individual infinito inicial iniciativa integrante inteiro internacional investimento item janeiro jornal junto lei listar livrar locar longo maci\xc3 mal mandatar mandato mantimento marinho medicamento melhorar mencionar menos mensagem mero milhar ministrar montar mostrar negocia\xc3 nenhum nunca objetivar obrar ocupar orientar ouvir palmeira papel parecer perdido perguntar plantador pontar portanto pousar presentar prever priorit\xc3 privilegiar produzir projeto protagonismo publicar quinze recebido recolher redor regional renovar reportagem resolver respeitar retomar romancista sacar saque savar sempre sentar separado separar significar simples sobreviv\xc3\xaancia social sofrer solu\xc3 somente sugest\xc3 suspender talvez tarefa tasca toda trabalho transferir tratado tratar trazer trocar universal usado uso valar vantagem variar vigil\xc3 violento viol\xc3\xaancia vontade voz/n' >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVEH.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 2635 189 APÊNDICE C – Comandos para Corpus Chile em Método Supervisionados Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. **************************************************************** Personal firewall software may warn about the connection IDLE makes to its subprocess using this computer's internal loopback interface. This connection is not visible on any external interface and no data is sent to or received from the Internet. **************************************************************** IDLE 2.6.6 >>> # -*-coding: iso-8859-1 -*>>> import nltk >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Chile/PROP' >>> from nltk.corpus import PlaintextCorpusReader >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 63418 >>> i=0 >>> ent=[] >>> while i <= 63417: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> stopwords = nltk.corpus.stopwords.words('portuguese') >>> sw2 = [w.title() for w in stopwords] >>> sw2.append('PS') >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 4238 outcomes> >>> prointer = fd3.keys() >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle()) >>> prop1 = fd4.keys() >>> len(prop1) 1217 >>> fd5 = nltk.FreqDist(w for w in prointer if w.upper()) >>> prop2 = fd5.keys() >>> len(prop2) 1624 >>> prop2[1600:] ['Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3', 'emerg\xc3\xaancia', 'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar', 'propor\xc3', 'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo'] >>> prop1[1200:] 190 ['William', 'Wilson', 'Windows', 'Winston', 'Wired', 'World', 'Xinhua', 'Xynthia', 'Yadin', 'Yes', 'Yolanda', 'Your', 'Yukari', 'Zeca', 'Zeke', 'Zenith', 'Zou'] >>> prop2[1606:1608] ['Zou', 'Z\xc3'] >>> propriosf = prop1 + prop2[:1608] >>> propriosf = set(propriosf) >>> len(propriosf) 1608 >>> grandstr = '' >>> k=0 >>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Chile' >>> wordlists= PlaintextCorpusReader(corpus_root, '.*') >>> texto = wordlists.fileids() >>> while k <= 143: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = ' '.join(fd.keys()[:10]) grandstr = grandstr + strent k +=1 continue >>> grandstr[:200] 'Chile Inpres La San Aires Argentina Buenos Clar\xc3 Instituto MarceloS\xc3 ANA Academia Angela Antonio Beth Brasil Brasileira Brincadeira ChristianChile Diego EUA Francisco Hava\xc3 Jap\xc3 Richter San Santiago S' >>> listaP = grandstr.split(' ') >>> listaP[:10] ['Chile', 'Inpres', 'La', 'San', 'Aires', 'Argentina', 'Buenos', 'Clar\xc3', 'Instituto', 'MarceloS\xc3'] >>> len(listaP) 1155 >>> len(set(listaP)) 637 >>> set(['AderbalChile', 'For\xc3', 'Abrablin', 'Libra', 'Buenos', 'Edelnor', 'Turquia', 'Adimark', 'Gr\xc3', 'Wired', 'FernandaPinto', 'Buzina\xc3', 'Maradona', 'Clar\xc3', 'Z\xc3', 'Allende', 'Jaime', 'Andr\xc3', 'Pal\xc3', 'Richter', 'LAN', 'SBT', 'M\xc3', 'Oliveira', 'Edgardo', 'Itacarambi', 'PequenosChile', 'Vila\xc3', 'MundoVenezuela', 'Paul', 'George', 'J\xc3\xbanior', 'MichelleBachelet', 'ChristianChile', 'Silvio', 'Saint', 'Bol\xc3', 'Gandra', 'Maracan\xc3', 'Nova', 'Opus', 'Valle', 'Jane', 'Solange', 'Marisa', 'Punta', 'Canad\xc3', 'Panam\xc3Ferreira', 'Telecurso', 'Poit', 'Alan', 'Renova\xc3', 'Cruz', 'Caribe', 'Sebasti\xc3Bachelet', 'Al\xc3Chile', 'Bol\xc3Pequim', 'BRICS', 'Caruaru', 'ElBrasil', 'AlexandreAnos', 'Ta\xc3', 'David', 'ChilePedro', 'Associated', 'Record', 'PaulBachelet', 'MichelleSantiago', 'Clara', 'MichellePaulo', 'Renda', 'Cone', 'Victor', 'Antes', 'Kress', 'FT', 'SMS', 'Jer\xc3', 'ChileChile', 'Letelier', 'Alberto', 'ForeignChile', 'EIU', 'AlphavilleBrasil', 'Europa', 'Federa\xc3', 'Tiger', 'Provid\xc3\xaancia', 'Qu\xc3\xaania', 'Artibonite', 'Maratona', 'Anos', 'JuanAndy', 'Brasil', 'Hyderabad', 'Al\xc3', 'Folha', 'Jos\xc3Kirchner', 'Clinton', 'Crescente', 'Josefa', 'Alian\xc3', 'CentroChile', 'AreanoChatroulette', 'Fiuk', 'Associa\xc3', 'Canc\xc3\xban', 'SP', 'Presid\xc3\xaancia', 'Kimmel', 'DilmaLula', 'Aretuza', 'Andrade', 'S\xc3Araucania', 'Le', 'JeremyUganda', 'La', 'Kathleen', 'Lin', 'McAfee', 'Energia', 'ArtesAm\xc3', 'Bruno', 'EntelChina', 'Palacios', 'Erick', 'Gonzalo', 'Administra\xc3', 'Patr\xc3', 'Antitucan\xc3\xaas', 'FVF', 'Grupo', 'WilliamChileLa', 'Sebasti\xc3', 'ONU', 'Concha', 'STB', 'Dom', 'Bachelet', 'Cicero', 'ABL', 'Foreign', 'Goulart', 'Fiesp', 'Lisa', 'SulMoody', 'Carlos', 'VaticanoCopa', 'Arnaldo', 'Churchill', 'Ali', 'Maxwell', 'Hinzpeter', 'Cassino', 'ASSUSTATION', 'Ust\xc3', 'Fukushima', 'Farias', 'Lafis', 'Gabriela', 'Bellavista', 'BBTalcahuano', 'Jay', 'MarceloS\xc3', 'Chi', 'ChileUshahidi', 'ATPCarlos', 'Jo\xc3', 'Pernambuco', 'Leia', 'Estados', 'RS', 'Minist\xc3US', 'Lu\xc3', 'Bernardita', 'RC', 'Nurya', 'Luis', 'GPS', 'Coreia', 'Porto', 'USS\xc3', 'Bolsa', 'Gon\xc3', 'AHVAITARDE', 'Lima', 'DilmaBBB', 'Codelco', 'Publifolha', 'Ban', 'Rafael', 'Ex\xc3', 'Globo', 'San', 'MichelleChile', 'Kika', 'Council', 'EUASan', 'Servi\xc3Paulo', 'Inpres', 'Dudi', 'Neymar', 'Fertilizantes', 'Golfinho', 'Turismo', 'Barack', 'Cousi\xc3', 'Peru', 'Eugenio', 'Tarcisio', 'Federer', 'N\xc3Argentina', 'Al\xc3Jap\xc3', 'AugustoSantiago', 'Cunha', 'Elizabeth', 'MundoBachelet', 'Embaixada', 'Norte', 'Campos', 'China', 'Aires', 'Filipinas', 'Dantec', 'Rysselberghe', 'Tonga', 191 'Pr\xc3', 'Al\xc3Avenida', 'Felipe', 'Mall', 'Miguel', 'Col\xc3TEPT', 'ChileQueixa', 'CBAr', 'RichterABGLT', 'Hora', 'El', 'Bicenten\xc3', 'Gusan', 'Angola', 'Guerra', 'Boston', 'SendaiColo', 'Jesus', 'Cat\xc3Deus', 'Eduardo', 'BBChile', 'Aguas', 'Nicolas', 'Mendoza', 'Hugo', 'D\xc3', 'Rapesta', 'Talca', 'Delegacia', 'DilmaKissinger', 'CapPriscila', 'SantiagoHava\xc3', 'Tun\xc3Chile', 'Coisas', 'SantiagoCosta', 'Lorito', 'Guardian', 'Cem', 'Ara\xc3\xbajo', 'Miriam', 'Vale', 'Col\xc3', 'Altman', 'Demanda', 'Equador', 'Spiandorin', 'Haiti', 'Osmar', 'Estado', 'Fundo', 'Coquimbo', 'BBC', 'It\xc3', 'Ismael', 'SilvaBrasil', 'Espanha', 'Ex\xc3Jara', 'IPVA', 'Conjunto', 'Colorado', 'N\xc3Chile', 'ITF', 'Vargas', 'Alejandro', 'TheLAN', 'Fletcher', 'Alexander', 'EstadoCarlos', 'Diego', 'Axxion', 'Marcos', 'Mar\xc3Correa', 'Temuco', 'Levantamos', 'Vemos', 'Venezuela', 'Jap\xc3', 'Hava\xc3', 'T\xc3Chile', 'Gonz\xc3', 'Ocidente', 'Emerg\xc3\xaanciaFolha', 'Cruce', 'Kim', 'Dr', 'Artes', 'EUA', 'Copa', 'Ubabef', 'S\xc3', 'Depto', 'TimorHaiti', 'KatrinaFolha', 'Google', 'Andr\xc3For\xc3', 'Beavan', 'Araya', 'Lisboa', 'Ex\xc3Santiago', 'Banco', 'Universidade', 'Abipecs', 'Santos', 'Monitor', 'EM\xc3', 'Auxiliares', 'Bras\xc3', 'Itamaraty', 'PAC', 'Hilo', 'Indon\xc3', 'Anne', 'Bio', 'Santiago', 'BB', 'DJsNews', 'Corpora\xc3', 'P\xc3', 'Seraphin', 'Valpara\xc3Brasil', 'PauloChile', 'Michelle', 'Tofoni', 'Tend\xc3\xaancias', 'RODOLFOSP', 'GfK', 'Comunidades', 'Dorival', 'Adriano', 'CondellVi\xc3', 'Aliado', 'Joice', 'ParadoxalLula', 'Cristo', 'Washington', 'Mundo', 'Denise', 'Rio', 'Conselho', 'BBMarinha', 'ArgentinaChile', 'Grant', 'Hospital', 'Paulo', 'Zou', 'Unasul', 'GuerraChile', 'John', 'Maratonando', 'Austr\xc3', 'BrasileiraBachelet', 'Good', 'Cabrera', 'S\xc3Brasil', 'Rand\xc3', 'Maule', 'SANINO', 'Patr\xc3Natal', 'M\xc3\xbasica', 'Ribeir\xc3GEAN', 'Vicente', 'LGBT', 'Bariloche', 'Cordero', 'BIGCara\xc3', 'Rebolation', 'Ri\xc3', 'Eqecat', 'ANA', 'FernandaKleist', 'Nutrin', 'Kant', 'Atton', 'Brics', 'Ganso', 'DVD', 'TVs', 'Camila', 'Sebasti\xc3MIT', 'Deus', 'Na\xc3', 'EmbaixadaChile', 'Minist\xc3', 'Brastemp', 'N\xc3Folha', 'MundoBrasil', 'Chilo\xc3', 'Brincadeira', 'Arte', 'Natal', 'SantiagoCoreia', 'MercosulEuropa', 'Ir\xc3', 'Gyegu', 'Clijsters', 'AnaChile', 'ManuelJoyce', 'Cidade', 'Lukas', 'Jornal', 'Prov\xc3Darwin', 'Academia', 'Angela', 'Eguiguren', 'Francisco', 'Dieese', 'Abramat', 'Reino', 'Colo', 'Ex\xc3Bachelet', 'Cultura', 'Enem', 'Heine', 'GNS', 'Cynthia', 'ELVIRA', 'ALLAIN', 'Ex\xc3Chile', 'CBN', 'GMACChile', 'Febraban', 'Cerro', 'EscolaBig', 'Jacqueline', 'Israel', 'NovosBrasil', 'Panam\xc3', 'Leviat\xc3', 'Ortobom', 'Bloomberg', 'FAB', 'Belas', 'Instituto', 'Reis', 'Projeto', 'MTV', 'ADI\xc3', 'FernandoBrasil', 'Manuel', 'Clementina', 'AdrianoChile', 'ChilePi\xc3', 'Paraguai', 'N\xc3\xbacleo', 'Pierre', 'HaitiBachelet', 'Austr\xc3Chile', 'Austr\xc3Ibovespa', 'Lula', 'Cotton', 'BID', 'Fran\xc3', 'Marinha', 'Cear\xc3Brasil', 'Al\xc3Lay', 'Kacef', 'Defesa', 'BM', 'Museu', 'Ricardo', 'GSI', 'H\xc3', 'Argentina', 'Torres', 'Vilalva', 'Harel', 'Su\xc3', 'Bingol', 'ForbesPi\xc3', 'Oscar', 'Pelaa', 'EvoPi\xc3', 'Departamento', 'Caf\xc3', 'SymantecPi\xc3', 'Marina', 'Alemana', 'JocelynChile', 'RicardoAlejandro', 'Receita', 'Santa', 'Est\xc3', 'Gabriel', 'Roberto', 'Dia', 'NicanorPi\xc3', 'Grande', 'Onemi', 'Curto', 'Clube', 'Valdivia', 'IntercontinentalSantiago', 'Samoa', 'Uni\xc3Chile', 'AirChile', 'Alasca', 'Maria', 'Alencastro', 'Ex\xc3DEM', 'B\xc3', 'Sul', 'N\xc3', 'Andy', 'Jonathan', 'F\xc3Landrino', 'Apas', 'Prov\xc3', 'Shlaudeman', 'Abba', 'CGFome', 'Moscou', 'PI\xc3', 'PTB', 'Hu', 'Telhanorte', 'Facebook', 'Uni\xc3', 'BUEMBA', 'IPOs', 'Pr\xc3Dia', 'Cristi\xc3', 'Dilma', 'A\xc3Ara\xc3\xbajo', 'Pi\xc3', 'Antonio', 'Andes', 'CopaPi\xc3', 'Davis', 'Bamba', 'Miralles', 'US', 'Col\xc3Canales', 'Neruda', 'Bras\xc3Copa', 'Augusto', 'DistritoElazig', 'Pedro', 'Lib\xc3', 'Juan', 'UniversidadeAngra', 'Transtorno', 'Edmundo', 'Serra', 'Centro', 'Jos\xc3', 'NA', 'Hillary', 'Chile', 'Obama', 'A\xc3', 'Esperanza', 'CovasHaiti', 'Unica', 'Luciana', 'Abiec', 'Fam\xc3', 'Musso', 'SALLEReinoso', 'Beth', 'Belo', 'CristinaSantiago', 'Buena', 'ReginaldoChile', 'ScottiChile', 'Hava\xc3Jap\xc3', 'Rep\xc3\xbablica', 'Uruguai', 'Tancredo', 'AntesChile', 'Enrique', 'Pinto', 'FolhaSilva', 'Elano', 'Am\xc3', 'Niuatoputapu', 'MSF', 'BancoChile', 'FeriaBrasil', 'Mar', 'NatureMoscou', 'TV', 'Tradu\xc3', 'Jorge', 'Mario', 'Valpara\xc3', 'Brasileira', 'Ad\xc3', 'Discovery', 'DepartamentoChile', 'Heinrich', 'Samaritans', 'Costa', 'FPF', 'Casa', 'Windows', 'Artur', 'Fernando', 'Marcelo', 'Alfredo', 'NasaHillary', 'HaitiBrasil', 'Bracelpa', 'Oncken', 'Cuba', 'Benjam\xc3', 'Ar', 'Alemanha', 'Pablo', 'ChilePerigo', 'Corpo', 'Cristina']) >>> j=0 >>> strfil = '' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('LAN') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil 192 '33.txt 68.txt 71.txt 94.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('TheLAN') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '' >>> j 144 >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Valle') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '95.txt 96.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('For\xc3'') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue SyntaxError: EOL while scanning string literal >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('For\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '15.txt 20.txt 22.txt 3.txt 37.txt 48.txt 49.txt 56.txt 57.txt 61.txt 63.txt 64.txt 71.txt 81.txt 93.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Associa\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil 193 '112.txt 132.txt 134.txt 62.txt 78.txt 84.txt 92.txt 95.txt 96.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('USS\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Vale') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '117.txt 127.txt 53.txt 73.txt 82.txt 93.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('ITF') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '41.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Ubabef') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '101.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Depto') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue 194 >>> strfil '112.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Auxiliares') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '45.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Bras\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '110.txt 13.txt 16.txt 2.txt 20.txt 25.txt 3.txt 40.txt 60.txt 70.txt 75.txt 78.txt 79.txt 80.txt 81.txt 86.txt 87.txt 9.txt 93.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Corpora\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '32.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Aliado') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '6.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Hospital') != 0: strfil = strfil + texto[j] + ' ' j += 1 195 continue >>> strfil '119.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Unasul') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '81.txt 90.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('ANA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '10.txt ' >>> =0 SyntaxError: invalid syntax >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('EmbaixadaChile') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('GNS') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '114.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) 196 if texan.count('BID') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '110.txt 72.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Marinha') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '136.txt 20.txt 29.txt 30.txt 36.txt 49.txt 56.txt 64.txt 81.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Kacef') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue s >>> strfil '106.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Defesa') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '141.txt 15.txt 2.txt 75.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('BM') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '44.txt ' >>> strfil = '' 197 >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('GSI') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '3.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('H\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '110.txt 118.txt 129.txt 13.txt 134.txt 15.txt 20.txt 3.txt 36.txt 38.txt 40.txt 54.txt 70.txt 81.txt 82.txt 83.txt 86.txt 87.txt 92.txt 93.txt 99.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Departamento') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '103.txt 107.txt 123.txt 144.txt 82.txt 9.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Abba') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '104.txt ' >>> strfil = '' >>> j=0 >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Centro') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil 198 '129.txt 132.txt 140.txt 2.txt 5.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('BancoChile') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Heinrich') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '53.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Samaritans') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '27.txt ' >>> j=0 >>> strfil = '' >>> while j <= 143: texan = wordlists.words(texto[j]) if texan.count('Casa') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '129.txt 32.txt 67.txt 70.txt 82.txt 90.txt 93.txt ' >>> propriosf = ['For\xc3', 'Cruz', 'ONU', 'Bras\xc3', 'Itamaraty', 'Marinha', 'Defesa', 'GSI', 'CGFome', 'MSF', 'Samaritans'] >>> propriosf[0] 'For\xc3' >>> palverb = wordlists.words() >>> len(palverb) 1128585 >>> etverb = [w for w in palverb if w.startswith('v')] >>> etverb = set(etverb) >>> len(etverb) 330 199 >>> i=0 >>> verbs = [] >>> while i <= 1128584: if palverb[i] in etverb: if palverb[i-1] == '<': if palverb[i-2] == ']': verbs.append(palverb[i-3]) i +=1 continue >>> verbosd = set(verbs) >>> len(verbosd) 1396 >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd2 <FreqDist with 1394 outcomes> >>> verbosf = fd2.keys() >>> sentenc = wordlists.sents() >>> len(sentenc) 3187 >>> len(verbosf) 1394 >>> resPV = [] >>> i=0 >>> k=0 >>> ent=[] >>> nomesP = [] >>> strp = '' >>> while k <= 1393: while i <= 3186: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> resPV[71] 'ajudar--->ONU/n' >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPSC.txt', 'w') >>> output_file.write(sestr1) >>> verbosf='abalar@acabar@acusar@admitir@adotar@afetar@afirmar@agradecer@aguar@ajudar@alastrar@a 200 legar@alertar@aliar@amplificar@analisar@anunciar@apoiar@apontar@aprovar@ar@armar@assentar@ass entir@assumir@atacar@atender@atingir@aumentar@avaliar@bolar@buscar@cair@cancelar@casar@centra r@chegar@cincar@comandar@combater@comer@comerciar@conseguir@considerar@construir@consultar @contatar@contestar@controlar@conviver@correr@criticar@cruzar@culpar@cumprimentar@curtir@dar@ declarar@decolar@decretar@defender@delegar@demonstrar@demorar@desabrigar@descartar@descobrir @desconfortar@destinar@deter@devastar@dever@disparar@distribuir@divulgar@dizer@drogar@eleger@e logiar@emitir@entrar@entregar@entrever@entrevistar@entusiasmar@enviar@equipar@errar@esperar@es tar@estender@estimar@estudar@evacuar@exigir@exportar@expressar@falar@falhar@falir@falsar@faltar @fazer@ferir@ficar@financiar@fomentar@fossar@fugir@futurar@gerar@governar@haver@impedir@imple mentar@imprensar@indicar@informar@instalar@instaurar@instituir@ir@jogar@levar@ligar@listar@livrar @mandar@manter@marinhar@matar@mear@medir@militar@ministrar@mobilizar@montar@morrer@mot ivar@notar@novar@oar@ocorrer@ofertar@olhar@ordenar@pacificar@parecer@partir@passar@pedir@per der@perigar@permitir@pesquisar@pilotar@podar@poder@preparar@prestar@pretender@propor@propor cionar@proteger@provar@prover@publicar@querer@recolher@reconhecer@recorrer@recusar@redar@ref erir@relatar@respaldar@respeitar@responsabilizar@ressaltar@restar@retornar@reunir@revelar@riscar@ro ubar@ruir@sacar@sair@segar@seguir@ser@seriar@significar@sobrar@sobreviver@soterrar@suar@sustent ar@telefonar@tender@tentar@ter@tirar@tocar@tomar@trabalhar@trocar@ver@vir@visar@visitar@viver @zonar' >>> verbosf = verbosf.split('@') >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Chile/ETIQUETADOS Chile - Léxico' >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 174010 >>> i=0 >>> ent=[] >>> while i <= 174009: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 12281 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 11786 outcomes> >>> prointer = fd3.keys() >>> propriosf = prointer >>> len(propriosf) 1353 >>> i=0 >>> k=0 >>> ent=[] >>> nomesP =[] >>> resPV = [] >>> strp = '' >>> len(sentenc) 3187 >>> len(verbosf) 213 >>> while k <= 212: while i <= 3186: 201 if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVEAC.txt', 'w') >>> output_file.write(sestr1) >>> i=0 >>> ent=[] >>> while i <= 63417: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 4606 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 4238 outcomes> >>> propriosf = fd3.keys() >>> prointer = fd3.keys() >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle()) >>> fd5 = nltk.FreqDist(w for w in prointer if w.upper()) >>> prop1 = fd4.keys() >>> prop2 = fd5.keys() >>> prop2[1600:] ['Your', 'Yukari', 'ZUCKERBERG', 'Zeca', 'Zeke', 'Zenith', 'Zou', 'Z\xc3', 'amanh\xc3', 'emerg\xc3\xaancia', 'empresar', 'enviar', 'governar', 'grande', 'primeiro', 'propaganda', 'propor', 'proporcionar', 'propor\xc3', 'proposta', 'propriedade', 'propriet\xc3', 'segundo', 'volvo'] >>> propriosf = prop1 + prop2[:1608] >>> propriosf = set(propriosf) >>> len(propriosf) 1608 >>> i=0 >>> k=0 >>> ent=[] >>> nomesP=[] >>> strp = '' >>> resPV=[] >>> while k <= 212: while i <= 3186: 202 if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPAC.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 213 203 APÊNDICE D – Comandos para Corpus Haiti em Método Supervisionados Python 2.6.6 (r266:84297, Aug 24 2010, 18:46:32) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. **************************************************************** Personal firewall software may warn about the connection IDLE makes to its subprocess using this computer's internal loopback interface. This connection is not visible on any external interface and no data is sent to or received from the Internet. **************************************************************** IDLE 2.6.6 >>> # -*-coding: iso-8859-1 -*>>> import nltk >>> corpus_root4= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/PROP' >>> from nltk.corpus import PlaintextCorpusReader >>> wordlists4= PlaintextCorpusReader(corpus_root4, '.*') >>> palavras = wordlists4.words() >>> len(palavras) 390443 >>> i=0 >>> ent=[] >>> while i <= 390442: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> stopwords = nltk.corpus.stopwords.words('portuguese') >>> sw2 = [w.title() for w in stopwords] >>> sw2.append('PS') >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 27236 outcomes> >>> prointer = fd3.keys() >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle()) >>> fd5 = nltk.FreqDist(w for w in prointer if w.upper()) >>> prop1 = fd4.keys() >>> prop2 = fd5.keys() >>> len(prop1) 3881 >>> len(prop2) 5131 >>> prop2[5100:] ['Zhang', 'Zhouqu', 'Zhu', 'Zico', 'Zidane', 'Zilda', 'Zimb\xc3', 'Zito', 'Zoboomafoo', 'Zoey', 'Zona', 'Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro', 'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows'] >>> propriosf = prop1 + prop2[:5120] >>> propriosf = set(propriosf) >>> len(propriosf) 204 5120 >>> grandstr = '' >>> k=0 >>> corpus_root= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Haiti' >>> wordlists= PlaintextCorpusReader(corpus_root, '.*') >>> texto = wordlists.fileids() >>> len(texto) 842 >>> while k <= 841: fd = nltk.FreqDist(w for w in wordlists.words(texto[k]) if w in propriosf) strent = ' '.join(fd.keys()[:10]) grandstr = grandstr + strent k +=1 continue >>> listaP = grandstr.split(' ') >>> len(listaP) 7283 >>> len(set(listaP)) 1985 >>> set(listaP) set(['NYT', 'Gadael', 'Lavalas', 'Buenos', 'Toledo', 'NYC', 'Turquia', 'ManchesterPR', 'Sakineh', 'Exposi\xc3', 'Klein', 'Unidas', 'POUPEX', 'Galeria', 'Confirmado', 'DefesaPR', 'Western', 'Jovem', 'Nobre', 'Jornada', 'Henri', 'Maradona', 'Regininha', 'Blade', 'Z\xc3', 'H\xc3PR', 'Andr\xc3', 'Richter', 'Tomie', 'Cantagalo', 'MAR', 'MAX', 'Aeron\xc3', 'PRPR', 'Odebrecht', 'Paul', 'Absten\xc3', 'Rela\xc3PR', 'Festival', 'Unidade', 'UFRJPR', 'MehmetPR', 'Ag\xc3\xaanciaPR', 'Bender', 'Barcelona', 'Curitiba', 'ChinaPR', 'Brunhera', 'EstadoPR', 'LogoPR', 'HenryPR', 'YelePR', 'Amazon', 'Hamilton', 'Caribe', 'GlobalPR', 'Unidos', 'Igreja', 'Fabiano', 'Lassegue', 'ARISTIDE', 'Muro', 'Heine', 'Livestrong', 'Hamas', 'Moreira', 'Campala', 'NOV', 'RicardoNews', 'PortoPR', 'PewPR', 'Bombocados', 'Cityville', 'Disputa', 'Bellino', 'L\xc3', 'Juno', 'Tuvalu', 'AngelinaPR', 'Itaim', 'Qu\xc3\xaania', 'GreenPR', 'BELLEAU', 'Christina', 'Lazzarini', 'Inglaterra', 'Al\xc3', 'Folha', 'Crowley', 'Nadal', 'Fernandes', 'Ceci', 'Spektor', 'Josefa', 'Beyonc\xc3PR', 'Manigat', 'Tecnologia', 'Baptiste', 'ArmandoPR', 'MiamiPR', 'Bruijn', 'La', 'Celso', 'Swat', 'Bike', 'Abu', 'MUGGAH', 'TelecinePR', 'Carvalho', 'CesePR', 'Pr\xc3\xaamio', 'Figo', 'PioneiraPR', 'ONG', 'Edmond', 'Jordan', 'Miranda', 'ONU', 'Bachelet', 'ExecutivosPR', 'Castro', 'EuropeiaPR', 'Carlos', 'RBSPR', 'Funcex', 'KraftPR', 'V\xc3PR', 'PNH', 'Ram\xc3', 'MartaPR', 'AAAS', 'Zapata', 'Animais', 'Mogi', 'Laurence', 'Montr\xc3', 'Conex\xc3PR', 'Bras\xc3PR', 'EpidemiaPR', 'Natal', 'Evan', 'TorresPR', 'Jornal', 'Burns', 'Leste', 'Nig\xc3', 'Anos', 'JAN', 'Lass\xc3', 'Agenda', 'VTPR', 'MRE', 'Arroz', 'Caf\xc3', 'Jaboticabal', 'Indio', 'BancoPR', 'Almagro', 'Ag\xc3\xaanciasPR', 'Superior', 'Beaumont', 'Mait\xc3\xaa', 'Antoine', 'EspanhaPR', 'GuerraPR', 'Discovery', 'PR\xc3', 'Bandeira', 'Corcovado', 'William', 'Filipinas', 'Junior', 'University', 'AFA', 'DireitosPR', 'Roth', 'Sensus', 'Comando', 'Aperto', 'CEPRPR', 'BoiPR', 'Hora', 'Cambridge', 'Clinton', 'BTS', 'Abimilho', 'J\xc3\xbanior', 'Uganda', 'Eduardo', 'Cely', 'Toussaint', 'Sonia', 'Armador', 'BertrandPR', 'DeauphinPR', 'Claude', 'DayPR', 'CavagnariPR', 'Haiti', 'Estado', 'ZeroPR', 'Miragoane', 'Landrino', 'EUA', 'It\xc3', 'Almaghabi', 'Jiman\xc3Haiti', 'Equador', 'Chernobyl', 'IPVA', 'CESARPR', 'CastroJean', 'Jogos', 'ClaudiaPR', 'Madonna', 'Angelo', 'FilipinasPR', 'Renda', 'JeanPR', 'CfemeaPR', 'Araraquara', 'Capiberibe', 'Williams', 'Pastore', 'Christian', 'Albert', 'StephanesPR', 'Bing', 'Aristide', 'Uni\xc3', 'McAslanPR', 'Aquassab', 'Barretos', 'UnidasPR', 'Conrad', 'Comer', 'Wang', 'Minist\xc3PR', 'Sexta', 'Lisboa', 'Itu', 'Universidade', 'VivaPR', 'Union', 'Flash', 'SEITENFUS', 'ChilePR', 'ItamaratyPR', 'PAC', 'PAM', 'Mich\xc3', 'Alckmin', 'Frei', 'Christophe', 'Amano', 'Big', 'Estabiliza\xc3', 'Seraphin', 'Duvalier', 'KC', 'Gama', 'Pode', 'Honor\xc3', 'Vieira', 'Log\xc3', 'ConselhoPR', 'Bahia', 'Batista', 'Fifa', 'Ex\xc3', 'Cristo', 'Ari', 'Petit', 'Washington', 'Rio', 'BacellarPR', 'Perez', 'Caribbean', 'MartellyPR', 'BurkinaPR', 'Foster', 'GBS', 'H\xc3', 'CNBBPR', 'Comit\xc3\xaa', 'JobimPR', 'OMS', 'Madri', 'Granja', 'Chancelaria', 'Cantinho', 'Piragibe', 'Central', 'Bronx', 'Globocop', 'Complexo', 'BakerPR', 'Eqecat', 'Tr\xc3\xaasPR', 'A\xc3PR', 'PSB', 'Focus', 'Antecipa\xc3', 'DonaldPR', 'DinavancePR', 'Presid\xc3\xaanciaPR', 'MAGUIRE', 'GrupoPR', 'ETA', 'Associa\xc3PR', 'EmboraPR', 'CICV', 'Comunica\xc3', 'Na\xc3', 'CoBrA', 'Literatura', 'Manaus', 'Galula', 'Hillary', 'Bombeiros', 'Christopher', 'Paz', 'AnnePR', 'CE', 'Caio', 'Coordena\xc3', 'Alexandre', 'BernardesPR', 'Holmes', 205 'International', 'Xique', 'Domingos', 'Cultura', 'BuenosPR', 'Enem', 'Sa\xc3\xbade', 'Blakney', 'Figueiredo', 'DOPazPR', 'Afonso', 'ALLAIN', 'Dzhennet', 'FHC', 'Bush', 'CVM', 'Sobre', 'Cukier', 'Jeffrey', 'Andre', 'Venezuela', 'Unesco', 'Instituto', 'Maguire', 'C\xc3', 'Gates', 'Antunes', 'EnergyPR', 'Paraguai', 'BurnsPR', 'Cr\xc3', 'Lula', 'Saved', 'Sarah', 'Hirst', 'AjudaPR', 'Georgiana', 'Ricardo', 'SouthPR', 'Aid', 'Corinthians', 'Editora', 'Philippe', 'M\xc3PR', 'Saudade', 'Baixo', 'AbuncarePR', 'News', 'Philip', 'Ramalho', 'AustinPR', 'Guerrit', 'Roberta', 'Ensino', 'Gabriel', 'Roberto', 'Peixoto', 'Titanyen', 'Desde', 'Antilhas', 'Winhurst', 'Claudia', 'Guayaquil', 'Kamukama', 'Brenda', 'Nexus', 'Claudio', 'Ara', 'Bras\xc3Haiti', 'ONUPR', 'C\xc3PR', 'Bangladesh', 'Martelly', 'HD', 'Susana', 'Lee', 'Cuba', 'Lei', 'Leo', 'Les', 'Facebook', 'Chris', 'Davi', 'PCO', 'SantosKC', 'LimaPR', 'Barcellos', 'AltamiraPR', 'Mello', 'Eletrobr\xc3', 'Gomes', 'Imdb', 'Cameron', 'F\xc3PR', 'Irlanda', 'Batalh\xc3PR', 'Multiner', 'Lehman', 'Genebra', 'Cear\xc3', 'Aaron', 'Autoridade', 'MariaPR', 'ReutersPR', 'AmorimPR', 'Jos\xc3', 'Amec', 'J\xc3PR', 'Catedral', 'Djokovic', 'InternacionalPR', 'SantosPR', 'Pereira', 'Jean', 'BrasileiraPR', 'Piarroux', 'Neto', 'Ronaldinho', 'AllanPR', 'Austr\xc3', 'Minas', 'Ferreira', 'Uruguai', 'BabyPR', 'CIRH', 'Eugur', 'BieberPR', 'Partid\xc3', 'BarackPR', 'Gaza', 'Tun\xc3', 'Copenhague', 'Aftenposten', 'Sancak', 'Andres', 'Andrew', 'Blaise', 'Dezoito', 'Ramos', 'Cu\xc3', 'Channel', 'ErmilusPR', 'Espanha', 'Ir\xc3PR', 'CIDH', 'Costa', 'REN\xc3', 'AmBev', 'Conor', 'Mwalimu', 'Arnold', 'SantiagoPR', 'Articula\xc3', 'Jos\xc3PR', 'Fausto', 'DeixandoPR', 'Charles', 'Alemanha', 'Keller', 'Cargos', 'Cristina', 'For\xc3', 'Aulas', 'Santos', 'EnsaioPR', 'Fernandez', 'Amap\xc3', 'Hu', 'Bola', 'ComplexoPR', 'EM\xc3', 'LEWIS', 'Smithsonian', 'Gr\xc3', 'Dar', 'Cardoso', 'Atlanta', 'CTNBio', 'Algenor', 'OntemPR', 'OrienteONU', 'CarnavalPR', 'M\xc3', 'MinustahPR', 'Dutra', 'Global', 'Katrina', 'George', 'Kevin', 'CUKIER', 'Bol\xc3', 'Silvio', 'Silvia', 'HojePR', 'Nova', 'BrasilPR', 'KCNews', 'Rica', 'Arcahaie', 'PCs', 'Cruz', 'AssuntosPR', 'Fort', 'Summa', 'Caetano', 'Senger', 'David', 'GCMPR', 'DiferentementePR', 'Associated', 'Portugal', 'MJ', 'MT', 'Ar\xc3', 'MS', 'CentroPR', 'Francesca', 'Corte', 'Leogane', 'Antes', 'GLO', 'Ariel', 'LaurencePR', 'Jer\xc3', 'Lubini', 'Angra', 'Alberto', 'BloombergPR', 'Especial', 'Segundo', 'Segunda', 'MECPR', 'PapaPR', 'Dieu', 'Kipman', 'Brabatt', 'Nepal', 'Ben', 'Bel', 'Mount', 'Indy', 'MREPR', 'Nardini', 'Camisetas', 'Agora', 'Brad', 'AlexandrePR', 'CasaPR', 'Adolfo', 'Tatu\xc3PR', 'Ex\xc3KC', 'Avan\xc3', 'Lilia', 'Children', 'Sharon', 'Damon', 'BrasileiroPR', 'Putin', 'CELY', 'Roy', 'Alagoas', 'TaniaPR', 'STF', 'Cayes', 'MendesPR', 'CarlosPR', 'Martin', 'IvesPR', 'ANAPR', 'Livro', 'Itaquera', 'Tirone', 'MadagascarPR', 'Floriano', 'Conselho', 'Elias', 'Mandela', 'Selic', 'AnnCurry', 'Kirby', 'Lu\xc3', 'Mobiliza\xc3PR', 'World', 'GPS', 'RJ', 'Augusto', 'GomesPR', 'Maluf', 'Augusta', 'HRO', 'Roma', 'Perasso', 'FlorianoPR', 'ArgentinaPR', 'EscolaPR', 'Bolduc', 'Ter\xc3PR', 'SodomaPR', 'SciencePR', 'Sherlyne', 'Rousseff', 'Ciloni', 'Init\xc3', 'MundialPR', 'Luz', 'Barack', 'HaitiPR', 'Aberto', 'Peru', 'Vaticano', 'RichterPR', 'AntesPR', 'Save', 'Benin', 'Para\xc3', 'Ch\xc3', 'Mercadante', 'Job', 'Campos', 'Aires', 'Ipea', 'LulaPR', 'Integra\xc3PR', 'Jude', 'Record', 'Al\xc3PR', 'ConePR', 'NewsPR', 'Guerra', 'Boca', 'R\xc3\xbassia', 'Gaspard', 'QuartierPR', 'CNPq', 'Ahmadinejad', 'Eric', 'D\xc3', 'SulPR', 'WikiLeaks', 'Medicina', 'Bellanton', 'Levy', 'Capitalismo', 'Anhangaba\xc3\xba', 'Direitos', 'PSTUPR', 'Quarta', 'Data', 'Lubit', 'WalterPR', 'Borba', 'Martissant', 'Turgeaut', 'Assuntos', 'Love', 'Batalh\xc3', 'Bailong', 'BarraHaiti', 'Servi\xc3', 'Ali', 'Desviar', 'Kirchner', 'Rufino', 'Alejandro', 'GZero', 'Peterson', 'DJ', 'Marcos', 'Vida', 'Fuvest', 'Confedera\xc3', 'MARCELO', 'Calc', 'Crawford', 'UribePR', 'VicenzoHaiti', 'AliPR', 'Juvenal', 'Okinawa', 'LAFUENTE', 'Du', 'Hall', 'MLB', 'Cora\xc3', 'CTEx', 'Thatiana', 'Pombal', 'Muricy', 'Sacconato', 'Carpentier', 'AnistiaPR', 'Zepherin', 'Luzia', 'Bilardo', 'Trending', 'DeusPR', 'Mem\xc3', 'CristoPR', 'Laurentus', 'Tha\xc3', 'Itamaraty', 'Reuters', 'Minustah', 'CNCPR', 'TVPR', 'FashionPR', 'Pol\xc3PR', 'Amsterd\xc3', 'PazPR', 'AbibPR', 'Geisy', 'Faxion', 'Fam\xc3PR', 'Assembleia', 'FVPR', 'Kleist', 'Louis', 'RenaudPR', 'ZelayaPR', 'Estados', 'Barra', 'Champs', 'EconomiaPR', 'Felix', 'Antissemitismo', 'Mundo', 'MinasPR', 'Cristila', 'Manchester', 'Suzana', 'Bela', 'AjaxPR', 'Grant', 'CorailPR', 'Joyandet', 'And\xc3\xbajarPR', 'Creu', 'BanPR', 'Grand', 'RafaelPR', 'Consenso', 'Todos', 'Camboja', 'NuncaPR', 'Cezar', 'BienBrasil', 'CopenhaguePR', 'CRACOL\xc3', 'ObamaPR', 'Bruxelas', 'EsportePR', 'Abacha', 'Valmon', 'PetraeusPR', 'Tahiane', 'HarvardPR', 'Arns', 'FronteirasPR', 'Thales', 'Oriente', 'Enriquillo', 'OrientePR', 'Cinema', 'Messi', 'BellerivePR', 'Mesquita', 'Na\xc3PR', 'MichellePR', 'Kant', 'Cleiton', 'Leite', 'COP', 'Silva', 'Jeremy', 'Berny', 'SupremoPR', 'Dupoux', 'Petraeus', 'Ros\xc3', 'Deus', 'Secretaria', 'Cat\xc3PR', 'Bope', 'Ren\xc3', 'Berto', 'Jobim', 'OrlandoPR', 'ArkansasPR', 'EUAPR', 'Opep', 'Marshall', 'CharlesPR', 'Reino', 'Aeronautica', 'Atenas', 'OEA', 'Carrefour', 'PSDBPR', 'Bento', 'Acre', 'Ruanda', 'Ajuda', 'NelsonPR', 'Israel', 'Goulart', 'Gabeira', 'HAMANN', 'Telecurso', 'Plano', 'Cara\xc3', 'Caritas', 'Policial', 'Salvador', 'UTI', 'AndroidPR', 'Francisco', 'ArtibonitePR', 'IE', 'DVDs', 'Uzeda', 'SobrePR', 'ONGs', 'Guinle', 'DepartamentoPR', 'DesenvolvimentoPR', 'LulaHaiti', 'EPP', 'Daniel', 'Ontem', 'Bingol', 'Mar\xc3', 'Ci\xc3\xaancia', 'NahaPR', 'Zurique', 'Bakontou', 'Viver', 'Guimar\xc3', 'Georges', 'GRANT', 'Camp', 'CPTM', 'Grande', 'Fagundes', 'Mano', 'MARKPR', 'Pacaembu', 'Troy', 'London', 'Enio', 'It\xc3PR', 'RicardoPR', 'Arcade', 'Marc', 'Apae', 'Hariri', 'Ellen', 'BahiaPR', 'Controle', 'New', 'SilvaPR', 'Marx', 'Prov\xc3', 'ThePR', 'CGFome', 'Milan', 'Taubat\xc3', 'CORR\xc3', 'Campeonato', 'Dilma', 'Pi\xc3', 'Hamann', 206 'Ant\xc3PR', 'AlainPR', 'MarcPR', 'Croix', 'Cortado', 'SegundoHaiti', 'Alencar', 'CostaPR', 'Lib\xc3', 'Sim\xc3\xb5es', 'Abbasi', 'Comenta', 'SharonPR', 'Azim', 'Barbosa', 'PNLD', 'Beatles', 'AndersonBombeiros', 'Alain', 'ParisPR', 'MilitarPR', 'Orkut', 'ODM', 'ODA', 'CarnegiePR', 'Obama', 'Assis', 'JeffreyPR', 'Luciana', 'Guido', 'Barueri', 'Fam\xc3', 'Br\xc3', 'AntilhasPR', 'Kwasniewski', 'Rodriguez', 'CentralBrasil', 'MariePR', 'Camargos', 'Canad\xc3PR', 'RuthPR', 'CostaBrasil', 'Ave', 'FBI', 'Iraque', 'Catunda', 'Sudeste', 'Tempesta', 'Leth', 'Leclerc', 'How', 'USP', 'Ester', 'QuatroPR', 'ArnsNews', 'Palmares', 'N\xc3', 'Darelus', 'Aiea', 'Ad\xc3', 'Kofaviv', 'Civiliza\xc3PR', 'Sanon', 'Las', 'Fernanda', 'Alex', 'Martely', 'ICG', 'Fernando', 'FPU', 'Uribe', 'Especialistas', 'CNN', 'Holy', 'Yushu', 'FATTON', 'ASHA', 'BBNews', 'CristinaPR', 'Artur', 'AlencarPR', 'INVERT\xc3', 'Kimmelman', 'ESPM', 'Hoje', 'DatenaPR', 'EsquerdaPR', 'BaptistePR', 'Villard', 'Morus', 'Thermilus', 'SIM', 'PMDB', 'Hinche', 'Ningu\xc3PR', 'AlckminPR', 'Abbassian', 'Am\xc3PR', 'Dambala', 'BBCPR', 'Belimaire', 'Diferentemente', 'Blumenau', 'Wilm\xc3', 'Equil\xc3', 'Bataille', 'MultiPoint', 'Bashon', 'Aldofe', 'Noaa', 'Itacarambi', 'Andezo', 'JuniorPR', 'Correa', 'TSE', 'KimPR', 'MirlandePR', 'GUY', 'Giovanna', 'Canad\xc3', 'LulaGuerlane', 'GeraldPR', 'Consuelo', 'GaillotPR', 'Idade', 'Prefeitura', 'NobelPR', 'Kesner', 'Baresi', 'Charlie', 'Arthur', 'Gerson', 'Amor', 'Kassab', 'ESTEVAMPR', 'Gondim', 'Ang\xc3', 'Clara', 'Jo\xc3PR', 'Organiza\xc3PR', 'Jared', 'Dzhennets', 'EX', 'Canal', 'Dessalines', 'Estadista', 'GuardaPR', 'Olibert', 'Alvarez', 'Ciberpegadinhas', 'Gisele', 'Ciro', 'D\xc3PR', 'Europa', 'Fritz', 'Fran\xc3PR', 'Boeing', 'Brasil', 'ADPM', 'Sr', 'BaitullahPR', 'Beijou', 'St', 'Bombamos', 'Hegel', 'FMI', 'ONGPR', 'Nascido', 'Crescente', 'Erics', 'Debenedetti', 'Canc\xc3\xban', 'Faculdade', 'SP', 'Congresso', 'Veja', 'Andrade', 'AGOPPR', 'Cor\xc3', 'JosephPR', 'EstadosPR', 'Aldo', 'Thompson', 'Quinta', 'BolsaPR', 'Ilustrada', 'Cana\xc3', 'Coreia', 'VallePR', 'AngolaPR', 'Rosena', 'IgorPR', 'Hanover', 'Don', 'Renault', 'Organiza\xc3', 'Doc', 'Desenvolvimento', 'Foreign', 'Lisa', 'Fils', 'Sweet', 'UnicefPR', 'KIDDER', 'Sean', 'S\xc3', 'ECONOMIST', 'Solim\xc3\xb5es', 'SAINT', 'Internacional', 'Pernambuco', 'Ci\xc3\xaancias', 'Dias', 'Benjamin', 'Tomas', 'Marco', 'Carnegie', 'Setembro', 'Centros', 'VejaPR', 'Bolsa', 'Gabinete', 'Munda\xc3\xba', 'Ban', 'Cavour', 'Rafael', 'RoddickPR', 'Globo', 'CopaPR', 'Holbrook', 'Ensaio', 'AlbertoPR', 'Futebol', 'Skype', 'Pastoral', 'LimaHaiti', 'NGO', 'Joseph', 'Federer', 'HaitiAlan', 'Amado', 'Armando', 'Clash', 'Samuel', 'Seguran\xc3', 'Tratz', 'LippiPR', 'Confedera\xc3PR', 'Bernardes', 'Nina', 'Pol\xc3', 'Architecture', 'AipacPR', 'Comit\xc3\xaaPR', 'Chand', 'El', 'Cesar', 'Carpegiani', 'Feira', 'Boston', 'Diretor', 'Fasano', 'Contas', 'TBA', 'RJPR', 'Economist', 'Desvio', 'CNBB', 'Hugo', 'Caradeux', 'Sinai', 'Coisas', 'CongressoPR', 'Cirurgia', 'RomeroPR', 'Sysomos', 'Izard', 'Paolo', 'CandidatoPR', 'Narcisse', 'HomemPR', 'FarmVille', 'N\xc3PR', 'Ellus', 'Unifil', 'Abdolreza', 'Delatour', 'Tchech\xc3\xaania', 'BNDES', 'Rico', 'CansarPR', 'FacebookPR', 'QuadrinhosPR', 'Pagung', 'Rarar\xc3', 'Caroline', 'DuvalierPR', 'LUIZ', 'Justi\xc3PR', 'Pena', 'Penn', 'Murdoch', 'LisboaPR', 'Club', 'Predator', 'Cl\xc3', 'Atua\xc3', 'Kubica', 'CESAR', 'ClarkPR', 'EverlastPR', 'Artes', 'Martins', 'BBC', 'BBB', 'Ren\xc3PR', 'Depto', 'Filho', 'The', 'Unpol', 'Octavio', 'Darfour', 'Ramdin', 'Sa\xc3\xbadePR', 'LineuPR', 'Google', 'Honduras', 'Adogo', 'Justi\xc3', 'Marie', 'Londres', 'Constitui\xc3', 'Zhouqu', 'Itamar', 'Funda\xc3', 'Carolina', 'Gabrielle', 'Desim\xc3', 'Bras\xc3', 'Poupelard', 'AdolfoPR', 'Oliveira', 'Dartmouth', 'PoderPR', 'Julme', 'Terceiro', 'PaulPR', 'Base', 'Natasha', 'Michelle', 'PequimPR', 'Duran', 'Mujica', 'At\xc3', 'America', 'ParecePR', 'SaintPR', 'PSOL', 'Harold', 'P\xc3\xbablico', 'Indon\xc3PR', 'Delmas', 'CUBAPEDIA', 'Alentina', 'Franco', 'Maranh\xc3', 'France', 'Mirlande', 'NicolasPR', 'J\xc3', 'Brasa', 'Pindorama', 'Aramic', 'HaitiClinton', 'Faria', 'Benfica', 'Viva', 'King', 'SegundoPR', 'Ordaz', 'Jason', 'ANA', 'Embaixador', 'CDES', 'JudePR', 'LauraPR', 'Previd\xc3\xaanciaPR', 'Voltaire', 'Nobel', 'Propostas', 'Online', 'MarchaPR', 'Niemeyer', 'KobePR', 'PDVSA', 'Brothers', 'Espanhol', 'Pesquisa', 'Gilles', 'Ajax', 'HillaryPR', 'L\xc3PR', 'Ir\xc3', 'Afeganist\xc3', 'Clijsters', 'Care', 'SIMPR', 'EugenioHaiti', 'BCPR', 'Academia', 'Malvinas', 'CBF', 'EdmondPR', 'Guant\xc3', 'Henrique', 'Michel', 'Aneel', 'Jorginho', 'Bagd\xc3', 'Ex\xc3PR', 'Kobe', 'Angie', 'Fronteiras', 'Shannon', 'City', 'Artibonite', 'Dezembro', 'WSJ', 'Elito', 'Krugman', 'Rochelle', 'Usaid', 'Lafuente', 'BerkeleyPR', 'Copa', 'Meio', 'Est\xc3', 'ClintonPR', 'McCartney', 'FAO', 'FAB', 'Coq', 'Slama', 'GERALDO', 'Jocelyn', 'CPMF', 'UniversidadePR', 'Col\xc3', 'GisellePR', 'AhmadinejadPR', 'Em\xc3', 'WindowsPR', 'Sol', 'Congo', 'Borgela', 'Nelson', 'Alpes', 'Fran\xc3', 'FernandoPR', 'GenebraPR', 'Imprensa', 'Seguran\xc3PR', 'Esvaziado', 'Madre', 'Bernard', 'OAS', 'Dunga', 'UFSC', 'KCPR', 'Marina', 'Robert', 'RioPR', 'Zelaya', 'DILMA', 'Dia', 'DunhillPR', 'AramickPR', 'Diz', 'Mundial', 'OK', 'Bradley', 'ManigatPR', 'Balan\xc3', 'Datena', 'SITJA', 'Amecia', 'Andy', 'DEM', 'Sarkozy', 'CaioPR', 'Dama', 'Carole', 'Gordimer', 'Moscou', 'ArturoPR', 'Conven\xc3', 'Louverture', 'ClaudePR', 'AgoraPR', 'Ind\xc3\xbastriasPR', 'OmarPR', 'Camarote', 'Hizbollah', 'DailyPR', 'Bill', 'Antonin', 'Antonio', 'Amorim', 'PCBPR', 'EduardoPR', 'Bon', 'Orm\xc3', 'Boa', 'Tempor\xc3', 'Adel\xc3', 'Mulher', 'Flamengo', 'Europeia', 'Hammoud', 'Rog\xc3', 'BeloPR', 'Haitis', 'Emanuela', 'Transtorno', 'Shah', 'Inquisi\xc3PR', 'Racing', 'TwitterPR', 'Tabarre', 'Oce\xc3', 'ONGEUA', 'Mulet', 'Embora', 'Gerald', 'Divis\xc3', 'Jacques', 'T\xc3', 'A\xc3', 'Comfort', 'Tr\xc3\xaas', 'Cingapura', 'Tommy', 'Ashton', 'Austin', 'MaxPR', 'Democr\xc3', 'Belo', 'MEC', 'In\xc3PR', 'Twitter', 'Annabi', 'Kahn', 'Murray', 'Helena', 'Pascal', 'Direito', 'RobertsonPR', 'Brig', 'EarthquakePR', 207 'Alfred', 'Parks', 'Edward', 'Ti', 'PauloPR', 'Mariza', 'Com\xc3', 'UNPOL', 'Paquist\xc3', 'CCoPaBPR', 'Bacellar', 'TV', 'Jos\xc3Bacellar', 'Cl\xc3PR', 'Jorge', 'Brasileira', 'Yvonne', 'Morador', 'Brasileiro', 'Heinrich', 'Casa', 'Bel\xc3', 'AL', 'RachelPR', 'AP', 'Recife', 'RolinhaHaiti', 'Ag', 'Al', 'Baratos', 'Scott', 'Ay', 'Fl\xc3', 'Legi\xc3', 'Jim', 'CPE', 'Azea', 'CentralPR', 'Saint', 'Trachta', 'Or\xc3', 'Gascov', 'BUEMBAPR', 'Angelina', 'RodrigoPR', 'Business', 'Laferri\xc3', 'Fome', 'ALDO', 'HaitiBan', 'DeGrootPR', 'Helo\xc3', 'Robinho', 'Sodoma', 'In\xc3\xaas', 'Cosan', 'Renot', 'GSIPR', 'Ciclistas', 'Guin\xc3', 'DANNER', 'Chico', 'NespressoPR', 'LAN', 'MundoPR', 'Skaf', 'Sbardelini', 'AristidePR', 'GuanabaraPR', 'Baraka', 'Previd\xc3\xaancia', 'Mirabelais', 'Angelania', 'Drouin', 'No\xc3', 'Indon\xc3', 'Pessoa', 'Arg\xc3', 'GutembergPR', 'Alan', 'Sasikala', 'Isl\xc3', 'Baker', 'Pel\xc3', 'Jaramillo', 'Unasul', 'Caixa', 'Santiago', 'Dona', 'Agudelo', 'AlmirAlberto', 'Marta', 'HospitalPR', 'Wyclef', 'Urbi', 'Aquino', 'HondurasPR', 'CBN', 'Hispaniola', 'Jennifer', 'Anacleto', 'Siqueira', 'Pr\xc3PR', 'SMS', 'FoxNews', 'Roseana', 'Gavioli', 'JacquesHaiti', 'FM', 'Nardes', 'Gonaives', 'Provid\xc3\xaancia', 'Lang', 'BBPR', 'HOHAGEN', 'Corral', 'MichelPR', 'Petithomme', 'WiKiLeaksPR', 'Berlusconi', 'Revolu\xc3', 'Associa\xc3', 'Presid\xc3\xaancia', 'Collor', 'DiaPR', 'Aretuza', 'Nicole', 'CubaPR', 'PSDB', 'Higua\xc3', 'BAN', 'F\xc3', 'Meninas', 'Byrs', 'Lovely', 'Gon\xc3PR', 'Anglade', 'HIV', 'DennisPR', 'FFLCH', 'Lionel', 'Joel', 'B\xc3PR', 'Garcia', 'Confer\xc3\xaancia', 'Arnaldo', 'Apple', 'Fritznel', 'Rep\xc3\xbablicaPR', 'DilmaPR', 'Sirleaf', 'Elai\xc3', 'AindaPR', 'Shigeru', 'Conven\xc3PR', 'CompanhiaPR', 'Djabon', 'Mosley', 'Bird', 'TEPT', 'Shell', 'CE\xc3', 'Casillas', 'MinustahHaiti', 'Negro', 'Luiz', 'For\xc3PR', 'Luis', 'Rep\xc3\xbablica', 'Porto', 'Dubai', 'Miami', 'GabinetePR', 'Ronaldo', 'Cap', 'Elazig', 'SriPR', 'ExamePR', 'Social', 'Silveira', 'Ansanm', 'Armstrong', 'Suprema', 'UnidosPR', 'Ponto', 'MARAVILHA', 'Gara', 'Ushahidi', 'Rubens', 'NotaPR', 'Conab', 'Neymar', 'AlejoPR', 'Borges', 'Bertrand', 'S\xc3PR', 'IMFC', 'Arte', 'IsraelPR', 'CarpeggianiPR', 'CaribePR', 'Bradesco', 'Embaixada', 'China', 'LAMERIQUE', 'Baby', 'DesdePR', 'Esta\xc3PR', 'Pr\xc3', 'BELLERIVE', 'Gar\xc3', 'RioHaiti', 'Procuradoria', 'Payot', 'Ocha', 'Angola', 'CarolinaPR', 'Juliana', 'Bulg\xc3', 'Jesus', 'Gilberto', 'Ca\xc3', 'Uni\xc3PR', 'Eliana', 'Eliane', 'Ingrid', 'ZaninPR', 'Nara', 'Azueie', 'Forquilhinha', 'Playboy', 'RecordPR', 'Farc', 'Norte', 'Centro', 'MULET', 'Fundo', 'Vargas', 'Hospital', 'Palermo', 'Davos', 'Vemos', 'BRESSER', 'Ki', 'JorgePR', 'Premji', 'Eremildo', 'OMC', 'Universal', 'Abit', 'McDermott', 'Battisti', 'FABPR', 'Fletcher', 'Rede', 'ITV', 'Diego', 'BelPR', 'Anglo', 'Pan', 'Jap\xc3', 'John', 'Aranha', 'Investiga\xc3', 'BID', 'Stefano', 'Leherke', 'Santa', 'CulturaPR', 'Santo', 'Sim\xc3\xb5esPR', 'CaribbeanPR', 'Garc\xc3', 'Trad', 'Toyama', 'JacquesPR', 'Ant\xc3', 'MTVPR', 'LivePR', 'Amores', 'ZildaPR', 'USPR', 'Cebri', 'CorreaPR', 'Banco', 'ArnsPR', 'TiriricaPR', 'CruzPR', 'Seitenfus', 'Ahmedinejad', 'Tropic\xc3', 'Poder', 'Tavares', 'GloboPR', 'Primeira', 'P\xc3', 'DEPR', 'Unicef', 'MPPR', 'Tasso', 'Keen', 'Dorival', 'Adriano', 'TerraPR', 'Fleury', 'Jo\xc3', 'KIM', 'Broadway', 'Amanh\xc3', 'Egito', 'OCDE', 'Paulo', 'CastelloPR', 'Cabral', 'Hermano', 'Mo\xc3', 'Domingo', 'Paula', 'PR', 'PT', 'Iwo', 'ConnecticutPR', 'PC', 'Harvard', 'PF', 'Mat\xc3', 'Comiss\xc3', 'PM', 'Campo', 'QuadroPR', 'Sri', 'Mangueira', 'Islande', 'Adeus', 'CabralPR', 'BillPR', 'Mystil', 'Ativistas', 'WilliamsPR', 'Campus', 'Brics', 'Pav\xc3', 'Clauvis', 'AmaralPR', 'Rosenthal', 'Brice', 'Minist\xc3', 'Louise', 'Yahoo', 'Sabin', 'Alca', 'Brooklyn', 'Zynga', 'Aldir', 'Center', 'CidadePR', 'Eurasia', 'Cidade', 'Kak\xc3PR', 'BerlusconiPR', 'Ana', 'CDC', 'Ano', 'CDH', 'Fonds', 'Presidente', 'PastoralPR', 'MortosPR', 'Coronel', 'Marchand', 'PereiraPR', 'InternationalPR', 'SistemaPR', 'Rela\xc3', 'GrandePR', 'Lobo', 'BrasilHaiti', 'Reinhold', 'Rafale', 'Tribunal', 'Danny', 'Alma', 'Reis', 'MTV', 'Carnaval', 'Vant', 'Julio', 'Marger', 'Pierre', 'Sichuan', 'MontePR', 'Volta', 'FolhaPR', 'Marinha', 'BA', 'BB', 'BC', 'Defesa', 'BrendaPR', 'La\xc3PR', 'Chrysotile', 'Okabe', 'GravaPR', 'FACEBOOKPR', 'Guerlane', 'GSI', 'Argentina', 'Brigada', 'Su\xc3', 'YouTube', 'Departamento', 'Gomorra', 'Bartheloy', 'Ribeir\xc3', 'CLAUVIS', 'Coelho', 'Pal\xc3', 'Programa', 'Gilvam', 'San', 'Jamaica', 'Vila', 'Fashion', 'Micky', 'Friburgo', 'Maria', 'Oceania', 'B\xc3', 'Sul', 'Comida', 'Documenta', 'Acton', 'FPF', 'VenezuelaPR', 'CadyabosouPR', 'BricsPR', 'Herrero', 'Montana', 'Barros', 'BUEMBA', 'OdedPR', 'Andes', 'Kindle', 'Microsoft', 'ArgentinaKC', 'LuisPR', 'Orani', 'UsaidPR', 'Johnny', 'Igor', 'Zilda', 'US', 'Exposi\xc3PR', 'Lerebours', 'Rochitte', 'UE', 'Flavio', 'Pedro', 'ArenaPR', 'ARRUDEIE', 'Educa\xc3', 'Takai', 'Arruda', 'Paran\xc3PR', 'Ribeiro', 'ArtesPR', 'SantoArns', 'Farofa', 'Serra', 'Amo', 'PalmeirasPR', 'Chile', 'Poupex', 'Daphne', 'Souza', 'RENZIO', 'Morumbi', 'Beken', 'Carl', 'Bellerive', 'Dois', 'CristovamPR', 'Thimothe', 'Ag\xc3\xaancia', 'BIDPR', 'GeorgePR', 'Atl\xc3', 'Cit\xc3', 'Wall', 'HIVPR', 'Zanin', 'Live', 'Lemazor', 'Arjun', 'VilaPR', 'Gazeta', 'Einstein', 'UNpol', 'Lulafolia', 'Am\xc3', 'Manifesta\xc3', 'BarbaraPR', 'MSF', 'ViagemPR', 'QueroPR', 'Paraquedista', 'AVOMITAR', 'Bndes', 'Kurzban', 'Amaz\xc3', 'JEAN', 'CelsoPR', 'Milton', 'PNHPR', 'Mustaf\xc3', 'Recupera\xc3PR', 'Mbps', 'Amazonas', 'BANPR', 'Baltimore', 'Kl\xc3', 'Durval', 'BaixadaPR', 'Demi', 'DelmasPR', 'Corpo']) >>> j=0 >>> strfil = '' >>> while j <= 841: texan = wordlists.words(texto[j]) 208 if texan.count('Unidas') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '11.txt 117.txt 124.txt 133.txt 142.txt 143.txt 147.txt 15.txt 150.txt 157.txt 161.txt 172.txt 193.txt 2.txt 20.txt 201.txt 210.txt 211.txt 223.txt 227.txt 231.txt 243.txt 244.txt 267.txt 274.txt 277.txt 300.txt 310.txt 312.txt 314.txt 326.txt 327.txt 335.txt 346.txt 360.txt 376.txt 391.txt 400.txt 402.txt 429.txt 45.txt 454.txt 462.txt 483.txt 495.txt 50.txt 51.txt 524.txt 534.txt 57.txt 577.txt 582.txt 583.txt 584.txt 596.txt 598.txt 600.txt 621.txt 635.txt 641.txt 643.txt 652.txt 659.txt 666.txt 668.txt 669.txt 715.txt 720.txt 728.txt 757.txt 76.txt 769.txt 801.txt 803.txt 819.txt 832.txt 834.txt 842.txt 85.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('POUPEX') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '585.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Western') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '247.txt 279.txt ' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Western') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue j=0 SyntaxError: invalid syntax >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Europeia') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue j=0 strfil='' >>> j=0 >>> strfil='' 209 >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Europeia') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue j=0 strfil='' >>> strfil '168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt 438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt ' >>> j=0 >>> strfil '168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt 438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt ' >>> strfil '168.txt 23.txt 257.txt 294.txt 308.txt 312.txt 332.txt 362.txt 365.txt 376.txt 390.txt 404.txt 407.txt 426.txt 438.txt 475.txt 488.txt 518.txt 563.txt 613.txt 663.txt 677.txt 699.txt 740.txt 774.txt 794.txt ' >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Funcex') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '10.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('PNH') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '615.txt 638.txt 701.txt 778.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('AAAS') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '425.txt ' >>> j= SyntaxError: invalid syntax 210 >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('BID') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '102.txt 198.txt 200.txt 259.txt 308.txt 323.txt 394.txt 407.txt 457.txt 467.txt 476.txt 577.txt 741.txt 839.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('FMI') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '10.txt 112.txt 119.txt 139.txt 143.txt 176.txt 208.txt 277.txt 294.txt 304.txt 310.txt 335.txt 376.txt 409.txt 427.txt 436.txt 437.txt 482.txt 517.txt 533.txt 546.txt 612.txt 618.txt 663.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Bndes') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '373.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('BNDES') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '122.txt 127.txt 138.txt 208.txt 323.txt 373.txt 438.txt 549.txt 564.txt 695.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Hamann') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue 211 >>> strfil '220.txt 221.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CIDH') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '647.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CIRH') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '560.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('JAN') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '268.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('MRE') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '319.txt 333.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('AFA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue 212 >>> strfil '538.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('BTS') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '470.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('PAM') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '201.txt 85.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Fifa') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '465.txt 508.txt 520.txt 528.txt 587.txt 625.txt 714.txt 807.txt 817.txt 819.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('GBS') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '506.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CNBB') != 0: strfil = strfil + texto[j] + ' ' j += 1 213 continue >>> strfil '12.txt 14.txt 265.txt 31.txt 32.txt 493.txt 66.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CoBrA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '4.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('International') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '238.txt 261.txt 343.txt 365.txt 372.txt 4.txt 49.txt 502.txt 505.txt 510.txt 565.txt 568.txt 570.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Instituto') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '12.txt 138.txt 167.txt 175.txt 209.txt 213.txt 240.txt 250.txt 323.txt 360.txt 381.txt 401.txt 442.txt 466.txt 498.txt 532.txt 535.txt 567.txt 568.txt 607.txt 666.txt 676.txt 715.txt 723.txt 730.txt 745.txt 75.txt 770.txt 788.txt 789.txt 812.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Ajuda') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '122.txt 131.txt 133.txt 183.txt 274.txt 292.txt 361.txt 367.txt 549.txt 577.txt 650.txt 762.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) 214 if texan.count('Aid') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '73.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Amec') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '705.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('OrienteONU') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('GCM') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '629.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Associated') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '120.txt 168.txt 3.txt 313.txt 328.txt 445.txt 462.txt 631.txt 651.txt 729.txt 762.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: 215 texan = wordlists.words(texto[j]) if texan.count('GLO') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '693.txt 709.txt 760.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('MRE') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '319.txt 333.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('World') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '238.txt 261.txt 279.txt 291.txt 502.txt 505.txt 510.txt 563.txt 742.txt 761.txt 792.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('HRO') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '713.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Confedera\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '253.txt 332.txt 370.txt 811.txt ' >>> j=0 >>> strfil='' 216 >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('MLB') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CTEx') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CNC') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> J=0 >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('COP') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '422.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('OEA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '119.txt 141.txt 17.txt 294.txt 362.txt 395.txt 398.txt 419.txt 426.txt 428.txt 434.txt 475.txt 535.txt 569.txt 674.txt 699.txt 70.txt 703.txt 706.txt 74.txt 749.txt 750.txt 754.txt 762.txt 771.txt 790.txt 795.txt 796.txt 797.txt 801.txt 803.txt 809.txt 816.txt 818.txt 822.txt 828.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) 217 if texan.count('EPP') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '518.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('PNLD') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '584.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('ODM') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '534.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('ODA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '305.txt 770.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Prefeitura') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '187.txt 237.txt 253.txt 349.txt 401.txt 41.txt 465.txt 533.txt 561.txt 740.txt 743.txt 773.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: 218 texan = wordlists.words(texto[j]) if texan.count('Organiza\xc3') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '11.txt 113.txt 142.txt 17.txt 172.txt 176.txt 2.txt 210.txt 213.txt 231.txt 244.txt 294.txt 312.txt 426.txt 427.txt 428.txt 430.txt 434.txt 524.txt 534.txt 577.txt 580.txt 596.txt 619.txt 636.txt 64.txt 640.txt 649.txt 659.txt 667.txt 669.txt 672.txt 674.txt 676.txt 699.txt 703.txt 706.txt 715.txt 741.txt 750.txt 751.txt 757.txt 762.txt 771.txt 797.txt 803.txt 809.txt 816.txt 818.txt 822.txt 828.txt 831.txt 832.txt 833.txt 85.txt 89.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Guarda') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '122.txt 131.txt 293.txt 326.txt 473.txt 814.txt 83.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Baitullah') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '369.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('AGOP') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '12.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Internacional') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil 219 '132.txt 169.txt 182.txt 212.txt 213.txt 23.txt 238.txt 257.txt 294.txt 332.txt 335.txt 384.txt 436.txt 447.txt 475.txt 478.txt 482.txt 508.txt 517.txt 55.txt 57.txt 587.txt 60.txt 616.txt 64.txt 646.txt 65.txt 66.txt 666.txt 743.txt 77.txt 789.txt 792.txt 795.txt 796.txt 803.txt 815.txt 823.txt 836.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('NGO') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '114.txt 221.txt 236.txt 256.txt 342.txt 358.txt 372.txt 386.txt 40.txt 412.txt 414.txt 431.txt 498.txt 527.txt 540.txt 571.txt 573.txt 60.txt 64.txt 641.txt 713.txt 727.txt 789.txt 819.txt 84.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('TBA') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '254.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Unifil') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '621.txt 622.txt 744.txt 776.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Unpol') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '344.txt 346.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('PDVSA') != 0: strfil = strfil + texto[j] + ' ' 220 j += 1 continue >>> strfil '570.txt 580.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Usaid') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '1.txt 132.txt 172.txt 21.txt 792.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('FAO') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '31.txt 601.txt 757.txt 834.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('FAB') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '133.txt 138.txt 196.txt 227.txt 244.txt 255.txt 38.txt 390.txt 437.txt 439.txt 687.txt 693.txt 99.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Coq') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '379.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('UNPOL') != 0: 221 strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '600.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CCoPaB') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '575.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CPE') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '699.txt 703.txt 732.txt 750.txt 822.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('HaitiBan') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('TEPT') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '396.txt 592.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) 222 if texan.count('IMFC') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '517.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('Fundo') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '11.txt 124.txt 335.txt 436.txt 462.txt 480.txt 482.txt 57.txt 577.txt 612.txt 635.txt 641.txt 652.txt 715.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('OMC') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '317.txt 447.txt 577.txt 663.txt 715.txt 741.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('OCDE') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '365.txt 676.txt 770.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('PM') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '42.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: 223 texan = wordlists.words(texto[j]) if texan.count('Ativistas') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '328.txt 476.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CDC') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '838.txt ' >>> j=0 >>> strfil='' >>> while j <= 841: texan = wordlists.words(texto[j]) if texan.count('CDH') != 0: strfil = strfil + texto[j] + ' ' j += 1 continue >>> strfil '583.txt ' >>> propriosf = ['Unidas', 'POUPEX', 'Defesa', 'Western', 'ONG', 'ONU', 'Europeia', 'PNH', 'Itamaraty', 'OMS', 'CICV', 'Unesco', 'Minustah', 'Marinha', 'Defesa', 'MSF', 'UE', 'CGFome', 'Unicef', 'Pastoral', 'Fronteiras', 'Cruz', 'BID', 'FMI', 'CIRH', 'CIDH', 'Comiss\xc3', 'Direitos', 'PAM', 'GBS', 'Instituto', 'Aid', 'HRO', 'Organiza\xc3PR', 'Internacional', 'Usaid', 'FAB', 'Na\xc3', 'Viva', 'Crescente', 'Ocha', 'Comit\xc3\xaa'] >>> palverb = wordlists.words() >>> len(palverb) 6890079 >>> etverb = [w for w in palverb if w.startswith('v')] >>> etverb[:10] ['vt', 'vdt', 'vt', 'vi', 'vd', 'vt', 'vi', 'vd', 'vt', 'vi'] >>> etverb = set(etverb) >>> len(etverb) 737 >>> i=0 >>> verbs=[] >>> while i <= 6890078: if palverb[i] in etverb: if palverb[i-1] == '<': if palverb[i-2] == ']': verbs.append(palverb[i-3]) i +=1 continue >>> verbosd = set(verbs) 224 >>> len(verbosd) 2638 >>> fd2 = nltk.FreqDist(w for w in verbosd if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd2 <FreqDist with 2635 outcomes> >>> verbosf = fd2.keys() >>> resPV = [] >>> i=0 >>> k=0 >>> ent=[] >>> nomesP = [] >>> strp = '' >>> sentenc = wordlists.sents() >>> len(sentenc) 20325 >>> len(verbosf) 2635 >>> while k <= 2634: while i <= 20324: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> len(resPV) 2635 >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPSH.txt', 'w') >>> output_file.write(sestr1) >>> verbosf= 'Resultar@abaixar@abalar@abandonar@abolir@abortar@abrigar@abrir@abster@abusar@acabar@acalenta r@acalmar@acampar@acatar@aceitar@acelerar@acentuar@acertar@acessar@achar@acionar@aclamar@a companhar@acontecer@acordar@acostumar@acreditar@acrescentar@acrescer@acuar@acumular@acusar @adaptar@adequar@adiantar@adiar@adicionar@administrar@admirar@admitir@adotar@adquirir@adverti r@advogar@afastar@afetar@afirmar@afrontar@agendar@agilizar@agir@agradecer@agravar@agredir@agr egar@aguar@aguardar@ajudar@alar@alarmar@alastrar@alegar@alertar@aliar@alimentar@aliviar@alterar @alugar@amamentar@amanhecer@amar@ambientar@amentar@amigar@amontoar@amostrar@amparar @ampliar@analisar@ancorar@andar@antever@anunciar@apadrinhar@aparatar@aparecer@aparentar@ape drejar@apelar@apelidar@aplaudir@aplicar@apoiar@apontar@apor@aposentar@apostar@aprender@apres entar@aprofundar@aprovar@aproveitar@aproximar@apurar@ar@argumentar@armar@arrasar@arrastar@ arrecadar@articular@artilhar@ascender@aspar@assaltar@assassinar@assegurar@assentar@assentir@asses sorar@assinalar@assinar@assistir@associar@assumir@assuntar@atacar@atar@atender@atentar@ater@ate 225 rrissar@aterrorizar@atingir@atirar@ativar@atrair@atrapalhar@atrasar@atravessar@atribuir@atualizar@atu ar@aumentar@autorizar@auxiliar@avaliar@avisar@baixar@balar@balir@bancar@banhar@barrar@barricar @barrir@basear@bastar@batalhar@batizar@beber@beneficiar@blindar@bloquear@bolar@bolsar@bordar @botar@brigar@brincar@buscar@caber@cadastrar@cair@calcular@calmar@caminhar@campar@canalizar @cancelar@cansar@capitanear@captar@capturar@carecer@carnar@carregar@casar@cascar@causar@ced er@centrar@cercar@chamar@chancelar@checar@chefiar@chegar@cheirar@chocar@cifrar@cincar@circula r@citar@clorar@cobrar@cobrir@cocar@colaborar@colar@coletar@colher@colocar@colorar@comandar@c ombater@comemorar@comentar@comer@comerciar@cometer@comparar@comparecer@compartimentar @compensar@compilar@complementar@completar@complicar@compor@comprar@comprometer@comun icar@conceder@concentrar@concertar@conclamar@concluir@concordar@concorrer@condecorar@condena r@condicionar@conduzir@confessar@confirmar@conflagrar@conformar@confrontar@conhecer@conquista r@conseguir@consertar@conservar@considerar@consolidar@constar@constituir@construir@consultar@co ntabilizar@contaminar@contar@contatar@contemplar@contender@contentar@conter@contestar@conting entar@continuar@contradizer@contrariar@contratar@contribuir@controlar@convencer@convencionar@co nversar@converter@convidar@convocar@coordenar@copar@coroar@correr@corresponder@corrigir@cost umar@cotar@cozinhar@credenciar@creditar@crescer@criar@criticar@cruzar@culpar@cultivar@cumprimen tar@cumprir@cunhar@cursar@custar@custear@danar@danificar@dar@datar@debater@debelar@debilitar @decidir@declarar@decolar@decretar@dedicar@defender@definir@degradar@deixar@delinear@demanda r@demitir@demorar@dentar@denunciar@depauperar@depender@depor@deputar@derivar@derrotar@de rrubar@desabar@desabrigar@desacreditar@desafiar@desaparecer@desarmar@desautorizar@descaber@de scartar@descobrir@desconfortar@desconhecer@desconjuntar@descrever@desembarcar@desempenhar@d esencadear@desenhar@desenvolver@desesperar@desfilar@designar@desistir@deslocar@desmantelar@des moronar@desorientar@despachar@despedir@despejar@desproteger@destacar@destinar@destituir@destr uir@desviar@detalhar@detectar@deter@deteriorar@determinar@devastar@dever@devir@devolver@dialo gar@dificultar@difundir@digerir@diminuir@direcionar@dirigir@discar@discordar@discursar@discutir@disp arar@dispor@disputar@disseminar@dissuadir@distinguir@distribuir@ditar@divergir@divulgar@dizer@doar @dobrar@documentar@doer@dominar@dourar@drogar@duplicar@durar@ecoar@editar@efetivar@elabor ar@eleger@elevar@eliminar@elogiar@embarcar@embargar@emboscar@emergir@emitir@emocionar@em penhar@emperrar@empregar@empresar@emprestar@enaltecer@encaixar@encaminhar@encampar@encar ar@encarregar@encerrar@encomendar@encontrar@endossar@endurecer@enfileirar@enfraquecer@enfren tar@enganar@engenhar@enlatar@enquadrar@enraizar@ensaiar@ensinar@entender@entoar@entrar@entr egar@entrepor@entrever@entrevistar@enunciar@enveredar@enviar@envolver@equilibrar@equipar@equi parar@erguer@escalar@escapar@esclarecer@escolher@escoltar@esconder@escrever@esfriar@esgotar@es maecer@esmagar@espalhar@especializar@esperar@espressar@esprimir@esquecer@estabelecer@estabiliza r@estacionar@estar@esteirar@estender@estilar@estimar@estimular@estivar@estocar@estourar@estradar @estragar@estrangeirar@estrear@estreitar@estrelar@estruturar@estudar@esvaziar@evitar@evoluir@exag erar@excepcionar@executar@exemplar@exemplificar@exercer@exibir@exigir@exilar@existir@exortar@ex perimentar@explicar@explodir@explorar@expor@exportar@expressar@externar@extremar@facilitar@falar @falecer@falhar@falir@faltar@fantasiar@farpar@fatiar@fatorar@fazer@fechar@ferir@ficar@fichar@filar @filhar@filiar@filmar@filtrar@financiar@finar@firmar@fixar@florar@florir@focar@folgar@folhar@foment ar@forjar@formalizar@formar@formatar@formular@fornecer@fossar@fotografar@fracassar@fraudar@fre quentar@frutar@fugir@funcionar@fundar@fundir@furar@futurar@ganhar@garantir@gastar@gemer@gene ralizar@gerar@gerenciar@golfar@governar@gozar@gradar@graduar@gramar@gravar@grupar@guardar@h abilitar@haiter@haitir@haver@homenagear@honrar@idear@identificar@ignorar@ilhar@ilustrar@imaginar @impedir@implementar@impor@importar@impostar@imprensar@imprimir@inaugurar@incendiar@incenti var@inclinar@incluir@incomodar@incorporar@incrementar@indagar@indenizar@indicar@indiciar@individu ar@induzir@infectar@influenciar@informar@ingressar@iniciar@insistir@inspirar@instalar@institucionalizar @instrumentar@integrar@intensificar@interceder@interessar@interferir@intermediar@internar@interromp er@intervalar@intervir@invadir@investigar@investir@ir@irritar@janelarosser@janelarossir@jantar@jogar@ julgar@juntar@justificar@lamentar@lanchar@languir@largar@lavar@legar@legendar@lembrar@ler@lesar @levantar@levar@liberar@lidar@liderar@ligar@limitar@limpar@listar@livrar@lixar@localizar@locar@lotar @lucrar@lutar@madrugar@mandar@mandatar@manifestar@manipular@manobrar@manter@marcar@mar char@maridar@marinhar@matar@mear@medalhar@mediar@medicinar@medir@melhorar@melindrar@m emorar@mencionar@mercar@mesquinhar@meter@militar@minimizar@ministrar@minutar@mobiliar@mob 226 ilizar@modelar@moderar@modernizar@moldar@monitorar@montar@morar@morrer@mostrar@motivar@ motorizar@mover@movimentar@mudar@murar@nadar@nascer@negar@negociar@nomear@nortear@not ar@noticiar@novar@oar@obedecer@objetar@objetivar@obrar@obrigar@observar@obter@ocorrer@ocupa r@odiar@oferecer@ofertar@oficializar@oficiar@olhar@operar@opor@ordenar@organizar@orgulhar@orien tar@originar@ouvir@ovar@pacificar@pagar@pairar@palestrar@parar@parecer@parir@parlamentar@partic ipar@partir@passar@patinar@patrocinar@patrulhar@pausar@pedir@pegar@penar@pendurar@pensar@pe rceber@percorrer@perder@perdoar@perguntar@perigar@permanecer@permitir@persistir@perspectivar@ pertencer@pesar@pesquisar@pilar@pilotar@piorar@placar@planar@planejar@podar@poder@policiar@pol uir@ponderar@pontar@popularizar@portar@posicionar@positivar@possuir@postar@potencializar@pousar @preceder@precipitar@precisar@preestabelecer@preferir@pregar@prejudicar@prender@preocupar@prep arar@prepor@prescindir@presentar@preservar@presidir@pressionar@prestar@prestigiar@pretender@prev er@priorizar@processar@procurar@produzir@profundar@prognosticar@programar@projetar@prolongar@ prometer@promover@pronunciar@propagandear@propor@proteger@protestar@provar@prover@provocar @publicar@pulverizar@quadrar@qualificar@quebrar@quedar@querer@questionar@quintar@quitar@radica r@rasgar@ratificar@reabrir@reafirmar@reagir@realizar@reativar@reavaliar@rebater@recapturar@receber @recepcionar@recidivar@reclamar@recolher@recompensar@recompor@reconhecer@reconstruir@recorda r@recorrer@recrudescer@recrutar@recuar@recuperar@redar@redobrar@reduzir@reeditar@reembolsar@r eerguer@referir@reformar@registrar@regrar@regredir@regressar@regulamentar@reiterar@rejeitar@relaci onar@relatar@relativizar@relembrar@relutar@remover@remunerar@rendar@render@renomear@renovar @reparar@repartir@repassar@repetir@replicar@reportar@representar@reprimir@reprisar@requintar@res ervar@resgatar@resistir@resolver@respaldar@respeitar@responder@responsabilizar@responsar@ressaltar @ressarcir@restabelecer@restar@restaurar@restringir@resultar@resumir@retardar@retirar@retomar@ret ornar@retratar@retroceder@reunir@revelar@rever@reverter@revestir@revisar@revistar@rezar@rir@risca r@ritmar@rodar@romper@rosar@rotar@ruir@rumar@saber@sacar@sacrificar@sagrar@sair@saldar@salta r@salvar@sambar@saquear@saudar@secar@secretar@sedar@sediar@segar@segredar@seguir@segurar@s elecionar@sentir@separar@sequestrar@ser@serenar@seriar@serrar@servir@significar@situar@sobrar@so brecarregar@sobreviver@sobrevoar@socorrer@sofrer@solar@soldar@solicitar@somar@sondar@sonhar@s ortir@soterrar@suar@suavizar@subir@sublinhar@subordinar@subsidiar@substituir@sugerir@sujar@supera r@suplantar@supor@suportar@surgir@surpreender@surtir@suspeitar@suspender@sustentar@tardar@tax ar@tecer@telefonar@temer@tender@tentar@ter@terminar@testar@testemunhar@tirar@titular@tomar@ tornar@torturar@trabalhar@traduzir@tramar@transcorrer@transferir@transformar@transmitir@transporta r@transtornar@tratar@trazer@treinar@trocar@tumultuar@twitter@ultrapassar@unificar@unir@urgir@urin ar@usar@utilizar@vagar@vagir@valar@valer@variar@vazar@vaziar@velar@vencer@vendar@vender@ver @verificar@vestir@vetar@vezar@viajar@vincular@violar@violentar@vir@virar@visar@visitar@vivenciar@vi ver@vizinhar@vociferar@voltar@volver@votar' >>> verbosf = verbosf.split('@') >>> corpus_root5= 'C:/Users/Rafael/Documents/UFABC/Mestrado/Mestrado/Pesquisa/Corpora/Jornal Folha de São Paulo Etiquetado/Novos trabalhos com foco no Haiti/ETIQUETADOS Haiti - Léxico' >>> wordlists4= PlaintextCorpusReader(corpus_root5, '.*') >>> palavras2 = wordlists5.words() >>> len(palavras2) 1114353 >>> i=0 >>> ent=[] >>> while i <= 1114352: if palavras2[i-1] == '[': ent.append(palavras2[i]) i +=1 continue >>> len(ent) 79668 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 227 <FreqDist with 72910 outcomes> >>> prointer = fd3.keys() >>> propriosf = prointer >>> len(propriosf) 3655 >>> i=0 >>> k=0 >>> ent=[] >>> resPV = [] >>> nomesP =[] >>> strp = '' >>> len(sentenc) 20325 >>> len(verbosf) 1096 >>> while k <= 1095: while i <= 20324: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> len(resPV) 1096 >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVEAH.txt', 'w') >>> output_file.write(sestr1) >>> i=0 >>> ent=[] >>> while i <= 390442: if palavras[i-1] == '[': ent.append(palavras[i]) i +=1 continue >>> len(ent) 29011 >>> fd3 = nltk.FreqDist(w for w in ent if w not in stopwords and len(w)>=2 and w not in sw2 and w.isalpha()) >>> fd3 <FreqDist with 27236 outcomes> >>> propriosf = fd3.keys() >>> prointer = fd3.keys() >>> fd4 = nltk.FreqDist(w for w in prointer if w.istitle()) 228 >>> fd5 = nltk.FreqDist(w for w in prointer if w.upper()) >>> prop1 = fd4.keys() >>> prop2 = fd5.keys() >>> len(prop2) 5131 >>> prop2[5100:] ['Zhang', 'Zhouqu', 'Zhu', 'Zico', 'Zidane', 'Zilda', 'Zimb\xc3', 'Zito', 'Zoboomafoo', 'Zoey', 'Zona', 'Zonas', 'Zoobomafoo', 'Zoombido', 'Zorra', 'Zuccaro', 'Zurique', 'Zuzu', 'Zynga', 'Z\xc3', 'aids', 'cerveja', 'claro', 'comiss\xc3', 'datafolha', 'hercules', 'orquestrar', 'tamb\xc3', 'ter', 'time', 'windows'] >>> propriosf = prop1 + prop2[:5120] >>> propriosf = set(propriosf) >>> len(propriosf) 5120 >>> i=0 >>> k=0 >>> ent=[] >>> resPV=[] >>> nomesP=[] >>> strp = '' >>> len(sentenc) 20325 >>> len(verbosf) 1096 >>> while k <= 1095: while i <= 20324: if sentenc[i].count(verbosf[k]) != 0: ent = ent + sentenc [i] i +=1 continue nomesP = [w for w in propriosf if w in ent] Verbo = verbosf[k] Nome = ' '.join(nomesP) strp = Verbo + '--->' + Nome + '/n' resPV.append(strp) i=0 ent=[] nomesP=[] strp = '' k +=1 continue >>> sestr1 = "@@@".join(resPV) >>> output_file = open('RedeVPAH.txt', 'w') >>> output_file.write(sestr1) >>> len(resPV) 1096 229 APÊNDICE E – Metadados de textos do corpus do Chile com itens lexicais mais frequentes em cada grupo de etiquetas Identidade Numérica 1 2 3 4 5 6 7 8 Data 28 de fevereiro de 2010 28 de fevereiro de 2010 28 de fevereiro de 2010 28 de fevereiro de 2010 28 de fevereiro de 2010 01 de março de 2010 01 de março de 2010 1 de março de 2010 Verbo ETIQUETADOS PROP mais mais Frequência Frequência mais Frequência frequente frequente frequente Título da Matéria Seção Outro tremor mata dois na Argentina Mundo ir 5 Chile 4 norte 6 Tremor provoca tsunamis pelo Pacífico Mundo ser 13 Havaà 10 ser 13 Brasileiros vivem tensão após tremor Mundo estar 14 Brasil 14 brasileiro 22 Frases Mundo andar 4 GEAN 2 andar 4 Forte terremoto mata mais de 300 no Chile Mundo ser 15 Santiago 8 nà 17 Rápidas Corrida dar 2 DEM 5 carioca 3 CHILE: JOGOS NACIONAIS SÃO ADIADOS, TÊNIS, NÃO Esporte ligar 2 Chile 2 final 4 Tremor de 2,4 graus atinge três cidades no interior de Pernambuco Cotidiano ser 6 Ferreira 6 tremor 10 230 9 10 11 12 13 14 15 16 17 18 1 de março de Hillary deve chegar hoje a Santiago 2010 1 de Espanto e medo são primeiras março de sensações 2010 1 de março de Frase 2010 1 de Valparaíso se apaga; Concepción março de enfrenta saques 2010 1 de Avião da FAB traz 12 brasileiros do março de Chile 2010 1 de Por terra, viagem a país exige março de desvios 2010 1 de Chile envia Exército às ruas após março de tremor 2010 1 de março de Toda Mídia 2010 2 de março de "BBB" Urgente! Tá um Assustation! 2010 2 de Dólar volta a ficar abaixo de R$ 1,80; março de Bolsa sobe 1% 2010 Mundo ir 4 Chile 6 presidente 6 Mundo ser 19 Sà 4 ser 19 Mundo ser 7 Chile 2 ser 7 Mundo ar 7 Santiago 8 meio 9 Mundo ser 10 Chile 12 brasileiro 22 Mundo entrar 4 Chile 4 argentino 6 Mundo ser 14 Santiago 10 ser 14 Brasil ser 18 Brasil 18 nà 21 Ilustrada ser 10 BBB 10 ser 10 Dinheiro bolsar 6 Ibovespa 4 mà 12 231 19 20 21 22 23 24 25 26 27 28 2 de março de 2010 2 de março de 2010 2 de março de 2010 2 de março de 2010 2 de março de 2010 3 de março de 2010 3 de março de 2010 3 de março de 2010 3 de março de 2010 3 de março de 2010 Brasileiro pode estar sumido, diz embaixador Mundo estar 13 Chile 10 brasileiro 21 Lula visita país e oferta hospital de campanha Mundo ajudar 17 Chile 18 brasileiro 23 Efeitos do sismo não devem afetar rumo da economia chilena Mundo cobrir 6 Chile 6 paà 10 Caminho para o sul é retrato da devastação Mundo ser 7 Bachelet 2 ser 7 Saques se disseminam por Concepción Mundo recolher 10 Jara 4 pessoa 11 CHILENAS Mundo poder 6 Chile 6 segundo 9 Hillary leva telefones e promessas para o Chile Mundo ajudar 9 Hillary 14 presidente 10 Carro vira casa; ruas ainda tremem Mundo dormir 4 Carlos 2 nà 6 Cidade chilena com mais mortos ainda espera ajuda oficial Mundo ser 18 Silva 10 nà 23 notas Informática solar 10 Chatroulette 4 solar 10 232 29 30 31 32 33 34 35 36 37 38 4 de março de 2010 4 de março de 2010 4 de março de 2010 4 de março de 2010 4 de março de 2010 4 de março de 2010 4 de março de 2010 4 de março de 2010 5 de março de 2010 5 de março de 2010 FOTOS Corrida militar 5 Perigo 3 militar 5 Chile admite que errou na prevenção de tsunami Corrida militar 5 Bachelet 4 crà 6 Coreia do Norte perde até camisas em tour Esporte jogar 11 Venezuela 12 norte 20 Sismo pode afetar fornecimento de vinho ao Brasil Mundo ter 7 Chile 8 segundo 12 Aliviados, brasileiros voltam enfim Mundo ser 10 Santiago 8 ser 10 Alarme falso sobre novas ondas gigantes assusta Constitución Mundo ser 9 Chile 4 nà 19 Chilenos riem de repórter sobressaltado Mundo ser 7 Avenida 2 ser 7 Chile admite erro em prevenção de tsunami Mundo dizer 11 Marinha 8 governo 16 Depois de deixar Haiti após tremor, família sobrevive também a sismo chileno Mundo suar 16 Chile 12 nà 22 Concepción vive rotina de cidade sitiada Mundo militar 13 Priscila 8 militar 13 233 39 40 41 42 43 44 45 46 47 48 5 de Brasileiro localiza filha 5 dias após março de tremor 2010 5 de Só ameaça faz Coreia enfrentar março de Venezuela 2010 5 de Calendário faz Davis ignorar março de terremoto 2010 5 de março de Rápidas 2010 6 de março de Ueba! Arruda INDICIADO ao Oscar! 2010 6 de março de Vaivém das commodities 2010 6 de Lula desiste de comparecer à posse março de de Piñera 2010 6 de Chilenos são gentis com quem cobre março de catástrofe 2010 6 de Saqueadores de Concepción se março de defendem 2010 6 de março de Frases 2010 Mundo estar 13 Joyce 10 nà 39 Esporte jogar 19 Coreia 12 jogo 20 Esporte ser 11 Copa 6 ser 11 Corrida deixar 4 Carlos 4 famà 4 Ilustrada ser 27 Dia 14 ser 27 Dinheiro ser 9 Araújo 8 segundo 15 Mundo ir 8 Lula 16 nà 27 Mundo casar 9 Canales 12 nà 15 Mundo ajudar 10 Pedro 6 nà 23 Mundo recolher 6 Chile 4 nà 6 234 49 50 51 52 53 54 55 56 57 58 6 de março de 2010 6 de março de 2010 7 de março de 2010 7 de março de 2010 7 de março de 2010 7 de março de 2010 7 de março de 2010 8 de março de 2010 8 de março de 2010 8 de março de 2010 Desastre detona crise política no Chile Mundo militar 23 Bachelet 12 militar 23 Frases Opinião folhar 4 Folha 4 bar 3 Frases Mundo estar 2 Alejandro 2 morador 5 Com armas e paus, chilenos protegem casas Mundo militar 17 Pinto 6 nà 20 Terra devastada Mais ser 16 Kleist 14 terremoto 17 A felicidade dura pouco Cotidiano ser 20 Deus 4 nà 55 Tremor expôs fragilidade do Chile diante de tragédias Corrida militar 5 Chile 4 governo 6 Resposta de governo a sismo é reprovada Mundo governar 6 Bachelet 2 governo 12 Tsunami paralisa economia de cidade portuária chilena Mundo estar 14 Talcahuano 8 nà 15 PENDENTE: JOGOS DECISIVOS ENTRE CHILE E ISRAEL FICAM PARA HOJE Esporte duelar 2 Andy 2 chileno 4 235 59 60 61 62 63 64 65 66 67 68 9 de março de 2010 9 de março de 2010 9 de março de 2010 9 de março de 2010 9 de março de 2010 10 de março de 2010 10 de março de 2010 11 de março de 2010 12 de março de 2010 12 de março de 2010 Tremor e temor no Chile Opinião ir 6 Bachelet 4 chileno 6 Terremoto destrói casas e mata 51 pessoas na Turquia Mundo ser 13 Elazig 6 ser 13 Piñera diz que vai manter tropa nas ruas após posse Mundo militar 17 Bachelet 14 nà 21 Painel FC Esporte dizer 13 Paulo 6 nà 21 Piñera pretende manter tropas nas ruas do Chile Corrida controlar 3 Forà 8 presidente 6 Terremoto não abala aprovação a Bachelet Mundo pesquisar 8 Bachelet 10 catà 12 Desastre vira espalhador de pragas Informática fazer 5 Chile 6 suspeito 8 Piñera assume com missão de reerguer Chile Mundo ser 11 Pià 18 polà 18 Abalo assusta chefes de Estado durante cerimônia Mundo ser 13 Correa 4 nà 18 Sombra do empresário ofusca político Mundo suar 11 Pià 16 rio 11 236 69 70 71 72 73 74 12 de Piñera toma posse em meio a novo março de tremor 2010 12 de março de Outro Canal 2010 13 de Chile usará empréstimos e março de economias na reconstrução 2010 17 de março de O terremoto no centro de São Paulo 2010 22 de março de Humanitarismo 2.0 2010 04 de abril de ACREDITE SE QUISER 2010 Mundo ser 15 Pià 14 ser 15 Ilustrada ser 11 Costa 10 brasileiro 11 Mundo ser 11 Chile 14 nà 15 Opinião ser 20 Sà 16 cidade 26 New York Times ser 17 Ushahidi 24 ser 17 Corrida ser 10 Big 4 ser 10 75 4 de abril de 2010 De volta ao terremoto Cotidiano ser 12 Caraà 8 famà 12 76 5 de abril de 2010 Para fugir de terremoto, leitor teve de pagar nova passagem Cotidiano empresar 20 Queixa 7 nà 18 Governantes "escorregam" em tragédias Cotidiano militar 5 Anos 2 ex 6 PAINEL DO LEITOR Opinião ser 22 Folha 10 ser 22 77 78 08 de abril de 2010 08 de abril de 2010 237 79 8 de abril de 2010 Mercado Aberto Dinheiro ser 14 Brasil 20 ano 15 80 9 de abril de 2010 Frases Mundo estar 6 Brasil 6 brasileiro 7 "Lula vem da esquerda, mas entende o mundo global" Mundo folhar 32 Folha 32 nà 34 A Febraban teve um apagão moral de 24 horas Brasil ser 27 Kissinger 16 ser 27 Mundo ser 10 Chile 6 ser 10 Mundo formar 2 ABGLT 2 defesa 3 Coragem, candidatos! Esporte ser 18 Copa 8 ser 18 Ueba! China vende lolex pro Lula! Ilustrada ser 12 Lula 18 nà 19 Frio é obstáculo extra no socorro às vítimas de sismo chinês Mundo encontrar 6 Pequim 4 segundo 15 Piñera aumenta impostos para reerguer Chile após terremoto Mundo empresar 4 US 12 empresa 4 81 82 83 84 85 86 87 88 09 de abril de 2010 11 de abril de 2010 12 de abril de 2010 14 de abril de 2010 15 de abril de 2010 16 de abril de 2010 16 de abril de 2010 17 de abril de 2010 Maratona em Santiago passa por monumentos danificados por terremoto REAÇÃO: GRUPOS COBRAM PROVAS DE RELAÇÃO ENTRE GAYS E PEDOFILIA 238 89 26 de abril de 2010 Universidades têm risco de segurança na pesquisa nuclear New York Times pesquisar 11 MIT 6 reator 17 90 4 de maio de 2010 Unasul se reúne para eleger Kirchner seu secretário-geral Mundo ser 11 Kirchner 14 presidente 17 A voz das ruas Equilíbrio ser 17 Santiago 4 nà 17 Capítulo final Ilustrada ser 19 SP 18 ser 19 Programação de TV Ilustrada filmar 4 News 50 rio 8 Aumento Turismo oferecer 3 LAN 4 dià 3 A despeito do terremoto, Chile abre pistas de esqui Turismo esquiar 6 Chile 6 estaà 8 Preço de commodities deve cair abaixo da cotação de dezembro Dinheiro ser 12 Brasil 12 rio 20 Há 50 Anos: 22.mai.1960 Cotidiano achar 2 Chile 2 segundo 5 Chile promete prêmio a casais que chegarem aos 50 anos de matrimônio Mundo fortalecer 8 Chile 6 chileno 8 91 92 93 94 95 96 97 98 06 de maio de 2010 08 de maio de 2010 12 de maio de 2010 13 de maio de 2010 13 de maio de 2010 14 de maio de 2010 22 de maio de 2010 22 de maio de 2010 239 99 100 101 102 103 104 105 106 107 108 23 de maio de 2010 24 de maio de 2010 25 de maio de 2010 25 de maio de 2010 31 de maio de 2010 02 de junho de 2010 09 de junho de 2010 19 de junho de 2010 29 de junho de 2010 03 de julho de 2010 Há 50 Anos: 23.mai.1960 Cotidiano atingir 3 Argentina 2 chileno 5 Há 50 Anos: 24.mai.1961 Cotidiano ar 2 Chile 2 extremo 3 VAIVÉM Mercado ser 10 Brasil 10 nà 15 Há 50 Anos: 25.mai.1961 Cotidiano ser 3 Japà 4 maremoto 3 Bric vive conflito comercial e de articulação política Mercado ser 20 Brasil 16 ser 20 Tremor que matou mais de 400 no Chile é tema de documentário Ilustrada ir 4 Chile 6 nà 6 Há 50 Anos: 9.jun.1961 Cotidiano ser 9 Chile 2 ser 9 Brasil puxa retomada do PIB da região Mercado ter 13 Brasil 14 argentino 19 Commodity acumula alta de 31% no ano Mercado demandar 8 Europa 6 segundo 12 Chile propõe concessão única para telefonia Mercado fixar 9 Chile 10 governo 10 240 109 110 111 112 113 114 115 116 117 118 15 de julho de Toda Mídia 2010 1 de Por prestígio, Brasil ajuda países agosto de pobres 2010 12 de América Latina lidera melhora em agosto de notas da dívida 2010 25 de Vida em grupo pode ajudar a conter agosto de angústias individuais 2010 28 de Mina responderá por tentativa de agosto de homicídio 2010 06 de Terremoto gigante passa setembro despercebido nos círculos sísmicos de 2010 09 de Metrô de Moscou celebra poesia setembro chilena de 2010 12 de Operação torna-se mina de ouro setembro para presidente chileno de 2010 14 de Acidente não abala economia outubro chilena de 2010 15 de outubro Bode expiatório de 2010 Poder ser 13 China 16 nà 23 Mundo ser 22 Brasil 16 ser 22 Mercado notar 11 Moody 12 paà 18 Mundo ser 9 TEPT 4 nà 17 Mundo estar 6 Reinoso 6 nà 12 New York Times ser 11 Lay 10 terremoto 21 Turismo circular 13 Moscou 14 chileno 21 Mundo ser 18 Pià 16 ser 18 Mundo ser 18 San 8 nà 18 Ilustrada ser 27 Natal 4 ser 27 241 119 120 121 122 123 124 125 126 127 128 15 de Mineiros viram cabo de guerra outubro político no Chile de 2010 17 de Presidente do Chile vai à Europa por outubro uma nova imagem do país de 2010 18 de Excessos da imprensa no Chile são outubro criticados de 2010 21 de Só 18 países protegem mulheres, diz outubro ONU de 2010 25 de Surto de cólera atinge a capital do outubro Haiti de 2010 23 de Eleição é ao mesmo tempo praga e novembro esperança para o país de 2010 29 de novembro FOLHA.com de 2010 01 de dezembro AMANHà NA FOLHA de 2010 2 de Casinhas coloridas alegram dezembro Valparaíso de 2010 2 de Flores e praia chamam a Viña del dezembro Mar de 2010 Mundo ser 15 Pià 10 presidente 16 Mundo ser 7 Pià 6 brità 12 Mundo ser 5 Chile 6 cobertura 13 Mundo ser 15 Uganda 8 ser 15 Mundo estar 9 Haiti 4 capital 20 Mundo ser 15 Haiti 12 nà 23 Mundo folhar 4 Chile 2 nà 3 Corrida casar 1 Chile 2 caso 3 Turismo ser 13 La 6 ser 13 Turismo ser 9 Vià 8 ser 9 242 129 130 131 132 133 134 135 136 137 138 2 de Reserve um dia todo para ver o dezembro Turismo centro santiaguino de 2010 2 de Depois de terremoto, Chile se dezembro Turismo reergue de 2010 20 de dezembro todas as letras do ano Folhateen de 2010 26 de dezembro Personagens do ano Empregos de 2010 03 de Terremoto de 7,1 graus atinge janeiro de Mundo região centro-sul do Chile 2010 06 de janeiro de MERCADO ABERTO Mercado 2010 15 de Japão e Chile dão "banho" no Brasil janeiro de Cotidiano em prevenção 2011 16 de DE NOVO, A CHUVA: Marinha monta janeiro de Cotidiano hospital em Nova Friburgo 2011 27 de janeiro de MERCADO ABERTO Mercado 2011 31 de janeiro de FOLHA.com Mundo 2011 ser 12 Amà 4 chileno 14 mostrar 6 Chile 8 capital 12 ser 23 Brasil 6 ser 23 ser 51 Landrino 12 ser 51 haver 2 Araucania 2 capital 4 ser 19 Paulo 8 ser 19 ser 7 Brasil 4 natural 7 ser 4 Angra 2 hospital 4 ser 19 Chile 16 ano 25 folhar 4 Chile 2 centro 2 243 139 140 141 142 143 144 01 de fevereiro FOLHA.com de 2011 21 de fevereiro Mantendo a pressão no Chile de 2011 12 de Alerta provoca apreensão nos países março de do Pacífico 2011 12 de março de TSUNAMI 2011 17 de março de Santos cai e fica no limite do erro 2011 21 de Americano vai ao Chile pregando março de aliança igualitária com AL 2011 Ciência folhar 4 Chile 2 ocorrência 2 New York Times ser 16 Darwin 10 nà 24 Mundo alertar 7 Chile 4 regià 6 Mundo haver 3 Japà 8 nà 6 Esporte ser 15 Colo 12 final 16 Poder ser 8 Chile 10 paà 8 244 APÊNDICE F – Metadados de textos do corpus do Haiti com itens lexicais mais frequentes em cada grupo de etiquetas Identidade Numérica 1 2 3 4 5 6 7 Data Título da Matéria 13 de EUA preparam time para janeiro de ajuda de emergência 2010 13 de Brasil relata danos materiais, janeiro de mas não fala em vítimas 2010 13 de Terremoto de grande janeiro de magnitude atinge Haiti 2010 14 de A 37 km de Miami, visite a janeiro de "Veneza" das Américas 2010 14 de janeiro de Folha Online 2010 14 de janeiro de Ajuda on-line 2010 14 de janeiro de Tributo 2010 Seção Verbo mais frequente Frequência PROP mais frequente Frequência ETIQUETADOS mais frequente Frequência Mundo ser 10 Haiti 10 Haiti 10 Mundo militar 12 Brasil 6 brasileiro 19 Mundo estar 7 Haiti 10 segundo 15 Turismo ser 7 Fort 8 US 8 Corrida folhar 2 Haiti 2 Haiti 2 Corrida ajudar 3 Haiti 4 Haiti 4 Ilustrada conhecer 3 Social 4 Zilda 4 245 8 9 10 11 12 13 14 15 16 17 14 de "Pense no Haiti, reze pelo janeiro de Cotidiano Haiti..." 2010 14 de janeiro de Vaivém das commodities Dinheiro 2010 14 de janeiro de A hipervalorização do real Dinheiro 2010 14 de janeiro de O último discurso Mundo 2010 14 de janeiro de REPERCUSSÃO Mundo 2010 14 de "Ela está com a cara serena", janeiro de Mundo diz embaixatriz 2010 14 de Zilda Arns, 75, morre em janeiro de Mundo missão humanitária 2010 14 de Brasileiros estavam de saída janeiro de Mundo do Haiti 2010 14 de Alojamento em contêiner janeiro de Mundo pode ter evitado mais mortes 2010 14 de Desastre põe em risco janeiro de Mundo estabilidade política 2010 ser 16 Haiti 32 Haiti 32 doar 3 Abimilho 2 và 5 ser 15 US 10 ser 15 ser 37 Pastoral 20 ser 37 ser 14 Brasil 14 Brasil 14 estar 9 Kipman 8 padre 10 ser 18 Zilda 28 mà 30 estar 7 Brasil 6 final 8 militar 8 Haiti 4 militar 8 ser 23 Haiti 14 ser 23 246 18 19 20 21 22 23 24 25 26 27 14 de Santo Domingo vira última janeiro de parada rumo ao caos 2010 14 de Jobim promete hospitais de janeiro de campanha 2010 14 de É hora de administrar o caos, janeiro de avalia militar 2010 14 de Obama envia militares e janeiro de ajuda ao Haiti 2010 14 de VIA SATÉLITE: WEB PERMITE janeiro de "COBERTURA CIDADÃ" DA 2010 DESTRUIÇÃO 14 de Agências humanitárias têm janeiro de dificuldades para enviar ajuda 2010 14 de janeiro de Frases 2010 14 de País fala em "centenas de janeiro de milhares" de mortos 2010 14 de janeiro de Frase 2010 14 de O Haiti já estava de joelhos; janeiro de agora, está prostrado 2010 Mundo ser 11 Haiti 8 ser 11 Mundo militar 23 Floriano 6 militar 23 Mundo militar 13 Cruz 8 nà 16 Mundo ajudar 5 Haiti 6 segundo 7 Mundo funcionar 3 Facebook 2 web 4 Mundo enviar 8 Haiti 8 Haiti 8 Mundo haver 14 Haiti 4 haver 14 Mundo haver 17 Haiti 10 capital 24 Mundo caber 2 Nà 1 caber 2 Mundo estar 13 Haiti 10 nà 21 247 28 29 30 31 32 33 34 35 36 37 14 de janeiro de Haiti em ruínas 2010 14 de janeiro de Painel 2010 14 de janeiro de PAINEL DO LEITOR 2010 14 de janeiro de Zilda Arns, a mãe do Brasil 2010 14 de janeiro de O Nobel da Paz brasileiro 2010 14 de janeiro de Tragédia e exemplo 2010 14 de Graças ao açúçar, "pedaço da janeiro de África" já foi uma "pérola" 2010 14 de Brasília doa US$ 15 mi; Lula janeiro de lamenta tragédia 2010 14 de janeiro de VÍTIMAS 2010 14 de Sabe-se muito pouco sobre janeiro de tremores, diz especialista 2010 Mundo enviar 4 Prà 6 haitiano 7 Brasil ser 14 Zilda 6 ser 14 Opinião suar 6 Arns 6 Zilda 6 Opinião ser 11 Arns 12 polà 21 Opinião ser 13 Zilda 10 nà 20 Opinião ar 5 Haiti 8 nà 14 Mundo ser 15 Haiti 12 ser 15 Mundo ser 14 Haiti 18 brasileiro 19 Mundo militar 25 Haiti 14 militar 25 Mundo folhar 14 Folha 14 Folha 14 248 38 39 40 41 42 43 44 45 46 47 14 de Tremor mata 14 militares do janeiro de Mundo Brasil e deixa 4 desaparecidos 2010 15 de janeiro de +Colunas Corrida 2010 15 de janeiro de Causa Haiti Corrida 2010 15 de janeiro de Pacote milionário Ribeirão 2010 15 de "BBB" Urgente! Biba não tem janeiro de Ilustrada osso! 2010 15 de LANCE ARMSTRONG janeiro de ANUNCIA DOAÇÃO DE US$ Esporte 2010 250 MIL 15 de O ego encolhido de dona janeiro de Cotidiano Zilda Arns 2010 15 de Brasil gasta R$ 700 mi com janeiro de Mundo missão de paz 2010 15 de janeiro de Frases Mundo 2010 15 de Para historiador, janeiro de singularidade haitiana devia Mundo 2010 ser mais enfatizada militar 28 Brasil 12 militar 28 agir 3 Direitos 2 agir 3 estar 6 US 4 estar 6 ir 5 Ribeirà 7 prefeitura 10 ser 17 Rararà 7 nà 17 combater 2 US 4 americano 5 ser 14 Arns 10 nà 27 ser 30 Brasil 10 ser 30 poder 3 Amà 3 Amà 3 ser 12 Sà 10 sà 14 249 48 49 50 51 52 53 54 55 56 57 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 Relação com os americanos explica história recente do Haiti Mundo ser 11 EUA 10 ser 11 Maior fração do Orçamento do país vem de doações Mundo ser 12 Haiti 10 polà 18 DÍVIDA: ONU RESTITUIU APENAS 41% DO DINHEIRO DESEMBOLSADO PELO BRASIL Mundo ser 5 Defesa 2 ser 5 Ideais e salário atraem brasileiros a missão Mundo militar 29 Haiti 20 militar 29 No vodu, alma ronda corpo após morte Mundo ser 11 BB 3 bonange 12 Construtora do Brasil ajuda a tirar escombros Mundo haver 4 Haiti 4 capital 8 Brasil vai ajudar país a enterrar os mortos Mundo ser 11 Brasil 14 Brasil 14 Mundo viver 10 EUA 6 nà 24 Mundo militar 4 Sarkozy 4 francês 6 Mundo ajudar 15 EUA 14 nà 16 Parentes buscam informação de desaparecidos pela internet ANTIGA COLÔNIA: SARKOZY PEDE AJUDA DO BRASIL PARA RECONSTRUIR O HAITI Obama promete US$ 100 milhões para assistência 250 58 59 60 61 62 63 64 65 66 15 de Má qualidade de construções janeiro de infla tragédia 2010 PRESSA: EQUIPES SÓ TÊM 15 de MAIS UM DIA PARA RETIRAR janeiro de SOBREVIVENTES, DIZ 2010 ESPECIALISTA 15 de Cruz Vermelha estima mortos janeiro de em até 50 mil 2010 15 de Esforços de resgate se janeiro de concentram em instalações 2010 ocupadas pela ONU 15 de Brasileira vira madrugada em janeiro de busca dos filhos 2010 15 de Aeroporto é cartão de visitas janeiro de da destruição 2010 15 de Ações simples e frutos janeiro de magníficos 2010 15 de No exterior, Pastoral da janeiro de Criança salvou ao menos 200 2010 mil bebês 15 de Avião da FAB traz o corpo de janeiro de Zilda Arns para velório 2010 Mundo ser 8 Haiti 8 nà 9 Mundo comandar 3 Arjun 2 contra 4 Mundo estar 20 ONU 12 estar 20 Mundo resgatar 12 Minustah 6 haitiano 13 Mundo ir 5 Eliana 10 filho 12 Mundo ser 12 Porto 6 ser 12 Brasil ser 10 Zilda 14 mà 18 Brasil ser 11 Zilda 8 ser 11 Brasil ser 10 Zilda 20 Zilda 20 251 67 68 69 70 71 72 73 74 75 76 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 15 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 Painel Brasil auxiliar 8 Lula 8 nà 11 PAINEL DO LEITOR Opinião ser 7 Arns 8 mà 9 O ano já começou Opinião ser 12 Brasil 8 direito 16 Frases Opinião folhar 4 Folha 4 nà 6 O plano Fênix Opinião ser 11 Jobim 4 plano 12 Frases Mundo ter 7 CLAUVIS 2 nà 9 Haitianos esperam ajuda entre corpos e destroços Mundo ser 13 Bruijn 4 nà 26 Uma nova abordagem às Américas Opinião ser 11 EUA 17 EUA 17 Fim do mundo Opinião ar 5 Haiti 10 Haiti 10 Desaparecido tem carreira exitosa na ONU Mundo militar 15 Costa 12 militar 15 252 77 78 79 80 81 82 83 84 85 86 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 16 de janeiro de 2010 Não há olhos azuis no Haiti Mundo ser 19 Haiti 18 nà 23 Cônsul do Haiti atribui tremor à religião africana Mundo ser 12 Antoine 12 ser 12 Filha de 3 anos não sabe que pai morreu Mundo militar 9 Haiti 8 militar 9 Resgatados feridos, 16 brasileiros chegam a SP Mundo militar 28 Haiti 8 militar 28 Brasil critica "assistencialismo unilateral" de Washington Mundo ser 16 Haiti 10 nà 26 Frases Mundo estar 4 EUA 10 EUA 10 EUA enviarão 10 mil soldados para ajuda Mundo militar 18 Brasil 12 militar 18 ONU suspende pedido por equipes de resgate Mundo ser 17 Haiti 10 ser 17 "Nunca se saberá total de mortos", diz ministro Mundo ser 14 Prà 14 Prà 14 Frase Mundo ficar 3 Brasil 2 embora 4 253 87 88 89 90 91 92 93 94 95 96 16 de Brasileiros improvisam janeiro de Mundo embaixada 2010 16 de janeiro de Frase Mundo 2010 16 de Em hospital improvisado, janeiro de Mundo amputação é sem anestesia 2010 16 de Americanos fazem triagem janeiro de Mundo em aeroporto 2010 16 de Nas ruas, sobreviventes lutam janeiro de Mundo por comida 2010 16 de BBB Urgente! Selinho dá janeiro de Ilustrada sapinho! 2010 16 de Ronaldo não jogará partida janeiro de Esporte que ajuda Haiti 2010 16 de EUA reduzem compra de alta janeiro de Dinheiro tecnologia do Brasil 2010 16 de janeiro de O futebol contra a dor Esporte 2010 16 de janeiro de Símbolo vs. destino Opinião 2010 aguar 8 Casa 6 todo 14 piorar 1 Alberto 2 espanhol 3 estar 17 Lafuente 8 mà 24 comprar 8 Jesus 4 aeroporto 10 ser 16 Bolà 2 nà 23 ser 15 BBB 17 ser 15 dizer 4 Ronaldo 6 nà 16 ser 19 Brasil 10 nà 20 ser 26 Haiti 6 ser 26 ser 12 Zilda 8 nà 16 254 97 98 99 100 101 102 103 104 105 106 16 de janeiro de Folha Online Corrida 2010 16 de janeiro de +Colunas Corrida 2010 16 de "Todos perguntavam: onde janeiro de está a dra. Zilda?", diz freira Brasil 2010 que acompanhava médica 16 de Zilda é velada como "mártir" janeiro de Brasil em Curitiba 2010 16 de Comissão não é "caça às janeiro de Brasil bruxas", afirma Lula 2010 16 de janeiro de Painel Brasil 2010 17 de janeiro de O sobrevivente do terremoto Saúde 2010 17 de COBERTURA DO TERREMOTO Ombudsm janeiro de NO HAITI an 2010 17 de 18 dias para achar a Ombudsm janeiro de importância an 2010 17 de Autor também passou por janeiro de Mais Ásia e Oceania 2010 ir 4 Cruz 2 ir 4 morrer 7 Cristo 4 morrer 7 estar 14 Zilda 24 Zilda 24 ser 11 Arns 12 mà 19 militar 14 Direitos 6 nà 17 ser 8 Lula 10 sobre 12 ser 7 Lubit 4 sobrevivente 10 partir 4 Haiti 4 leitor 6 ser 23 Brasà 4 ser 23 suar 3 Antilhas 2 capital 4 255 107 108 109 110 111 112 113 114 115 116 17 de janeiro de Haiti nas trevas 2010 17 de janeiro de Breve solidariedade 2010 17 de janeiro de MANCHETES 2010 17 de Terremoto varreu o que janeiro de restava do Haiti 2010 17 de Palmeiras espanta fiasco de janeiro de 2009 com goleada em 2010 2010 17 de janeiro de Como se faz um Haiti? 2010 17 de Número dois de missão da janeiro de ONU, brasileiro é encontrado 2010 morto 17 de Mortos são enterrados, e janeiro de vivos deixam Porto Príncipe 2010 17 de O Haiti nas palavras de um janeiro de literato cubano 2010 17 de Vida haitiana inspira obras no janeiro de cinema e na literatura 2010 mundiais Mais ser 40 Porto 14 ser 40 Mais ser 24 Haiti 6 nà 29 Corrida excluir 3 Haiti 8 Haiti 8 Corrida ajudar 7 Brasil 6 nà 12 Esporte ser 20 Cleiton 10 ser 20 Dinheiro ser 10 Haiti 14 Haiti 14 Mundo ser 15 ONU 22 ONU 22 Mundo ser 8 Porto 6 cidade 11 Mundo ser 10 Haiti 10 mundo 12 Mundo ser 12 Haiti 22 pà 25 256 117 118 119 120 121 122 123 124 125 126 17 de Sul-coreana é abrigada em janeiro de base brasileira 2010 17 de Tragédia haitiana une Obama, janeiro de Bush e Clinton 2010 17 de Embargo econômico após janeiro de golpe de 1991 arruinou país 2010 de vez 17 de Presidente pede janeiro de "coordenação" internacional 2010 17 de "Cada um de nós viveu seu janeiro de drama individual", diz coronel 2010 brasileiro 17 de No Haiti, o coronel de janeiro de "Avatar" prevaleceu 2010 17 de janeiro de Zilda e o Santo Graal 2010 17 de Doação para Pastoral da janeiro de Criança cai 23% 2010 17 de janeiro de Precisamos, em vão 2010 17 de janeiro de Painel 2010 Mundo militar 14 Haiti 6 militar 14 Mundo ser 12 Bush 18 Haiti 12 Mundo ser 28 Haiti 18 ser 28 Mundo ser 11 EUA 10 ser 11 Mundo militar 29 Bernardes 20 militar 29 Brasil ser 24 Eletrobrà 12 ser 24 Brasil viver 10 Zilda 20 Zilda 20 Brasil ser 8 Zilda 8 doaà 15 Brasil militar 22 República 5 nà 23 Brasil ser 8 Lula 8 sobre 15 257 127 128 129 130 131 132 133 134 135 136 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 17 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 PAINEL DO LEITOR Opinião ser 28 SP 30 nà 30 Frases Opinião ser 6 Folha 4 nà 7 Haiti Opinião ser 9 Haiti 8 sà 10 Tarde demais? Opinião ser 12 Brasil 12 nà 20 Rottweiler sem dentes Opinião estar 5 Brasil 4 nà 11 Doações em dinheiro contornam governo Mundo ser 27 ONU 16 ser 27 Exército continua mais cinco anos no Haiti, afirma Jobim Mundo ser 19 Haiti 14 ser 19 Brasil e EUA se unem para distribuir comida Mundo militar 20 EUA 10 militar 20 Terremoto de notícias Folhateen ser 12 CNN 14 CNN 14 Folha Online Corrida resgatar 1 Bombeiros 2 folha 3 258 137 138 139 140 141 142 143 144 145 146 18 de janeiro de Em segurança 2010 18 de Empresas têm dificuldade em janeiro de ajudar Haiti 2010 18 de Terremoto pode ser uma janeiro de oportunidade 2010 18 de Arquitetos reagem a janeiro de catástrofes com conceitos 2010 simples e baratos 18 de Transporte de alimentos terá janeiro de escolta 2010 18 de Países lutam para definir janeiro de papel em socorro 2010 18 de janeiro de Haiti, que ajuda? 2010 18 de "Não basta dar apenas ajuda janeiro de aos haitianos" 2010 18 de ESCOMBROS: CORPO DE janeiro de MAJOR BRASILEIRO É 2010 IDENTIFICADO 18 de Equipes salvam três em janeiro de ruínas de mercado 2010 Corrida estar 4 Christina 2 irmà 6 Dinheiro empresar 21 Aà 14 empresa 21 Mundo ser 62 Folha 28 nà 87 Mundo comer 9 Ban 12 Ban 12 Mundo ser 7 Amorim 8 segundo 7 Mundo poder 14 Brasil 10 forà 17 Mundo ser 36 Haiti 18 haitiano 48 Mundo ser 29 EUA 8 nà 37 Mundo militar 13 Adolfo 2 militar 13 Mundo ser 16 ONU 8 segundo 21 259 147 148 149 150 151 152 153 154 155 156 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 18 de janeiro de 2010 General brasileiro avalia que Haiti regrediu a período préMinustah Mundo militar 18 Haiti 8 militar 18 "Governo haitiano é predador" Mundo ser 13 Haiti 14 nà 16 Frases Mundo estar 4 Haiti 4 Haiti 4 Tremor pode reerguer gangues, diz coronel Mundo militar 17 Ajax 10 militar 17 Para ativista, "situação está melhorando e piorando" Mundo ter 10 Gilles 10 nà 14 Violência vira obstáculo à ajuda na capital Mundo ser 12 Prà 10 nà 14 Missa de 7º dia homenageia mortos no Haiti Brasil militar 4 Haiti 4 Haiti 4 Painel Brasil ser 13 PT 10 ser 13 PAINEL DO LEITOR Opinião ser 43 Paulo 22 nà 45 Frases Opinião folhar 4 Folha 4 nà 9 260 157 158 159 160 161 162 163 164 165 166 18 de janeiro de Haiti, Zilda Arns e nós 2010 18 de janeiro de Debate prematuro 2010 18 de janeiro de Frase 2010 18 de "Arrecadação humanitária janeiro de virou negócio" 2010 18 de Sub de Amorim diz que prazo janeiro de de 5 anos é prematuro 2010 19 de janeiro de +Colunas 2010 19 de janeiro de O terremoto da pobreza 2010 19 de "BBB"! Entrou um vibrador janeiro de falante! 2010 19 de janeiro de Solidariedade 2010 19 de janeiro de Frases 2010 Opinião ser 11 Haiti 12 Haiti 12 Opinião militar 14 Haiti 6 militar 14 Mundo ajudar 3 Haiti 4 Haiti 4 Mundo ser 21 Folha 16 ser 21 Mundo ser 14 Haiti 14 Haiti 14 Corrida funcionar 3 Barros 2 final 4 Ilustrada ser 31 Kahn 10 nà 32 Ilustrada ter 12 Haiti 8 ter 12 Dinheiro ser 17 Haiti 12 paà 17 Mundo ser 6 Bolsa 2 ser 6 261 167 168 169 170 171 172 173 174 175 176 19 de "Haitianos devem trabalhar janeiro de na reconstrução" 2010 19 de UE promete 422 milhões de janeiro de euros 2010 19 de Desespero por comida e água janeiro de cresce, alerta organização 2010 19 de SOLIDARIEDADE: BRASILEIROS janeiro de QUEREM ADOTAR CRIANÇAS 2010 HAITIANAS ÓRFÃS 19 de Exército brasileiro afirma janeiro de estar preparado para dobrar 2010 presença 19 de ONU e EUA aumentam janeiro de efetivo no país 2010 19 de Missa de 7º dia lembra janeiro de trabalho de Zilda Arns 2010 19 de janeiro de Painel 2010 19 de janeiro de PAINEL DO LEITOR 2010 19 de O Brasil deve defender a janeiro de democracia no Haiti 2010 Mundo ser 45 Haiti 18 ser 45 Mundo ser 15 ONU 12 ser 15 Mundo militar 14 Prà 14 nà 17 Mundo adotar 3 Haiti 4 nà 6 Mundo militar 30 Haiti 20 militar 30 Mundo militar 14 Haiti 24 Haiti 24 Brasil colher 4 Arns 4 brasileiro 6 Brasil ser 18 Lula 14 nà 18 Opinião ser 40 SP 14 ser 40 Opinião militar 23 Haiti 16 nà 27 262 177 178 179 180 181 182 183 184 185 186 19 de janeiro de Frases Opinião 2010 19 de janeiro de Deus e os homens Opinião 2010 19 de janeiro de A derrota da vitória Opinião 2010 19 de janeiro de No coração das trevas Opinião 2010 19 de Violência vira obstáculo à janeiro de Mundo ajuda na capital 2010 19 de janeiro de Frases Mundo 2010 19 de Cidade mais destruída espera janeiro de Mundo dias por ajuda 2010 20 de Informátic janeiro de tec-tec-tec a 2010 20 de Aprenda a fazer busca de Informátic janeiro de tuítes em tempo real a 2010 20 de Informátic janeiro de Twitter sem mistério a 2010 folhar 4 Folha 4 nà 5 ser 9 Deus 8 ser 9 ser 9 Haiti 8 ser 9 ser 9 Haiti 10 nà 17 estar 14 Pierre 6 nà 23 militar 5 Ban 2 militar 5 haver 19 Porto 10 nà 30 ter 10 Google 18 segundo 15 buscar 15 Twitter 8 busca 15 ser 7 Twitter 10 segundo 8 263 187 188 189 190 191 192 193 194 195 196 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 Enquanto isso, no Suriname... Ilustrada ir 15 Folha 8 ir 15 SPFW! Jesus ressuscitou de jeans! Ilustrada ter 13 Jesus 14 nà 21 TRAGÉDIA: FUTEBOL SOMA TRINTA MORTOS Esporte haver 2 Haiti 2 federaà 4 Terremoto apaga 1ª superluta do ano Esporte ser 11 Haiti 28 Haiti 28 ir 7 Twitter 6 rsr 8 Rainhas de bateria aderem ao Cotidiano Twitter Desemprego poderá ser furacão Katrina de presidente dos EUA Mundo ser 12 Obama 8 ser 12 ONU se prepara para desarmar a população Mundo ser 9 Haiti 10 Haiti 10 Frase Mundo haver 6 Edmond 2 haver 6 "Não há saques generalizados", diz emissário da ONU Mundo haver 9 ONU 10 capital 16 "Aumento de contingente é preventivo" Mundo militar 27 Brasil 8 militar 27 264 197 198 199 200 201 202 203 204 205 206 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 Otimismo começa a surgir em meio ao caos Mundo ser 15 Cità 4 ser 15 Terremoto reverte anos de progresso, diz especialista do BID Mundo ser 17 Folha 14 nà 18 Governo deve ditar rumos da ajuda externa Mundo ajudar 10 Dias 6 ajuda 10 Frase Mundo ajudar 3 BID 2 nà 10 Entrega caótica de comida é alvo de críticas Mundo militar 45 Haiti 10 militar 45 Frase Mundo defender 4 EUA 2 nà 7 ONU chancela escalada das tropas Mundo ser 10 Ban 6 nà 14 VOLUNTARIADO: MINUSTAH TEM VOOS PARA MÉDICOS EM SANTO DOMINGO Mundo prestar 3 Haiti 2 balcà 3 Saída de Porto Príncipe vira aventura aérea Mundo ser 10 Haiti 10 nà 22 PASTORAL DA CRIANÇA Brasil acompanhar 3 Arns 2 Haiti 2 265 207 208 209 210 211 212 213 214 215 216 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 20 de janeiro de 2010 21 de janeiro de 2010 21 de janeiro de 2010 21 de janeiro de 2010 Lá para cá diferenças há Brasil ser 13 Brasil 8 nà 15 PAINEL DO LEITOR Opinião ser 19 Haiti 14 nà 33 Haiti: humanitarismo e política internacional Opinião ser 25 Haiti 22 ser 25 Frases Opinião folhar 4 Folha 4 governo 6 Organização urgente Opinião ser 9 Haiti 10 nà 12 Problema em aeroporto causa mortes Mundo ter 10 Domingo 8 nà 15 Tragédia já é a mais letal das Américas Mundo ar 13 Haiti 8 terà 18 cinema e etc. Corrida estar 4 Brasil 4 atà 6 Novato Corrida ar 2 Ashton 2 terà 6 No calvário fashion de Jesus, quem sofre são outros Ilustrada entrar 12 Jesus 32 nà 24 266 217 218 219 220 221 222 223 224 225 226 21 de janeiro de Saca-rolha Ilustrada 2010 21 de Buemba! Eu sou filho do Zé janeiro de Ilustrada Mayer! 2010 21 de janeiro de "Da utopia à topia" Cotidiano 2010 21 de "Nós atuamos diretamente janeiro de Mundo com a Presidência" 2010 21 de Crítica a ONG não pode ser janeiro de Mundo generalizada, diz Viva Rio 2010 21 de Novo tremor reaviva trauma janeiro de Mundo haitiano 2010 21 de Minustah festeja ausência de janeiro de Mundo tiros 2010 21 de Tremor é oportunidade para janeiro de ambições de Brasília, diz Mundo 2010 analista 21 de O que as tropas brasileiras janeiro de Mundo estão fazendo no Haiti? 2010 21 de 18 MORTOS: ÚLTIMO janeiro de CADÁVER DE MILITAR DO Mundo 2010 PAÍS É ENCONTRADO ser 12 Jesus 10 rio 12 ser 15 Lula 12 ser 15 ser 17 Frei 10 nà 30 ser 10 Rio 8 nà 20 ar 9 Rio 12 nà 14 ser 13 Petit 8 nà 18 militar 13 Porto 6 militar 13 ser 29 Brasil 26 ser 29 ser 21 Brasil 8 ser 21 militar 5 Martins 4 dia 5 267 227 228 229 230 231 232 233 234 235 236 21 de Brasil vai dobrar efetivo janeiro de militar no Haiti 2010 21 de Rio de Janeiro celebra missa janeiro de em homenagem a Zilda Arns 2010 21 de janeiro de A interrogação do vice 2010 21 de janeiro de PAINEL DO LEITOR 2010 21 de janeiro de O Haiti não está só 2010 21 de janeiro de Um ano medíocre 2010 21 de janeiro de Frase 2010 21 de EUA anunciam envio de mais janeiro de 4.000 homens 2010 21 de Tropas americanas blindam janeiro de assistência 2010 21 de Fuzis sem munição controlam janeiro de multidão 2010 Mundo militar 34 Brasil 14 militar 34 Brasil suscitar 3 Zilda 6 Zilda 6 Brasil ser 15 PMDB 10 nà 21 Opinião ser 30 Paulo 14 nà 32 Opinião ajudar 32 Haiti 22 ajudar 32 Opinião ser 12 Obama 12 nà 15 Opinião comer 1 Alan 2 nà 3 Mundo militar 12 EUA 10 militar 12 Mundo militar 43 Prà 10 militar 43 Mundo ser 10 Leogane 6 nà 18 268 237 238 239 240 241 242 243 244 245 246 22 de janeiro de Painel Regional 2010 22 de janeiro de Programação de TV 2010 22 de janeiro de Outro Canal 2010 22 de Atlântico terá o dobro de janeiro de furacões fortes, diz estudo 2010 22 de Brasil destina R$ 340 mi para janeiro de ajudar país caribenho 2010 22 de janeiro de Frase 2010 22 de Para analistas dos EUA, Brasil janeiro de deve liderar reconstrução 2010 22 de Amorim nega existir disputa janeiro de por liderança 2010 22 de RENÉ PRÉVAL: "HAITI NÃO janeiro de ESTÁ SOB TUTELA" 2010 ESTRANGEIRA 22 de Minustah planeja doação janeiro de para contrapor EUA 2010 Ribeirão ser 10 Jaboticabal 10 ontem 10 Ilustrada ar 12 News 52 Brasil 36 Ilustrada ser 16 Rio 8 ser 16 Ciência ser 7 EUA 8 furacà 12 Mundo militar 32 Haiti 14 militar 32 Opinião ser 2 Batista 2 brasileiro 3 Mundo ser 11 Brasil 8 ser 11 Mundo ser 17 Costa 8 ser 17 Mundo militar 4 EUA 4 EUA 4 Mundo haver 12 Minustah 8 haver 12 269 247 248 249 250 251 252 253 254 255 256 22 de janeiro de 2010 22 de janeiro de 2010 22 de janeiro de 2010 22 de janeiro de 2010 22 de janeiro de 2010 22 de janeiro de 2010 22 de janeiro de 2010 23 de janeiro de 2010 23 de janeiro de 2010 23 de janeiro de 2010 Transferência internacional de dinheiro recomeça Mundo ser 14 Canadà 4 ser 14 Face remanescente do Estado, polícia só tem armas letais Mundo ser 13 Prà 6 polà 18 Sem sede, governo tenta reaver controle Mundo ser 13 Prà 8 ainda 18 Uma ideia simples e revolucionária Opinião ser 15 Zilda 10 nà 24 Os odores do Haiti Opinião ser 21 Haiti 14 ser 21 Fora de hora Opinião ser 9 Sà 8 nà 13 Painel Brasil ser 11 Josà 8 presidente 12 PAINEL DO LEITOR Opinião ser 25 SP 16 nà 47 Quase 50% das doações brasileiras ao país não têm utilidade imediata Mundo ser 9 Haiti 8 ser 9 Organizações são mal necessário, diz especialista Mundo ser 25 ONGs 24 ser 25 270 257 258 259 260 261 262 263 264 265 266 23 de ONGs recebem um terço dos janeiro de Mundo fundos doados para o Haiti 2010 23 de Americanos aprovam reação janeiro de de Obama à tragédia, diz Mundo 2010 pesquisa 23 de Batalhão brasileiro constrói janeiro de Mundo campo de refugiados 2010 23 de Brasil "marca posição" em janeiro de Mundo território dos EUA 2010 23 de janeiro de Programação de TV Ilustrada 2010 23 de janeiro de A terra do direito impossível Cotidiano 2010 23 de janeiro de Banqueiros, talebans e o Haiti Mundo 2010 23 de janeiro de +Colunas Corrida 2010 23 de janeiro de Rápidas Corrida 2010 23 de janeiro de Painel Brasil 2010 ser 13 Cruz 16 ONGs 16 ajudar 8 Haiti 8 americano 18 ser 23 BB 6 ser 23 ser 21 Brasil 10 brasileiro 22 filmar 10 News 50 Brasil 38 estar 8 Haiti 12 direito 24 ser 14 Obama 8 nà 15 estar 8 Obama 4 estar 8 ser 8 China 8 ser 8 ir 9 Sà 10 nà 14 271 267 268 269 270 271 272 273 274 275 276 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 24 de janeiro de 2010 Semana do Leitor Semana do Leitor ser 21 Haiti 8 nà 38 Erramos Opinião ser 4 JAN 4 nà 9 PAINEL DO LEITOR Opinião ser 22 Paulo 22 nà 24 Frases Opinião ter 7 Brasil 4 ter 7 Galinho garnisé Opinião disputar 6 Haiti 12 Haiti 12 ONDE A FOLHA FOI BEM... Ombudsm an entrevistar 4 Ano 4 sobre 9 Não ir de notícia a esquecimento Ombudsm an ser 20 Haiti 6 ser 20 Erros repetidos não podem ser acobertados pelos escombros Mundo ser 38 Haiti 12 ser 38 ONU dá buscas por encerradas; governo nega Mundo ser 12 ONU 10 nà 17 República Dominicana vira rota de repatriados Mundo ser 12 Porto 6 haitiano 21 272 277 278 279 280 281 282 283 284 285 286 24 de Brasil quer "Plano Lula" para janeiro de Mundo reerguer país 2010 24 de janeiro de Boas e más palavras Mais 2010 24 de janeiro de Programação de TV Ilustrada 2010 24 de Buemba! Zé Mayer é o Pai janeiro de Ilustrada Herói! 2010 24 de Internet móvel no país é cara janeiro de Dinheiro e nos atrasa, diz Google 2010 24 de janeiro de A única saída de São Paulo Cotidiano 2010 24 de janeiro de MANCHETES Corrida 2010 24 de Na 2ª semana pós-terremoto, janeiro de Haiti vive disputa entre EUA, Corrida 2010 ONU e Brasil 24 de janeiro de Ciência, religião e o Haiti Ciência 2010 24 de janeiro de Frases Ciência 2010 ser 17 Haiti 22 Haiti 22 haver 14 Laferrià 10 nà 20 ar 6 News 34 Brasil 32 saber 10 Haiti 6 nà 12 ser 50 Google 44 ser 50 ser 27 Paulo 16 ser 27 dobrar 3 Haiti 8 Haiti 8 ar 7 Brasil 8 Brasil 8 ser 15 Haiti 8 nà 24 acontecer 3 GRANT 2 nà 6 273 287 288 289 290 291 292 293 294 295 296 24 de "Poucos ouvem as más janeiro de Ciência notícias da ciência" 2010 24 de O Big Brother diz que vem janeiro de Brasil para o bem 2010 24 de janeiro de Na hora trágica Brasil 2010 25 de É possível se recuperar da New York janeiro de devastação? Times 2010 25 de janeiro de 02NEURÔNIO Folhateen 2010 25 de janeiro de MEU ESPAÇO Folhateen 2010 25 de Aiatolá cairá e Irã vai se janeiro de Mundo tornar ditadura militar 2010 25 de Reunião em Montréal será janeiro de Mundo teste de poder 2010 25 de Ação é a maior no exterior no janeiro de Mundo pós-2ª Guerra 2010 25 de País expõe contradições de janeiro de Mundo forças de paz 2010 ser 47 Folha 28 nà 91 ser 30 Jobim 12 ser 30 ser 21 Haiti 12 ser 21 ser 22 New 10 ser 22 mudar 14 Haiti 4 ser 13 ser 10 Aranha 4 pà 13 ser 46 Folha 22 nà 69 militar 15 Haiti 14 paà 16 militar 8 Haiti 6 forà 10 ser 18 Brasil 14 ser 18 274 297 298 299 300 301 302 303 304 305 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 25 de janeiro de 2010 26 de janeiro de 2010 Acampamento vê surgirem barbearias e cibercafé precários Mundo ser 15 Darelus 6 ser 15 Favela organiza brigadas de autodefesa Mundo militar 9 Cità 8 nà 20 SALDO DE MORTOS: MAIS DE 150 MIL JÁ ESTÃO ENTERRADOS EM VALAS COMUNS Mundo saber 3 Haiti 4 Haiti 4 "Estamos recomeçando abaixo de zero" Mundo ser 28 Folha 20 ser 28 Toda Mídia Brasil dizer 11 Brasil 18 nà 21 Sem Zilda, Pastoral do Idoso teme por sua sobrevivência Brasil haver 8 Pastoral 10 rio 11 PAINEL DO LEITOR Opinião ser 36 Sà 24 nà 41 Frases Opinião ser 11 Folha 4 ser 11 PAINEL DO LEITOR Opinião ser 32 Paulo 28 ser 32 275 306 307 308 309 310 311 312 313 314 26 de janeiro de Frase 2010 26 de Jovem de 14 anos é resgatada janeiro de após 13 dias 2010 26 de Desabrigados resistem a janeiro de abandonar Porto Príncipe 2010 26 de Congresso aprova aumento janeiro de de efetivo brasileiro 2010 26 de Conferência já é parte de janeiro de "plano Lula", diz Amorim 2010 "DESFILE DE 26 de VAIDADES": ITALIANO janeiro de CRITICA ESFORÇO 2010 HUMANITÁRIO INTERNACIONAL 26 de Reunião dá a Haiti comando janeiro de da reconstrução 2010 26 de janeiro de Fotos 2010 26 de janeiro de Toda Mídia 2010 Mundo estar 2 Guerlane 2 bastante 4 Mundo ser 12 Guerlane 8 ainda 12 Mundo ser 15 Haiti 8 ser 15 Mundo militar 25 Haiti 12 militar 25 Mundo ser 9 Haiti 14 plano 21 Mundo militar 5 Defesa 2 italiano 5 Mundo ser 13 Haiti 16 haitiano 25 Corrida acampar 3 Figo 3 ontem 6 Brasil saber 6 PAC 12 Lula 8 276 315 316 317 318 319 320 321 322 323 26 de janeiro de 2010 27 de janeiro de 2010 27 de janeiro de 2010 27 de janeiro de 2010 27 de janeiro de 2010 Painel Brasil ar 9 Justià 10 ser 9 PAINEL DO LEITOR Opinião ser 28 Paulo 30 nà 35 Frases Opinião folhar 4 Folha 4 haitiano 6 Lula anuncia visita ao Haiti Mundo ser 24 Haiti 16 ser 24 Navio-hospital é cartão de visitas norte-americano Mundo ser 14 Comfort 8 ser 14 Mundo embarcar 4 Marinha 4 Marinha 4 Mundo imprensar 2 Franà 3 paà 4 Mundo ser 12 Catunda 14 nà 12 Dinheiro ser 16 Haiti 10 ser 16 BRASIL: EXÉRCITO REQUER R$ 270 MI PARA ATENDER A ONU E ENVIAR 900 MILITARES EUA: HILLARY DIZ QUE 27 de LAMENTA AS CRÍTICAS À janeiro de ATUAÇÃO AMERICANA NO 2010 HAITI 27 de "Companheiro" de deposto janeiro de vai agora ajudar o Haiti 2010 27 de Haiti, ou a economia da janeiro de destituição 2010 27 de janeiro de 2010 277 324 325 326 327 328 329 330 331 332 333 27 de janeiro de +Colunas Corrida 2010 27 de janeiro de Enfim, a nova Lei Rouanet Ilustrada 2010 27 de EUA controlam maior porto janeiro de Mundo haitiano 2010 27 de EUA estão no controle do janeiro de Corrida maior porto do Haiti 2010 27 de janeiro de Toda Mídia Brasil 2010 27 de Ex-ídolo, Obama vira alvo no janeiro de Brasil Fórum Social 2010 28 de Haiti: pedaço e inspiração janeiro de Mundo para África no Caribe 2010 28 de PACTO: BRASIL E FRANÇA janeiro de QUEREM PLANO CONJUNTO Mundo 2010 PARA REERGUER HAITI 28 de Ajuda brasileira pode janeiro de ascender a R$ 1 bilhão, afirma Mundo 2010 Amorim 28 de Brasil reserva milhares de janeiro de Mundo toneladas para doação 2010 ser 5 Castro 4 nà 6 ser 18 Lula 12 nà 19 militar 21 EUA 10 militar 21 ser 5 EUA 4 americano 6 falar 10 Brasil 14 Brasil 14 ser 11 Obama 6 nà 23 haver 17 Haiti 18 nà 24 jantar 4 Amorim 2 jantar 4 ajudar 5 Amorim 10 dinheiro 12 ser 12 Brasil 8 paà 14 278 334 335 336 337 338 339 340 341 342 343 28 de Governo banca êxodo sem janeiro de volta da capital 2010 28 de janeiro de Haiti 2010 28 de janeiro de Mercado Aberto 2010 28 de janeiro de Diplomacia gasosa 2010 29 de janeiro de A Nina e MJ 2010 29 de Brasil propõe "taxa zero" para janeiro de produtos haitianos 2010 29 de Lixão vira cemitério em Porto janeiro de Príncipe 2010 29 de janeiro de Terror sob os escombros 2010 30 de janeiro de Zumbis 2010 30 de "Violência local não voltou a janeiro de nível pré-Minustah" 2010 Mundo ficar 15 Cap 4 capital 24 Dinheiro ser 17 Haiti 10 ser 17 Dinheiro ser 16 Silveira 10 segundo 20 Brasil ser 15 Mà 6 ser 15 Opinião ser 17 Haiti 6 sà 18 Mundo ser 12 Haiti 14 Haiti 14 Mundo ser 28 Belimaire 6 ser 28 Opinião estar 10 TV 3 minuto 11 Opinião ser 9 Fernando 4 ex 10 Mundo ser 12 Haiti 12 nà 20 279 344 345 346 347 348 349 350 351 352 30 de País vira polo de plantação de janeiro de maconha 2010 NAÇÕES UNIDAS: CHEGAM A 30 de 84 OS MORTOS E 15 OS janeiro de DESAPARECIDOS DA 2010 ORGANIZAÇÃO 30 de Caos pós-terremoto beneficia janeiro de narcotráfico 2010 30 de SARAMAGO: AUTOR janeiro de RELANÇA OBRA PARA 2010 AJUDAR HAITI 30 de Atleta marca data da volta a janeiro de Manchester 2010 30 de janeiro de Vocações 2010 30 de É hora de reinventar o janeiro de mundo, diz discurso de Lula 2010 em Davos 31 de janeiro de Frases 2010 31 de "Eu não queria voltar do janeiro de Haiti" 2010 Mundo militar 5 Haiti 4 segundo 6 Mundo ser 3 Haiti 4 Haiti 4 Mundo ir 11 Haiti 25 nà 29 Ilustrada auxiliar 5 Haiti 4 auxiliar 5 Esporte ser 5 Robinho 8 clube 10 Ilustrada ter 17 Sonia 22 nà 24 Brasil dizer 21 Brasil 12 mundo 26 Saúde ser 5 Ensaio 2 nà 6 Saúde ser 25 Haiti 20 mà 30 280 353 354 355 356 357 358 359 360 361 362 31 de janeiro de IMAGEM DA SEMANA Corrida 2010 31 de Haitianos recorrem ao vodu janeiro de Mundo para encontrar soterrados 2010 31 de Base militar é ilha de riqueza janeiro de Mundo em Porto Príncipe 2010 31 de Tropas têm boa aceitação janeiro de Mundo popular, diz brasileiro 2010 31 de PAGAR A CONTA: POR CUSTO, janeiro de EUA CONGELAM TRASLADO Mundo 2010 DE VÍTIMAS À FLÓRIDA 31 de Mobilização anti-Brasil ecoa janeiro de Mundo no pós-tremor 2010 31 de janeiro de Frases Opinião 2010 31 de janeiro de Todo ano é Haiti Dinheiro 2010 01 de O Estado nacional, as ONGs e fevereiro Opinião o Haiti de 2010 01 de As relações Brasil-EUA e os fevereiro Mundo novos desafios no Haiti de 2010 ser 2 Haiti 2 Haiti 2 ser 26 Baptiste 10 ser 26 ser 20 Minustah 6 brasileiro 22 ser 8 Brabatt 6 brasileiro 14 ir 3 Kevin 2 mà 9 ser 16 Aristide 22 nà 27 ajudar 4 Haiti 7 nà 11 ser 10 Paulo 6 sobre 15 ser 15 Haiti 12 nà 30 militar 31 Haiti 14 militar 31 281 363 364 365 366 367 368 369 370 371 372 01 de CUSTO MÉDICO: EUA fevereiro VOLTARÃO A TRASLADAR de 2010 FERIDOS, DIZ CASA BRANCA 1 de COM PRESSA: ESTREIA DE fevereiro ATACANTE PODE SER de 2010 ANTECIPADA PARA QUINTA 1 de fevereiro Toda Mídia de 2010 1 de Lula vai visitar 22 países no 1º fevereiro semestre de 2010 1 de fevereiro Painel de 2010 02 de JUSTIÇA: AMERICANOS fevereiro PODEM SER INDICIADOS POR de 2010 TRANSPORTAR CRIANÇAS 02 de EUA enviam aviões não fevereiro tripulados ao Haiti de 2010 2 de fevereiro Toda Mídia de 2010 3 de Sargento de Ribeirão que fevereiro estava no Haiti "guarda" de 2010 cenário de destruição 03 de Haitianos dizem que fevereiro entregaram filhos a de 2010 americanos detidos Mundo cobrir 3 ONGs 2 desde 3 Esporte ser 4 Santos 4 Santos 4 Brasil ser 17 EUA 22 EUA 22 Brasil visitar 8 Lula 18 presidente 22 Brasil ser 12 Dilma 12 Dilma 12 Mundo levar 4 Haiti 4 Haiti 4 Mundo militar 9 Haiti 14 americano 15 Brasil pesquisar 10 Lula 18 Lula 18 Ribeirão saber 7 Brunhera 8 sargento 8 Mundo ser 14 Laurentus 6 nà 19 282 373 374 375 376 377 378 379 380 381 382 3 de fevereiro Rápidas Corrida de 2010 3 de fevereiro Painel Brasil de 2010 4 de Madonna! Jesus era um fevereiro Ilustrada capeta! de 2010 4 de fevereiro Haiti: ajuda ou recolonização? Dinheiro de 2010 4 de Suíça tenta evitar fevereiro desbloqueio de bens de Mundo de 2010 ditador 4 de Haiti critica reação de mídia fevereiro Mundo dos EUA a prisões de 2010 5 de Missionários dos EUA são fevereiro denunciados por sequestro Mundo de 2010 no Haiti 5 de Embaixador dos EUA é cético fevereiro Mundo sobre diálogo com Teerã de 2010 6 de Tremor no Haiti é 3º mais fevereiro Mundo letal em cem anos de 2010 6 de Pobre e solidário, Racing diz fevereiro que não se intimida com Esporte de 2010 opulência corintiana ar 4 Brasil 6 Brasil 6 estar 7 PMDB 8 presidente 10 ser 15 Jesus 14 ser 15 ser 18 Haiti 16 nà 20 ser 8 Duvalier 14 Duvalier 14 ser 23 EUA 10 haitiano 23 poder 10 Haiti 14 haitiano 20 ser 13 Brasil 24 Brasil 24 ser 14 Haiti 8 dia 15 ser 12 Racing 8 nà 18 283 383 384 385 386 387 388 389 390 391 392 7 de Ombudsm fevereiro ONDE A FOLHA FOI BEM... an de 2010 7 de Ueba! Vou no Bloco do fevereiro Ilustrada Balança Rolha! de 2010 7 de Países do G7 devem manter fevereiro Dinheiro estímulos de 2010 7 de Centro cirúrgico brasileiro dá fevereiro assistência a refugiados pelo Mundo de 2010 terremoto no Haiti 7 de fevereiro PAINEL DO LEITOR Opinião de 2010 7 de fevereiro Faltam trilhos Opinião de 2010 8 de Fim do mundo, decisão na fevereiro Opinião incerteza de 2010 8 de Parceria estratégica tem fevereiro custo político, diz embaixador Brasil de 2010 francês 9 de Brasil inicia operação fevereiro antigangues em Porto Mundo de 2010 Príncipe 9 de Sem Lula, Unasul debate hoje fevereiro Mundo ajuda ao Haiti de 2010 estar 4 Brasil 4 caso 7 ser 10 Madonna 10 ser 10 manter 4 Franà 3 paà 8 ser 10 Cayes 8 hospital 10 ser 29 SP 16 ser 29 ser 17 Servià 6 ser 17 ser 16 Ag 14 nà 32 ser 29 Brasil 22 nà 36 militar 12 Brabatt 6 militar 12 ter 12 Haiti 12 nà 24 284 393 394 395 396 397 398 399 400 401 402 9 de fevereiro Rápidas de 2010 10 de HAITI: UNASUL CRIA FUNDO fevereiro DE US$ 300 MILHÕES de 2010 11 de Haiti, ponto de encontro das fevereiro Américas de 2010 11 de fevereiro A injeção do dia depois de 2010 11 de fevereiro Nos ombros de Serra de 2010 12 de fevereiro Frases de 2010 12 de Bill Clinton é submetido a fevereiro cirurgia cardíaca de 2010 13 de Clinton deixa hospital e fevereiro deverá retomar o trabalho na de 2010 segunda 14 de fevereiro Painel Regional de 2010 14 de ONU quer impedir volta de fevereiro gangues no Haiti de 2010 Corrida ir 4 Barueri 4 material 6 Mundo oferecer 3 BID 2 paà 4 Opinião ser 29 Haiti 22 ser 29 Ilustrada ser 42 TEPT 14 ser 42 Brasil serrar 18 Serra 15 serrar 18 Opinião folhar 4 Folha 4 direito 6 Mundo ter 11 Clinton 24 presidente 18 Mundo voltar 7 Clinton 22 presidente 12 Ribeirão ser 6 Sà 6 rio 12 Mundo militar 16 Cità 8 nà 18 285 403 404 405 406 407 408 409 410 411 412 14 de Rodízio de racionamentos fevereiro remete ao Haiti de 2010 15 de fevereiro AGENDA DA SEMANA de 2010 17 de fevereiro Painel Regional de 2010 17 de Enchentes: algumas medidas fevereiro jurídicas de 2010 17 de Terremoto no Haiti é o mais fevereiro destruidor, diz BID de 2010 18 de Justiça liberta 8 missionários fevereiro presos no Haiti de 2010 18 de fevereiro Toda Mídia de 2010 19 de fevereiro Esquerda festiva de 2010 19 de Préval prega corpo da ONU só fevereiro para crises de 2010 19 de Presidente do Haiti pede fevereiro apoio político do Brasil a de 2010 fundo Mundo ter 6 Chà 4 rio 10 Corrida receber 6 Sà 11 prà 7 Ribeirão empresar 16 Haiti 8 empresa 16 Opinião dever 21 Paulo 10 dever 21 Mundo ajudar 10 Haiti 14 Haiti 14 Mundo dizer 5 Bernard 2 crianà 6 Brasil ar 7 Brasil 10 tà 15 Opinião ser 7 PT 14 PT 14 Mundo ser 5 ONU 6 forà 10 Mundo ajudar 17 Brasil 20 Brasil 20 286 413 414 415 416 417 418 419 420 421 422 19 de fevereiro A graça do Carnaval de graça Ilustrada de 2010 20 de fevereiro SACOLINHA Vitrine de 2010 20 de Questão hondurenha ainda fevereiro causa atrito na América Mundo de 2010 Latina 20 de fevereiro Frase Brasil de 2010 20 de Caderno e câmeras com fevereiro registros de Zilda Arns são Brasil de 2010 entregues por seminarista 21 de Programa foi criado durante a fevereiro Cotidiano década de 1990 de 2010 21 de Criação de nova entidade fevereiro regional é prioridade de Mundo de 2010 cúpula 21 de Marxista quer Vale estatal e fevereiro Brasil confiscar terras de 2010 22 de New York fevereiro Fantasmas da tragédia Times de 2010 22 de fevereiro +Colunas Corrida de 2010 ser 23 Carnaval 30 nà 46 ser 19 SP 14 ser 19 ser 8 Lobo 11 nà 15 causar 2 Arns 4 Zilda 4 estar 6 Haiti 14 mà 15 ser 13 Cuba 4 và 14 ser 8 Simões 6 nà 15 governar 4 PT 10 nà 14 ser 18 Pierre 14 mà 24 ser 6 Uruguai 6 nà 6 287 423 424 425 426 427 428 429 430 431 432 22 de fevereiro de 2010 22 de fevereiro de 2010 22 de fevereiro de 2010 22 de fevereiro de 2010 22 de fevereiro de 2010 22 de fevereiro de 2010 23 de fevereiro de 2010 23 de fevereiro de 2010 24 de fevereiro de 2010 24 de fevereiro de 2010 Uruguai e o contágio da inteligência Dinheiro ser 22 Uruguai 14 ser 22 ANTES E DEPOIS: NEM SEMPRE HÁ ABALOS DE AVISO ANTES DE CATÁSTROFE Ciência ser 3 Haiti 2 atà 3 Terremoto pode ter "previsão do tempo" Ciência ser 16 Jordan 12 segundo 17 Prospecção nas Malvinas mobiliza cúpula regional Mundo ser 13 Calc 10 dois 16 Toda Mídia Brasil ser 11 Brasil 14 Brasil 14 Hillary Clinton visitará o Brasil na semana que vem Brasil militar 10 Brasil 18 paà 22 Haiti, o terremoto e o martírio de uma nação Fovest ser 11 Aristide 8 ser 11 Governo quer antecipar visita de Obama ao Brasil para 1º semestre Brasil ser 7 Brasil 10 Brasil 10 Eventos on-line: ACONTECE NA INTERNET Informátic a ar 3 Aaron 2 sobre 9 SP: PARREIRA LEVA ANFITRIà DE 2010 AO MORUMBI Esporte copar 2 Copa 2 contra 4 288 433 434 435 436 437 438 439 440 441 442 25 de fevereiro Toda Mídia Brasil de 2010 25 de Hillary vai encontrar Lula em fevereiro Brasil Brasília de 2010 26 de fevereiro FOTOS Corrida de 2010 26 de Demissão em diretoria do fevereiro Dinheiro FMI cria saia justa ao Brasil de 2010 26 de No Haiti, Lula pede perdão da fevereiro dívida e elogia missão do Mundo de 2010 Brasil 26 de Ativista cubano é enterrado fevereiro Mundo sob cerco militar de 2010 26 de fevereiro Burns, Hillary, Obama Opinião de 2010 27 de TERREMOTO: Forte tremor na fevereiro costa japonesa não faz Mundo de 2010 vítimas 28 de Forte terremoto mata mais fevereiro Mundo de 300 no Chile de 2010 01 de TENDÊNCIAS MUNDIAIS: Haiti New York março de emerge do choque e inicia Times 2010 processo de luto ir 11 Brasil 12 segundo 15 encontrar 11 Hillary 12 ainda 15 militar 5 CRACOLà 2 militar 5 indicar 8 Colà 16 diretor 19 militar 9 Haiti 14 Haiti 14 fazer 8 Lula 15 Lula 15 ir 12 Brasil 8 ir 12 alertar 6 Agência 4 atà 8 ser 15 Santiago 8 nà 17 ser 24 Dupoux 10 ser 24 289 443 444 445 446 447 448 449 450 451 452 01 de País foi cenário, em 1960, do março de mais forte sismo já registrado 2010 1 de março de Frase 2010 1 de Um país resiste melhor do março de que um aglomerado 2010 02 de Empresa responsável pelo março de jogo virtual FarmVille retém 2010 dinheiro de doações a Haiti 02 de Diretor-geral da AIEA vem ao março de país discutir apoio ao Irã 2010 2 de março de PAINEL DO LEITOR 2010 2 de março de Terra em transe 2010 3 de O significado da visita de março de Hillary ao Brasil 2010 3 de Hillary leva telefones e março de promessas para o Chile 2010 3 de março de A fragilidade é dos outros 2010 Mundo chegar 5 Chile 8 sà 12 Mundo ser 7 Chile 2 ser 7 Mundo ser 18 Haiti 18 Haiti 18 Mundo ser 23 US 16 ser 23 Brasil encontrar 6 EUA 6 nà 9 Opinião ser 27 Paulo 19 nà 43 Opinião ser 10 Chile 2 nà 15 Opinião ser 24 Brasil 34 Brasil 34 Mundo ajudar 9 Hillary 14 Chile 10 Esporte ser 9 Federer 14 fà 9 290 453 454 455 456 457 458 459 460 461 462 3 de Para chanceler, atrito no Haiti março de Brasil foi "mínimo" 2010 3 de Hillary pedirá sanções ao Irã, março de Brasil mas Brasil vai rejeitar pressão 2010 4 de Brasil reage a pressão dos março de Brasil EUA sobre Irã 2010 5 de Depois de deixar Haiti após março de tremor, família sobrevive Mundo 2010 também a sismo chileno 5 de Emigrante volta, e remessa março de Dinheiro cai 34% 2010 5 de março de Rápidas Corrida 2010 7 de março de Terra devastada Mais 2010 8 de Ensino superior haitiano vive New York março de vácuo no pós-tremor Times 2010 9 de Terremoto destrói casas e março de Mundo mata 51 pessoas na Turquia 2010 11 de Bolívia detém três suspeitos março de Mundo de tráfico de crianças do Haiti 2010 conversar 6 EUA 6 EUA 6 ser 10 Brasil 18 Brasil 18 ser 14 Hillary 20 nà 29 suar 16 Chile 12 nà 22 passar 5 US 12 passado 15 deixar 4 Carlos 4 Chile 4 ser 16 Kleist 14 terremoto 17 ser 23 Haiti 10 ser 23 ser 13 Elazig 6 ser 13 ser 11 Bolà 14 crianà 20 291 463 464 465 466 467 468 469 470 471 472 13 de Chile usará empréstimos e março de Mundo economias na reconstrução 2010 14 de Atriz Maitê Proença faz março de Ilustrada comédia surrealista 2010 16 de PADRE MARCELO: "Fui março de mordido por um cachorro da Ilustrada 2010 minha mãe" 16 de março de Painel Brasil 2010 17 de O terremoto no centro de São março de Opinião Paulo 2010 18 de março de Rápidas Corrida 2010 18 de APÓS TREMOR: março de RECONSTRUÇÃO DO HAITI Mundo 2010 CUSTARÁ US$ 11,5 BILHÕES 19 de março de PAINEL DO LEITOR Opinião 2010 20 de março de Natureza se impõe ao direito Cotidiano 2010 22 de Cantor haitiano busca sua voz New York março de em meio à desolação Times 2010 ser 11 Chile 14 nà 15 morrer 9 Maitê 10 nà 12 ser 19 Paulo 12 ser 19 ser 14 Lula 10 sobre 15 ser 20 Sà 16 todo 27 ser 6 Arruda 4 nà 6 preparar 3 Nova 2 capital 4 ser 26 Sà 22 nà 40 ser 13 Chile 6 nà 16 suar 9 Beken 18 suar 9 292 473 474 475 476 477 478 479 480 481 482 22 de março de 2010 22 de março de 2010 22 de março de 2010 23 de março de 2010 24 de março de 2010 24 de março de 2010 24 de março de 2010 26 de março de 2010 28 de março de 2010 30 de março de 2010 Humanitarismo 2.0 New York Times ser 17 Ushahidi 24 ser 17 O2 NEURÔNIO Folhateen ser 16 Haiti 4 amor 16 Agenda da semana Corrida divulgar 4 Sà 11 geral 8 Fotos Corrida perdoar 3 Aires 2 capital 4 ser 9 Twitter 18 nà 12 Com serviço @anywhere, Informátic Twitter busca se espalhar em a sites como o YouTube Outro Canal Ilustrada ser 15 Globo 14 ser 15 TELEVISÃO/O MELHOR DO DIA Ilustrada chegar 6 Takai 6 chegar 6 Erramos Opinião afirmar 2 MAR 4 nà 9 Cobertura no Haiti é tema de aula amanhã Brasil publisher 4 Folha 4 Folha 4 Colômbia eleva tom no FMI contra o Brasil Dinheiro ser 14 Colà 18 nà 20 293 31 de março de 2010 01 de abril de 2010 01 de abril de 2010 01 de abril de 2010 01 de abril de 2010 488 483 O Haiti e o futuro Opinião ser 20 Haiti 24 Haiti 24 Baresi, homem a homem Esporte ser 22 Milan 10 nà 34 Segurança está sob controle, diz general brasileiro Mundo ser 7 Peixoto 6 general 12 POLÊMICA: DOAÇÃO PRIVADA SOFRE CRÍTICAS Mundo ir 4 Haiti 5 Haiti 5 Frases Mundo ser 5 Haiti 4 haitiano 7 1 de abril de 2010 Doações ao Haiti superam meta em reunião Mundo ser 16 US 18 US 18 489 2 de abril de 2010 +Colunas Corrida adiar 3 Big 4 contra 4 490 2 de abril de 2010 Big Bang Opinião ser 6 Big 10 nà 6 491 3 de abril de 2010 Mais violência organizada Opinião ser 7 Salvador 5 corredor 9 492 4 de abril de 2010 De volta ao terremoto Cotidiano ser 12 Caraà 8 famà 12 484 485 486 487 294 493 4 de abril de 2010 Lições de Páscoa Opinião ser 22 Pà 18 povo 22 494 4 de abril de 2010 Quando a inocência mata Opinião matar 11 Dzhennet 6 matar 11 495 5 de abril de 2010 Missões femininas de paz crescem na ONU New York Times ser 24 Libà 16 ser 24 496 5 de abril de 2010 Cardeal defende papa na missa de Páscoa Mundo papar 10 Vaticano 6 papa 15 497 8 de abril de 2010 A condição humana Opinião haver 6 Chile 6 bem 9 498 9 de abril de 2010 Vencedores do Prêmio Empreendedor Social são homenageados Cotidiano ser 5 Folha 6 Folha 6 499 9 de abril de 2010 PAINEL DO LEITOR Opinião ser 28 Rio 14 ser 28 VITRINE Ilustrada sobrar 7 Haiti 10 sobre 17 Painel Brasil dizer 9 PT 16 nà 19 Programação de TV Ilustrada copar 4 News 38 Brasil 28 500 501 502 10 de abril de 2010 10 de abril de 2010 11 de abril de 2010 295 503 504 505 506 507 508 509 510 511 512 12 de abril de 2010 12 de abril de 2010 12 de abril de 2010 12 de abril de 2010 14 de abril de 2010 14 de abril de 2010 15 de abril de 2010 17 de abril de 2010 18 de abril de 2010 19 de abril de 2010 Uma visão de um novo Haiti New York Times ser 24 Porto 14 ser 24 Mãos à obra Corrida haver 2 Haiti 2 onde 6 Programação de TV Ilustrada ar 9 News 48 Brasil 34 Bombeiro relata adrenalina de atuar em Niterói, Angra e Haiti Cotidiano ser 17 GBS 6 nà 19 Fotos Corrida pousar 3 Boeing 2 meio 4 Painel FC Esporte ser 13 Fifa 10 ser 13 Frequência e força de abalos não aumentaram, dizem sismólogos Mundo ser 14 EUA 4 nà 24 Programação de TV Ilustrada filmar 8 News 54 Brasil 34 "Olhai para isto" Opinião acontecer 6 Cristo 8 nà 8 Resgatista chinês antes trabalhou no Haiti Mundo ter 9 Wang 12 ter 9 296 513 514 515 516 517 518 21 de abril de 2010 23 de abril de 2010 26 de abril de 2010 27 de abril de 2010 29 de abril de 2010 01 de maio de 2010 Cúpula do governo faz "festa de família" em entrega de condecorações no Itamaraty Brasil ser 8 Lula 8 Lula 8 Um novo olhar diplomático Opinião ser 14 Brasil 10 nà 23 Médicos disputam tratamento de bailarina haitiana New York Times ser 15 Jean 36 Jean 36 Toda Mídia Brasil ar 13 Brasil 14 Brasil 14 Na zona do agrião Dinheiro ter 12 FMI 14 FMI 14 Exércitos, os do "povo" e os outros Mundo ser 13 Amà 8 polà 15 519 2 de maio de 2010 Sexo dos anjos Ilustrada dizer 35 Regininha 22 nà 52 520 2 de maio de 2010 Nas bordas da história Especial ser 24 Copa 18 contra 24 521 3 de maio de 2010 Dois bilhões de laptops? Talvez não seja o bastante New York Times ser 15 Microsoft 12 ser 15 522 4 de maio de 2010 Unasul se reúne para eleger Kirchner seu secretário-geral Mundo ser 11 Kirchner 14 presidente 17 297 523 6 de maio de 2010 Shannon rejeita "ideologia" em relação Brasil-EUA Brasil ar 5 Brasil 8 nà 15 524 9 de maio de 2010 Sede de aprender Opinião ser 25 Haiti 16 ser 25 Haitianos sentem-se abandonados nos destroços New York Times estar 12 Poupelard 10 nà 26 Saindo do buraco Ilustrada ser 20 Brasil 12 ser 20 Brasil apura tráfico de meninos haitianos Cotidiano ser 22 Haiti 10 ser 22 Os erros dos outros Esporte ser 19 Brasil 12 nà 23 Guerra global contra a Aids perde fôlego New York Times ser 17 Uganda 10 ser 17 Peripécias da pílula Opinião ter 7 EUA 4 lula 16 Maradona põe nove novatos em lista da Copa Esporte ter 15 Maradona 10 ter 15 Projeto busca resgatar dos escombros a arte haitiana New York Times ir 18 Smithsonian 10 ir 18 525 526 527 528 529 530 531 532 10 de maio de 2010 14 de maio de 2010 14 de maio de 2010 16 de maio de 2010 17 de maio de 2010 19 de maio de 2010 20 de maio de 2010 24 de maio de 2010 298 533 534 535 536 537 538 539 540 541 542 27 de maio de 2010 27 de maio de 2010 28 de maio de 2010 28 de maio de 2010 30 de maio de 2010 02 de junho de 2010 3 de junho de 2010 11 de junho de 2010 13 de junho de 2010 13 de junho de 2010 OLIVER STONE DIZ QUE LULA NÃO DEVE CONFIAR EM ELOGIOS DE OBAMA Ilustrada ser 48 Chà 46 nà 54 Brasil e ONU, juntos para desenvolvimento Opinião ser 13 Brasil 22 Brasil 22 Retórica e subdesenvolvimento Ilustrada ser 21 Albert 10 direito 24 NO RIO Corrida militar 4 Ban 2 militar 4 A barba de Maradona Esporte ser 10 Copa 14 contra 24 Baderneiros argentinos vão à Copa Esporte ser 9 Maradona 8 argentino 13 I got a feeling e Rodrigo Bueno embalam a Copa Esporte copar 8 Copa 8 Copa 8 Fotógrafo brasileiro registra trabalho de médicos no Haiti pós-terremoto Saúde ser 6 Brasil 6 mà 12 Para artista haitiano, oboé soa como a voz humana Ilustrada ser 17 Gerald 10 ser 17 Notas de uma fuga Ilustrada ser 21 Gerald 18 ser 21 299 543 544 545 546 547 548 549 550 551 552 16 de junho de 2010 16 de junho de 2010 17 de junho de 2010 19 de junho de 2010 23 de junho de 2010 24 de junho de 2010 25 de junho de 2010 26 de junho de 2010 27 de junho de 2010 27 de junho de 2010 Tropa brasileira em missão é orientada a não divulgar vídeos Tec ser 13 Filho 6 ser 13 No Haiti, web substituiu telefone no pós-terremoto Tec ser 12 Saudade 5 ser 12 Verão na cidade Opinião ser 9 Bronx 6 danà 12 Imagem externa Opinião ser 10 Brasil 8 brasileiro 12 Por uma universidade pública Opinião ser 23 USP 18 ser 23 Cheia é recorrente em 17 cidades arrasadas Cotidiano ser 20 Alagoas 12 ser 20 Com Collor, Lula chora e anuncia ajuda sem limite Cotidiano dizer 9 Lula 12 Lula 12 Rotina do desastre Opinião ser 18 Pernambuco 10 ser 18 Radioamador de Ribeirão ajuda NE Ribeirão ser 13 Defesa 6 nà 16 Sexo ilustrado Ombudsm an ser 19 Folha 6 ser 19 300 553 554 555 27 de Militarismo e democracia não junho de combinam 2010 04 de Vice de Serra já atacou pré-sal julho de e quis vetar esmola 2010 04 de Quatro morrem após julho de eliminação do Brasil 2010 Mundo militar 44 Afeganistà 8 militar 44 Poder esmolar 7 Indio 6 prà 8 Esporte brigar 2 Brasil 4 Brasil 4 556 5 de julho de 2010 Violência contra mulheres cresce no Haiti New York Times ser 21 Haiti 4 nà 22 557 7 de julho de 2010 País é 4º mais difícil para estrangeiro abrir subsidiária Mercado abrir 9 Brasil 10 estrangeiro 18 558 8 de julho de 2010 "Gosto de ser o campeão da mentira" Ilustrada ser 45 Roth 18 nà 49 12 de julho de 2010 12 de julho de 2010 13 de julho de 2010 13 de julho de 2010 Sozinho, haitiano tenta organizar trânsito no pósterremoto New York Times andar 10 Du 44 nà 21 Haiti está à míngua 6 meses após tragédia Mundo ser 12 Haiti 12 paà 16 LIXO DE SOBRA Ilustrada ser 26 SP 10 ser 26 FOLHA.com Mundo folhar 8 Folha 2 folhar 8 559 560 561 562 301 563 564 565 566 567 568 569 570 571 572 13 de julho de 2010 14 de julho de 2010 16 de julho de 2010 18 de julho de 2010 19 de julho de 2010 21 de julho de 2010 23 de julho de 2010 25 de julho de 2010 26 de julho de 2010 26 de julho de 2010 Toda Mídia Poder ganhar 5 Brasil 18 Brasil 18 Toda Mídia Poder ar 11 Brasil 18 Brasil 18 Toda Mídia Poder ser 7 Brasil 16 Brasil 16 Piada da privataria: seguro para a tropa Poder ser 19 Alckmin 4 nà 39 Terapia precoce de Aids reduz mortes Saúde ser 20 HIV 20 ser 20 Lobby do amianto gasta US$ 100 milhões Cotidiano ser 17 Brasil 4 ser 17 Tensão escancara 2 projetos messiânicos Mundo ser 15 Uribe 20 ser 15 PIB do país pode cair mais que o da Grécia Mundo ser 9 Venezuela 12 Venezuela 12 ser 18 Daphne 16 nà 20 ser 6 Ali 2 ser 6 Órfãos têm de cuidar uns dos New York outros no Haiti Times Frases Ilustrada 302 573 574 575 576 577 578 579 580 581 582 26 de julho de A hora do Arcade Fire Ilustrada 2010 30 de Seleção vira oásis no julho de Esporte Palmeiras 2010 01 de Brasil se prepara para ampliar agosto de participação em missões de Poder 2010 paz 01 de agosto de Frases Mundo 2010 1 de Por prestígio, Brasil ajuda agosto de Mundo países pobres 2010 02 de Brasil doa US$ 300 milhões a agosto de Mundo países pobres 2010 04 de Wyclef Jean deve disputar agosto de Mundo Presidência do Haiti 2010 04 de Com produção e preços em agosto de Mercado baixa, lucro da PDVSA cai 53% 2010 08 de Conferência reúne jovens em agosto de Cotidiano luta por igualdade 2010 10 de Chuvas no Paquistão afetam agosto de Mundo 13,8 mi 2010 ser 12 Arcade 8 ser 12 ser 17 Brasil 8 nà 23 estar 4 Brasil 8 Brasil 8 ser 8 Brasil 4 ser 8 ser 22 Brasil 16 ser 22 ser 8 Conab 8 tonelada 9 anunciar 4 Jean 10 Jean 10 quedar 6 US 10 US 10 engajar 4 Global 4 social 10 estar 5 Zhouqu 6 segundo 11 303 583 584 585 586 587 588 589 590 591 592 15 de Dedo acusador pode render agosto de aplauso, mas raramente salva 2010 15 de As viúvas dos militares do agosto de Haiti vão à luta 2010 17 de agosto de Frases 2010 17 de Viúvas de mortos no Haiti agosto de querem seguro em dobro 2010 19 de "Não atletas" recheiam a agosto de Olimpíada teen 2010 22 de agosto de FOLHA.com 2010 24 de Cantor tenta reverter rejeição agosto de a candidatura 2010 25 de agosto de Sob escombros 2010 25 de Wyclef Jean não poderá agosto de questionar autoridades 2010 25 de Vida em grupo pode ajudar a agosto de conter angústias individuais 2010 Mundo ser 22 Brasil 18 nà 38 Poder ser 27 PNLD 8 nà 31 Poder militar 4 CELY 2 seguro 6 Poder militar 21 Poupex 10 nà 30 Esporte ser 8 Guinà 6 nà 9 Mundo folhar 4 Haiti 2 folha 4 Mundo comprovar 3 Conselho 2 contra 4 Poder ser 25 Haiti 10 nà 47 Mundo concorrer 3 Jean 4 nà 12 Mundo ser 9 TEPT 4 nà 17 304 593 594 595 596 597 598 599 600 601 602 26 de agosto de 2010 28 de agosto de 2010 28 de agosto de 2010 29 de agosto de 2010 30 de agosto de 2010 01 de setembro de 2010 04 de setembro de 2010 04 de setembro de 2010 06 de setembro de 2010 08 de setembro de 2010 A língua dos títulos Cotidiano ser 21 EUA 4 nà 27 Ilustrada ser 9 Deus 8 terremoto 10 Cotidiano estudar 4 Universidade 6 haitiano 7 O Paquistão precisa de nossa ajuda, agora Opinião ser 17 Paquistà 10 ser 17 Novo shopping center é manifesto palestino New York Times ser 22 Gaza 11 nà 37 General quer mudança em tropas de paz no Haiti Mundo militar 9 Haiti 10 Haiti 10 OUTRO LADO: MINUSTAH NÃO COMENTA O RELATÓRIO Mundo militar 5 Cruz 2 nà 9 Narcotráfico pode atrapalhar eleição no Haiti, diz ONU Mundo ser 9 Haiti 12 Haiti 12 Após protestos, ONU vê risco de crise alimentar Mundo alimentar 12 ONU 6 jà 9 FRASES DO DIA Corrida ter 5 Penn 4 nà 6 "A Ira de Deus" narra terremoto histórico que abateu Lisboa Universidades públicas brasileiras receberão estudantes haitianos 305 603 604 605 606 607 608 609 610 611 612 10 de setembro de 2010 12 de setembro de 2010 12 de setembro de 2010 14 de setembro de 2010 14 de setembro de 2010 18 de setembro de 2010 21 de setembro de 2010 23 de setembro de 2010 23 de setembro de 2010 24 de setembro de 2010 Toda Mídia Poder ser 22 Amà 8 nà 23 Apoiado por Brasil, Haiti inicia plano de replantio Mundo ser 17 Brice 10 ser 17 O que eles disseram Corrida ser 14 Brasil 6 ser 14 País deve receber dinheiro de conta de Baby Doc na Suíça Mundo ser 7 Haiti 6 ser 7 Presença feminina na política Opinião partir 14 Sà 4 nà 38 EUA retiram Brasil pela 1ª vez de lista de produtores de droga Mundo ser 7 EUA 10 contra 12 Brasil diz que ajudará na "evolução" da ilha Mundo ser 6 Brasil 8 nà 9 ZÉ MARIA (PSTU) Poder ser 6 Lula 4 ser 6 Vermelhos contra Lula Poder ser 18 Lula 11 nà 24 Toda Mídia Poder dizer 8 Brasil 20 Brasil 20 306 613 614 615 616 617 618 619 620 621 622 24 de "EUA querem manter setembro controle sobre Irã" de 2010 25 de PARA GENERAL, PAÍS VIVIA setembro COM SEGURANÇA de 2010 25 de Haiti, agora, sofre com setembro profusão de sequestros na de 2010 elite 28 de Exposição mostra 150 anos da setembro humanidade em guerra de 2010 30 de Brasil deve investir R$ 68 setembro milhões para construir usina de 2010 30 de QUEM SÃO E O QUE setembro PROPÕEM OS de 2010 PRESIDENCIÁVEIS NANICOS 01 de Brasil trabalha para tentar outubro evitar "nova Honduras" de 2010 6 de País deverá ser ressarcido outubro apenas de forma parcial de 2010 6 de Brasil deve ter presença outubro militar no Oriente Médio de 2010 8 de outubro Defesa lenta de 2010 Mundo ser 29 EUA 20 nà 65 Mundo militar 5 Floriano 2 militar 5 Mundo ser 17 ONU 16 ser 17 Mundo acontecer 3 Guerra 6 exposià 6 Mundo ser 5 Amorim 4 brasileiro 6 Especial fundar 8 Propostas 10 rio 15 Mundo militar 17 Amorim 8 militar 17 Mundo militar 17 Brasil 10 militar 17 Mundo militar 22 Brasil 12 militar 22 Opinião ser 14 Brasil 8 segundo 16 307 623 624 625 626 627 628 629 630 631 632 10 de outubro de 2010 13 de outubro de 2010 15 de outubro de 2010 15 de outubro de 2010 15 de outubro de 2010 17 de outubro de 2010 19 de outubro de 2010 19 de outubro de 2010 20 de outubro de 2010 20 de outubro de 2010 O debate do aborto, Miriam Cordeiro 2.0 Poder ser 38 Gomes 10 ser 38 Atualidades podem cair em mais de 1 disciplina Fovest poder 6 Antà 2 final 8 Bode expiatório Ilustrada ser 27 Natal 4 ser 27 Frases Poder receber 6 CELY 2 receber 6 Viúvas de mortos no Haiti vão à Justiça contra seguradoras Poder militar 12 Poupex 10 nà 24 Cidade ao lado de rio tem de cavar 80 m por água potável Cotidiano ser 21 Defesa 8 ser 21 5 MINUTOS Corrida atender 3 Aà 4 rio 6 A BELA ENGAJADA Ilustrada ser 10 SP 14 nà 14 Israel veta Twitter em instalações militares Mundo militar 26 Facebook 10 militar 26 Livro dá cores reais às ações militares brasileiras no Haiti Ilustrada militar 13 Cità 6 brasileiro 14 308 633 634 635 636 637 638 639 640 641 642 20 de outubro de 2010 20 de outubro de 2010 21 de outubro de 2010 22 de outubro de 2010 23 de outubro de 2010 23 de outubro de 2010 24 de outubro de 2010 25 de outubro de 2010 25 de outubro de 2010 25 de outubro de 2010 Frases Ilustrada haver 5 Amores 2 haver 5 "Só louco ainda faz cinema no Haiti" Ilustrada ser 15 Amores 8 paà 16 Só 18 países protegem mulheres, diz ONU Mundo ser 15 Uganda 8 ser 15 Surto de diarreia preocupa haitianos Mundo ser 13 Saúde 6 ser 13 Autoridades confirmam epidemia de cólera Mundo ser 6 Prà 6 rio 7 Haiti prendeu 18% de foragidos no tremor Mundo ser 9 UNpol 10 segundo 11 FOLHA.com Mundo folhar 4 Haiti 2 folha 4 FRASES DO DIA Corrida cruzar 3 Nà 3 nà 5 Não há luz no fim do túnel, afirma chefe da Minustah Mundo ser 21 Haiti 12 nà 35 Haiti poderá sofrer novo terremoto Mundo sofrer 3 Porto 2 forte 4 309 643 644 645 646 647 648 649 650 651 652 25 de outubro de 2010 26 de outubro de 2010 26 de outubro de 2010 27 de outubro de 2010 27 de outubro de 2010 28 de outubro de 2010 28 de outubro de 2010 28 de outubro de 2010 30 de outubro de 2010 01 de novembro de 2010 Surto de cólera atinge a capital do Haiti Mundo estar 9 Haiti 4 capital 20 Países limitam entrada de haitianos Mundo entrar 7 Haiti 12 Haiti 12 Cidades afetadas por seca no AM recebem água Cotidiano aguar 12 Negro 7 nà 14 País tem política atrasada, diz pesquisador Poder ser 18 Brasil 10 nà 21 Haiti despeja desabrigados, dizem ONGs Mundo ar 9 ONU 10 forà 13 Depois da eleição Opinião estar 10 Brasil 12 nà 14 Epidemia de cólera mata 303 em uma semana no Haiti Mundo ser 6 OMS 6 nà 12 Este é meu novo mercado Mundo ser 17 Haiti 4 nà 18 ONU investiga se cólera chegou ao Haiti com militares Mundo militar 16 ONU 10 militar 16 Terra do nunca Mundo ser 15 Lovely 8 nà 33 310 653 654 655 656 657 658 659 660 661 662 04 de Bactéria que causou surto de novembro cólera veio da Ásia, afirma Mundo de 2010 ONU 5 de Desabrigados se recusam a novembro deixar tendas para fugir de Mundo de 2010 tempestade 6 de Passagem de furacão Tomas novembro pelo Haiti provoca Mundo de 2010 inundações 6 de novembro 5 MINUTOS Corrida de 2010 08 de Avião não tripulado do novembro Poder Exército faz 1ª missão de 2010 08 de Brasil pós-Lula deve ajudar novembro Mundo em democracia regional de 2010 10 de Comissão do Congresso novembro aprova verba para parentes Poder de 2010 de mortos no Haiti 13 de novembro Frases Mundo de 2010 13 de Casos de cólera aumentam novembro Mundo 500% na capital do Haiti de 2010 14 de Nas malhas do tráfico Ilustríssim novembro negreiro a de 2010 militar 14 Haiti 6 militar 14 poder 5 Haiti 4 poder 5 ar 3 Haiti 4 atà 9 vencer 3 Mundo 3 contra 4 ser 13 Vant 12 nà 16 ser 41 Brasil 52 Brasil 52 militar 16 Poupex 6 militar 16 acelerar 3 Haiti 2 passado 3 ir 8 MSF 10 segundo 19 ser 51 Rufino 52 escravo 56 311 663 664 665 666 667 668 669 670 671 672 15 de Sempre digo que Pelé só teve novembro Poder um; igual a Lula não vai ter de 2010 15 de Venezuela, um ímã e porto New York novembro seguro para migrantes Times de 2010 16 de Protestos contra "lentidão" novembro Mundo da ONU deixam feridos de 2010 16 de Armas são chave para novembro Mundo conselho da ONU de 2010 17 de Doença matou mais de 1.000 novembro Mundo em um mês de 2010 17 de Epidemia de cólera causa novembro Mundo violência no norte do Haiti de 2010 18 de ONU suspeita que rebelde novembro Mundo agite protestos de 2010 18 de Ueba! Dilma na Granja da novembro Ilustrada Torta! de 2010 19 de Missão do Brasil redobra novembro Mundo cuidados com transmissão de 2010 19 de Violência cresce e chega à novembro Mundo capital do Haiti de 2010 ser 48 Brasil 34 nà 92 ser 13 Venezuela 18 Venezuela 18 lidar 3 ONU 6 ONU 6 militar 25 Brasil 20 militar 25 chegar 6 República 4 segundo 7 ser 15 ONU 18 ONU 18 militar 17 ONU 18 ONU 18 ter 10 Datena 10 carro 10 ser 27 Brasil 8 ser 27 ser 13 ONU 12 paà 22 312 673 674 675 676 677 678 679 680 681 682 20 de Combate à cólera no Haiti novembro tem falhas, declara ONU de 2010 21 de Eleições no Haiti favorecem novembro combate à cólera, diz OEA de 2010 21 de Ueba! O periquitério da novembro Dilma! de 2010 22 de A grave patologia da novembro educação brasileira de 2010 22 de Brasil pode voltar a novembro pressionar para resumir de 2010 apuração 23 de Eleição é ao mesmo tempo novembro praga e esperança para o país de 2010 23 de Cartazes tomam ruínas da novembro sede da Presidência de 2010 23 de Haiti encara surto com medo novembro e resignação de 2010 24 de novembro RÁPIDAS de 2010 24 de Automóvel de governista é novembro atacado a tiros de 2010 Mundo ser 13 ONU 8 ser 13 Mundo ser 14 Prà 6 nà 16 Ilustrada ser 16 Silvio 12 nà 21 Opinião ser 18 Desenvolvim ento 6 ser 18 Mundo haver 14 Brasil 18 nà 26 Mundo ser 15 Haiti 12 nà 23 Mundo estar 4 Haiti 4 nà 6 Mundo haver 10 Joseph 4 capital 16 Corrida afetar 4 Espanha 6 paà 8 Mundo ser 7 Cà 8 nà 9 313 683 684 685 686 687 688 689 690 691 692 24 de Campanha rica turbina novembro candidato do governo no Mundo de 2010 Haiti 25 de NO HAITI: POPULAR, RITMO novembro Mundo LEMBRA A LAMBADA de 2010 25 de novembro No ritmo da Kompa Mundo de 2010 25 de novembro 5 MINUTOS Corrida de 2010 26 de novembro Cerco ao inimigo Opinião de 2010 26 de Candidatos fazem beija-mão a novembro Mundo Brasil e EUA de 2010 26 de Globo Rio e Globonews novembro transmitem "clima de terror" Cotidiano de 2010 sem interrupção 27 de "É mais seguro que o Rio", novembro Mundo dizem militares de 2010 27 de Favorita no Haiti se espelha novembro Mundo em Dilma de 2010 27 de Forças do Estado tentam novembro Cotidiano "limpar, ocupar e construir" de 2010 ser 11 Prà 12 segundo 17 formar 2 Haiti 2 Haiti 2 ser 18 Haiti 16 ser 18 ir 3 Beatles 2 contra 8 vir 9 Forà 5 contra 12 ser 12 Brasil 16 Brasil 16 rir 5 Rio 12 rio 8 militar 24 Minustah 8 militar 24 ser 13 Manigat 10 paà 14 ser 13 Afeganistà 6 tà 14 314 693 694 695 696 697 698 699 700 701 702 27 de Jobim só comunicou militares novembro Cotidiano após decisão de 2010 27 de Exército troca tiros com novembro Cotidiano bandidos em cerco a morro de 2010 28 de O "Capitalismo de Laços" da novembro Poder privataria de 2010 28 de novembro Painel Poder de 2010 28 de De emergência em novembro emergência, doentes se Mundo de 2010 resignam 28 de Governista defende volta de novembro Mundo líder deposto de 2010 28 de Haiti vai às urnas sob suspeita novembro Mundo de fraude de 2010 29 de novembro RÁPIDAS Corrida de 2010 29 de ONU espera resultado para novembro Mundo negociar saída de 2010 29 de novembro Frases Mundo de 2010 militar 25 Rio 14 militar 25 militar 17 Vila 6 militar 17 ser 24 Brasil 12 ser 24 ser 18 Dilma 10 ser 18 haver 10 Amecia 4 emergência 10 ser 18 Aristide 12 ser 18 ser 13 Haiti 8 segundo 13 cancelar 3 Fuvest 4 pouco 7 ser 15 Minustah 10 haitiano 18 ir 4 JEAN 4 candidato 6 315 703 704 705 706 707 708 709 710 711 712 29 de novembro de 2010 30 de novembro de 2010 30 de novembro de 2010 30 de novembro de 2010 30 de novembro de 2010 30 de novembro de 2010 01 de dezembro de 2010 01 de dezembro de 2010 1 de dezembro de 2010 2 de dezembro de 2010 Rivais querem cancelar eleição no Haiti Mundo ser 11 Martelly 10 nà 14 Painel Poder ser 9 PT 8 presidente 10 Erramos Opinião ser 6 Pà 16 nà 21 Candidatos no Haiti agora prometem respeitar resultado Mundo ser 8 Haiti 10 nà 11 + RIO Cotidiano colocar 6 Augusto 2 rio 7 5 MINUTOS Corrida folhar 8 Equilà 4 folha 8 Exército quer evitar "contaminação" da tropa Cotidiano militar 14 Rio 14 militar 14 Partido do governo já considera aceitar revés Mundo acalmar 3 Manigat 4 governista 6 FOLHA.com Mundo folhar 4 Fernando 2 capital 4 Vem aí a MMPRJ Opinião ser 10 Rio 6 atà 15 316 713 714 715 716 717 718 719 720 721 722 2 de dezembro de 2010 2 de dezembro de 2010 3 de dezembro de 2010 3 de dezembro de 2010 3 de dezembro de 2010 3 de dezembro de 2010 3 de dezembro de 2010 4 de dezembro de 2010 4 de dezembro de 2010 5 de dezembro de 2010 Um ano depois, reconstrução engatinha no Haiti Mundo dizer 6 ONGs 4 nà 8 bajulação Esporte ser 12 Fifa 18 ser 12 Próximo a Amorim, Patriota deslanchou sob Lula Poder ser 9 Amorim 10 dois 10 Acusados de causar surto de cólera são linchados no Haiti Mundo ser 14 Haiti 14 Haiti 14 Vazamento sugere elo secreto entre Berlusconi e Putin Mundo militar 8 Berlusconi 10 americano 10 Estratégia se assemelha à do Haiti Cotidiano ar 4 Haiti 8 Haiti 8 Exército terá poder de polícia Cotidiano dentro do Alemão ser 22 Exà 10 ser 22 HAITI: Eleições tiveram irregularidades, diz secretário da ONU Mundo evitar 3 Haiti 4 nà 6 Especialistas em defesa questionam uso do Exército Cotidiano ser 13 Exà 8 polà 15 "Desconfiança é grande" sobre o Irã, afirmou Patriota a diplomata Poder ser 15 Irà 14 governo 16 317 723 724 725 726 727 728 729 730 731 732 5 de dezembro de 2010 6 de dezembro de 2010 7 de dezembro de 2010 7 de dezembro de 2010 7 de dezembro de 2010 8 de dezembro de 2010 8 de dezembro de 2010 8 de dezembro de 2010 9 de dezembro de 2010 09 de dezembro de 2010 ILUSTRÍSSIMA SEMANA Ilustríssim a suar 8 Paulo 14 pà 27 HAITI: Protesto por anulação das eleições acaba em confronto com a polícia Mundo ir 3 Haiti 4 polà 6 HAITI: Mortos por cólera no país passam de 2.070 Mundo ser 4 Haiti 4 segundo 8 Ataque ao êxito Poder fazer 9 Exà 7 nà 30 Rio vive "conflito armado aberto", vê Cruz Vermelha Cotidiano viver 6 Rio 10 nà 12 De P.Bevilaqua@org para Dilma@gov Poder militar 17 Rio 8 nà 18 Estudo liga ONU a epidemia no Haiti Mundo ser 13 ONU 6 segundo 18 Série de Christian Cravo no Haiti capta instantes do vodu Ilustrada obrar 4 Christian 4 homem 4 CÓLERA: NEPALESES NEGAM CULPA EM EPIDEMIA Mundo comandar 1 Haiti 6 Haiti 6 Anúncio de 2º turno provoca onda de protestos no Haiti Mundo ser 15 Martelly 8 segundo 24 318 733 734 735 736 737 738 739 740 741 742 10 de dezembro Frases Mundo corresponder de 2010 10 de Autoridades farão dezembro recontagem de votos após Mundo ser de 2010 protestos no Haiti 10 de ALEMÃO: GENERAL VAI dezembro Cotidiano comandar COMANDAR AS OPERAÇÕES de 2010 11 de HAITI: ONU investigará dezembro Mundo determinar origem de epidemia de cólera de 2010 14 de EUA se dizem "otimistas" com dezembro Poder ser gestão Dilma de 2010 15 de dezembro MUNDO VIRTUAL Corrida militar de 2010 18 de Nossa missão no Rio é ganhar dezembro Cotidiano ser tempo, afirma general de 2010 19 de A história do andar de baixo dezembro Poder ser sobreviveu de 2010 19 de AMBIÇÃO POLÍTICA DEFINIU dezembro Especial ser O TOM DA DIPLOMACIA de 2010 20 de dezembro todas as letras do ano Folhateen ser de 2010 2 Manigat 2 nà 3 5 Haiti 6 nà 15 4 Brigada 2 contingente 3 3 ONU 6 ONU 6 11 Dilma 12 Dilma 12 5 AnnCurry 2 primeiro 6 18 Haiti 8 ser 18 25 Rio 10 ser 25 17 Brasil 14 ser 17 23 Brasil 6 ser 23 319 743 744 745 746 747 748 749 750 751 752 22 de dezembro Painel FC Esporte de 2010 23 de Brasil deve mandar fragata dezembro Mundo para o Líbano de 2010 26 de dezembro Personagens do ano Empregos de 2010 26 de IGREJA: Papa pede dezembro solidariedade com cristãos no Mundo de 2010 Iraque 26 de O mau sinal do governo que dezembro Poder nem começou de 2010 26 de dezembro O morro agora é do Exército Opinião de 2010 28 de Haitianos perderam controle dezembro Mundo sobre seu processo eleitoral de 2010 28 de Haiti deve adiar 2º turno de dezembro Mundo eleições de 2010 30 de Tropas brasileiras deveriam dezembro Opinião deixar o Haiti de 2010 30 de 12.JAN.10: TERREMOTO NO dezembro Especial HAITI de 2010 ser 12 Rio 6 ser 12 ser 18 Brasil 16 forà 24 ser 51 Landrino 12 ser 51 ajudar 2 Bento 2 cristà 3 ser 18 Sà 10 ser 18 ser 8 Exà 6 nà 16 ser 9 EUA 10 haitiano 21 militar 5 OEA 6 segundo 20 ser 15 Haiti 20 nà 24 engatinhar 3 Arns 2 comeà 5 320 753 754 755 756 757 758 759 760 761 762 30 de Terrorismo, terremotos e dezembro tuítes de 2010 03 de janeiro de PAINEL DO LEITOR 2011 4 de Desaparecido político não é janeiro de vergonha, diz ministro 2011 4 de Irã convida Dilma a visitar o janeiro de país no segundo semestre 2011 6 de Preço mundial de alimentos é janeiro de recorde 2011 7 de Estável, dom Paulo recuperajaneiro de se de cirurgia, em SP 2011 7 de José Elito atacou último janeiro de bastião rebelde no Haiti 2011 9 de General que falou de janeiro de desaparecidos errou, afirma 2011 Jobim 11 de Celebração vai ter missa e janeiro de "We Are the World" 2011 11 de Caos político marca 1 ano de janeiro de terremoto 2011 Especial ser 11 Brothers 2 ser 11 Opinião ser 25 SP 28 ser 25 Poder ser 11 Forà 6 ser 11 Mundo ser 17 Brasil 10 ser 17 Mercado ser 7 FAO 12 nà 11 Poder estar 4 Paulo 8 dia 7 Poder militar 5 Elito 8 general 9 Poder ser 55 GLO 8 nà 97 Mundo ser 8 Arns 4 ser 8 Mundo assumir 7 Prà 8 segundo 22 321 763 764 765 766 767 768 769 770 771 772 12 de Pastoral volta ao Haiti após janeiro de morte de Zilda Arns 2011 12 de Após perder Zilda Arns, janeiro de Pastoral volta ao Haiti 2011 12 de GOVERNO PAGA janeiro de INDENIZAÇÃO A 18 FAMÍLIAS 2011 12 de Resposta humanitária teve janeiro de incoerências 2011 12 de janeiro de Uma noite em Porto Príncipe 2011 12 de janeiro de FOLHA.com 2011 13 de janeiro de Haiti, ano um 2011 13 de Doação do Brasil ao exterior janeiro de sobe 50% 2011 13 de OEA vê risco de mais janeiro de instabilidade no país 2011 13 de Aos 7, filha de militar não tem janeiro de festa de aniversário 2011 Corrida ar 5 Fort 4 comeà 9 Mundo ser 7 Pastoral 8 comeà 9 Mundo militar 8 Haiti 2 militar 8 Mundo ser 11 Haiti 8 ser 11 Mundo haver 13 Sherlyne 10 nà 18 Mundo folhar 4 ETA 2 folha 4 Opinião ser 9 Brasil 4 ainda 15 Mundo ajudar 8 US 10 US 10 Mundo ser 7 OEA 10 governo 12 Mundo ser 9 Giovanna 8 nà 15 322 773 774 775 776 777 778 779 780 781 782 13 de janeiro de 2011 13 de janeiro de 2011 13 de janeiro de 2011 13 de janeiro de 2011 14 de janeiro de 2011 14 de janeiro de 2011 14 de janeiro de 2011 14 de janeiro de 2011 14 de janeiro de 2011 14 de janeiro de 2011 Missas lembrando Zilda Arns reúnem quase 1.000 em SC e SP Mundo ser 5 Pastoral 10 mà 18 Nelson Jobim critica falhas de ricos com país Mundo estar 5 Dilma 4 estar 5 CONDOLÊNCIA: DILMA AFIRMA LAMENTAR POR TERREMOTO Mundo associar 3 Dilma 4 Dilma 4 Saída do Hizbollah desfaz governo libanês Mundo governar 7 Hizbollah 14 governo 14 O tsunami brasileiro Opinião ser 12 Brasil 6 nà 22 Desde terremoto, tropa do país no Haiti cresceu 83% Mundo militar 23 Brasil 8 militar 23 TERREMOTO: GOVERNO DIZ QUE 316 MIL MORRERAM Mundo ser 3 Bellerive 2 ser 3 EUA pediram cabeça de general brasileiro Mundo militar 13 Brasil 6 militar 13 trabalhar 6 Angra 4 trabalhar 6 militar 5 Brasil 4 brasileiro 6 "Condições são piores que na Cotidiano tragédia do Haiti" EUA pediram a cabeça de general do Brasil no Haiti Corrida 323 783 784 785 786 787 788 789 790 791 792 15 de Japão e Chile dão "banho" no janeiro de Cotidiano Brasil em prevenção 2011 15 de Itamaraty minimiza ameaça janeiro de Mundo dos EUA a general brasileiro 2011 15 de Texto aponta falta de janeiro de Mundo cooperação no Haiti 2011 16 de UM OLHAR SOBRE A Ombudsm janeiro de TRAGÉDIA an 2011 16 de janeiro de PAINEL FC Esporte 2011 16 de Reconstrução pode evitar janeiro de Mercado nova tragédia 2011 16 de Logística inova reação a janeiro de Mercado desastre natural 2011 16 de Rapper defende missão da janeiro de Mundo ONU contra instabilidade 2011 16 de janeiro de DNA das tragédias Opinião 2011 17 de Como sanear uma agência de New York janeiro de ajuda Times 2011 ser 7 Brasil 4 natural 7 estar 2 Haiti 4 Haiti 4 militar 8 EUA 8 brasileiro 12 ser 13 Folha 4 nà 24 ser 13 Paulo 14 ser 13 casar 11 Nova 6 casa 11 ser 7 Cruz 6 americano 7 ser 23 Haiti 10 nà 49 ter 9 Deus 10 nà 31 ser 16 Shah 20 ser 16 324 793 794 795 796 797 798 799 800 801 802 17 de janeiro de 2011 17 de janeiro de 2011 18 de janeiro de 2011 19 de janeiro de 2011 20 de janeiro de 2011 20 de janeiro de 2011 21 de janeiro de 2011 21 de janeiro de 2011 21 de janeiro de 2011 21 de janeiro de 2011 Ex-ditador "Baby Doc" retorna ao país após 25 anos exilado em Paris Mundo desviar 3 Doc 4 meio 8 Bancos suíços devolverão dinheiro sujo Mundo ser 15 Suà 20 suà 36 Anistia defende que os crimes de "Baby Doc" sejam julgados Mundo voltar 6 Duvalier 10 Duvalier 10 "Baby Doc" é indiciado por corrupção Mundo ser 8 Haiti 12 nà 15 Ex-ditador "Baby Doc" sugere volta à política no Haiti Mundo ser 6 Duvalier 8 ex 10 Ex-ditador "Baby Doc" pode voltar à política haitiana Corrida ficar 6 Duvalier 6 haitiano 10 FRASES DO DIA Corrida agarrar 3 Sobre 4 forà 4 arrecadar 1 Haiti 4 Haiti 4 NO MUNDO: KATRINA GEROU Mercado US$ 4 BI EM DOAÇÕES EUA e ONU elevam o tom contra Préval Mundo poder 6 OEA 6 haitiano 7 Brasil se diz preocupado com retorno de Aristide Mundo ser 15 Aristide 16 polà 18 325 803 804 805 806 807 808 809 810 811 812 22 de "Baby Doc" diz sentir tristeza janeiro de por vítimas 2011 23 de janeiro de O QUE ELES DISSERAM 2011 23 de Esporte sofre com corrupção janeiro de e pouca verba 2011 23 de Messi e Kaká viram pinturas janeiro de pela cidade 2011 23 de janeiro de Salva-vidas 2011 23 de Mercado de seguros contra janeiro de desastres naturais ainda é 2011 pequeno no Brasil 23 de Brasil não vai ser alto-falante janeiro de sobre direitos humanos 2011 23 de HAITI: Políticos fazem ato janeiro de para anular eleição 2011 23 de janeiro de O homem de R$ 100 mi 2011 24 de janeiro de PAINEL DO LEITOR 2011 Mundo voltar 7 Haiti 10 haitiano 15 Corrida ser 11 EUA 6 sobre 24 Esporte ser 13 Haiti 10 ser 13 Esporte ser 4 Amà 2 capital 16 Esporte ser 21 Haiti 14 ser 21 Mercado ser 19 Brasil 6 nà 26 Mundo ser 48 Brasil 24 ser 48 Mundo sair 3 Haiti 2 capital 4 Opinião ser 21 Ronaldinho 20 ser 21 Opinião ser 28 SP 14 nà 41 326 813 814 815 816 817 818 819 820 821 822 24 de janeiro de FRASES 2011 24 de Um governo não pode nem janeiro de deve ser 100% transparente 2011 24 de "Baby Doc" quer doar sua janeiro de conta na Suíça 2011 24 de Brasileiro afirma que Aristide janeiro de pode voltar ao Haiti se for 2011 ajudar 24 de janeiro de PAINEL FC 2011 25 de Itamaraty aprova resultados janeiro de de missão 2011 25 de janeiro de O campo de soros 2011 25 de Clube Rotary monta tendas janeiro de para desabrigados 2011 27 de General do Brasil pode ter janeiro de sido morto, diz presidente 2011 27 de Partido oficial desiste de janeiro de eleição haitiana 2011 Mundo ser 6 WikiLeaks 4 ser 6 Mundo ser 40 Twitter 16 nà 56 Mundo contar 6 Baby 8 haitiano 9 Mundo retornar 10 Aristide 12 segundo 19 Esporte ser 13 Marco 6 ser 13 Mundo confirmar 2 Estados 2 bastante 4 Esporte ser 15 Porto 8 ser 15 Cotidiano ser 8 Haiti 4 ser 8 Mundo militar 9 Bacellar 12 nà 15 Mundo ser 6 Prà 12 segundo 17 327 823 824 825 826 827 828 829 830 831 832 27 de janeiro de ALPINAS 2011 27 de Volta de Baby Doc desperta janeiro de saudosismo 2011 27 de Hotéis lucram com escassez janeiro de de piscinas 2011 27 de janeiro de RÁPIDAS 2011 29 de janeiro de Programação de TV 2011 30 de País define data para o janeiro de segundo turno das eleições 2011 presidenciais 01 de Aristide pode ganhar fevereiro passaporte para retornar ao de 2011 Haiti 2 de Brasil substituirá embaixador fevereiro no Haiti após eleição de 2011 2 de Governista resiste a deixar fevereiro pleito presidencial no Haiti de 2011 3 de Partidários de Aristide fevereiro protestam em Porto Príncipe de 2011 Mercado ser 12 Amà 6 nà 19 Esporte haver 6 Baby 6 Jean 6 Esporte nadar 8 Carrefour 12 piscina 18 Corrida minar 4 Aberto 4 crà 6 Ilustrada casar 6 Brasil 24 Brasil 24 Mundo ser 5 Haiti 4 segundo 8 Mundo ser 8 Aristide 14 nà 15 Mundo regulamentar 4 Haiti 6 Haiti 6 Mundo poder 10 Cà 14 segundo 29 Mundo ser 5 Aristide 8 capital 8 328 833 834 835 836 837 838 839 840 841 842 4 de ONU fica em alerta após fevereiro Mundo anúncio haitiano de 2011 4 de Alta de preço de alimento é fevereiro Mercado recorde, afirma a FAO de 2011 5 de Governo vai criar "Swat do fevereiro Cotidiano SUS" para tragédias de 2011 6 de ILUSTRÍSSIMA SEMANA: O Ilustríssim fevereiro MELHOR DA CULTURA EM 11 a de 2011 INDICAÇÕES 7 de fevereiro RÁPIDAS Corrida de 2011 7 de Nova York registra três casos fevereiro Mundo de cólera de 2011 8 de BID praticamente dobra fevereiro Ciência crédito para sustentabilidade de 2011 10 de fevereiro Pendências por aí Poder de 2011 11 de fevereiro PAINEL FC Esporte de 2011 11 de MISSÃO DE PAZ: Chanceler irá fevereiro Mundo ao Haiti para discutir eleições de 2011 ser 9 Prà 8 segundo 17 ar 6 Argà 4 sà 7 ir 6 Saúde 7 rio 12 ser 12 Paulo 10 pà 24 sofrer 4 Kubica 4 mà 9 estar 6 Haiti 6 Haiti 6 ser 8 US 14 US 14 ser 20 TSE 8 nà 23 ter 9 Mogi 6 ter 9 dever 6 Haiti 4 deve 6 329 330 331