Modelo de Propagação de Informações em Redes Sociais Leandro Lamarca Nunes Janeiro de 2013 Modelo de Propagação de Informações em Redes Sociais Leandro Lamarca Nunes Orientador: Prof. Allbens Atman Picardi Faria Janeiro de 2013 Dissertação de Mestrado, submetida ao Programa de PósGraduação em Modelagem Matemática e Computacional do CEFET-MG como parte dos requisitos exigidos para a obtenção do tı́tulo de Mestre em Modelagem Matemática e Computacional. Sumário 1 Introdução 1 2 Conceitos Básicos 3 2.1 Redes e Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Modelo de Penna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3 4 Navegação em redes complexas: Revisão Bibliográfica 8 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 Redes Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.3 Notı́cias Sociais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.4 Competição entre memes(ideias) em um mundo de atenção limitada . . . . 15 3.5 Contágio da informação: um estudo empı́rico da divulgação de notı́cias nas R R redes sociais DIGG e TWITTER . . . . . . . . . . . . . . . . . . . . . 24 Modelo Proposto 4.1 5 32 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Conclusões e Perspectivas 45 A Anexo A.1 Percolação 46 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 A.2 Leis de Escala e Potência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 i A.3 Passeio Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 A.4 Autômatos Celulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 A.5 Geradores de números aleatórios . . . . . . . . . . . . . . . . . . . . . . . . 52 ii Resumo A literatura recente tem apresentado evidências de que o estudo da navegação em redes complexas é útil para entender a dinâmica e topologia destas redes. Duas das principais abordagens usualmente consideradas são a navegação de caminhantes aleatórios e a navegação de caminhantes dirigida. A navegação acontece em redes simples, que possuem sua forma e tamanho definidos, ou em redes complexas, cujos nós são interligados aleatoriamente, como por exemplo em redes neurais e rede de dados(internet). O interesse em redes advém por representarem os sistemas encontrados no mundo real. O entendimento da dinâmica de disseminação de informação em redes complexas, que traduzem da melhor forma para o mundo real as redes sociais, tem despertado uma busca intensa no intuito de entender como as ferramentas de internet, atualmente disponı́veis, se comportam. Neste trabalho, pretende-se estudar a navegação de informações e seus impactos em redes de mundo pequeno. A atenção desse esta na utilização das redes que mais se assemelham as redes sociais do mundo real, através de uma abordagem que utiliza um modelo inspirado de percolação com múltiplos alcances e autômatos celulares. Palavras-chave: navegação, redes complexas, redes sociais, autômatos celulares. Abstract Recent literature has shown evidences that navigation in complex networks study is useful for understanding the dynamics and topology of these networks. Two among the major approaches are the navegation of random walkers and the directed walkers. The navigation happens in simple networks, which have defined its shape and size, or in complex networks, which nodes are randomly interconnected, such as neural networks and data network (internet). The interest in studying these networks is because they represent systems that can be found in the real world. Understanding the spread of information dynamics in complex networks, which translate as best to the real world, social networks, has raised an intensive search in order to understand how internet tools, currently available, behave. The purpose of this study is to assess the navigation of information and its impacts considering small world networks. The focus of this study is on the use of networks that more closely resemble the real-world social networks, through an approach that uses a model inspired in percolation with multiples scope and cellular automatas. Keywords: navigation, complex networks, social networks, cellular automatas. Objetivos - Estudo da navegação da informação em redes complexas. - Revisão bibliográfica sobre o processo de disseminação da informação. - Proposição de um modelo de propagação de informações em redes sociais. Capı́tulo 1 Introdução Nos últimos anos, uma atenção renovada tem sido dada às redes complexas através de estudos oriundos da matemática e da fı́sica aplicados a toda sociedade, contribuindo para o entendimento do papel dessas redes na estrutura social. O surgimento das redes sociais e de seu crescimento tem despertado grande interesse por diversos setores. Um ponto em comum dentre os diversos tipos de rede social é o compartilhamento de informações e interesses em busca de objetivos comuns. O intenso processo cotidiano de formação das redes sociais reflete um processo de fortalecimento da sociedade civil e de grupos sociais. As redes sociais tem por sua natureza reunir pessoas que compartilham de interesses comuns que podem se manifestar de diferentes formas. Dentre elas, podemos listar as redes de comunidade que, geralmente, tem como finalidade reunir os interesses comuns de moradores de uma mesma região; as redes de profissionais, mais conhecidas como ‘networking’, tem como objetivo fortalecer a rede de contatos de um profissional, visando futuros ganhos no mundo empresarial, e por fim, as redes sociais online que mantém uma estrutura capaz de construir redes sociais através de usuários cadastrados, permitindo compartilhar interesses e/ou atividades, através de mensagens, jogos e outras possibilidades. R As redes sociais online, mais conhecidas atualmente como redes de relacionamentos (DIGG , R R R TWITTER , FACEBOOK ) e as redes profissionais (LINKEDIN ,) permitem analisar a forma como os indivı́duos desenvolvem suas atividades e alcançam seus objetivos. O constante crescimento dessas redes e a quantidade imensa de informação gerada e veı́culada nelas, motivou o estudo sobre a capacidade que cada indivı́duo tem de absorção. Sendo assim, o entendimento da disseminação da informação nessas redes e de seu impacto na sociedade tem motivado diversos estudos contemporâneos em parte apresentados por Vespignani [37]. De acordo com os autores Barabàsi, Albert, Jeong apud Boccara, a World Wide Web 1 (WWW) é uma rede complexa em constante crescimento de sua estrutura fı́sica, cuja ordem é maior que um bilhão de nós, sendo atualmente a fonte mais utilizada na busca de informação [1, 2]. Estes autores ainda afirmam que o crescimento citado é totalmente desregulamentado, ou seja, qualquer indivı́duo ou instituição é livre para criar sites com um número ilimitado de documentos e ligações. Por conseguinte, os vértices dessa rede são documentos HTML, chamados de páginas Web, e as conexões são os endereços de internet apontando de um documento para outro. Apesar de seu enorme tamanho, os autores descobriram que a WWW é um grafo altamente interligado, ou seja, dois documentos escolhidos aleatoriamente estão, em média, a 19 cliques de distância um do outro. Na mesma linha, estes autores afirmam que a distância média entre quaisquer dois documentos é dada por 0, 35 + 2, 06 log N , onde N é o número total de documentos. “Esta dependência logarı́tmica mostra que um agente “inteligente” deve ser capaz de encontrar em um curto espaço de tempo as informações que está procurando, navegando na web”[1, 2]. A Internet e os mundos virtuais são redes para navegar e explorar diariamente e a literatura atual mostra evidências de que o estudo da navegação é útil para a compreensão das propriedades das redes complexas. Uma contribuição importante de Cajueiro [4] é o conceito de navegação em redes, que implica em um agente ter que se mover dentro de uma rede partindo de um ponto de origem a um de destino. Este movimento consiste em alcançar um nó da rede complexa através da navegação entre os elos que os unem [4]. Neste trabalho iremos apresentar um capı́tulo de conceitos básicos que une todas as ferramentas necessárias que serão utilizadas em nosso modelo. Em sequência, passaremos por uma revisão bibliográfica que aborda conceitos imprescindı́veis para o entendimento das redes sociais e seus mecanismos. E por fim, iniciaremos a apresentação do nosso modelo matemático que tem por caracterı́stica identificar os resultados de simulações da disseminação da informação em uma rede de mundo pequeno através de uma abordagem inspirada em percolação com múltiplos e autômatos celulares. Em anexo, descrevemos alguns conceitos importantes que foram estudados e puderam, de forma segundaria, inspirar a criação do modelo. 2 Capı́tulo 2 Conceitos Básicos 2.1 Redes e Grafos Grafos Os grafos podem ser utilizados para a representação abstrata das redes complexas. Nas redes, os nós e as arestas possuem propriedades baseadas no sistema que está sendo investigado e pode-se entender as redes como grafos aplicados ao sistema real em estudo. Um grafo G(V, A) é uma estrutura composta por dois conjuntos V e A tal que V é um conjunto finito não-vazio e A é um conjunto de pares não-ordenados de elementos de V . Os elementos de V são chamados de vértices e |V | = n é a ordem do grafo com n vértices. Os elementos de A são chamados de arestas. Uma definição de grafos pode ser apresentada [5], onde V é um conjunto discreto e A uma famı́lia, cujos elementos são definidos em função dos elementos de V . Se as arestas de A forem definidas como pares ordenados de vértices, dizemos que a aresta diverge de vi e converge para vj . Pode-se visualizar um grafo através de uma representação como visto na figura 2.1, onde os vértices são pontos distintos do plano e as arestas são linhas unindo dois vértices. Redes Complexas O termo redes complexas refere-se a um grafo que apresenta uma estrutura topográfica não trivial, composta por um conjunto de vértices (nós) que são interligados por meio de arestas[1]. No final de 1967, Stanley Milgram [6] realizou um experimento simples para mostrar 3 Figura 2.1: Exemplos de diferentes possı́veis representações de um grafo G(V, A) a partir de um mesmo conjunto de vértices e arestas[5]. que, apesar do grande número de pessoas que viviam nos Estados Unidos e do número relativamente pequeno de conhecidos de uma pessoa, duas pessoas escolhidas ao acaso poderiam estar ligadas. No entanto, o fato de que duas pessoas escolhidas aleatoriamente estão conectadas por apenas uma pequena cadeia de conhecidos, o referido fenômeno tem sido verificado em diversas redes sociais. Exemplos incluem redes neurais, teias alimentares, redes metabólicas, redes de energia, redes de distribuição , sistemas de autoestrada, rotas aéreas, a Internet, e a WWW[10]. De acordo com Mendes [7] e Rocha [8], a Teoria das Redes Complexas, ou Teoria das Redes, possui um caráter interdisciplinar. Ademais, Rodrigues [9] afirma que: ‘Sistemas complexos são formados por muitos elementos capazes de interagir entre si e com o meio ambiente’. Rocha [8] ainda coloca que o sistema evolui rapidamente, mas, uma série de problemas envolvendo redes complexas ainda necessitam ser estudados, principalmente sistemas envolvendo acoplamento e interação entre diversas redes complexas. Esses elementos de redes complexas podem ser pessoas, proteı́nas, computadores, aeroportos, entre outras coisas. As ligações, entretanto, dependem da caracterı́stica que se quer estudar e refletem propriedades intrı́nsecas dos elementos considerados, por exemplo: pessoas podem estar ligadas por conexões de amizade ou devido ao compartilhamento de alguma opinião, enquanto aeroportos estarão ligados se possuem rotas que os conectam. A Teoria das Redes Sociais pode ser vista como uma extensão da Teoria das Redes aplicada a fenômenos sociais. Descrevemos anteriormente sobre a natureza de uma rede complexa, vamos agora descrever diferentes modelos e suas especificidades. A rede conhecida como aleatória é atribuı́da a Erdös & Rényi, a de Mundo Pequeno (Small-world em inglês), que possui alto grau de agrupamento e baixa distância média entre os vértices como pode ser vista em um exemplar na figura 2.2, foi inicialmente proposta por Watts e Strogatz em 1998 [10]. 4 Figura 2.2: Exemplo de um diagrama de uma rede social.Representação do ponto de maior grau de R centralidade em cor branca. LINKEDIN , rede de usuários que procura fortalecer sua rede de contatos visando futuros ganhos pessoais ou profissionais fazendo parte de grupos com maior afinidade. Retirado de http://pt.wikipedia.org/ wiki/ Rede_social Modelo de Redes Aleatórias Os matemáticos Paul Erdos e Alfred Rényi [1, 10, 11, 12, 13] escreveram vários trabalhos sobre a teoria dos grafos, dentre os quais se destaca a teorização sobre ‘grafos aleatórios’. Objetivando mostrar como as redes sociais se formariam demonstraram, por exemplo, que bastava uma conexão entre cada um dos convidados de uma festa para que todos estivessem conectados ao final dela. Erdos e Rényi ainda atentaram para outro fato: quanto mais elos eram adicionados, maior a probabilidade de serem gerados aglomera-dos, ou seja, grupos de nós mais conectados. Uma festa, portanto, poderia ser um conjunto de aglomerados (grupos de pessoas) que de tempos em tempos estabeleciam relações com outros grupos. Entretanto, como esses nós se conectariam?Eles acreditavam que o processo de formação dos grafos era randômico, no sentido de que esses nós se agregavam aleatoriamente. Dessa premissa, Erdos e Rényi concluı́ram que todos os nós, em uma determinada rede, teriam mais ou menos a mesma quantidade de conexões ou, no mı́nimo, igual chance de receber novos elos, formando assim uma rede aleatória. 5 Modelos de Rede de Mundo Pequeno Observando as redes sociais como interdependentes umas das outras, é plausı́vel perceber que todas as pessoas estariam interligadas umas às outras em algum nı́vel. Stanley Milgram, nos anos 60, realizou um experimento para observar os graus de separação entre as pessoas numa rede de relacionamento [1, 10, 11, 12, 13, 14]. Ele enviou uma determinada quantidade de cartas a vários indivı́duos, de forma aleatória, solicitando que tentassem enviar a um destinatário especı́fico. Caso não conhecessem o destinatário, as pessoas eram solicitadas então, a enviar as cartas para alguém que acreditassem estar mais perto dele. Milgram descobriu que, das cartas que chegaram a seu destino final, a maioria havia passado apenas por um pequeno número de pessoas. Isso indicaria que todas estariam a poucos graus de separação de relacionamento umas das outras, ou seja, cada um em seu “mundo pequeno”. Outra importante contribuição foi dada por Mark Granovetter [15] que criou os conceitos de laços fracos e de laços fortes. Para ele, os laços fracos seriam muito mais importantes que os laços fortes na manutenção da rede social, pois conectariam pessoas de grupos sociais diversos, dando aos grupos (aglomerados) caracterı́sticas de rede. Granovetter [15] mostrou também que pessoas que compartilhavam laços fortes (de amigos próximos, por exemplo) em geral participavam de um mesmo cı́rculo social (de um mesmo grupo que seria altamente conectado). Já aquelas pessoas com quem se tinha um laço mais fraco eram justamente importantes porque conectariam a vários grupos sociais. Sem elas, os vários aglomerados existiriam como ilhas isoladas e não como rede. A partir do experimento de Milgram [6] e das teorias de Granovetter, Duncan Watts e de seu orientador, Steven Strogatz [10, 11], descobriu-se que as redes sociais apresentavam padrões altamente conectados, tendendo a formar pequenas quantidades de conexões entre cada indivı́duo. Um modelo semelhante ao de Erdös e Rényi, onde os laços eram estabelecidos entre as pessoas mais próximas e alguns laços estabelecidos de modo aleatório entre alguns nós transformavam a rede num mundo pequeno [10, 11]. O modelo de Watts e Strogatz mostra uma rede mais próxima da realidade das redes sociais: cada um de nós tem amigos e conhecidos em vários lugares do mundo, que por sua vez tem outros amigos e conhecidos. Em larga escala, essas conexões mostram a existência de poucos graus de separação entre as pessoas no planeta. Além disso, eles mostraram que bastavam poucas ligações entre vários aglomerados para se formar um mundo pequeno numa grande rede [13]. 2.2 Modelo de Penna O modelo de Penna é baseado na teoria da seleção natural de Darwin para a evolução das espécies e na teoria do acúmulo de mutações para explicar o envelhecimento biológico. Desde sua publicação em 1995, esse modelo vem sendo utilizado com sucesso na compreensão de muitos fenômenos evolucionários observados na natureza, tais como a senescência 6 Figura 2.3: Tipos de rede: rede regular, rede de mundo pequeno e rede aleatória. Seguem os modelos de reconexão aleatória de Watts-Strogatz, o qual realiza uma transição entre um anel regular e uma rede aleatória conforme a variação da probabilidade p de uma aresta ter várias conexões. Imagem retirada de[10]. catastrófica do salmão, a autoorganização da menopausa, as vantagens da reprodução sexuada, etc. Diversas aplicações do modelo de Penna podem ser encontradas em [31, 32, 33, 34]. Na versão sexuada do modelo Penna, o genoma de cada indivı́duo é representado usando uma ‘estratégia de cadeia de bits’[35] por duas tiras de 32 bits cada, que são lidas em paralelo. Elas contêm a informação de quando os sintomas de uma dada doença hereditária vão aparecer, sendo por isto chamadas de ‘genoma cronológico’. Cada uma das tiras contém a herança genética de um dos pais, sendo as doenças representadas pelo valor 1. Se um dado indivı́duo possui dois bits iguais a 1, por exemplo, na terceira posição de ambas as tiras (homozigoto), isto indica que aquele indivı́duo vai começar a sofrer dos sintomas de uma doença no terceiro perı́odo de sua vida. Assim, cada indivı́duo pode viver no máximo por 32 perı́odos. Se o indivı́duo for heterozigoto numa dada posição, ele só ficará doente se, naquela posição, o bit 1 for dominante. No inı́cio da simulação,define-se quantas posições serão dominantes e sorteia-se aleatoriamente quais serão elas. Estas posições são as mesmas para todos os genomas e são mantidas fixas durante todo o processo de evolução da população. Um passo computacional significa ler mais um bit do genoma de todos os indivı́duos. Se em qualquer passo, o número de doenças acumuladas num dado genoma atinge um limite determinado, aquele indivı́duo morre. 7 Capı́tulo 3 Navegação em redes complexas: Revisão Bibliográfica 3.1 Introdução A literatura recente tem apresentado evidências de que o estudo da navegação em redes complexas é útil para entender sua dinâmica e topologia. Duas principais abordagens são usualmente consideradas: navegação de caminhantes aleatórios e navegação de caminhantes dirigida. A abordagem dos autores Cajueiro e Andrade [3] supõe que um viajante tem um caminho ótimo a fim de minimizar o custo do passeio. Se isso acontecer, surgem dois regimes extremos: um denominado navegação de caminhantes dirigidos e outro de caminhantes aleatórios. Os autores tentam caracterizar o ponto crı́tico da transição de um regime para outro em função da conectividade e o tamanho da rede. Além disso, mostram que esta abordagem pode ser usada para generalizar vários conceitos apresentados na literatura sobre a navega-ção aleatória e a navegação direta. Finalmente, defende-se que investigar os regimes extremos de navegação de caminhantes aleatórios e de caminhantes dirigidos não é suficiente para avaliar corretamente as caracterı́sticas de navegação em redes complexas. O conceito de navegação implica em um agente ter que se mover dentro de uma rede partindo de um ponto de origem até um ponto de destino. No método do caminhante aleatório, o caminhante é colocado em uma posição definida e caminha pelos nós vizinhos fazendo sua escolha aleatoriamente, podendo usar ı́ndices probabilı́sticos em suas transições de acordo com a dinâmica da rede em questão. Na navegação dirigida, o agente toma o caminho mais curto para a posição alvo perguntando aos nós vizinhos qual o custo menor para o próximo passo. Essa estratégia permite 8 alcançar o ponto alvo com o mı́nimo de saltos possı́veis. Diversas situações foram consideradas em ambos os métodos. Na navegação dirigida foi estudada a situação do caminhante não conseguir obter informações completas de seus nós vizinhos, sendo trazida a consequência de um aumento da distância percorrida ao ponto alvo em comparação ao caminho mais curto. Recentemente foi considerado o tópico de navegação ótima em redes complexas, sendo que o caminhante pode ‘pagar’ por uma informação correta obtida nos nós vizinhos ou até mesmo seguir por um caminho aleatório. Desde que duas constantes de custo sejam associadas a trajetória a ser seguida - a distância e o custo da informação - o agente pode otimizar a navegação pela mı́nimo custo do caminho até o ponto alvo. Entretanto, o aprendizado surge como um fenômeno importante no assunto de navegação. Investiga-se agora como um agente pode usar o processo de aprendizado para aprender e escolher qual o caminho mais curto para rumo ao alvo numa rede complexa. Durante o processo de aprendizagem o agente conseguirá obter o caminho mais curto para atingir o alvo se adicionar o custo para obter qualquer informação desnecessária. 3.2 Redes Sociais Vivemos em um mundo cada vez mais interligado de tecno-sistemas sociais, em que dentro das infraestruturas compostas por diferentes camadas tecnológicas estão a interoperabilidade dentro do componente social que impulsiona o uso e seu desenvolvimento [37]. Exemplos são fornecidos pela Internet, WWW, tecnologias de comunicação WIFI, transporte, infraestruturas e mobilidade [37]. A natureza multiescalar e complexa dessas redes são caracterı́sticas fundamentais na sua compreensão e gestão. A acessibilidade de dados e os avanços na teoria e na modelagem de redes complexas estão fornecendo um sistema integrado que nos aproxima de alcançar o poder preditivo do verdadeiro comportamento dos tecno-sistemas sociais [37]. A interação do homem em redes sociais são modelados através de redes em que os nós representam indivı́duos interagindo e as ligações são potenciais interações entre eles [41]. Modelos de Mobilidade Ecológica e Epidemiológica dependem de redes de metapopulações que consistem em populações inteiras interligadas por virtude dos intercâmbios entre grupos de indivı́duos [42]. Um grande grupo de trabalhos tem mostrado que a maioria das redes do mundo real apresentam auto organização dinâmica (isto é, tornam-se mais complexas ao longo do tempo, sem a intervenção de forças de fora) e são estatisticamente muito heterogêneas; essas são caracterı́sticas tı́picas de sistemas complexos [43, 44, 45]. O principal desafio encontrado nas redes complexas, por conseguinte, está na sua intercone9 xão (redes de redes) e em sua natureza multiescalar. As várias distribuições estatı́sticas que caracterizam estas redes (incluindo as probabilidades de conexão por nó e as intensidades dos elos de ligação) são geralmente distorcidas com peso maior na cauda, variando ao longo de ordens de grandeza [46]. A Figura 3.1 mostra três redes que exemplificam a mobilidade humana em diferentes escalas, desde viagens aéreas que cruzam continentes até a mobilidade celular entre torres de telefonia. Idealmente, para fazer previsões sobre os processos movidos pela mobilidade humana, precisamos integrar esses dados com suas amplas granularidades em uma rede enorme. Um exemplo simples é fornecido pela descrição em grande escala de uma epidemia se espalhando. A propagação da epidemia da peste negra no século 14 (o BlackDeath) [47] foi principalmente um fenômeno de difusão espacial. Figura 3.1: Propriedades de multiescala de redes de mobilidade. À esquerda, relatamos a probabilidade de distribuição P (s) para o tráfego aéreo, medida como o número de viagens por indivı́duos, por qualquer ligação dada, de três redes diferentes: (A) rede aérea da companhia U.S. Continental, (B) rede de comutação (deslocamentos intermunicipais) dos Estados Unidos,e (C) a mobilidade entre as células de torre de telefonia móvel em uma grande área urbana. Em todos os casos, as distribuições são altamente desiguais e com duração de três a sete ordens de magnitude. À direita, a ilustração continental de rede da companhia aérea dos EUA (D) e a rede de comutação (E) entre os setores censitários principais. A escala de cores de amarelo ao vermelho escuro identifica a magnitude do fluxo de tráfego em escala logarı́tmica, a rede da companhia aérea é feita principalmente por ligações de longo alcance, em comparação com um grid como ordenação da rede de comutação. O fluxo médio diário do deslocamento na rede é de uma ordem de magnitude maior do que a da 10 rede de linhas aéreas. Como previsto em 1933 [48], o impacto em larga escala geográfica das doenças infecciosas como a epidemia de SARS [49] ou a epidemia da gripe suı́na sobre as populações no mundo moderno é, devido principalmente, a viagens comerciais. Uma epidemia que começa no Sudeste Asiático vai chegar rapidamente à América do Norte e Europa (3.2). Esta imagem, por conseguinte, não pode ser simplesmente descrita em termos de fenômenos difusivos, mas sim, deve incorporar a estrutura espacial da moderna rede de transporte. Por exemplo, é a natureza de cauda pesada da rede de tráfego aéreo que explica por que as restrições de viagem por si só são ineficazes em conter uma epidemia global, a menos que a taxa de mobilidade global seja reduzida, pelo menos, por uma ordem de grandeza [50, 51, 52]. Outro aspecto crucial de pensamento moderno de avaliar a rede é a dinâmica de auto-organização que dá origem a padrões de grande escala de infraestruturas independentes de planejamento humano e engenharia do sistema. Os exemplos de uma dinâmica auto-organizada de sistema podem ser a Internet, infra-estruturas de comunicação , sistemas de transporte, redes de abastecimento e redes de distribuição de energia. Como consequn̂cia, se poderia esperar, geralmente das redes rodoviárias um elevado grau de regularidade. No entanto, a experiência cotidiana sugere que este não é o caso, especialmente em cidades que têm crescido durante um longo perı́odo de tempo. No entanto, o maior desafio na criação de uma descrição holı́stica de redes de multi-escala é a necessidade de, simultaneamente, lidar com múltiplas escalas de tempos e comprimentos. Figura 3.2: Árvore de invasão de epidemia obtida a partir das simulações de uma pandemia originária, em Hanói, Vietnã. Os nós identificam 3200 populações em todo o mundo, e as ligações dirigidas indicam o caminho ao longo do qual a epidemia mudou de uma população para a outra. O mapa de cores do vermelho escuro ao azul escuro é de acordo com a ordem temporal da invasão da epidemia. Simulações obtidas de uma epidemia mundial e seu modelo de mobilidade [53]. 11 Blogues Os blogues, sites que são atualizados regularmente, desempenham um papel significativo na disseminação de informação. Cada atualização permite que os leitores possam fazer comentários, bem como enlaces diretos para blogues dos próprios leitores. A interação entre os blogues pode ser vista como uma rede de nós hiper-ligados chamada “blogosfera”. Devido a sua natureza rápida e acessı́vel, o surgimento de blogues criou um poderoso fenômeno social influenciando muitas vezes os meios de comunicação de opinião pública [54], e indústria de marketing. A modelagem de blogues e redes sociais tem atraı́do um grande interesse de pesquisa sobre a aprendizagem de modelos em redes [55]. Figura 3.3: Representação gráfica da (a)“blogosfera”. Os quadrados representam blogues e os cı́rculos posts. Cada post pertence a um bloque e pode conter hiperligações para outros recursos na web. Uma rede de blogues (b) com ligações entre blogues e (c) uma rede de posts com ligações entre as postagens dos blogues. Exemplos notáveis são os projetos Transim e Episims [56], nos quais os modelos baseados em agentes, incluindo milhões de indivı́duos, são utilizados para simular a dinâmica e tráfego de cidades inteiras e a propagação de agentes biológicos, respectivamente. Por exemplo, em diversas redes como as de condução de energia, a falha de um único nó ou linha pode desencadear um efeito dominó (‘falha em cascata’), em que a sobrecarga induzida pela redistribuição do fluxo pode gerar uma insuficiência global da rede. Tirando partido da heterogeneidade do fluxo realizado nos enlaces de redes de multiescala, AE Motter [57] propôs um mecanismo de defesa adaptativo com base na remoção de um certo número de nós para induzir falhas intencionais. Embora este mecanismo pode parecer contra-intuitivo, a falha intencional de nós adequadamente escolhidos pode não amplificar o processo em cascata, e, pelo contrário, é capaz de mitigar o dano final. Um aspecto interessante e eticamente desafiador é o de prever e gerir 12 o desdobramento de eventos catastróficos em redes tecno-sociais e a adaptação do sistema de previsões quando são disponibilizados ao público. Comportamentos sociais reagem e adaptam-se ao conhecimento das previsões [37]. Enfrentar esses problemas envolve enfrentar três grandes desafios cientı́ficos. O primeiro é a coleta de dados em grande escala da disseminação de informações e as reações sociais que ocorrem durante os perı́odos de crise [37]. O segundo desafio é a formulação de modelos formais que tornem possı́vel quantificar o efeito da percepção de risco dos indivı́duos na estrutura de rede. O terceiro desafio diz respeito à implantação de monitoramento computacional de infra-estruturas capazes de coletar informação para alimentar os modelos em tempo real [37]. Influência Social da Tecnologia A influência social descreve as maneiras pelas quais as pessoas afetam crenças, sentimentos e comportamentos uns dos outros. Tem sido, tradicionalmente, no domı́nio da psicologia social, com foco principal em micro-processos de nı́vel entre os indivı́duos [58], mas também através de estudo proeminente social, por exemplo, do comportamento de pastoreio em economia [59], a saúde das bolhas especulativas nos mercados financeiros [60], o comportamento eleitoral [61] e interpessoal [62]. A influência social desempenha um papel especialmente importante em mercados culturais [63] para produtos como livros e música e, geralmente, permeia qualquer área da vida onde as atitudes e gostos dos indivı́duos são influenciados por outros. Muitas vezes, é útil distinguir entre fontes locais e globais de influência, que tipicamente são identificadas com o ambiente interpessoal de um indivı́duo e os meios de comunicação de massa, respectivamente [64]. A influência social geral surge a partir de uma mistura de influências locais e globais, que podem surgir a partir de sinais diferentes. O fato de estes dois processos operarem em escalas muito diferentes coloca desafios consideráveis para o estudo empı́rico da influência social. Enquanto uma dada rede social pode ser utilizada como um substituto para a comunicação dos sinais comportamentais, um indivı́duo deve, idealmente, ter acesso a uma rede que representa com precisão o potencial de comunicação de canais para um sinal dado local, e destes canais podem variar entre os comportamentos diferentes. Adicionalmente, os indivı́duos são muitas vezes seletivos quanto às informações que escolhem para divulgar a seus amigos, resultando no sinal local ser necessariamente incompleto, parcial, ou deturpado [65] . 13 3.3 Notı́cias Sociais A mı́dia social tornou-se um canal importante para as pessoas partilharem informações. R R R No DIGG , no TWITTER e no FACEBOOK , entre outros, os usuários postam notı́cias ou endereços de notı́cias, as discutem e expressam suas opiniões em tempo real. Muitas vezes, esses sites são responsáveis pela divulgação em primeira mão de notı́cias importantes. Depois que a tentativa terrorista de explodir uma companhia americana R falhou na época do natal de 2009, o TWITTER foi a primeira fonte a anunciar as novas medidas de segurança aéreas para vôos internacionais [66]. Além da divulgação de notı́cias, esses sites estão sendo usados como instrumento para organizar as pessoas. Exemplo disso foi o que aconteceu no Irã em junho de 2009, quando o movimento de R oposição ao governo usou o TWITTER na mobilização do público, na organização de protestos e para manter a população informada sobre os últimos acontecimentos sendo de importância vital na ausência de fontes oficiais confiáveis de informação . R DIGG é um conhecido site de notı́cias sociais com 3 milhões de usuários registrados. O R DIGG permite ao usuário submeter endereços e avaliar as notı́cias por meio de votos. R A cada minuto, acontecem novas adesões. O DIGG coloca em sua página inicial em torno de cem notı́cias por dia. Apesar do mecanismo preciso de promoção ser mantido em segredo, tudo indica que que se leva em consideração o número e a avaliação que uma R notı́cia recebe. O sucesso do DIGG é amplamente baseado no que é postado na página inicial que é criada pela decisão coletiva por muitos de seus usuários. R TWITTER é um site de uma rede social bastante conhecido que permite aos usuários registrados postarem e lerem mensagens de texto curtas (de no máximo 140 caracteres) podendo conter endereços de Internet. Um usuário pode também ‘retuitar’ ou comentar o que o outro postou normalmente utilizando ‘RT @x’, onde x é o nome do usuário. Postar R um link no TWITTER , analogicamente falando, é o mesmo que submeter uma notı́cia R R no DIGG e retuitar uma mensagem pode ser o mesmo que votar nela. Como o DIGG , R o TWITTER permite ao usuário considerar como ‘amigo’ os usuários cujas mensagens R R eles querem seguir. Um ‘seguidor’ no TWITTER equivale a ser um ‘fã’ no DIGG . Estudiosos tem reconhecido o potencial destes e de outros sites de redes sociais para investigaçãorefletindo o movimento atual de utilizar ricos conjuntos de dados de grande escala sobre o comportamento humano e comunicação devido ao atual interesse popular em redes sociais [73] [74]. 14 3.4 Competição entre memes(ideias) em um mundo de atenção limitada A adoção maciça da mı́dia social tem aumentado a competição entre as ideias por nossa atenção finita. Os autores Weng, Flammini,Vespignani e Menczer [75] recorreram a um parcimonioso modelo baseado em agentes para investigar se essa competição é capaz de afetar a popularidade de diferentes memes, a diversidades das informações a que estamos expostos e o gradual desaparecimento de nosso interesse coletivo por assuntos especı́ficos. Os agentes compartilham mensagens numa rede social, mas são capazes de prestar atenção somente a uma parcela das informações que recebem. Surpreendentemente, os autores conseguiram explicar a maciça heterogeneidade que se observa na popularidade e persistências dos memes como sendo decorrente de uma combinação da competição em torno da nossa atenção limitada com a estrutura da rede social, sem que seja necessário presumir valores intrı́nsecos diversos entre as ideias [75]. As ideias possuem o formidável potencial de impactar a opinião pública, a cultura, a polı́tica e os lucros [76]. O advento da mı́dia social [77] tem reduzido o custo da produção e difusão de informações reforçando o alcance potencial de cada ideia ou meme [78]. Entretanto, a abundância de informações a que estamos expostos através das redes sociais online e outros sistemas sócio-técnicos está ultrapassando nossa capacidade de consumı́las. As ideias são obrigadas a competir pela nossa escassa atenção individual ou coletiva. Consequentemente, a dinâmica da informação é determinada mais do que nunca pela economia da atenção, teorizada inicialmente por Simon [79]. Os processos que apontam a popularidade em nosso mundo onde a atenção é limitada permanecem, ainda, pouco explorados [88, 89]. A disponibilidade de dados da mı́dia social tem criado, nos últimos tempos, oportunidades sem precedentes de investigar fenômenos humanos e sociais numa escala global [90, 91]. Nesse contexto, um dos problemas mais desafiadores é o estudo da dinâmica da competição entre as ideias, informações, conhecimentos e boatos. Entender esse problema é crucial em contextos dos mais diversos, desde o do marketing viral até o da aceleração das descobertas cientı́ficas. Aspectos da competição pela atenção limitada têm sido estudados recorrendo a notı́cias, filmes e assuntos postados em blogs e na mı́dia social [85, 86, 88]. A popularidade das notı́cias diminui com o número de notı́cias que competem entre si e que são divulgadas simultaneamente [83, 92, 93]. Entretanto, mesmo nos ambientes simplificados das plataformas da mı́dia social, é difı́cil separar os efeitos da atenção limitada de boa parte dos fatores coexistentes, como a estrutura da rede social subjacente [82, 88], a atividade dos usuários e o tamanho de seu potencial público [93], os diferentes graus de influência dos propagadores de informações [94], a qualidade intrı́nseca das informações que eles espalham[95], as persistência dos assuntos [96, 97]e o mimetismo social [98]. Para agravar essas dificuldades, as redes sociais 15 que abrigam os processos de difusão de informações não são sistemas fechados; fatores exógenos, como a exposição à mı́dia tradicional e sua divulgação dos acontecimentos pelo mundo, desempenham papel importante na popularidade e na duração de assuntos especı́ficos [85, 100]. Outro exemplo de nossa atenção limitada é o limite cognitivo do número de relações sociais estáveis que somos capazes de manter, conforme postulado por R Dunbar [101] e recentemente corroborado por uma análise de dados do TWITTER [99]. Um modelo baseado em agentes para estudar o papel da atenção limitada de usuários especı́ficos no processo de difusão e, em particular, se a competição por nossa atenção finita pode afetar a popularidade, diversidade e duração dos memes. Se bem que a competição entre ideias tenha sido implicitamente presumida como um fator subjacente, por exemplo, ao declı́nio no interesse por notı́cias e filmes [107, 83, 85]. De modo particular, os autores mostraram um modelo simples de competição numa rede social, sem outras considerações sobre o mérito dos memes, interesses de usuários ou fatores exógenos explı́citos, que é capaz de contabilizar a maciça heterogeneidade da popularidade e persistência dos memes, como pode ser visto na Figura 3.4. Figura 3.4: Usuários do Twitter e arestas dirigidas representam mensagens retuitadas que carregam o meme. (a) #Japão mostra como as notı́cias sobre o terremoto de março em 2011 foram propagadas. (b) #GOP representa o Partido Republicano dos EUA e memes polı́ticos propagados, mostra uma forte polarização entre pessoas com pontos de vista opostos. (c) #Egito Memes relacionados com a “Primavera Árabe” e, em particular, os levantes em 2011 e (d) #Sı́ria exibição de usuários hub com caracterı́sticas e conexões fortes. Imagem retirada de [75]. 16 Interesses dos Usuários Mencionou-se como uma possibilidade que o interesse por assuntos especı́ficos afeta o comporta-mento dos usuários na mı́dia social[102, 103]. Este é um ingrediente potencialmente importante num modelo de difusão de memes, na medida em que um meme interessante pode apresentar uma vantagem competitiva. Por isso, a intenção de pesquisar se os interesses dos usuários, inferidos a partir de seu comportamento anterior, ajudam a prever o seu comportamento no futuro, como pode ser visto na Figura 3.5. Figura 3.5: Relação entre a probabilidade de uma mensagem ser ‘retuitada’ e sua semelhança com os interesses do usuário. Imagem retirada de [75]. Regularidades Empı́ricas Na Figura 3.6 podem ser observadas várias regularidades nos dados empı́ricos. Em primeiro lugar, foi considerada a duração do meme, definida como o número máximo de unidades de tempo consecutivas em que são observados posts sobre o meme; a popularidade do meme, definida como o número de usuários por dia que tuı́tam sobre o meme, medido dentro de um perı́odo especı́fico; e a atividade do usuário, definida como o número de mensagens por dia postadas por um usuário, também medido dentro de um perı́odo especı́fico. Esses três valores apresentam, todos eles, distribuições com caudas pesadas (3.6(a,b,c)). O excelente colapso das curvas demonstra que as distribuições são robustas, mesmo quando medidas dentro de unidades de tempo diferentes ou observadas dentro de perı́odos diferentes. Alguns usuários demonstram uma atenção bem difusa, ao passo que outros são bastante focados (Fig. 3.6(d)). Essa distribuição também é robusta com 17 relação a perı́odos diferentes. Figura 3.6: Regularidades empı́ricas em dados do Twitter. (a) Distribuição de probabilidade do tempo de vida de uma hora usando meme (cı́rculos vermelhos), dia (quadrados azuis) e semana (triângulos verdes) como unidades de tempo. As unidades são convertidas em horas. Uma vez que as distribuições são bem aproximadas por uma lei de potência, pode-se alinhar as curvas reescalando o eixo y por λα , em que λ é a razão entre as unidades de tempo (por exemplo, λ = 24 dias reescalado em horas) e α ∼ = 2, 5 onde é o expoente da lei potência. Isto demonstra que a forma da distribuição de tempo de vida não é um fator escolhido para definir o tempo de vida. (b) Distribuição de probabilidade cumulativa da popularidade de um meme, medida pelo número total de utilizadores por dia que leram o meme. Esta e as seguintes medidas foram realizadas diariamente (cı́rculos vermelhos preechidos), semanal (quadrados azuis preechidos) e mensais (triângulos verdes preechidos). (c) Distribuição de probabilidades acumuladas da atividade do usuário, medida pelo número de mensagens por dia enviadas por um usuário. (d) Distribuição de probabilidade de amplitude de atenção do utilizador (entropia), com base nos memes tuitados por um utilizador. Note-se que quanto maior for o número de posts produzido, menor os valores não-zero gravados para usuários que se concentram em um pequeno conjunto de memes. Isso explica porque as distribuições para perı́odos maiores de tempo tendem ainda mais para a esquerda. Imagem retirada de [75]. Todas essas constatações empı́ricas apontam para comportamentos extremamente heterogêneos. Alguns memes gozam de grande sucesso (são populares e persistentes), ao passo que a grande maioria se extingue rapidamente. Uma pequena fração de memes responde, portanto, pela grande maioria dos posts. Do mesmo modo, uma pequena fração de usuários responde pela maior parte do tráfego. Essas heterogeneidades podem, a princı́pio, ser atribuı́das a causas variadas. As amplas distribuições no que se refere à popularidade dos memes podem resultar da diversidade do valor intrı́nseco de alguns memes, com os memes mais ‘importantes’ atraindo mais atenção afirmam os autores Weng, Flammini, Vespignani e Menczer [75]. Memes de maior duração poderiam ser respaldados exogenamen18 te pela mı́dia tradicional e por eventos do mundo real. A atividade dos usuários e a amplitude das distribuições de atenção poderiam ser um reflexo de diferenças comportamentais inatas. Qual seria então um conjunto mı́nimo de premissas necessário para interpretar esses dados empı́ricos? Uma forma de encaminhar essa questão é partir de um modelo minimalista de propagação de informações que não pressuponha nenhuma das externalidades apontadas acima. Em particular, até que ponto as caracterı́sticas estatı́sticas dos memes e usuários podem ser explicadas pela capacidade de atenção limitada dos usuários, aliada com a heterogeneidade de suas conexões sociais? Indagam os autores Weng, Flammini, Vespignani e Menczer. Descrição do Modelo O modelo básico pressupõe uma rede de agentes. Um agente mantém uma lista de posts em ordem cronológica, cada qual sobre um meme especı́fico. Posts diversos podem tratar do mesmo meme. Os usuários prestam atenção apenas a esses memes. De forma assı́ncrona e com probabilidade uniforme, cada agente pode gerar um post sobre um novo meme ou encaminhar alguns dos posts da lista, transmitindo os respectivos memes a agentes vizinhos. Por sua vez, os vizinhos prestam atenção a um meme recém-recebido, colocando-o no topo de suas listas. Para que seja levada em conta a constatação de que o comportamento no passado influencia quais memes o usuário irá difundir no futuro, um mecanismo de memória que permite aos agentes desenvolverem interesses e foco endógenos (ou interesses endógenos e foco) foi incluı́do. Por fim, a atenção limitada foi modelada, permitindo que posts sobrevivam na lista ou memória de um agente por um tempo limitado. Quando um post cai no esquecimento, o meme a ele associado passa a ser menos representado. O meme é esquecido quando o último post que traz consigo aquele meme desaparece da lista ou da memória do usuário. A Figura 3.7 ilustra o modelo de retuı́tagem. Os agentes interagem numa rede social direcionada de amigos/seguidores. Cada nó de usuários é dotado de uma tela onde são registrados os memes recebidos, além de uma memória com registros dos memes postados. Uma ligação entre um amigo e um seguidor indica que os memes de um amigo podem ser lidos na tela do seguidor (#x e #y na Fig. 3.7(a) aparecem na tela da Fig.3.7(b)). Em cada etapa, um agente é selecionado aleatoriamente para postar memes para agentes vizinhos. O agente pode postar um novo meme com probabilidade pn (#z na Fig. 3.7(b)). O meme postado aparece imediatamente no topo da memória. Do contrário, o agente lê os posts sobre os memes existentes na tela. Cada post pode atrair a atenção do usuário com uma probabilidade pr (o usuário presta atenção a #x, #y na Fig. 3.7(c)). A seguir, o agente retuı́ta o post (#x na Fig. 3.7(c)) com probabilidade 1 pm ou tuı́ta sobre um meme escolhido da memória (#v disparado por #y na Fig. 3.7(c)) com probabilidade pm . Todos os post da memória possuem as mesmas oportunidades de serem selecionados, por isso, os memes que aparecem com mais frequência na memória têm maior probabilidade de serem propagados (a memória possui dois posts sobre #v na Fig. 3.7(d)). Para modelar 19 Figura 3.7: Ilustração do modelo de difusão meme. Cada utilizador tem uma memória e uma tela com tamanho limitado. (a) Memes são propagadas ao longo de ligações dos seguidores. (b) Os memes recebidos por um utilizador aparece na tela. Com probabilidade pn , os usuários postam um novo meme, que é armazenado na memória. (c) Caso contrário, com probabilidade 1 − pn , o usuário verifica a tela. Cada x meme na tela chama a atenção do usuário com pr probabilidade. Em seguida, com pm probabilidade de um meme aleatório da memória acionado ou x reenviada com probabilidade 1 − pm . (d) Todos os memes postados pelo usuário também são armazenadas em memória. Imagem retirada de [75]. a atenção limitada dos usuários, tanto a tela como a memória possuem capacidade finita, que é o tempo durante o qual um post permanece na tela ou memória de um agente. Para todos os agentes, os posts são removidos após uma unidade de tempo, o que simula uma unidade de tempo real, correspondente a Nu etapas, onde Nu é o número de agentes. Se as pessoas utilizam o sistema uma vez por semana, em média, a unidade de tempo corresponde a uma semana. Resultados da Simulação O modelo apresenta três parâmetros: pn regula a quantidade de novidades que entram no sistema (número de avalanches), pr determina a atividade geral de retuı́tagem (tamanho das avalanches) e pm representa o foco individual (diversidade de interesses dos usuários). Todos os três foram diretamente estimados a partir de dados empı́ricos. Para obter uma rede de dimensões administráveis preservando a estrutura da rede social 20 real, foi feita a amostragem de um grafo direcionado de 105 nós da rede de seguidores R do TWITTER . Os nós correspondem a um subconjunto de usuários que geraram os posts incluı́dos nos dados empı́ricos. Para avaliar as previsões do modelo, os autores compararam essas previsões com dados empı́ricos que incluem somente os retuı́tes do mesmo subconjunto de usuários. Para estudar o papel desempenhado pela estrutura da rede no processo de difusão de memes, também foi feita a simulação do modelo numa rede randômica Erdos-Renyi (ER) com o mesmo número de nós e enlaces. Como mostra a Fig. 3.8, o modelo captura as principais caracterı́sticas das distribuições empı́ricas de duração e popularidade dos memes, atividade dos usuários e amplitude da atenção dos usuários. As distribuições geradas por meio da rede ER revelam que, em geral, a heterogeneidade das quantidades observadas se reduz substancialmente quando os memes se espalham numa rede randômica. Considere, por exemplo, a popularidade dos memes (Fig. 3.8(b)); a rede social real apresenta ampla (sem escala, não indicada) distribuição de graus com um número compatı́vel de usuários de hubs que possuem um grande número de seguidores. Os memes espalhados por esses usuários têm probabilidade de alcançar maior popularidade. A diferença observada na distribuição da amplitude de atenção dos usuários, para valores baixos e altos de atuação dos usuários na rede (Fig. 3.8(d)), pode ser explicada pela heterogeneidade no número de amigos. Os usuários com poucos amigos apresentam baixa amplitude de atenção, enquanto os usuário com muitos amigos ficam expostos a vários memes e podem, por esse motivo, apresentar maior atuação. O segundo ingrediente fundamental do modelo apresentado pelos autores é a competição entre os memes pela atenção limitada dos usuários. Para avaliar o papel dessa competição no processo de difusão de memes foram simuladas variações do modelo com competição mais forte ou mais fraca. Isso foi realizado ajustando-se o comprimento tw da janela de tempo na qual os posts são conservados na tela ou na memória do agente. Uma janela de tempo mais curta (tw < 1) gera menos atenção e, consequentemente, maior competição enquanto uma janela de tempo mais longa (tw > 1) permite que se dê atenção a mais memes, reduzindo-se a competição. Como se pode observar na Figura 3.9, uma competição mais forte (tw = 0.1) deixa de reproduzir o grande número observado de memes de longa duração (Fig. 3.9(a)). Por outro lado, uma competição mais fraca (tw = 5) não redunda em memes extremamente populares (Fig. 3.9(b)), nem em usuários extremamente ativos (Fig. 3.9(c)). Também simularam em seu modelo, sem levar em conta os interesses dos usuários, fazendo o ajuste de pm = 0. A diferença mais notável neste caso é a ausência de indivı́duos altamente focados. Os usuários não têm lembrança de seu comportamento anterior, sendo capazes de prestar atenção somente aos memes de seus amigos. Consequentemente, o modelo deixa de contabilizar os indivı́duos de baixa entropia (não apresentados, mas semelhantes ao caso da rede randômica da Fig. 3.8(d)). 21 Figura 3.8: Validação do modelo por comparação de simulações com dados empı́ricos. Para estudar o papel desempenhado pelo estrutura de rede no processo de difusão meme, foi realizada a simulação do modelo na amostra de rede (linha preta sólida) e uma rede aleatória (linha tracejada vermelha). Ambas as redes têm 105 nós e cerca de 33106 arestas. (a) A definição do tempo de vida usa a semana como unidade de tempo. (b, c, d) Dados da popularidade do Meme, a atividade do usuário, e tempo de atenção do usuário são baseados em medidas semanais. Imagem retirada de [75]. Discussão As presentes observações demonstram que a combinação de estrutura de rede social com competição pela atenção finita dos usuários constitui condição suficiente para a emergência de uma ampla diversidade no que se refere à popularidade e duração dos memes e à atividade dos usuários. Trata-se de um resultado significativo: podem-se levar em conta as, frequentemente, registradas distribuições com cauda pesada de popularidade e duração dos assuntos [82, 87, 89, 102] sem a presunção de fatores exógenos como o apelo intrı́nseco dos memes, a influência dos usuários ou os eventos externos. A única fonte de heterogeneidade nesse modelo é a social rede. Os usuários diferem quanto ao tamanho de seu público, mas não quanto à qualidade de suas mensagens. Esse modelo se inspira na longa tradição que representa a difusão de informações como um processo epidêmico no qual a infecção é transmitida através dos laços da rede social subjacente [82, 87, 107]. No contexto da mı́dia social, vários autores pesquisaram a evolução temporal da popularidade. Wu e Huberman [83] estudaram o declı́nio da popularidade das notı́cias. Demonstraram que os padrões temporais da atenção coletiva são adequadamente descritos por um processo 22 Figura 3.9: Avaliação do modelo de simulação por comparação com os dados empı́ricos. Para estudar o papel de meme concorrência, simular o modelo na rede seguidor amostrados com diferentes nı́veis de concorrência. As mensagens são removidas da tela e memória após unidades de tempo tw . Foi comparado o modelo padrão (tw 51, linha preta sólida) contra as verses com menos concorrência (tw 55, ponto-linha tracejada magenta) e mais concorrência (tw 50, 1, linha tracejada vermelha). (a) A definição do tempo de vida usa a semana como unidade de tempo. (b, c, d) A popularidade de um meme, a atividade do usuário e os dados de entropia do usuário são baseados em medidas semanais. Imagem retirada de [75]. 23 multiaplicativo com um único fator de novidade. Embora o declı́nio de popularidade seja atribuı́do à competição pela atenção, o mecanismo subjacente não é modelado explicitamen -te. Hogg e Lerman [83] propuseram um modelo estocástico para prever a popularidade de uma notı́cia com base no interesse intrı́nseco da notı́cia e nos ı́ndices que indicam se os usuários chegaram até ela diretamente ou por meio dos amigos. Esses modelos descrevem a popularidade de uma única informação e são, portanto, inadequados para captar a competição pela nossa atenção coletiva entre várias epidemias de informação simultâneas. Ainda que modelos epidemiológicos recentes tenham começado a considerar a difusão simultânea de cepas concorrentes [109, 110], o modelo é a primeira tentativa de lidar com um número virtualmente ilimitado de novas ‘epidemias’ que são injetadas continuamente no sistema. Desde o trabalho seminal de Simon [79], a economia da atenção passou a ser uma noção imensamente popular, ainda que tenha sido sempre presumida mas não testada. Esse modelo representa uma primeira tentativa de focalizar explicitamente os mecanismos de competição e avaliar os efeitos quantitativos de se tornar a atenção mais escassa ou mais abundante. Os resultados não constituem prova de que caracterı́sticas exógenas, como os valores intrı́nsecos dos memes, não tem nenhuma influência na determinação de sua popularidade. Contudo, mostram que no plano estatı́stico não é necessário invocar explicações externas para as dinâmicas gerais dos memes que foram observadas. Isso impõe uma ampla revisão de vários conceitos bastante usados na modelagem e caracterização do processo de difusão de memes e abre o caminho para diferentes metodologias de análise da competição entre ideias e estratégias de otimização supressão de sua propagação [75]. 3.5 Contágio da informação: um estudo empı́rico da R divulgação de notı́cias nas redes sociais DIGG R e TWITTER Os autores Kristina Lerman e Rumi Ghosh afirmam que cientistas sociais já detectaram a importância das redes sociais na divulgação da informação [15] e da inovação [111]. Modernas tecnologias de comunicação como o já conhecido correio eletrônico e mais recentemente a mı́dia social tem reforçado o papel das redes na área de marketing [112][113], na divulgação de informação [114], na ‘procura’ [115] e na perı́cia de descobertas [117]. O novo DARPA Network Challenge [118] testou com sucesso a capacidade maciça de mobilização de equipes através das redes sociais online para solucionar problemas reais que potencialmente poderi-am melhorar a agilidade do desempenho e a coordenação de esforços no momento de um desastre [116]. Além de fazer com que as redes sociais tenham um duplo sentido, os sites de mı́dia social 24 permitiram que os pesquisadores tivessem acesso a uma quantidade enorme de dados para que uma análise empı́rica pudesse ser realizada. Esses conjuntos de dados são uma fonte importante de evidências para o estudo da estrutura das redes sociais [119], das dinâmicas do indivı́duo [120] e do comportamento em grupo [121], propriedades global da divulgação das mensagens de correio eletrônico [122, 123], postagens em blogs [124] e identificação de blogs que são considerados formadores de opinião [114, 125]. Na maioria desses estudos, entretanto, a estrutura de base da rede não era visı́vel e teve que ser inferida a partir do fluxo de informação de um indivı́duo para o outro. Isso criou um grande desafio para a compreensão de como a estrutura da rede afeta a dinâmica da divulgação de informação, salientam Lerman e Ghosh [116]. Compreender essa questão é especialmente importante para a eficácia do uso da mı́dia social e dos sistemas de ponto a ponto, que comumente agregam outras atividades ou contribuições feitas por várias pessoas com o objetivo de identificar tendências. A maioria desses sites também dão visibilidade as atividades dos enlaces das pessoas nas redes sociais. Uma vez que as pessoas criam laços com outras pessoas que tem algo em comum com elas ou com pessoas cujas contribuições elas acham interessantes, a dinâmica de informação de uma rede social pode ser diferente da dinâmica de uma população em geral. Separando as atividades de uma rede interna das atividades de uma rede externa permite, entre outras coisas, melhor estimar a qualidade inerente das contribuições [126] ou prever suas atividades futuras [127, 128]. R R Lerman e Ghosh apontaram os sites de notı́cias DIGG e TWITTER como uma oportunidade única de poder estudar as dinâmicas de divulgação de informação nas redes sociais. Ambos os sites se tornaram fontes importantes de informação oportuna para as R pessoas. O agregador de notı́cias sociais DIGG permite aos usuários submeter endereços de internet para notı́cias recém divulgadas e permite que os usuários votem nas notı́cias R submetidas pelos outros. No TWITTER , os usuários tuitam pequenas mensagens de texto que normalmente contém endereços de internet para acessar as últimas notı́cias e comentários ou retuitam messagens dos outros. Ambos os sites permitem que os usuários explicitamente criem conexões com outros usuários que eles querem seguir. Outro traço comum e importante desses sites é a transparência dos dados e o fornecimento de acesso a dados detalhados sobre as notı́cias e sobre as atividades do usuário [116]. Um estudo empı́rico foi apresentado sobre o papel das redes sociais na divulgação de R R informação pelo DIGG e pelo TWITTER . Para esse estudo, foram coletados dados R R sobre notı́cias populares no DIGG e no TWITTER que incluı́am informação sobre quem votou ou retuitou a notı́cia e quando isso aconteceu. Esses conjuntos de dados permitiram caracterizar empiricamente as dinâmicas individuais, a estrutura da rede e mapear a disseminação do interesse em notı́cias através da rede. Primeiro, empiricamente a estrutura das redes sociais em ambos os sites foi caracterizada. Enquanto que o número de fãs que um usuário possui em cada site demonstra uma extensa distribuição a rede R R social DIGG é mais densa e mais interconectada que o TWITTER , assim julgada 25 pelo número recı́proco de enlaces e do coeficiente de aglomeração da rede. Em seguida, apresentaram a evolução do número de votos que as notı́cias recebem, além de perceberem que a interface do usuário afeta a dinâmica dos votos sendo que a evolução R das notı́cias do DIGG acontece em dois estágios diferentes. Apesar disso, o número de votos acumulados pelas notı́cias em ambos os sites satura depois de um perı́odo de mais ou menos um dia em um valor que reflete a popularidade delas. Também foi observada como a informação é divulgada através da rede social medindo de que maneira o número de participantes de redes internas vota as notı́cias recebidas, como por exemplo, os votos dos fãs da pessoa que submeteu a notı́cia ou os votos anteriores e como mudam com o tempo. Assim, concluı́ram que a estrutura da rede afeta a dinâmica de divulgação de informação atingindo os pontos de convergência mais rápido em uma R R rede mais densa como a do DIGG do que a do TWITTER . Entretanto, as notı́cias R do TWITTER tem mais alcance quando disseminadas a julgar pelo número total de votos recebidos pelos integrantes das redes internas. Dinâmicas da votação A Figura 3.11(a) mostra a evolução do número de votos recebidos em três notı́cias R divulgadas pelo DIGG sobre o perı́odo de agitação que seguiu as eleições no Irã em junho de 2009. Enquanto os detalhes das dinâmicas se diferenciam, as caracterı́sticas R gerais da evolução dos votos são compartilhadas por todas as notı́cias do DIGG e podem ser descritas por um modelo estocástico de voto social [129]. Ainda na fila, as notı́cias que serão publicadas acumulam votos em uma velocidade menor. O ponto onde a curva muda abruptamente corresponde à promoção (dessa notı́cia) para a página inicial. Após a promoção a notı́cia é vista por um grande número de pessoas e o número de votos aumenta em uma velocidade maior. Com o ‘envelhecimento’ da notı́cia, o acúmulo de novos votos diminui [130] e, finalmente, satura. A Figura 3.11(b) mostra a evolução do número de vezes que uma notı́cia sobre o mesmo tópico foi ‘retuitada’. O número de ‘retuites’ aumenta lentamente até a saturação. O perı́odo de saturação de uma notı́cia é de mais ou menos um dia quando o número de votos/‘retuites’ satura em ambos os sites. Distribuição da popularidade O número total de vezes que uma notı́cia foi votada e ’retuitada’ indica a popularidade R R entre os usuários do DIGG e do TWITTER respectivamente. A distribuição da popularidade da notı́cia em ambos os sites, Figura 3.11, mostra a desigualdade da popularidade [63] com relativamente poucas notı́cias se tornando muito populares ganhando milhares de votos, enquanto muitas são bem menos populares recebendo menos de 500 R R votos no DIGG e 400 no TWITTER . Esses valores são bem descritos por uma 26 distribuição logarı́tmica normal (apresentada em destaque na figura). A distribuição logarı́tmica normal da popularidade de uma notı́cia é tı́pica das distribuições de cauda pesada associada com produção social e consumo de conteúdo. Em uma distribuição cauda pesada, um pequeno, mas não insignificante número de itens, gera, de forma não convencional, uma grande quantidade de atividade. Essas distribuições foram observadas R em diferentes contextos, incluindo o ato de votar no DIGG [130] e Essembly [131] R edições de artigos no WIKIPEDIA [132] e downloads de músicas [63]. Compreender a origem de tais distribuições é o próximo desafio na criação de um modelo de atividade do usuário nos sites de mı́dia social para esses autores. Dinâmicas de votação nas redes R No momento da submissão de uma notı́cia no DIGG , uma lista das próximas notı́cias fica visı́vel para os fãs dos que submetem através da interface dos amigos. Na medida que os usuários votam na notı́cia, essa fica visı́vel para seus fãs via a interface dos amigos. Analogamente à disseminação de uma doença contagiosa [133], o interesse em uma notı́cia cascateia pela rede social. Quando a notı́cia é promovida para a página inicial, ela se torna visı́vel para os que não são fãs, apesar dos usuários poderem selecionar as notı́cias R que os amigos gostaram através da fita verde na identificação da notı́cia no DIGG . R Similarmente, um novo post no TWITTER fica visı́vel para os seguidores daquele que o submeteu e cada usuário que retuitou essa notı́cia a difunde para seus seguidores. Apesar de agregadores como ‘Tweetmeme’ tentarem identificar notı́cias populares no R R TWITTER da maneira como o DIGG faz, não existe evidência que eles promovem a visibilidade delas para os que não são fãs. Os autores puderam traçar a cascata de interesse que uma notı́cia desperta através da R ‘base’ da rede social do DIGG verificando se um novo voto veio de um fã (seguidor) de alguém que votou anteriormente, incluindo quem submeteu a notı́cia. Tais votos são R R chamados de voto dos fãs, independentemente se estão no DIGG ou no TWITTER . Assim sendo, a cascata (contágio da informação) começa com a submissão de notı́cias e cresce à medida que a notı́cia acumula os votos dos fãs. Pesquisadores já estudaram cascatas de informação em e-mails [122, 123] e em posts nos blogs [114, 124] com o objetivo de obter pistas da estrutura da rede, de identificar interferências que influenciam ou de prever a popularidade de um conteúdo[128]. Caracterizar as cascatas de informação faz-se necessário para a criação de um modelo da dinâmica de informação nas redes. Dinâmicas e distribuição dos votos dos fãs A linha pontilhada na Fig.3.11 mostra como o número de votos dos fãs recebido para cada notı́cia cresce com o tempo. A evolução deles é similar a de todos os votos e o 27 Figura 3.10: Distribuição da atividade do usuário. (a) Número de fãs ativos por usuário vs o número R de usuários com muitos fãs no DIGG . A distribuição mostra a atividade de votação, ou seja, o número de votos por número de usuário vs número dos usuários que lançam muitos votos. (b) O número de R seguidores ativos por usuário nos dados do TWITTER vs o número de usuários com muitos seguidores. Apresentação da distribuição da atividade de retuitagem. Imagem retirada de [116]. crescimento satura no perı́odo de mais ou menos um dia. O valor no qual o crescimento satura demonstra o alcance da notı́cia ou como amplamente ela penetra na rede social. A R Fig.3.13 mostra a distribuição do tamanho das cascatas geradas pelas notı́cias do DIGG R e do TWITTER . Essas distribuições são marcadas diferentemente da distribuição da popularidade de uma notı́cia conforme mostra a Figura 3.12. Embora a distribuição R da cascata da rede das notı́cias do DIGG , Figura 3.13(a) ser um pouco assimétrica, é melhor descrita por uma média e o desvio padrão igual a 104.27 e 32,31 votos respectivamente, e não a distribuição de lognormal na figura3.12(a). Notavelmente, nenhuma notı́cia deixou de gerar uma cascata, ou seja, nenhuma notı́cia deixou de receber votos dos fãs. O fluxo na Figura 3.13(a) mostra as distribuições de votos de somente um fã de um usuário. Também pode ser descrito como uma função normal com uma média em torno de 50 votos. Uma pequena fração de notı́cias, menos que 400, não recebeu nenhum voto dos fãs das pessoas que as submeteram. Isso indica que usuários ativos que são fãs daqueles que submetem são também fãs dos outros que votam, em outras palavras, que a rede R social dos usuários ativos do DIGG é densa e altamente interligada. Essa observação é fundamentada por descobertas de um coeficiente de aglomerização relativamente alto da R rede social do DIGG . R é mostrada na A distribuição do tamanho da cascata das notı́cias do TWITTER Figura 3.13(b). Tudo indica que elas são normalmente distribuı́das, apesar de um número substancial de notı́cias não serem disseminadas na rede. Essa distribuição é maior que a R distribuição das notı́cias do DIGG indicando que uma notı́cia se espalha mais na rede R do TWITTER . A distribuição do número de votos elencados pelos seguidores de quem submeteu, conforme mostrado no fluxo da Figura 3.13(b), é marcadamente diferente do R DIGG . A grande maioria das notı́cias não recebe votos dos seguidores de quem as submeteu, indicando que os seguidores de quem as submeteu e outros seguidores de quem 28 votou estão desconectados. Essa observação é fundamentada pela descoberta de que a R rede social TWITTER é escassamente interconectada. R R . (a) Número total de votos (diggs) e os e TWITTER Figura 3.11: Dinâmica de notı́cias no DIGG R votos recebidos das notı́cias pelos fãs no DIGG . (b) Número total de vezes que uma notı́cia foi votada (‘retuitada’) e o número de votos (‘retuites’) de seguidores desde a primeira postagem vs tempo. Imagem retirada de [116]. Trabalhos relacionados Vários pesquisadores estudaram as dinâmicas do fluxo de informações nas redes, entretanto, trabalhos empı́ricos produziram resultados conflitantes. Foram examinados padrões de e-mail enviados dentro de uma organização e descobriu-se que a corrente de e-mails enviados chega ao fim inesperadamente após ter vencido um pequeno número de etapas. Os autores discutem que, ao contrário da propagação de um vı́rus em uma rede social, quando é esperado que muitos indivı́duos sejam atingidos, o fluxo de informação desacelera devido a queda de similaridade entre indivı́duos em uma mesma rede social. Os autores também mediram a semelhança pela distância em uma hierarquia organizacional entre dois indivı́duos de uma mesma organização, no caso, com o um número de fronteiras separando dois pontos de conexão em um gráfico [122]. Semelhantemente, em um estudo de larga escala sobre a eficiência da recomendação de um produto através do boca-a-boca,Leskovec, Adamic e Huberman descobriram que a maioria das sugestões de correntes numa rede termina depois de um ou de dois passos. Entretanto os autores perceberam sensibilidade nas recomendações de preço e de categoria de produto, deixando sem resposta a questão sobre se as redes sociais são uma ferramenta eficiente na divulgação de informação, preferencialmente na compra de produtos [134]. Além do mais, o alcance da informação propagada parece não depender da semelhança entre os usuários. R No DIGG , onde os usuários são altamente interconectados, uma notı́cia não alcança R tantos fãs como alcança no TWITTER , onde os usuários são menos conectados. 29 Figura 3.12: Distribuição de popularidade da notı́cia. (a) Distribuição do número total de votos R recebidos por notı́cias no DIGG com o ajuste da curva mostrando log-normal. (b) Distribuição do número total de vezes que as notı́cias foram retuitadas com o ajuste da curva mostrando log-normal. Imagem retirada de [116]. Figura 3.13: Distribuição de tamanhos de cascatas de notı́cias. (a) Histograma da distribuição do R número total de votos recebidos pelo DIGG . A inserção mostra a distribuição do número de votos de fãs do noticiador. (b) Histograma da distribuição do número total de retuites de seguidores. A inserção mostra a distribuição do número de retuites de uma notı́cia pelos seguidores do noticiador. Imagem retirada de [116]. Wu et al. [123] estudaram os padrões de envio de dois e-mails bem conhecidos de corrente. Ao contrário de suas expectativas, a corrente de envios produziu longas e estreitas árvores, ao invés de largas e espessas. Nesses estudos, entretanto, a estrutura de base de uma rede social não estava diretamente visı́vel e teve que ser inferida através da observação de novas inscrições no encaminhamento de e-mails. Esse método oferece não só uma visão parcial da rede e não identifica todas as fronteiras entre indivı́duos que participaram da corrente do e-mail. Se um indivı́duo já encaminhou uma mensagem, ele não a encaminhará novamente e uma fronteira entre esse indivı́duo e remetente não será vista. Um número de pesquisadores estudou o fluxo de informação e de influência na blogosfera e no mundo virtual. Gruhl et al.[114] traçaram a divulgação de tópicos através dos blogs e usaram um modelo de divulgação de epidemias nas redes [133] com o objetivo de caracterizar a divulgação de tópicos através da blogosfera. Leskovec et al.[124] definiram 30 uma cascata de informação como um gráfico de hyperlinks entre os blogues de postagem. Uma cascata de informação começa com um ‘iniciador’ de cascatas com outras postagens de outros blogs juntando-se a ela conectando-se com o iniciador ou outros membros da cascata. Leskovec et al.[124] descobriram que os tamanhos da distribuição da cascata seguem uma lei de potência. Bakshy traçou a propagação da influência em um jogo em rede de diversos atores e descobriu que, semelhante as descobertas com notı́cias sociais, a influência propaga facilmente nas redes sociais em mundos virtuais. Isso proporciona uma confirmação independente da importância das redes sociais nas dinâmicas do fluxo de informação [135]. 31 Capı́tulo 4 Modelo Proposto 4.1 Objetivo Geral O objetivo desse capı́tulo é apresentar um modelo de redes sociais de internet que seja capaz de reproduzir as propriedades estatı́sticas observadas na redes reais. Neste trabalho, criamos através da linguagem computacional C + +, um sistema orientado ao objeto capaz de, em primeiro lugar, criar redes regulares, aleatórias e de mundo pequeno. O microcomputador utilizado para originar as redes tinham as seguintes caracterı́sticas: Intel Pentium Dual Core 2.2 GHz, possuindo 2 GB de memória RAM, um HD de 120 GB e com sistema operacional Linux Ubuntu 10.04 LTS. Como descrito no capı́tulo de conceitos básicos, utilizamos diversas ferramentas para construir o modelo. As redes foram criadas de acordo com a topologia existente, sendo a primeira rede, a rede regular quadrada. Esta foi desenhada com a premissa de um nó ter sempre quatro vizinhos conectados como pode ser visto na Figura 4.1(a). Por diante, seguimos no desenvolvimento para a criação das redes aleatórias conservativas e não conservativas. Como parte final da preparação do ambiente, criamos a rede de mundo pequeno. Essa última desenhada reutilizando parte do código desenvolvido para as redes aleatórias. Após a preparação do ambiente, decidimos focar o desenvolvimento do trabalho nas redes de mundo pequeno, rede de maior similaridade com as redes sociais do mundo real. A abordagem proposta no modelo foi construir a rede social através de um autômato celular. O comportamento coletivo gerado pelas interações entre os usuários da rede pode ser capaz de reproduzir fenômenos que acontecem nas redes sociais. Abordagens análogas também já foram realizadas em estudos de espalhamento de epidemias no mundo real como pode ser visto na Figura 3.2 da seção 3.2. O modelo proposto considera uma matriz de N ×N dimensões com condições periódicas de contorno. A rede regular quadrada (Figura 4.1(a)), possui cada sı́tio mantendo conexões 32 com quatro vizinhos. As dimensões dessa rede foram simuladas para uma matriz N × N com o valor de N = 4. Como podemos acompanhar no fluxograma apresentado na Figura 4.2, o passo seguinte acontece com a criação da rede aleatória conservativa vista na Figura 4.1(b). (a) (b) Figura 4.1: (a) Desenho de uma rede regular quadrada; (b) Representação de uma rede aleatória conservativa. Consideramos a rede regular criada, como a base inicial para a criação da rede aleatória conservativa. A reutilização de informações pelo sistema foi executada através de uma função que transfere a imagem da rede regular quadrada para a nova rede. A função escolhe de forma aleatória um sı́tio, em seguida altera aleatoriamente suas coordenadas de conexão. Este processo, está inserido em um laço do sistema que faz percorrer toda a dimensão da rede. Importante dizer que o número de ligações entre os nós da rede permanece inalterado até o fim da execução. Em seguida, criamos a rede aleatória não conservativa. O processo de criação da rede aleatória não conservativa inicia com a cópia da rede aleatória conservativa. No passo seguinte, ocorre a escolha aleatória de um sı́tio, e após a escolha do nó, uma conexão aleatória é feita. O laço que faz percorrer toda a rede envolve o processo de escolha aleatória dos sı́tios e de suas conexões. Conexões idênticas não são permitidas. O resultado desse processo pode implicar em sı́tios sem conexão, diferenciando assim as duas redes aleatórias. A geração da rede de mundo pequeno foi implementada nessa versão como ponto final para a criação de nosso ambiente de simulações. A rede de mundo pequeno foi criada a partir da rede aleatória não conservativa, um dos benefı́cios da codificação orientada a objetos. A rede de mundo pequeno é criada a partir do processo que escolhe aleatoriamente um sı́tio da rede. É um processo similar ao da rede não conservativa. Entretanto, utilizamos de um contador para cada sı́tio. O sı́tio escolhido como fonte da conexão recebe um incremento em seu contador. A ligação desse ponto de origem ao de 33 Gera Rede Quadrada Gera Redes Aleatórias Gera Rede de Mundo Pequeno Calcula distância entre vizinhos Execução Não A rede gerada foi toda lida? Sim Gera arquivos de dados estaBsBcos Fim Figura 4.2: Fluxograma simplificado da criação das redes do modelo computacional. destino é feita também de forma ateatória. O contador de conexões de cada sı́tio começa assim a interferir na escolha de sı́tios no sistema. Durante a execução, os sı́tios que tem maior número de conexões tem maior probabilidade de serem escolhidos possuindo assim cada vez mais conexões. Esse processo resulta em sı́tios com muitas conexões e outros com pouquissı́mas conexões. Geramos gráficos a partir de estatı́sticas das distâncias entre os nós conectados. A distribuição das distâncias entre os nós da rede apresentada na figura 4.3 segue a tendência de comportamento coerente com caracterı́sticas de redes de mundo pequeno com a quantidade relativa de conexões de curto e médio alcance em relação ao tamanho da rede. Assim, o modelo computacional foi construı́do em sua primeira parte para a preparação e simulação do ambiente onde as informações serão disseminadas. A rede de mundo pequeno que acaba de ser criada será utilizada em nosso modelo para representar a rede social onde faremos o nosso estudo. Nossa rede social é constituı́da por usuários que 34 Data: Data3_B Model: Allometric2 Chi^2/DoF = 0.2089 R^2 = 0.95495 -115.00191 156.83576 -0.08834 ±263.15869 ±261.4109 ±0.16927 Distâcias a b c 10 1 10 Distribuição Figura 4.3: Distribuição das distâncias entre os usuários para uma de mundo pequeno com L = 96 . podem ter diversos tipos de comportamento como: receber notı́cias aleatoriamente a partir de uma central de notı́cias, receber notı́cias de um amigo via rede e enviar notı́cias aos seus vizinhos. O envio de notı́cias por parte dos usuários também deflagra o processo de disseminação da informação em cascata que ocorre no momento em que as notı́cias são encaminhadas aos vizinhos dos vizinhos conectados. O processo acima descrito foi implementado em nosso sistema obedecendo a criação de objetos estruturados, onde pudemos instanciar os posts, o seu assunto principal, a lista de notı́cias de maior preferência de cada usuário e a lista das 12 notı́cias mais reencaminhadas na rede a cada perı́odo de tempo. A dinâmica desse processo pode ser melhor entendida com a leitura do fluxograma apresentado na Figura 4.4, que inicia com a transferência da rede de mundo pequeno para a rede social de usuários. Consideramos essa premissa pelo motivo de um usuário estar conectado a pelo menos um vizinho fazendo assim parte de uma rede social. O passo seguinte acontece na população de notı́cias de nossa central de notı́cias. A estrutura do ‘objeto’ notı́cias em nosso modelo é composta por um vetor de 8 posições. O vetor é preenchido de forma aleatória em todas as posições com valores entre [0,1]. Os usuários foram instanciados em um objeto que guardam as coordenadas de conexões com seus amigos, o grau de interesse de assuntos veiculados na rede e uma lista de suas 12 notı́cias preferidas. O despejo de notı́cias na central acontece de forma aleatória. A lista de notı́cias preferidas de cada usuário atende o critério de quanto maior o grau de similaridade da notı́cia com o seu perfil, melhor posicionada estará. Para o processo de assimilação e disseminação de notı́cias desenvolvemos um critério de classificação das informações. Tal critério foi idealizado utilizando como fonte o 35 • Gera Rede de Mundo Pequeno • Transfere Rede de Mundo pequeno para a Rede Social • Despeja de forma aleatória no;cias de conteúdo aleatório na rede • Inicia Ciclo do Usuário • Inicia laço Temporal • Ordena no;cias preferidas do usuário • Recebe No;cias • Atualiza lista de No;cias preferidas Não Conteúdo de No;cia atende preferência? Sim Envia no;cias preferidas para vizinhos • Encerra Ciclo do Usuário Sim t < T ? • Atualiza Central de No;cias Não 00011000 00011001 : : 12 No;cias mais populares Fim Figura 4.4: Fluxograma simplificado da dinâmica do modelo de disseminação de informações em uma rede de mundo pequeno. modelo de Penna, que consiste em comparar cadeia de bits com determinada regra e prover um determinado resultado. Para tal processo de averiguação de classificação da informação implementamos um vetor de 8 posições que compoem a natureza de toda peça de informação presente na rede. A informação é representada literalmente por um conjunto de 8 valores dentro do intervalo [0,1]. A Figura 4.5 representa como o sistema gera de forma aleatória a sequência. Esse conjunto é submetido a uma verificação por usuário a cada iteração do sistema. A função verifica através de uma operação lógica o grau de semelhança entre a sequência de valores da informação recebida com o perfil do usuário. O resultado da operação é considerado para que a informação seja aceita ou não em sua lista de preferências. O grau de interesse foi implementado no sistema de forma que todas as informações presentes na rede, quando direcionadas a um usuário, sofreria uma comparação lógica de todos os seus 8 bits, alcançando um valor que pode flutuar no intervalo de 0 a 7. Para tal classificação definimos que o valor 0 classificaria a informação 36 com seu conteúdo totalmente genérico e o valor com o limite de até 7 pontos representaria a adequação total do conteúdo da informação disponibilizada na rede com o perfil do usuário da rede. Resultado (grau de semelhança) No2cia inserida na rede 1 1 1 0 1 0 1 1 = Operação lógica Preferência usuário 1 0 1 1 0 0 0 4 1 Figura 4.5: Cadeia de bits de informação tomando como referência o conceito do modelo de Penna. Como descrito acima, a notı́cia é triada e classificada com o grau de similaridade ao perfil configurado para cada usuário. Isso quer dizer que o usuário ao receber as notı́cias guardará apenas as de sua preferência em sua lista de notı́cias, onde serão valoradas pelo grau de semelhança de acordo com seu perfil. O grau de semelhança foi testado na primeira fase de simulações com o valor igual a 3. Esse parâmetro sofreu alterações para simulações posteriores. Outro componente importante do sistema que merece explanações é a central de notı́cias da rede. Essa recebe no inı́cio da execução do sistema uma avalanche de notı́cias ainda não encaminhadas aos usuários. A partir do momento que os usuários começam a recebê-las, a dinâmica do sistema começa fazer com que os usuários contribuam para a disseminação das notı́cias de seu interesse e assim destacá-las com o passar do tempo na central de notı́cias. As notı́cias de maior circulação são direcionadas para central de notı́cias a cada espaço de tempo. Esse processo permite que o ciclo de vida de cada notı́cia seja renovado a cada instante. Ao contrário de notı́cias que despertam pouco interesse entre os usuários, o resultado é o desaparecimento imediato da rede. A central tem a capacidade de armazenar as doze notı́cias mais vinculadas na rede a cada hora através de uma matriz de 12 posições. Em nosso modelo, fizemos diversas simulações variando os tamanhos das redes de mundo pequeno de extensão linear L. Alteramos a cada momento a quantidade de informações despejadas na rede e o grau de preferência de notı́cias dos usuários da rede. A primeira simulação foi executada com a variação do tamanho da rede. Alteramos o 37 parâmetro de extensão linear para L = 10. O tamanho dessa rede abre a possibilidade de termos um número de 200 usuários ativos. O número de notı́cias que será despejado na rede é também um parâmetro alterado em cascata em nosso sistema. A quantidade de notı́cias sofre impacto quando ocorre a variação do valor de L. O valor de L é um dos componentes para calcular o volume de notı́cias que estará presente na rede. O objetivo desse conjunto de variações é entender como o sistema se comporta com o aumento de escala da rede e consequentemente o volume de notı́cias circulantes. O grupo de variações dos parâmetros segue uma ordem crescente. Essas variações afetam o ciclo de vida de cada notı́cia na rede. Podemos observar a tendência de variação do tempo de vida das notı́cias de acordo com o crescimento da rede. O reflexo de diminuição de perenidade das notı́cias pode ser visto na transição do histograma (a) para o (b) da figura 4.6. As distribuições seguem a tendência de quanto maior a rede e seu volume de informações vinculadas, maior a tendência do sistema entrar em colapso. A curva ajustada a equação Gaussiana tem seu coeficiente cada vez mais próximo de 1, como observamos na figura 4.6(d), com um alcance de 0,998, seguindo a tendência de crescimento da rede e do volume de notı́cias. No conjunto de histogramas da figura 4.6, observamos que o tempo de vida das notı́cias tende a reduzir, de acordo com a quantidade de notı́cias despejadas na rede. Suspeitamos que a diminuição do tempo de vida da informação pode ter como causa o tamanho reduzido do objeto ‘notı́cias’(apenas 8 posições), a grande similaridade de conteúdo e o aumento do volume de informção circulante resultando em um cenário de grande competição pela atenção dos usuários da rede. Essa suspeita pode ser reforçada quando deparamos com os resultados estatı́sticos a seguir apresentados na Figura 4.7. Como descrito na dinâmica do nosso modelo, as notı́cias podem ser enviadas a outros usuários da rede. Com o objetivo de mapear esse comportamento, registramos o número de vezes que cada notı́cia foi reenviada para outro usuário. As notı́cias podem possuir reenvios diversos ou nenhum. Para tal entendimento geramos um conjunto de histogramas que apresenta como o reenvio das notı́cias sofreu impacto quando ocorreu o aumento da quantidade de notı́cias na rede. Podemos perceber na evolução dos histogramas presentes na figura 4.7, que com o volume de notı́cias da rede aumentando fica cada vez mais difı́cil a mesma notı́cia ser reenviada por diversas vezes. Na figura 4.7(a), vemos que diversas notı́cias foram reenviadas por 5 vezes, tendo assim o seu ciclo de vida renovado, o que não podemos perceber nos histogramas 4.7(b),(c) e (d), onde nesse último ocorre uma redução brutal dos reenvios das notı́cias. Após termos exercitado essas simulações com a variação do tamanho da rede e quantidade de informações despejadas nos ambientes, partiremos para a próxima etapa, que consiste em fixar o tamanho da rede e a quantidade de informações veı́culadas e variar o grau de preferência do usuário na rede. 38 Data: Graph1_Counts1 Model: Gauss Data: Graph1_Counts1 Model: Gauss 200 Chi^2/DoF = 2030.51633 R^2 = 0.99806 Chi^2/DoF = 32.0716 R^2 = 0.99573 y0 xc w A 0.91923 1192.9179 279.86682 68796.79329 ±2.99368 ±3.62821 ±9.42788 ±2708.39427 y0 xc w A 0.17038 400.5417 154.28573 445135.57537 ±26.58183 ±1.29141 ±3.5855 ±12626.50539 1500 Notícias Notícias 150 2000 100 1000 50 500 0 0 600 800 1000 1200 1400 1600 200 300 400 Tempo de vida 500 (a) y0 xc w A Data: Graph1_Counts1 Model: Gauss Chi^2/DoF = 15304.84608 R^2 = 0.99693 5000 700 (b) Data: Graph1_Counts1 Model: Gauss 6000 600 Tempo de vida Chi^2/DoF = 162155.39577 R^2 = 0.99604 16000 10.50019 ±41.42037 202.30412 ±0.73666 106.48858 ±1.81713 776952.62879 ±14948.20237 y0 xc w A 14000 12.18303 ±138.54256 136.45982 ±0.76141 87.16443 ±1.83581 1811952.32631 ±42181.25543 12000 Notícias Notícias 4000 3000 10000 8000 6000 2000 4000 1000 2000 0 0 0 100 200 300 400 50 100 150 200 250 300 350 Tempo de Vida Tempo de vida (c) (d) Figura 4.6: Distribuição do tempo de vida das notı́cias em redes de mundo pequeno de diversos tamanhos.(a) Para uma extensão Linear de L = 10; (b) Para uma extensão Linear de L = 30;(c) Para uma extensão Linear de L = 60;(d) Para uma extensão Linear de L = 90 Caracterı́sticas das atividades do usuário conforme seu perfil A definição de um usuário ativo é qualquer um que tenha votado em pelo menos uma notı́cia. Existem 950 usuários ativos na rede de acordo com nossa simulação. Na rede de mundo pequeno, os usuários ativos designaram pelo menos um outro usuário como amigo totalizando 18434 enlaces de amigos. A partir desses dados, a rede de seguidores dos usuários ativos foi desenhada, como por exemplo, usuários ativos que acompanham as atividades de outros usuários. Em seguida, as atividades dos usuários pertencentes a rede foram caracterizadas. Nesta seção de simulações, temos a rede social já criada, bem como o número de notı́cias circulantes. Os 950 usuários ativos do conjunto de dados da rede podem votar em L × L × L, sendo L = 96, totalizando 884.736 notı́cias. Assim, como já mencionado, iniciamos a variação do parâmetro diretamente relacionado com o grau de preferência de notı́cias do usuário da rede. Então, uma vez fixada a extensão linear da rede social e a quantidade de notı́cias circulantes, pretendemos indentificar como o sistema se comporta perante a percepção do conteúdo de uma mensagem veı́culada sobre a ótica dos usuários ou aglomerados de usuários. Na Figura 4.8 temos um conjunto de 39 7000 300 6000 250 5000 Notícias Notícias 350 200 150 4000 3000 100 2000 50 1000 0 0 1 2 3 4 5 6 7 1.0 1.5 2.0 2.5 Reenvios 3.0 3.5 4.0 4.5 5.0 Reenvios (a) (b) 35000 80000 30000 60000 20000 Notícias Notícias 25000 15000 40000 10000 20000 5000 0 1.0 1.5 2.0 2.5 3.0 3.5 0 4.0 1.0 Reenvios (c) 1.5 2.0 2.5 3.0 3.5 4.0 Reenvios (d) Figura 4.7: Distribuição de reenvios das notı́cias em redes de mundo pequeno de diversos tamanhos.(a) Apresenta a distribuição do tempo de vida das notı́cias em uma rede de mundo pequeno com extensão linear de L = 10, com N = 2 × L × L = 200 enlaces com a quantidade de 698 notı́cias na rede que foram lidas pelo menos uma vez; (b) Apresenta a distribuição do tempo de vida das notı́cias em uma rede de mundo pequeno com extensão linear de L = 30, com N = 2 × L × L = 1.800 enlaces com a quantidade de 8900 notı́cias na rede que foram lidas pelo menos uma vez;(c) Apresenta a distribuição do tempo de vida das notı́cias em uma rede de mundo pequeno com extensão linear de L = 60, com N = 2 × L × L = 7.200 enlaces com a quantidade de 39.078 notı́cias na rede que foram lidas pelo menos uma vez;(d) Apresenta a distribuição do tempo de vida das notı́cias em uma rede de mundo pequeno com extensão linear de L = 90, com N = 2 × L × L = 16.200 enlaces com a quantidade de 90.828 notı́cias na rede que foram lidas pelo menos uma vez. histogramas, onde acompanhamos a evolução do ciclo de vida das notı́cias e seu alcance na rede conforme o grau de preferência de um grupo de usuários. Podemos perceber resultados similares no par de histogramas (a) e (b) da Figura 4.8, onde o grau de preferência está dentro do intervalo de 1 a 4. O resultado mostra apenas a variação da quantidade de informações que é insuficiente para alterar de forma significativa o ciclo de vida das notı́cias e seu alcance na rede. A variação do parâmetro de grau de preferência começa a impactar e refletir em um comportamento diferente do sistema quando atinge o valor 5 e assim por diante como poderemos aferir. O histograma (c) da Figura 4.8, apresenta um aumento significativo do ciclo de vida da notı́cia da rede social, onde podemos confirmar a tendência na imagem seguinte. Em nosso modelo, identificamos situações em que o alcance da informação propagada pode sofrer alterações no que diz 40 respeito a preferência do conteúdo vinculado. Data: Graph1_Counts1 Model: Gauss 20000 18000 y0 xc w A 16000 Data: Graph1_Counts1 Model: Gauss 18000 Chi^2/DoF = 163275.30504 R^2 = 0.99707 Chi^2/DoF = 221290.4815 R^2 = 0.99545 16000 10.76995 ±147.8218 133.30663 ±0.63671 79.72997 ±1.54095 1902134.87712 ±40836.60526 y0 xc w A 14000 14000 6.78022 ±182.43018 133.60771 ±0.83925 86.65439 ±2.09355 1903653.36248 ±52547.48389 12000 Notícias Notícias 12000 10000 8000 10000 8000 6000 6000 4000 4000 2000 2000 0 0 50 100 150 200 250 300 0 350 0 Tempo de Vida 50 100 150 200 250 300 350 Tempo de Vida (a) (b) 12000 Data: Graph1_Counts1 Model: Gauss 10000 20000 Data: Graph1_Counts1 Model: Gauss Chi^2/DoF = 196277.43084 R^2 = 0.98938 Notícias 87.2126 136.5073 132.38168 1871871.8895 Chi^2/DoF = 5640534.6542 R^2 = 0.9037 ±129.17447 ±1.52214 ±3.64487 ±57671.3594 15000 Notícias y0 xc w A 8000 6000 y0 xc w A 582.60589 ±591.9308 190.80864 ±14.50433 306.42514 ±31.97555 8403188.86909 ±833642.69605 10000 4000 5000 2000 0 0 0 100 200 300 400 500 0 Tempo de Vida 500 1000 1500 2000 Tempo de vida (c) (d) Figura 4.8: Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 com variação do grau de preferência dos usuários. (a)Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 e um número de 95.266 notı́cias,com valor de preferência do usuário maior que 0; (b) Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 e um número de 95.216 notı́cias com valor de preferência do usuário maior que 2;(c)Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 e um número de 95.211 notı́cias com valor de preferência do usuário maior que 4;(d)Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 e um número de 95.193 notı́cias com valor de preferência do usuário maior que 6. A possibilidade restante para essa fase de simulação foi a variação do parâmetro de grau de preferência para o valor maior que 7, o que traduz a compatibilidade total do conteúdo da informação veı́cula na rede com o perfil do usuário. Os resultados obtidos nessa simulação estão, em parte, traduzidos na Figura 4.9, onde acontece uma mudança de comportamento drástica do sistema. Apesar do ciclo de vida das notı́cias seguir a tendência das simulações anteriores em primeira impressão, podemos avançar em um melhor entendimento desse comportamento. O resultado do ciclo de vida das notı́cias e segue a tendência, entretanto não em sua distribuição. Nesse caso, ocorre um nivelamento das distribuições para a maioria das mensagens. Diversas notı́cias possuem o mesmo alcance e tempos de vida 41 semelhantes, porém o cenário muda drásticamente para uma quase nulidade do sistema. Um comportamento totalmente explosivo do sistema. 3500 Data: Graph1_Counts1 Model: Gauss 3000 Chi^2/DoF = 542254.43887 R^2 = 0.82236 2500 y0 xc w A Notícias 2000 -187.61372 ±337.14709 491.40079 ±43.56214 794.39839 ±125.97837 3874678.62959 ±767466.15024 1500 1000 500 0 0 500 1000 1500 2000 Tempo de Vida Figura 4.9: Distribuição das notı́cias e de seu alcance na rede de mundo pequeno com L = 96 com um número de 32.180 notı́cias com valor de preferência dos usuários maior que 7. Sendo assim, podemos observar pelos histogramas que, apesar de valores de resultados totalmente distintos, as distribuições acompanham uma semelhança até o momento de transição. Com o intuito de melhor entender o comportamento do sistema, geramos dados que apresentam o tempo de vida de cada notı́cia e sua quantidade de reenvios. O quadro de gráficos apresentado da Figura 4.10, segue a mesma sequência das simulações da Figura 4.8. A representação dos gráficos da Figura 4.10, como não poderia ser diferente, segue a dinâmica de resultados dos histogramas da 4.8. Entretanto, podemos indentificar que o padrão de evolução do sistema, em relação ao ciclo de vida de cada notı́cias e seu alcances, forma a partir dos dados coletados um Gráfico 4.11 de equação linear quando o parâmetro de preferência atinge o valor maior que 7. R Atualmente, uma das redes sociais on-line, o FACEBOOK , permite criar páginas(FAN R PAGES ) com conteúdo especı́fico, disponibilizando um conjunto ferramentas de resultados estatı́sticos. Podemos sugerir que esse comportamento assemelha-se com a divulgação de unidades de informação para grupos especı́ficos que compartilham de interesses semelhantes, entretanto, necessitam constantemente de uma renovação de conteúdo que desperte o ciclo de divulgação maciça de notı́cias em grupo. Caso contrário, a falta de novidade pode reduzir o ciclo de vida e o alcance da notı́cia drásticamente. Esse processo pode ser acompanhado através de resultados desses ferramentas citadas. Um comportamento semelhante a nossa última simulação do sistema. O gráfico apresentado na figura 4.11 mostra uma tendência que assemelha-se a um comportamento de marketing viral em redes sociais, o que mesmo acontece na disseminação de epidemias. 42 400 350 350 300 Número de votos Número de votos 300 250 200 150 100 250 200 150 100 50 50 0 0 0 200 400 600 800 200 400 Tempo 600 800 Tempo (a) (b) 500 2000 Número de votos Número de Votos 400 300 200 1500 1000 500 100 0 0 0 200 400 600 0 800 200 400 600 800 Tempo Tempo (c) (d) Figura 4.10: (a)Número de votos por notı́cia por determinados espaços de tempo na rede de mundo pequeno com L = 96 e um número de 95.266 notı́cias com valor de preferência maior que 0.(b)Número de votos por notı́cia por determinados espaços de tempo na rede de mundo pequeno com L = 96 e um número de 95.216 notı́cias com valor de preferência maior que 2.(c)Distribuição das notı́cias e seu alcance na rede de mundo pequeno com L = 96 e um número de 95.211 notı́cias com valor de preferência maior que 4.(d)Número de votos por notı́cia por determinados espaços de tempo na rede de mundo pequeno com L = 96 e um número de 95.193 notı́cias com valor de preferência maior que 6. Entretanto, como todos os assuntos em redes sociais são muito recentes, não podemos afirmar tal comportamento. Entendemos que faz-se necessário a continuidade de estudos desses assuntos tão contemporâneos. 43 2000 1800 1600 Número de Votos 1400 1200 1000 800 600 400 200 0 200 400 600 800 Tempo Figura 4.11: Número de votos por notı́cia por determinados espaços de tempo na rede de mundo pequeno com L = 96 e um número de 32.180 notı́cias com valor de preferência maior que 7. 44 Capı́tulo 5 Conclusões e Perspectivas Este trabalho propôs um modelo para simulação das principais caracterı́sticas da dinâmica de crescimento do número de notı́cias em redes socias simuladas em redes aleatórias e de mundo pequeno. Partimos da hipótese de que a estrutura das rede sociais segue uma topologia em forma de redes complexas. A velocidade de propagação da notı́cia e sua perenidade são fatores muito importantes em uma rede social. Neste trabalho, o modelo descrito sugere que, além da topologia da rede, um fator importante associado à propagação das notı́cias é o seu grau de afinidade com os usuários. Desta forma, o usuário pode consumir as notı́cias veı́culadas da rede e dar maior velocidade a sua propagação aumentando a possibilidade as manterem ‘vivas’ na rede. Por se tratar de um trabalho inicial, o mesmo sugere uma infinidade de perspectivas. Dentre elas, temos a possibilidade de criar simulações com notı́cias com maiores cadeias de bits para entender como uma notı́cia se comporta na rede devido a sua quantidade de palavras e sı́mbolos. A possibilidade de criar diversos centros de notı́cias pode impactar a divulgação da informação na rede. Devido a contemporaneidade do assunto estudado e cronograma limitado, vemos a possibillidade de desenvolver diversos cenários para procurar entender a dinâmica das rede sociais. O caminho para o maior entendimento desse processo passa R pelo entendimento da comunicação de diversas ferramentas atuais como: TWITTER , R R R FACEBOOK , DIGG , INSTAGRAM . Essas ferramentas possuem suas próprias rede e cada dia uma se conecta a outra utilizando e transferindo as conexões de uma para outra. O entendimento da dinânica da navegação da informação nas redes sociais, atualmente, precisa considerar essas interseções. 45 Apêndice A Anexo A.1 Percolação O processo de percolação é um problema genérico conhecido desde a antiguidade que consiste na propagação de fluidos de uma forma não linear em diversos meios (por exemplo, rochas porosas). Existem dois regimes bem definidos, a propagação e a extinção, separados por uma transição brusca - a transição de percolação. A generalidade deste modelo permite estudar uma variedade de processos com aplicações práticas, desde a recuperação terciária de petróleo à propagação de incêndios florestais. Existem dois tipos de modelos de percolação padrão: percolação de sı́tios e percolação de elos [2]. Processos de Percolação Um processo de percolação consiste na propagação do estado de uma célula ativa às células vizinhas, que depois de ativadas continuam o processo. O processo termina quando não há mais células do agregado que possam ser ativadas. Usando o exemplo de percolação de sı́tios, descrito acima, um quadrado de uma cor pode ser ativado pintando-o de outra cor e o processo consiste na propagação da nova cor às células do agregado como pode ser visto em momento inicial do processo da Figura A.1. A duração do processo de percolação depende de dois fatores: o tamanho do agregado e a forma como está conectado. Quanto ao primeiro, é evidente que quanto maior for o agregado maior é a duração do processo. O segundo é mais sutil mas revela-se mais importante: um agregado muito conectado percola mais rapidamente do que um pouco conectado, porque no primeiro cada célula ativa um número maior de células vizinhas. Considerando sistemas discretos, é possı́vel classificar percolação em quatro tipos: 46 Figura A.1: Um quadrado pode ser ativado pintando-o de outra cor e o processo consiste na propagação da nova cor às células do agregado. Imagem retirada de http://cftc.cii.fc.ul.pt/PRISMA/capitulos/capitulo5/modulo6/topico1.php • Percolação de sı́tios: neste caso, cada sı́tio possui uma probabilidade p de estar ocupado, e 1−p de estar vazio. Cada sı́tio é estatisticamente independente dos outros e existe um valor crı́tico, pc , acima do qual uma fase percola por todo o sistema, correspondendo ao ‘aglomerado finito’ formado pela união de sı́tios ocupados primeiros vizinhos entre si. • Percolação de ligações: neste caso, a ligação entre dois sı́tios estaria presente com probabilidade pb e ausente com probabilidade 1 - pb ; as ligações são idênticas entre si e estatisticamente independentes. Acima de pb e pc , há um caminho de ligações presentes conectando sı́tios primeiros vizinhos que estende-se por todo o sistema. • Percolação de sı́tios e ligações: este caso é a combinação dos dois casos considerados acima. • Percolação direcionada: pode ser definida do mesmo modo que a percolação de sı́tios, ligações, ou de sı́tios e ligações, porém as conexões só são permitidas se possuı́rem uma orientação pré-definida. Os processos de percolação desempenham papel crucial em muitas aplicações, em particular, no estudo da propagação de incêndios florestais [17]. 47 Limite de Percolação Denomina-se por limite de percolação o limiar que separa dois comportamentos distintos do sistema; acima deste limite uma fase percola por todo o sistema enquanto abaixo dele não há percolação. Enquanto a percolação de sı́tios é adequada ao estudo de processos de contágio ou para modelar sistemas adsorventes, os outros tipos de percolação são mais adequados para a descrição de fenômenos de transporte[18]. O modelo de percolação direcionada é largamente utilizado, e suas aplicações se estendem desde fenômenos de invasão de um fluı́do em meio poroso até redes neurais[19]. A diferença entre a percolação direcionada e a percolação de ligações pode ser facilmente compreendida considerando uma rede de resistores aleatoriamente distribuı́dos em uma malha quadrada; nesse caso, podemos ter a percolação de ligações; se substituirmos os resistores por diodos, teremos a percolação direcionada[18]. Considerando uma rede infinita, o limite de percolação é associado ao valor crı́tico da concentração pc , acima do qual um aglomerado de tamanho infinito percola no sistema. O valor de pc depende do tipo de percolação que estamos considerando, da dimensão de imersão do sistema e da geometria utilizada para se construir a rede [16]. A.2 Leis de Escala e Potência Nesta seção conforme explicitado por Atman[16] serão apresentados dois comportamentos tı́picos observados quando do estudo do crescimento de superfı́cies de fractais: leis de escala e leis de potência. Souza [20]defende que, na análise da morfologia de uma superfı́cie, torna-se essencial o conceito de escala. Este conceito vem sendo utilizado pela mecânica estatı́stica moderna para demonstrar os chamados comportamentos universais de escala, ou seja, mostrar que sistemas que aparentemente são diferentes, apresentam um comportamento de escala em comum. Existem, portanto, certas “leis de escala” que são básicas e independentes de muitos detalhes desses sistemas. Assim, se um papel toalha for imerso num recipiente de café e o perfil da interface for analisado, serão identificados certos expoentes de escala ligados à rugosidade que são os mesmos encontrados se variarmos certos parâmetros da experiência, como tipo de papel, concentração do café ou mesmo se o fluı́do for trocado por tinta salienta Souza[20]. A caracterização de sistemas através de expoentes globais leva à definição de classes de 48 universalidade: dois sistemas pertencem à mesma classe universal se podem ser descritos pelos mesmos expoentes de escala (adiante serão apresentados três expoentes de escala: de crescimento, de rugosidade e dinâmico)[20]. Dois exemplos onde a rugosidade se comporta segundo uma lei de potência são no perfil da Deposição aleatória de partı́culas (w ∼ t1/2 ) e na definição do expoente de Hurst, (w(ε) ∼ εH ) . A principal caracterı́stica de uma grandeza que se comporta com uma lei de potência é sua invariância por escala. Desse modo, em uma deposição aleatória de partı́culas a rugosidade cresce com a mesma taxa, independente da escala temporal. Grandezas que se comportam segundo uma lei de escala podem apresentar regimes distintos dependendo do intervalo temporal considerado. Para exemplificar,consideremos um modelo de deposição com correlações espaciais, onde a rugosidade do perfil irá se comportar segundo uma lei de escala. Este modelo é conhecido como deposição aleatória com a relaxação superficial[21]. A presença de tais correlações suaviza a interface, não permitindo o crescimento ilimitado da rugosidade; esse comportamento é confirmado por simulações como observado nas Figuras A.2(a) e A.2(b); na Figura A.2(b), onde são mostrados perfis obtidos para a Deposição Aleatória com Relaxação Superficial - DARS são muito mais suaves que as interfaces produzidas pela Deposição Aleatória (vide Figura A.2(a)), onde também verifica-se que o crescimento da rugosidade é bem mais lento. (a) (b) Figura A.2: (a)Perfis gerados pela Deposição Aleatória em um substrato com L = 256. A cada 400 passos a cor das partı́culas é trocada. (b)Perfis gerados pela DARS. A cada 10 camadas depositadas a cor das partı́culas e trocada. Note que os perfis são bem mais suaves que na DA e novamente ocorre a conservação da altura média. Imagem retirada de [21]. A evolução temporal da rugosidade pode ser estudada com o andamento de passo de tempo. Na Figura A.2(b), a rugosidade cresce com uma lei de potência para escalas 49 temporais curtas e atinge a saturação após um certo tempo, denominado tempo de saturação (ou de crossover)t× [21]. Figura A.3: Evolução da rugosidade para a DARS. O tamanho do sistema e L = 1024 e o resultado a representa a média sobre 100 amostras. Note que ocorre a saturação da rugosidade para tempos acima a do tempo de crossover, indicado por t; este comportamento da rugosidade evidencia sua lei de escala. Imagem retirada de [21]. Portanto, o comportamento da rugosidade para este modelo depende da escala temporal de observação. É importante notar que logo no inı́cio da deposição, a inclinação da curva w × t, é maior que nos tempos seguintes. Esse comportamento denota a propagação das correlações no sistema: inicialmente, com o substrato liso e ausência de correlações a deposição se dá idênticamente como na DA (w ∼ t1 /2). À medida que o número de partı́culas depositadas aumenta, as correlações começam a crescer, diminuindo o ritmo de crescimento de rugosidade (w ∼ t1 /4). Finalmente, as correlações atingem o tamanho do sistema fazendo com que a rugosidade entre em um regime estacionário. Portanto, podemos sintetizar o comportamento da rugosidade neste modelo através de três expoentes crı́ticos: Inicialmente a rugosidade cresce com uma lei de potência, (w(L, t) ∼ tβ /ω), para t tx , (A.1) onde βω é denominado o expoente de crescimento, que caracteriza a dinâmica temporal 50 da rugosidade e t o tempo de crossover . Para tempos longos a rugosidade de saturação ,(w(L, ∞) cresce com o tamanho do sistema segundo uma lei de potência. (w(L, ∞) ∼ Lα ), para t tx , (A.2) onde α é o expoente de rugosidade, o segundo expoente crı́tico. O tempo de saturação também comporta-se segundo uma lei de potência em relação ao tamanho do sistema. tx ∼ Lz , (A.3) onde z é o expoente dinâmico. Maiores detalhes sobre os conceitos acima descritos podem ser encontrados em publicação de Atman [21]. A.3 Passeio Aleatório De acordo com o autor Weisstein [22], o Passeio Aleatório é um processo que consiste numa sequência de passos discretos de comprimento fixo. Por exemplo, o caminho traçado por uma molécula, uma vez que viaja em um lı́quido ou um gás, o caminho de procura de um animal de caça e o preço flutuante de um estoque podem ser modelados como passeios aleatórios. Os passeios aleatórios têm sido usados em muitos campos como o da economia, da psicologia, da ciência da computação, da fı́sica, da quı́mica e da biologia para explicar os comportamentos observados de processos nestes domı́nios [23]. Um exemplo elementar de um passeio aleatório unidimensional é o passeio aleatório cj de números inteiros, que começa em 0 e em cada etapa move +1 ou -1 com igual probabilidade. Um passeio aleatório frequentemente citado é o da descrição das flutuações do mercado de ações . Uma possibilidade de passeio aleatório também ocorre em maiores dimensões como a descrição do exemplo que segue: Imagine agora um bêbado andando aleatoriamente em uma cidade idealizada. A cidade é efetivamente infinita e organizada em uma grade quadrada e, em cada cruzamento, o bêbado escolhe uma das quatro rotas possı́veis (incluindo a que ele veio) com igual probabilidade. Formalmente, este é um passeio aleatório sobre o conjunto de todos os pontos no plano com coordenadas inteiras. 51 Figura A.4: Exemplo de oito passeios aleatórios em uma dimensão a partir do ponto 0. O gráfico mostra a posição atual na linha(eixo vertical) versus os passos no tempo (eixo horizontal). Imagem retirada de http://en.wikipedia.org/ wiki/ Random_walk A.4 Autômatos Celulares Os autômatos celulares (CA’s) são sistemas dinâmicos discretos propostos por John Von Neumann e Ulam, aplicados em modelos matemáticos com o intuito de investigar a auto-organização de sistemas em diferentes áreas como computação, mecânica estatı́stica, dinâmicas de populações, biologia, geologia, etc[16, 2, 24]. Os autômatos celulares consistem de uma rede uniforme onde o estado é representado como uma variável discreta em cada sı́tio (célula). O estado em um passo de tempo é determinado pelo estado da vizinhança no passo anterior e as regras de transição podem ser determinı́sticas ou probabilı́sticas [16, 24]. O aumento de interesse no estudo dos (CA’s) nos últimos anos deve-se ao sucesso em conseguir descrever um grande volume de fenômenos das mais variadas áreas de conhecimento. A.5 Geradores de números aleatórios Geradores de números aleatórios, de acordo com Marsaglia[25], são processos computacionais que codificam os bits de um número ou conjunto para gerar um novo número aleatório independente do gerado anteriormente. Além disso, Marsaglia[25] salienta ainda que vários métodos de codificação foram abordados ao longo dos anos. Verifica-se a presença dos geradores de números aleatórios na grande parte dos sistemas computacionais em forma de bibliotecas e/ou pacotes[25] . 52 Tipos de Geradores De acordo com Banks[26] os tipos de geradores de números aleatórios mais comumente utilizados são: • Geradores Congruentes Lineares • Geradores de Atraso de Fibonacci • Geradores de Registradores de Deslocamento • Geradores Hı́bridos. Neste trabalho, optou-se pelo uso do método linear congruente, que será explicado abaixo, devido ao seu baixo custo computacional e alta confiabilidade. Gerador Congruencial A maioria dos métodos usados hoje em dia são variações do chamado Método Linear Congruente, cujos pontos básicos foram propostos por Lehmer[27]. Destaca-se como o mais conhecido algoritmo para geração de sequências pseudoaleatórias de inteiros [28]. In+1 = AIn + C , mod M, (A.4) onde M é o módulo, 0 ≤ A < M é o multiplicador, 0 ≤ C < M é o incremento e 0 < I0 < M é a semente. Para C 6= 0, o gerador congruente é misto, e para C = 0, o gerador congruente é multiplicativo. A relação recursiva A.4 gera o próximo número inteiro. Para se obter uma variável aleatória uniformemente distribuı́da, no intervalo [0,1), deve-se dividir In por M : Zn = In /M . Esse método pode gerar uma sequência de números aleatórios; contudo, se os valores das constantes não forem selecionados corretamente, depois de algumas interações, a sequência irá repetir-se sem gerar todos os números possı́veis, no intervalo [0, M ). Se A, C e M são corretamente selecionados, a sequência pode chegar a um comprimento máximo M, distribuı́dos aleatoriamente no intervalo de 0 a (M − 1). O teorema, a seguir mostra as condições necessárias para os valores ideais de A, C e M [29] . O método linear congruente tem um perı́odo M se, e somente se: 53 • C e M são primos entre si; • B = (A − 1) é múltiplo de P , para todo P primo divisor de M ;. • Se M for múltiplo de 4, então B tem que ser múltiplo de 4. Na linguagem C, temos à disposição 231 números inteiros, A = 843314861 e C = 453816693 são números mágicos, como descreve Stauffer[30], que permitem que o método acima sorteie cada um dos 231 números disponı́veis exatamente uma vez antes que a sequência volte a se repetir. 54 Referências Bibliográficas [1] ALBERT, R.; BARABÁSI, A.L. Statistical mechanics of complex networks. Reviews of Modern Physics, v. 74, p. 47-97, jan. 2002. [2] BOCCARA, N. Modeling Complex Systems. Chicago, USA: Springer, 2004. (Graduate Texts in Contemporary Physics). [A slightly modified version of this review appeared in Physics Today, February 2005 (v. 58, issue 2), p. 65.] [3] CAJUEIRO, D. O. and ANDRADE R. F. S. Learning paths in Complex networks. European Physics Letters: A letters journal exploring the frontiers of physics. EPL Eutophisics Letters, v. 87, n. 5, p. 1-6, set. 2009, 580004. [4] CAJUEIRO, D. O. Optimal navigation in complex networks. Physical Review, Physical Review E - Statistical, Nonlinear and Soft Matter Physics, v. 79, Issue: 4 Pt 2, Publisher: APS, Pages: 046103p. 79, April 2009. [5] BOAVENTURA, P. O. Grafos: teoria, modelos, algoritmos. 3. ed. So Paulo: Edgard Blucher, 2003. [6] MILGRAM, S. The small world problem. Psychology Today, v. 22, p. 61-7, 1967. [7] MENDES, José Fernandes. Fı́sica de redes complexas. Gazeta de Fı́sica. Departamento de Fı́sica da Universidade de Aveiro, Aveiro (Portugal), 2005. p. 10-16. [8] ROCHA, Luis Enrique C. R. Redes acopladas: estrutura e dinâmica. Jul. 2007. Dissertação (Mestrado) Instituto de Fı́sica de São Carlos (USP) São Carlos, 2007. [9] RODRIGUES, Francisco Aparecido. Caracterização, classificação e análise de redes complexas. Ago. 2007. Tese (Doutorado). Instituto de Fı́sica de São Carlos (USP) São Carlos, 2007. [10] WATTS, Duncan J.; STROGATZ, S. H. Collective dynamics of small-world’ networks. Nature, v. 393, n. 6684, p. 440-42, Jun. 1998. [11] WATTS, Duncan J. Six Degrees: The Science of a Connected Age. New York: W. W. Norton, 2003. 55 [12] BARABÁSI, A.L. Linked: How everything is connected to everything else and what it means for business, science and everyday life. New York: Publisher: Plume Books; April 2003). [13] BUCHANAN, Mark. Nexus: Small worlds and the groundbreaking theory of networks. New York: W.W. Norton e Company, 2002. [14] DEGENNE, Alain; FORS, Michel. Introducing social networks. London: Sage, 1999. [15] GRANOVETTER, M. The strength of weak ties. The American Journal of Sociology, v. 78, Issue 6, May, 1973. [16] ATMAN, Aspectos fractais em sistemas complexos. Out. 2002. Tese (Doutorado) UFMG. Belo Horizonte, out. 2002. [17] BAK, P.; CHEN, K. C. Tang A forest-fire model and some thoughs on turbulence, Phys Lett A, v. 147, n. 5-6, p. 297-300, 1990. [18] LESME, A. Renormalization Methods: critical phenomena, chaos and fractal structures. Chichester: John Wiley & Sons, 1998. [19] HINRICHSEN, H. On possible experimental realizations of directed percolation. Braz J Phys, v. 30, n. 1, p. 69-82, 2000. [20] SOUZA CRUZ, Tersio Guilherme de Souza Cruz. Leis de escala e dimenso fractal em filmes finos: Microscopia de Fora Atmica e Voltametria Cclica. 2002. Tese (Doutorado) - Instituto de Fsica Gleb Wataghin da Universidade Estadual de Campinas - Laboratrio de Optoeletroqumica e Materiais. Campinas (SP), 2002. [21] BARABÁSI, A. L.; STANLEY, H. E. Fractal concepts in surface growth. Cambridge: Cambridge Univ. Press, 1995. [22] WEISSTEIN, Eric W. ”Random Walk.” MathWorld - A Wolfram Web Resource. http://mathworld.wolfram.com/RandomWalk.html (1999). [23] WEISS G. H. (Ed.). Aspects and applications of the random walk. Amsterdam: Holland Press, 1994. [24] WOLFRAM, S. Statistical mechanics of cellular automata. Reviews of Modern Physics, v. 55, p. 601-644, 1983. [25] MARSAGLIA, G. Random number generation. Encyclopedia of Computer Science. 4th. Chichester: UK. 2003. [26] BANKS, Jerry. Discrete-event system simulation. 4.ed. Upper Saddle River: Prentice Hall 2005. 56 [27] FITZPATRICK, R. Computational physics: an introductory course. The University of Texas Austin: [s.n.].D. H. Lehmer, Ann. Comp. Lab. Harvard Univ, v. 26 p. 141, 1951. [28] KLEIN, A; GODUNOV, A. Introductory computational physics. [S.l.]: Cambridge University Press, 2006. [29] HULL, TE; DOBELL, AR. Random number generators. Society for Industrial and Applied. Mathematics Review, v. 4, p. 230-54, 1962. [30] STAUFFER, D. Monte Carlo Methods in statistical physics, in computer simulation and computer algebra. Berlim: Springer Verlag, 1993. [31] OLIVEIRA, S. Moss de. A small review of the Penna model for biological ageing, Physica A, v. 257, p. 465-69, 1998. [32] OLIVEIRA, S. Moss de; OLIVEIRA, P.M.C. de; STAFFER, D. Evolution, money, war and computers. Teubner: Leipzig and Stuttgart, 1999. [33] ALMEIDA, R.M.C. de; OLIVEIRA, S. Moss de; PENNA, T.J.P. Theoretical approach to biological aging, Physica A, v. 253, p. 366-78, 1998. [34] COE, J. B.; MAO, Y; CATES, M. E. Solvable senescence model showing a mortality plateau. Physical Review Letters, v. 89, n. 28, p. 288103, 2002. [35] PENNA. T.J.P. A Bit-string model for biological aging. J. Stat. Phys., v. 78, p. 1629, 1995. [36] SUTON R. S.; BARTO A. G., Reinforcement learning. The Mit Press, Cambridge, Mass, 2002. [37] VESPIGNANI, Alessandro et al. .Predicting the behavior of techno-social systems. DOI: 10.1126/science.1171990. Science, v. 325, p. 425, 2009. [38] HUBERMAN, B. A.; ADAMIC, L. Lecture notes in physics. Springer, Heidelberg (Germany), 2003). [39] PASTOR-SATORRAS, R.; VESPIGNANI, A. Evolution and structure of the internet. Cambridge: Univ. Press Cambridge, 2004. [40] CROVELLA, M. E. KRISHNAMURTHY, B. Internet Measurements: infrastructure, traffic and applications. Wiley: Chichester, UK, 2006. [41] WASSERMAN, S.; FAUST, K. Social network analysis. Cambridge: Cambridge Univ. Press, 1994. [42] HANSKI, I. A.; GAGGIOTTI, O. E. Ecology, genetics and evolution of metapopulations. San Diego (CA): Academic Press, 2004. 57 [43] BARABSI. A.-L. R. Albert. Science, v. 286, p. 509, 1999. [44] NEWMAN, M. E. J. The structure and function of complex networks. SIAM Review, v.45, p. 167-256, 2003. [45] BARRAT, A.; BARTHELEMY, M.; VESPIGNANI, A. Dynamical processes on complex networks. Cambridge: Cambridge Univ. Press, 2008. [46] BARRAT A. et al.. Proc. Natl. Acad. Sci. U.S.A. v. 101, p. 3747, 2004. [47] MURRAY, J. D. Mathematical biology I: An Introduction. Third Edition. Springer, New York, 1993. [48] MASSEY, A. Epidemiology in relation to air travel. London: H. K. Lewis, 1933. [49] PEIRIS, J. S. M.; YUEN, K. Y.. STOHR, K. The severe acute respiratory syndrome. N. Engl. J. Med., v. 349, p. 2431, 2003. [50] HOLLINGSWORTH, T. D.; FERGUSON, N. M.; ANDERSON, R. M. Will travel restrictions control the international spread of pandemic influenza? Nat. Med., v. 12, p. 497-99, 2006. [51] EPSTEIN, J.M.; GOEDECKE, D.M.; YU, F.; MORRIS, R.J. et al. Controlling Pandemic Flu: The Value of International Air Travel Restrictions. PLoS ONE, v. 2, n. 5: p. e401, 2007. [52] COLIZZA, V.; VESPIGNANI, A.; THEOR, J. Epidemic modeling in metapopulation systems with heterogeneous coupling pattern: Theory and simulations. Biol., v. 251, p. 450-67, 2008. [53] COLIZZA, V. ET AL. PLOS MED. V. 4, P. E95, 2007. [54] ADAMIC, L. A.; GLANCE, N. The political blogosphere and the 2004 U.S. election: divided they blog. In LinkKDD, 2005. [55] JENSEN, D.; NEVILLE, J. Data mining in social networks. In National Academy of Sciences Symposium on Dynamic Social Network Analysis, 2002. [56] EUBANK, S. et al. Modelling disease outbreaks in realistic urban social networks. Nature, v. 429, p. 180-84, 2004. Disponvel em: http://ndssl.vbi.vt.edu/Publications/modellingDisease.pdf [57] MOTTER, A. E. Cascade control and defense in complex networks. Phys. Rev. Lett., v. 93, 098701, 2004. [58] MASON, W. A.; CONREY, F. R.. SMITH, E. R. Situating social influence processes: dynamic, multidirectional flows of influence within social networks. Pers. Soc. Psychol. Rev., v. 11, p. 279-300, 2007. 58 [59] AVERY, C.; ZEMSKY, P. Multidimensional uncertainty and herd behavior in financial markets. Am. Econ. Rev., n. 88, p. 724-48, 1998. [60] SHILLER, R. J. Irrational exuberance. Princeton: University Press, 2000. [61] LAZARSFELD, P. F.; BERELSON, B.; GAUDET, H. The people’s choice. New York: Columbia Univ. Press, 1944. [62] CHRISTAKIS, N. A.; FOWLER, J.H. The spread of obesity in a large social network over 32 years. New Engl. J. Med., v. 357, p. 370-79, 2007. [63] SALGANIK, M. J.;DODDS, P. S.; WATTS, D. J. Experimental study of inequality and unpredictability in an artificial cultural market. Science, v. 311, p. 854-56, 2006. [64] KATZ, E.; LAZARSFELD, P. F. Personal influence. Glencoe, Il-linois: The Free Press, 1955. [65] WATTS, D.; GOEL, S.; MASON, W. Work in progress, 2009. [66] CARR, D. Why twitter will endure. New York Times, 2010. [67] ONNELA, J.-P.; REED-TSOCHAS,F. The spontaneous emergence of social influence in online systems. Boston: Boston University, 2009. [68] MAYER, A.; PULLER, S. L. The old boy (and girl) network: social network formation on university campuses. J. Public Econ., v. 92, p. 329-47, 2008. [69] LEWIS, K.;, KAUFMAN, J.; GONZALEZ, M.; WIMMER, A.; CHRISTAKIS, N. A. Tastes, ties, and time: a new social network dataset using Facebook.com. Soc. Networks, v. 30, p. 330-42, 2008. [70] CRANE, R.; SORNETTE, D. Robust dynamic classes revealed by measuring the response function of a social system. Proc. of the National Academy of Sciences, v. 105, p. 15649-15653, 2008. [71] GOLDER, S.A.; WILKINSON, D.; HUBERMAN, B.A. Rhythms of social interaction: messaging within a massive online network. HP Social Computing Laboratory Laboratory paper. Disponvel em: http://arxiv.org/abs/cs/0611137. [72] TRAUD, A. L.; KELSIC, E. D.; MUCHA, P. J.; PORTER, M. A. Community structure in online collegiate social networks. available at arXiv:0809.0690v1. [73] Onnela, J.-P. et al. Structure and tie strengths in mobile communication networks. P. Natl. Acad. Sci., USA, v. 104, p. 7332-7336, 2007. [74] LAZER, D. et al. Computational social science. Science, v. 323, p. 721-23, 2009. [75] FLAMMINI, A.; VESPIGNANI, A.; MENCZER, F. Competition among memes in a world with limited attention. Sci. Rep., v. 2, p. 335; DOI:10.1038/srep00335, 29 mar. 2012. 59 [76] DAVENPORT, T. H.; BECK, J. C. The attention economy: understanding the new currency of business. Boston: Harvard Business School Press, 2001. [77] TAPSCOTT, D.; WILLIAMS, A. D. Wikinomics: How mass collaboration changes everything. Portfolio Hardcover, 2006. [78] DAWKINS, R. The selfish gene. Oxford: Oxford University Press, 1989. [79] SIMON, H. Designing organizations for an information-rich world. In: GREENBERGER, M. (ed.) Computers, Communication, and the Public Interest. Baltimore: The Johns Hopkins Press, 1971, p. 37-52. [80] GOLDHABER, M. H. The attention economy and the net. First Monday, v. 2, n. 4, 1997. [81] MORRIS, S. Contagion. Rev. Econ. Studies, v. 67, p. 57-78, 2000. [82] WATTS, D. J. A simple model of global cascades on random networks. Proceedings of the National Academy of Sciences, v. 99, p. 5766-5771, 2002. [83] WU, F.; HUBERMAN, B. A. Novelty and collective attention. Proceedings of the National Academy of Sciences, v. 104, p. 17599-17601, 2007. [84] FALKINGER, J. Attention economies. Journal of Economic Theory, n. 133, p. 266294, 2007. [85] CRANE, R.; SORNETTE, D. Robust dynamic classes revealed by measuring the response function of a social system. P. Natl. Acad. Sci. USA, v. 105, p. 15649-15653, 2008. [86] LESKOVEC, J.; BACKSTROM, L.; KLEINBERG, J. Meme-tracking and the dynamics of the news cycle. In: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, p. 497-506. ACM, New York, NY, USA, 2009. [87] GOETZ, M.; LESKOVEC, J.; MCGLOHON, M.; FALOUTSOS, C. Modeling blog dynamics. In: Proc. Third International AAAI Conference on Weblogs and Social Media, 2009. [88] LERMAN, K.; GHOSH, R. Information contagion: an empirical study of the spread of news on digg and twitter social networks. In: Proc. Fourth International AAAI Conference on Weblogs and Social Media, 2010. [89] RATKIEWICZ, J.; FORTUNATO, S.; FLAMMINI, A.; MENCZER, F.; VESPIGNANI, A. Characterizing and modeling the dynamics of online popularity. Phys. Rev. Lett., n. 105, p. 158701, 2010. [90] LAZER, D. et al. Computational social science. Science, v. 323, p. 721-23, 2009. 60 [91] VESPIGNANI, A. Predicting the behavior of techno-social systems. Science, v. 325, p. 425-28, 2009. [92] Moussaid, M.; Helbing, D.; Theraulaz, G. An individual-based model of collective attention. In: Proceedings of the European Conference on Complex Systems, 2009. [93] ASUR, S.; HUBERMAN, B. A.; SZABO, G.; WANG, C. Trends in social media: Persistence and decay. In: Proceedings of the 5th International AAAI Conference on Weblogs and Social Media, 2011. [94] ROMERO, D. M.; GALUBA, W.; ASUR, S.; HUBERMAN, B. A. Influence and passivity in social media. In: Proceedings of the 20th International Conference on World Wide Web (Companion Volume), p. 113-14, ACM, 2011. [95] BAKSHY, E.; MASON, W. A.; HOFMAN, J. M.; WATTS, D. J. Everyone’s an influencer: Quantifying influence on twitter. In: Proceedings of the Fourth ACM International Conference on Web Search and Data Mining, 2011. [96] WU, F.; HUBERMAN, B. J. A persistence paradox. First Monday 15, 2010. [97] ROMERO, D. M.; MEEDER, B.; KLEINBERG, J. Differences in the mechanics of information diffusion across topics: Idioms, political hashtags, and complex contagion on twitter. In: Srinivasan, S. et al. (eds.) Proceedings of the 20th International Conference on World Wide Web. ACM, 2011. [98] ARAL, S.; MUCHNIK, L.; SUNDARARAJAN, A. Distinguishing influence-based contagion from homophily-driven diffusion in dynamic networks. Proceedingns of the National Academy of Sciences, v. 106, p. 21544-21549, 2009). [99] GONÇALVES, B.; PERRA, N.; VESPIGNANI, A. Validation of dunbar’s number in twitter conversations. PLoS One, v. 6, p. e22656, 2011. [100] LEHMANN, J.; GONÇALVES, B.; RAMASCO, J. J.; CATTUTO, C. Dynamical classes of collective attention in twitter. In: Proc. 21st International World Wide Web Conference (WWW), 2012. [101] DUNBAR, R. I. M. The social brain hypothesis. Evolutionary Anthropology, v. 6, p. 178-90. 1998. [102] IENCO, D.; BONCHI, F.; CASTILLO, C. The meme ranking problem: Maximizing microblogging virality. Journal of Intelligent Information Systems (Forthcoming), v. 2, 2012. [103] YANG, L.; SUN, T.; MEI, Q. We KnowWhat @You #Tag: Does the Dual Role Affect Hashtag Adoption? In: Proc. 21st International World Wide Web Conference (WWW), 2012. 61 [104] GOFFMAN, W.; NEWILL, V. A. Generalization of epidemic theory: an application to the transmission of ideas. Nature, v. 204, p. 225-8, 1964. [105] DALEY, D. J.; KENDALL, D. G. Epidemics and rumours. Nature, v. 204, p. 11181119, 1964. [106] BAILEY, N. The mathematical theory of infectious diseases and its applications. 2nd edn. London: Griffin,1975, xvi-413. [107] LESKOVEC, J.; MCGLOHON, M.; FALOUTSOS, C.; GLANCE, N.; HURST, M. Cascading behavior in large blog graphs: Pattern and a model. Tech. Rep. 0704.2803, arXiv, 2007. URL http://arxiv.org/abs/0704.2803. [108] SIMON, H. A. et al. On a class of skew distribution functions. Science, v. 42, p. 425-40, 1955. [109] SNEPPEN, K.; TRUSINA, A.; JENSEN, M. H.; BORNHOLDT, S. A minimal model for multiple epidemics and immunity spreading. PLoS One, v. 5, p. e13326, 2010. [110] KERRER, B.; NEWMAN, M. E. J. Competing epidemics on complex networks. Tech.Rep., v. 1105, p. .3424, arXiv, 2011. [111] ROGERS, E. M. Diffusion of Innovations. 5th Edition. New York: Free Press, 2003. [112] DOMINGOS, P.; RICHARDSON, M. Mining the network value of customers. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’01, p. 5766, New York, NY, USA. ACM 2001. [113] KEMPE, D.; KLEINBERG, J.; EVA TARDOS. Maximizing the spread of influence through a social network.In KDD 03: Proc. 9th Int. Conf. on Knowledge discovery and data mining, p. 137-46, 2003. [114] GRUHL, D.; LIBEN-NOWELL, D.. Information diffusion through blogspace. In: Proc. Int.WorldWideWeb Conference (WWW), p. 491-501, 2004. [115] ADAMIC, L. A.; ADAR, E. How to search a social network. Social Networks, v. 27, n. 3, p. 187-203, 2005. [116] INFORMATION CONTAGION: An Empirical Study of the Spread of News on Digg and Twitter Social Networks Kristina Lerman and Rumi Ghosh USC Information Sciences Institute Marina del Rey, CA 90292, USA. [117] DAVITZ, J.; YU, J.; BASU, S.; GUTELIUS, D.; AND HARRIS, A. 2007. ilink: Search and routing in social networks. In Proc. Knowledge Discovery and Data Mining Conference (KDD), 2007. [118] Association for the Advancement of Artificial Intelligence (www.aaai.org). https://networkchallenge.darpa.mil 62 [119] LESKOVEC, J.; HORVITZ, E. Planetary-scale views on a large instant-messaging network. In: WWW - 08: Proc. 17th Int. World Wide Web Conference, p. 915-24, 2008. [120] VAZQUEZ, A.; OLIVEIRA, J. G.; DEZSO, Z.; GOH, K.; KONDOR, I; BARABÁSI, A.. Modeling bursts and heavy tails in human dynamics. Phys. Rev. E, v. 73, n. 3, p. 036127+, 2006. [121] HOGG, T.;LERMAN, K. Stochastic models of usercontributory web sites. In: Proc. Int. Conference on Weblogs and Social Media, 2009. [122] WU, F.; HUBERMAN, B.; ADAMIC, L.; TYLER, J. Information flow in social groups. Physica A, 2004. [123] LIBEN-NOWELL, D.; KLEINBERG, J. Tracing information flow on a global scale using internet chain-letter data. PNAS, v. 105, n. 12, p. 4633-38, 2008. [124] LESKOVEC, J.; MCGLOHON, M.; FALOUTSOS, C.; GLANCE, N.; HURST, M. Cascading behavior in large blog graphs: Pattern and a model. Tech. Rep. 0704.2803, arXiv, 2007. URL http://arxiv.org/abs/0704.2803. [125] LESKOVEC, J.; KRAUSE, A.; GUESTRIN, C.; FALOUTSOS, C.; VANBRIESEN,J.; GLANCE, N. Cost-effective outbreak detection in networks. In KDD -07: Proc. 13th Int. Conf. on Knowledge discovery and data mining, p. 420-9, 2007. [126] CRANE, R.; SORNETTE, D. Viral, quality, and junk videos on youtube: Separating content from noise in an information-rich environment. In: Proc. AAAI symposium on Social Information Processing, 2008. [127] HOGG, T.; LERMAN, K. Social dynamics of digg. In: Proc. Int. Conference on Weblogs and SocialMedia (ICWSM10), 2010. [128] LERMAN, K.; GALSTYAN, A. Analysis of social voting patterns on digg. In: Proc. 1st ACM SIGCOMM Workshop on Online Social Networks., 2008. [129] HOGG, T.;LERMAN, K. Stochastic models of usercontributory web sites. In: Proc. Int. Conference on Weblogs and Social Media, 2009. [130] WU, F.; HUBERMAN, B. A. Novelty and collective attention. Proceedings of the National Academy of Sciences, v. 104, p. 17599-17601, 2007. [131] HOGG, T.; SZABO, G. Diversity of user activity and content quality in online communities. In: Proc. Int. Conference on Weblogs and Social Media (ICWSM), 2009. [132] WILKINSON, D. M. Strong regularities in online peer production. In: EC -08: Proc. 9th Conf. on Electronic commerce, p. 302-9, 2008. 63 [133] NEWMAN, M. E. J. Spread of epidemic disease on networks. Physical Review E, v. 66, n. 1, p. 016128+, 2002. [134] LESKOVEC, J.; ADAMIC, L.; HUBERMAN, B. The dynamics of viral marketing. In: EC -06: Proc. 7th Conf. on Electronic commerce, p. 228-37, 2006. [135] BAKSHY, E.; KARRER, B.; ADAMIC, L. A. Social influence and the diffusion of user-created content. In: EC -09: Proc. 10th ACM conference on Electronic commerce, p. 325-34, 2009. 64