CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS
Mestrado em Modelagem Matemática e Computacional
Valter Ribeiro Lima Júnior
Uma Investigação acerca da Conectividade da
Web Brasileira
Belo Horizonte
Agosto de 2014
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS
Mestrado em Modelagem Matemática e Computacional
Valter Ribeiro Lima Júnior
Uma Investigação acerca da Conectividade da
Web Brasileira
Dissertação
de
mestrado
submetida
ao
Programa de Pós-Graduação em Modelagem
Matemática e Computacional, como parte
dos requisitos para a obtenção do título
de Mestre em Modelagem Matemática e
Computacional.
Orientador: Prof. Cristina Duarte Murta
Coorientador: Prof. Adriano César Machado Pereira
Belo Horizonte
Junho de 2014
Agradecimentos
Agradeço a minha minha orientadora Cristina e ao meu coorientador Adriano pela
paciência e conhecimentos compartilhados. Agradeço também aos colegas de mestrado
pelo apoio e ajuda nos estudos. Agradeço a CAPES pelo apoio nanceiro tão necessário
para concluir este mestrado. Por m, agradeço a minha família e minha namorada Natália
pelo apoio e incentivo aos estudos.
Resumo
A Web é uma rede complexa de informação e de comunicação construída a partir do
modelo de hipertexto, cujo aspecto central é a conectividade. Na representação da Web
como um grafo, os vértices são documentos HTML, comumente denominados páginas, e
as arestas são links que apontam de uma página para outra. Essa dissertação examina a
seguinte questão: quão conectada é a Web brasileira? Para analisar essa questão, foram feitas duas coletas da Web brasileira, uma tendo como alvo o domínio .br, e a segunda tendo
como alvo a Web governamental brasileira (.gov.br). A amostra da Web obtida representa
cerca de 7% da Web brasileira. Os dados coletados foram modelados como grafos dirigidos
e analisados de acordo com modelos estatísticos e computacionais. A conectividade e a
estrutura topológica dos grafos foi analisada a partir dos resultados de métricas tais como
a distribuição dos graus de entrada e de saída, os componentes fortemente conectados, as
distâncias entre os vértices e o betweenness. Os resultados indicam que a Web brasileira
apresenta características similares às obtidas em estudos correlatos. Além disso, a Web
brasileira contém sítios muito conectados internamente, porém, como rede, é minimamente
conectada.
Palavras-chave:
Web Brasileira, Grafos, Web, Redes Complexas.
Abstract
The Web is a complex network of information and communication built from the hypertext model, whose central feature is the connectivity. In the representation of the Web
as a graph, the vertices are HTML documents, commonly called pages, and the edges are
links pointing from one page to another. This dissertation examines the question: how connected is the Brazilian Web? To examine this question, two datasets were collected from
the Brazilian Web, one focusing the domain .br, and the second targeting the Brazilian
governmental's Web (.gov.br). The sample obtained from the Web crawler is about 7% of
the Brazilian Web. The datasets were modeled as directed graphs and analyzed according
to statistical and computational models. The network connectivity and the topological
graph structure were analyzed from the results of metrics such as the distribution of the
input and output degrees, the strongly connected components, the distances between the
vertices and the betweenness. The results indicate that the Brazilian Web features are
similar to those reported in previous studies. Moreover, the Brazilian Web sites are very
much connected internally, however, as a network, it is minimally connected.
Keywords:
Brazilian Web, Graphs, Web, Complex Networks.
Sumário
Lista de Figuras
9
Lista de Tabelas
11
1 Introdução
12
1.1
Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3
Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4
Estrutura da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Conceitos e Trabalhos Relacionados
18
2.1
Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2
Teoria de Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1
Grafos Não-dirigidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2
Grafos Dirigidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3
O Grafo da Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4
Registros da Web Brasileira . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5
Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Coleta de Dados e Metodologia
29
3.1
Modelagem dos Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2
Métodos de Análises dos Grafos . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3
Estudos com o HTTrack . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4
Comparação com Estatísticas da Web Brasileira . . . . . . . . . . . . . . . . 40
3.5
Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6
4 Resultados
4.1
4.2
4.3
42
Resultados do Grafo .br . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1.1
Maior Componente Fortemente Conectado do Grafo .br . . . . . . . 51
4.1.2
Análise do Grafo .br via Pajek . . . . . . . . . . . . . . . . . . . . . 54
4.1.3
Resultados do HTTrack . . . . . . . . . . . . . . . . . . . . . . . . . 57
Resultados do Grafo .gov.br . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.1
Maior Componente Fortemente Conectado do Grafo .gov.br . . . . . 69
4.2.2
Análise do Grafo .gov.br via Pajek . . . . . . . . . . . . . . . . . . . 72
4.2.3
O Censo da Web Governamental Brasileira . . . . . . . . . . . . . . 75
Comparação entre os grafos .br e .gov.br . . . . . . . . . . . . . . . . . . . . 76
5 Conclusão
83
5.1
Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2
Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Referências Bibliográcas
88
Lista de Figuras
2.1
(a) Representação de um grafo não-dirigido. (b) Componentes conectados.
(c) Representação de um grafo dirigido. . . . . . . . . . . . . . . . . . . . . 20
2.2
Componentes fortemente conectados em um grafo dirigido. Figura extraída
de [Rocha 2007]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3
Representação do grafo da Web. . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4
Componentes em um grafo da Web. Figura adaptada de [Vitali et al. 2011].
3.1
Etapas da modelagem dos grafos. . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1
Graus do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2
Ranking dos graus do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3
Frequência dos graus do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4
Ajuste dos graus do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5
Graus do maior CFC do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . 52
4.6
Rank dos graus do CFC do grafo .br. . . . . . . . . . . . . . . . . . . . . . . 52
4.7
Frequência dos graus do maior CFC. . . . . . . . . . . . . . . . . . . . . . . 53
4.8
Ajuste dos graus do maior CFC do grafo .br. . . . . . . . . . . . . . . . . . 53
4.9
Graus de entrada do grafo .br no Pajek. . . . . . . . . . . . . . . . . . . . . 55
24
4.10 Graus de saída do grafo .br no Pajek. . . . . . . . . . . . . . . . . . . . . . . 55
4.11 Componentes fortemente conectados do grafo .br no Pajek. . . . . . . . . . 56
4.12 Os 20 vértices com os maiores valores de betweenness no grafo .br. . . . . . 57
4.13 Universos de 5 vértices.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.14 CFCs de 5 vértices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.15 Universos de 69 vértices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.16 CFCs de 69 vértices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8
4.17 Graus do grafo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.18 Ranking dos graus do grafo .gov.br. . . . . . . . . . . . . . . . . . . . . . . . 67
4.19 Frequência dos graus de entrada e de saída do grafo .gov.br. . . . . . . . . . 68
4.20 Ajuste dos graus do grafo .gov.br. . . . . . . . . . . . . . . . . . . . . . . . . 68
4.21 Graus do maior CFC do grafo .gov.br. . . . . . . . . . . . . . . . . . . . . . 70
4.22 Ranking dos graus do CFC do grafo .gov.br. . . . . . . . . . . . . . . . . . . 71
4.23 Frequência dos graus do CFC do grafo .gov.br. . . . . . . . . . . . . . . . . 71
4.24 Ajuste dos graus do maior CFC do grafo .gov.br. . . . . . . . . . . . . . . . 72
4.25 Graus de entrada do grafo .gov.br no Pajek. . . . . . . . . . . . . . . . . . . 73
4.26 Graus de saída do grafo .gov.br no Pajek. . . . . . . . . . . . . . . . . . . . 73
4.27 Componentes fortemente conectados do grafo .gov.br no Pajek. . . . . . . . 74
4.28 Os 20 vértices com os maiores valores de betweenness no grafo .gov.br. . . . 75
Lista de Tabelas
2.1
Principais domínios da Web brasileira. . . . . . . . . . . . . . . . . . . . . . 27
2.2
Distribuição dos domínios .gov.br por estado. . . . . . . . . . . . . . . . . . 27
3.1
Extração dos sítios das URLs. . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2
Distinção entre sítios e subsítios. . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3
Laços após a extração dos sítios. . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4
Arestas repetidas após a extração dos sítios. . . . . . . . . . . . . . . . . . . 33
3.5
Trecho da lista de arestas do grafo .gov.br. . . . . . . . . . . . . . . . . . . . 34
3.6
Números obtidos das modelagens. . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7
Dimensões dos grafos de códigos HTTP 2xx e 3xx. . . . . . . . . . . . . . . 34
3.8
Sítios do componente fortemente conectado de 5 vértices. . . . . . . . . . . . 37
3.9
Sítios do componente fortemente conectado de 69 vértices. . . . . . . . . . . 38
3.10 Extração do domínio de um sítio. . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1
Dados da modelagem do grafo .br. . . . . . . . . . . . . . . . . . . . . . . . 42
4.2
Os 24 vértices com mais laços no grafo .br. . . . . . . . . . . . . . . . . . . . 44
4.3
Os 20 arcos com mais repetições no grafo .br. . . . . . . . . . . . . . . . . . 45
4.4
Dados estatísticos sobre os graus do grafo .br. . . . . . . . . . . . . . . . . . 45
4.5
Os 20 vértices com os maiores graus de entrada. . . . . . . . . . . . . . . . . 48
4.6
Os 20 vértices com os maiores graus de saída. . . . . . . . . . . . . . . . . . 48
4.7
Dados estatísticos das distâncias. . . . . . . . . . . . . . . . . . . . . . . . . 49
4.8
Quantidade de componentes fortemente conectados no grafo .br. . . . . . . . 50
4.9
Dados de domínios por DPN. . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.10 Dados estatísticos sobre os graus do CFC do grafo .br. . . . . . . . . . . . . 51
4.11 Dados estatísticos das distâncias do CFC. . . . . . . . . . . . . . . . . . . . 54
10
11
4.12 Dimensões do modelo da gravata no grafo .br. . . . . . . . . . . . . . . . . . 56
4.13 Comparação dos graus de saída dos subgrafos de 5 vértices. . . . . . . . . . 59
4.14 Os 20 vértices com os maiores graus de saída dos subgrafos de 69 vértices. . 61
4.15 Conexões inexistentes no CFC do HTTrack. . . . . . . . . . . . . . . . . . . 62
4.16 Dados da modelagem do grafo .gov.br. . . . . . . . . . . . . . . . . . . . . . 63
4.17 Os 20 vértices com mais laços. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.18 Os 20 arcos com mais repetições no grafo .gov.br. . . . . . . . . . . . . . . . 64
4.19 Dados estatísticos sobre os graus do grafo .gov.br. . . . . . . . . . . . . . . . 65
4.20 Os 20 vértices com os maiores graus de entrada do grafo .gov.br. . . . . . . 66
4.21 Os 20 vértices com os maiores graus de saída do grafo .gov.br. . . . . . . . . 66
4.22 Dados estatísticos das distâncias do grafo .gov.br. . . . . . . . . . . . . . . . 69
4.23 Quantidade de CFC no grafo .gov.br. . . . . . . . . . . . . . . . . . . . . . . 69
4.24 Dados estatísticos sobre os graus maior do CFC do grafo .gov.br. . . . . . . 70
4.25 Dados estatísticos das distâncias no maior CFC do grafo .gov.br. . . . . . . 72
4.26 Dimensões do modelo da gravata no grafo .gov.br.
. . . . . . . . . . . . . . 74
4.27 Porcentagem de sítios separados por estado. . . . . . . . . . . . . . . . . . . 77
Capítulo 1
Introdução
A Web é uma aplicação da Internet concebida por Tim Berners-Lee entre 1989 e 1991,
cujo objetivo primordial é a troca de informações [Easley and Kleinberg 2010]. Porém, a
Web popularizou-se somente a partir do m da década 1990, fato de grande importância para a comunicação. Como a Web é um meio pouco controlado, qualquer indivíduo
ou organização pode criar sítios sem qualquer restrição em relação a quantidade da páginas ou de links [Barabási et al. 2000a]. Este fato ocasionou um crescimento irregular,
transformando a Web em uma rede grande e complexa, o que dicultou determinar sua
conectividade ou até mesmo identicar a localidade efetiva de determinada informação.
A Web é constituída basicamente por um conjunto de documentos denominados páginas. Estas páginas possuem conexões virtuais para outras páginas, o que ocasiona a
formação de um grafo dirigido. Deste grafo, os vértices são representados por páginas
HTML e as arestas dirigidas por hyperlinks que apontam de uma página para outra.
Os estudos da Web como um grafo tiveram origem no m da década de 1990. Um
dos estudos pioneiros [Barabási and Albert 1999] apresenta um modelo para explicar o
surgimento de redes aleatórias. Neste estudo os autores descrevem sistemas para comparar
suas características com as do modelo apresentado. Destes sistemas pode-se citar a World
Wide Web e outros, como as redes genéticas e padrões de citação em artigos cientícos, que
podem ser representados como redes com uma complexa topologia em que sua principal
característica comum é que a conectividade dos vértices (grau) segue uma distribuição de
lei de potência.
Outro trabalho de destaque apresenta um estudo realizado especicamente acerca da
conectividade do grafo da Web. O estudo apresentou a conectividade, a estrutura ma12
13
croscópica e também a já conhecida distribuição de lei de potência dos graus de um grafo
de cerca de 200 milhões de vértices e 1,5 bilhão de arestas [Broder et al. 2000]. Este foi
o primeiro estudo a representar a estrutura topológica da Web de acordo com o modelo
conhecido como gravata borboleta.
Após esse período, observa-se uma ausência de estudos relacionados ao grafo da
Web na primeira metade da década de 2000. Importantes estudos foram realizados entre 1999 e 2000, destes pode-se citar [Barabási and Albert 1999], [Broder et al. 2000],
[Kumar et al. 2000] e [Barabási et al. 2000a]. Porém, só a partir de meados da década de
2000 sugiram novos estudos relevantes em [Modesto et al. 2005], [Boccaletti et al. 2006] e
[Easley and Kleinberg 2010]. Um fato que deve ser lembrado é que, independentemente do
grafo ou de como ele foi coletado, em todos os estudos foram identicadas as leis de potência na distribuição dos graus, o modelo de gravata borboleta em sua estrutura topológica e
comprimentos de menores caminhos relativamente curtos, que se enquadram no fenômeno
small-world.
A rede da World Wide Web (WWW) ou simplesmente Web possui grande tamanho e
grande quantidade de interações e, por ser uma rede muito dinâmica, produz uma topologia que é desconhecida [Barabási et al. 2000a]. A partir disto, nosso estudo foi motivado
pelo interesse em analisar como está conectada a Web brasileira. Apenas dois estudos relacionados foram encontrados nos trabalhos de [Veloso et al. 2000] e [Modesto et al. 2005].
Apesar de serem estudos sobre a Web brasileira, eles pouco se referem à conectividade,
dando maior enfoque ao conteúdo descoberto nas páginas. A partir de nosso trabalho são
respondidas questões sobre o tema, por exemplo, como a Web está conectada e se a rede é
conexa de maneira a ser possível percorrê-la sem a ajuda de máquinas de busca. Também
é possível responder se a estrutura da Web brasileira atual ainda pode ser representada
pelo modelo em forma de gravata [Broder et al. 2000]. Além disso, investigamos se a Web
governamental brasileira (.gov.br) possui características similares a Web brasileira como
um todo.
A partir desse estudo será possível identicar, dentre outros fatores, quais páginas possuem as maiores quantidades de conexões. A descoberta destas páginas pode ter diversas
nalidades como, por exemplo, ser de interesse para anunciantes que querem divulgar al-
1.1. ESCOPO
14
gum tipo de produto na Web. A partir destas páginas é possível alcançar uma gama maior
de pessoas, pois muitas vezes estas páginas são populares. Além disto, os resultados de
estudos da Web auxiliam no desenvolvimento de algoritmos de classicação de páginas,
como o PageRank, e podem até detectar anomalias na rede [Broder et al. 2000]. Estudos da Web como um grafo servem como base para criação de ferramentas para melhor
estudá-la e também podem servir de base para estudos de disseminação de informação na
rede. A partir do estudo da Web também é possível fazer previsões de como a Web estará
estruturada no futuro [Chayes 2013].
Outro fato caracterizado no estudo da Web é sua interdisciplinaridade, que abrange
três áreas do conhecimento: ciência da computação, matemática e estatística. À ciência
da computação cabe a rede de compartilhamento de informação, neste caso o estudo da
Web. Da matemática são estudados os grafos, que constituem a forma de representar a
Web em estudos de conectividade. Por m, a estatística é usada na obtenção de dados de
métricas dos grafos como a distribuição probabilística dos graus, o coeciente de variação
dos graus, os graus e as distâncias médias.
1.1
Escopo
Este trabalho consiste em realizar uma investigação acerca da conectividade e estrutura
topológica da Web Brasileira. Para tanto, foram estudadas duas partes desta Web, a
primeira caracteriza um estudo que abrange a Web brasileira como um todo. Como Web
brasileira consideramos todos os sítios que nalizam seu domínio com .br. O segundo
estudo tem como foco apenas a Web governamental brasileira, em que foram estudados os
sítios que abrangem o domínio .gov.br.
A investigação foi realizada utilizando-se um conjunto de técnicas de análise que calculam métricas em amostras do grafo da Web. Destas métricas pode-se citar a distribuição
probabilística dos graus de entrada e saída, a identicação dos componentes fortemente
conectados, estatísticas de distância entre vértices, a centralidade e o coeciente de agrupamento.
Foram utilizados dois grafos no estudo, e ambos foram modelados a partir de registros
de duas coletas obtidos com uso do Web crawler Heritrix. O primeiro se trata do grafo de
um retrato da Web .br, do qual teve sua coleta realizada no período de 9 de dezembro
1.1. ESCOPO
15
de 2012 a dia 14 de janeiro de 2013. O segundo grafo foi obtido a partir de um universo
contido dentro da Web brasileira, mais especicamente a Web governamental brasileira
(.gov.br). Este grafo foi modelado a partir de uma coleta realizada no mês de agosto de
2013.
Um fato que deve ser descrito sobre o projeto refere-se às limitações de coletas utilizando
Web crawler. Uma das limitações contidas na coleta está relacionada ao seu tamanho, pois
dicilmente seria possível coletar todas as páginas da Web por crawling. Diante disto,
o processo foi executado em períodos limitados, ou seja, os dados obtidos representam
apenas um retrato da Web a partir de uma coleta feita em um período de tempo. As
congurações do Web crawler também inuenciam o resultado, pois em uma das coletas só
foram registrados sítios do domínio .br e na outra somente sítios do domínio .gov.br, o que
ocasiona a exclusão de links de outros domínios contidos nas páginas visitadas. O protocolo
de exclusão de robôs, que é um arquivo contido em cada sítio que especica as permissões
de acesso para coletores, também é outra limitação. A não coleta de determinados sítios
é prejudicial à navegação da rede, pois afeta a forma de como ela está conectada. Outra
limitação que deve ser levada em consideração é a dinamicidade da Web: páginas podem
ser modicadas, excluídas e novas páginas podem ser criadas enquanto a coleta está sendo
realizada.
Outra limitação de estudos de conectividade de grafos baseados em coletas por Web
crawler é a respeito de como os links são visitados. É uma característica do crawler não
repetir a varredura de links que referenciam páginas já encontradas, isto ocorre pois o
crawler prioriza mais a descoberta de novas páginas que a forma como as páginas conhecidas estão conectadas entre si. Este fato gerará um caminhamento do tipo árvore
geradora mínima no grafo. Para contornar esta situação, foram realizadas coletas exaustivas no software HTTrack de componentes fortemente conectados identicados no grafo
.br. A partir da análise destas coletas completas, bem como a comparação com os dados
do [Registro.br 2013], foi possível estimar o quão próximo a coleta por Web crawler está
de representar elmente a referida amostra da Web.
1.2. OBJETIVOS
1.2
16
Objetivos
O objetivo geral deste trabalho é investigar a conectividade da Web brasileira a partir
de subgrafos construídos com base em coletas realizadas na Web .br e Web .gov.br.
Por ser a Web uma rede com a principal função de estabelecer conexões, o estudo da
conectividade intervém diretamente na localidade de informação na rede. Pode-se descobrir
através do estudo, se a rede está conectada a ponto de ser possível percorrê-la por inteiro
para identicar determinada informação ou se esta tarefa é possível somente com a ajuda
de máquinas de busca.
Os objetivos especícos são:
• Identicar aspectos da conectividade de subgrafos gerados a partir de uma coleta da
Web brasileira, inclusive do subgrafo da Web governamental brasileira;
• Investigar a possibilidade de inferir a conectividade da Web a partir de uma coleta
via crawler ;
• Avaliar se a conectividade contida em um subgrafo gerado a partir de um registro
de coleta do Web crawler Heritrix pode ser considerada representativa por meio de
comparação com o mesmo subgrafo modelado a partir de uma coleta exaustiva do
HTTrack;
• Identicar a similaridade dos resultados obtidos nas análises com os já contidos na
bibliograa sobre a Web.
1.3
Contribuições
Como contribuições desse trabalho, foram respondidas questões relacionadas a conectividade da Web atual, tais como:
• Quais são os sítios mais conectados na Web brasileira;
• Qual é a quantidade de componentes fortemente conectados da Web brasileira e o
quanto ela está fragmentada;
• Se a estrutura topológica da Web brasileira ainda é representada pelo modelo gravata
borboleta;
1.4. ESTRUTURA DA DISSERTAÇÃO
17
• Se um grafo gerado a partir de uma coleta de Web crawler representa elmente a
conectividade da Web;
• Se a conectividade da Web atual possibilita navegar na rede sem a interferência de
buscadores como o Google.
Adicionalmente, para nosso estudo foi desenvolvida uma ferramenta útil na análise da
conectividade de grafos, a qual foi disponibilizada em um repositório online 1 .
1.4
Estrutura da Dissertação
Esta dissertação está estruturada em cinco capítulos para melhor organização e entendimento do texto. O Capítulo 2 apresenta conceitos e trabalhos relacionados sobre grafos,
redes complexas e grafo da Web, que se mostram necessários para contextualizar o trabalho. A metodologia de pesquisa utilizada no desenvolvimento do trabalho é apresentada
no Capítulo 3. O Capítulo 4 apresenta os resultados dos estudos que envolvem os grafos
.br e .gov.br. Por m, o Capítulo 5 apresentam as conclusões, contribuições, trabalhos
futuros e considerações obtidas ao m dos estudos.
1
https://github.com/valtincomp/implementacoes-semish
Capítulo 2
Conceitos e Trabalhos Relacionados
Este capítulo apresenta uma revisão dos conceitos relacionados a grafos, redes complexas e World Wide Web (WWW) necessários ao entendimento desse trabalho. A Seção
2.1 apresenta um estudo sobre diversos tipos de redes complexas e suas características. A
Seção 2.2 apresenta um estudo sobre teoria de grafos, que se trata da forma mais indicada
de representar redes complexas. A Seção 2.3 apresenta denições, características e estudos
relacionados ao grafo da World Wide Web. A Seção 2.4 apresenta dados do registro de
domínios no país. Por m, a Seção 2.5 apresenta as considerações nais do capítulo.
2.1
Redes Complexas
A diculdade da ciência contemporânea para descrever sistemas compostos de elementos não idênticos, que têm interações diversas e não-locais, limita avanços em muitas
disciplinas, que vão da biologia molecular à ciência da computação. A diculdade em descrever esses sistemas reside em seu grande tamanho e também seus aspectos dinâmicos.
Muitos deles formam redes complexas, cujos vértices são os elementos do sistema e as arestas representam as interações entre eles [Barabási and Albert 1999]. Uma forma simples e
objetiva de se denir redes complexas é que se tratam de redes muito grandes, o que torna
difícil sua descrição completa [Hofstad 2010].
Os pesquisadores, tanto os interessados nas aplicações, quanto na teoria, realizaram
estudos a m de descobrir qual é a quantidade de vértices que estas redes possuem, e qual
é a regra para realizar uma conexão de um vértice a outro [Hofstad 2010].
É possível identicar diversos tipos de redes complexas na natureza, também conhecidas por redes reais [Boccaletti et al. 2006]. Entre diversos exemplos destas redes, pode
18
2.2. TEORIA DE GRAFOS
19
ser citado uma grande rede formada pelo sistema nervoso, cujos vértices são células nervosas, ligadas por axônios. As redes complexas ocorrem também em ciências sociais, onde
vértices são indivíduos ou organizações, e as arestas caracterizam a interação social entre
eles. Outra rede complexa existente é a Internet, em que os vértices podem ser sistemas
autônomos ou roteadores e as arestas as conexões físicas entre eles. No nível informacional, pode-se descrever as redes de citações em publicações cientícas, em que os vértices
são os artigos e as arestas são citações a outros artigos; e a WWW, cujos vértices são
documentos HTML conectados por links que apontam a partir de uma página para outra
[Barabási and Albert 1999].
Uma conclusão dos trabalhos empíricos realizados nesta área é que muitas redes reais
compartilham as mesmas características [Hofstad 2010]. Apesar das diferenças inerentes,
a maioria das redes reais são caracterizadas pelas mesmas propriedades topológicas, como,
por exemplo, distribuições de cauda pesada dos graus, comprimento de caminhos relativamente pequenos, elevados coecientes de agrupamento e estrutura das comunidades
[Boccaletti et al. 2006]. Muitas destas redes são livres de escala, o que signica que os
graus dos vértices são invariantes, no sentido de que a distribuição empírica dos graus é
praticamente independente do tamanho do grafo, e a proporção de vértices com grau k
está perto de k −γ para γ > 1, ou seja, muitas redes reais seguem uma lei de potência na
distribuição do grau [Hofstad 2010].
A abordagem do comprimento dos caminhos entre dois vértices pode ser aprofundada
com o estudo de um fenômeno conhecido como small-world, que indica que a partir de um
vértice pode-se alcançar outro vértice na rede com, em média, seis passos [Caldarelli 2007].
Este estudo começou em 1960 por Stanley Milgram. Seu experimento se deu por meio do
envio de uma carta para um destinatário em outra cidade, com o nome do destinatário
e um endereço aleatório da cidade. O experimento revelou que a carta foi repassada em
média seis vezes até chegar ao destino nal [Boccaletti et al. 2006].
2.2
Teoria de Grafos
Tendo em vista que o objetivo desse trabalho é analisar a conectividade de um grafo
da Web brasileira, foi necessário realizar um estudo sobre grafos, que são o modelo mais
empregado para representar redes complexas [Boccaletti et al. 2006].
2.2. TEORIA DE GRAFOS
20
2.2.1 Grafos Não-dirigidos
Matematicamente um grafo não-dirigido pode ser denido por G (V, A), em que V
representa um conjunto de vértices (pontos ou nós) e A representa um conjunto com pares
ordenados de vértices chamados de arestas [Newman 2003]. A visualização gráca de um
grafo é mostrada na Figura 2.1 (a).
Um importante item estudado na teoria de grafos relacionado à conectividade é o grau.
O grau ki de um vértice i é o número de arestas incidentes em i [Diestel 2005].
Além do grau dos vértices, outras métricas são utilizadas para a caracterização da
topologia de um grafo. Uma destas métricas é o componente conectado, que é denido
como um subgrafo máximo em que existe um caminho de cada nó para todos os outros
(isto é, eles são mutuamente alcançáveis) [Newman 2003]. A Figura 2.1 (b) apresenta um
grafo com dez vértices e oito arestas. Esse grafo contém quatro subgrafos.
Figura 2.1: (a) Representação de um grafo não-dirigido. (b) Componentes conectados. (c)
Representação de um grafo dirigido.
2.2.2 Grafos Dirigidos
A representação de algumas redes complexas como as redes de citações de artigos cientícos e a World Wide Web só é possível por grafos dirigidos, também chamados de grafos
direcionados ou dígrafos. Os grafos dirigidos são denidos matematicamente por G (V, A),
em que V representa um conjunto de vértices e A representa um conjunto das chamadas
arestas direcionadas ou arcos [Diestel 2005]. Um exemplo de um grafo dirigido representado
matematicamente é o seguinte: V = {a, b, c, d}, A = {{a, b}, {a, c}, {b, c}, {b, d}, {c, d}}.
Os grafos dirigidos apresentam grande semelhança aos grafos descritos anteriormente, se
2.2. TEORIA DE GRAFOS
21
diferenciando apenas por algumas características. As arestas contidas nestes grafos possuem uma direção, ou seja, uma aresta existente aponta um caminho entre vértices i e j,
não representa um caminho entre j e i. A Figura 2.1 (c) apresenta um grafo dirigido.
A direção do arco no grafo dirigido requer nova denição do grau do vértice. Neste
seguimento existe, para cada vértice, os graus de entrada denotados por kiin , que são o
número de arestas (k in ) apontando para o vértice i em questão. A quantidade de arcos
que têm partida em determinado vértice i é denominada grau de saída do vértice kiout
[Boccaletti et al. 2006]. A soma do grau de entrada e grau de saída resulta no chamado
grau total de um vértice, denotado por kitotal . Em grafos dirigidos, componentes fortemente
conectados (CFCs) são denidos por um conjunto máximo de vértices contidos em V tal
que, para cada par de vértices i e j, existe um caminho dirigido de i para j e um caminho
dirigido de j para i. O grafo dirigido da Figura 2.2 exibe quatro diferentes tipos de
componentes fortemente conectados. Embora este grafo seja conectado, ele não apresenta
um único CFC.
Figura 2.2: Componentes fortemente conectados em um grafo dirigido. Figura extraída de
[Rocha 2007].
Além dos graus de entrada e saída, e o conceito de componente fortemente conectado,
a distância mínima entre dois vértices é outra importante métrica para auxiliar na caracterização da topologia do grafo. O procedimento para calcular a distância entre vértices
também serve de base para se obter outras métricas como a excentricidade, denotada por
(i), que se congura como sendo a maior distância entre um vértice i e um outro vértice
j dentro de um grafo G. A máxima excentricidade dentro de um grafo é chamada de
diâmetro e a mínima é chamada de raio [West 2000]. Das distâncias também é possível se
obter a distância média entre pares de vértices em um grafo dirigido, também chamada de
distância geodésica, esta é representada pela equação:
2.3. O GRAFO DA WEB
22
d=
X
1
dij
n(n − 1)
(2.1)
i≥j
em que n é a quantidade total de vértices e dij é a menor distância entre os vértices i e
j [Newman 2003]. O betweenness também se trata de uma métrica relacionada caminhamento no grafo. Ele é denido pela medida de importância da contagem do número de
menores caminhos de quaisquer vértices j e k passando através de um determinado vértice
i [Boccaletti et al. 2006]. Matematicamente, o betweenness é denotado pela equação:
bi =
X
j,k∈N,j6=k
njk (i)
,
njk
(2.2)
em que njk é o número de menores caminhos que conectam j e k e njk (i) é o número de
menores caminhos que conectam j e k e passam pelo vértice i.
Outra métrica existente é o coeciente de agrupamento. O coeciente de agrupamento de um vértice i, denotado por ci , é a razão entre o número de arestas existentes entre os vizinhos de i e o número máximo de arestas possíveis entre estes vizinhos
[Benevenuto et al. 2011]. O coeciente de agrupamento é representado pela seguinte equação:
ci =
|{ajk : j, k ∈ Ni , ajk ∈ A}|
kitotal (kitotal − 1)
(2.3)
em que ajk vale 1 caso haja uma aresta que conecte os vértices j e k adjacentes de i,
e 0 caso contrário. Nesta equação Ni representa a vizinhança do vértice i, ou seja, seus
vizinhos adjacentes.
O coeciente de agrupamento de um grafo, denotado por hci, é dado pela média de ci
para todos os vértices de G :
C = hci =
1 X
ci
N
(2.4)
iN
2.3
O Grafo da Web
A estrutura da World Wide Web pode ser representada a partir de um grafo dirigido,
em que os vértices são as páginas HTML e as arestas são hyperlinks apontando de uma
2.3. O GRAFO DA WEB
23
página para outra [Boccaletti et al. 2006]. A Figura 2.3 ilustra uma simples representação
do grafo da Web.
O grafo da Web apresenta uma característica marcante.
A distribuição pro-
babilística dos graus tanto de entrada quanto de saída segue uma lei de potência [Barabási et al. 2000a] [Chayes 2013] [Barabási et al. 2000b] [Boccaletti et al. 2006].
Como descrito na Seção 2.1, a equação é descrita por P (k) ∼ k −γ em que k é o grau e γ é
uma constante que varia entre 2 e 3 [Boccaletti et al. 2006]. Alguns estudos já realizados
sobre a Web em diferentes anos encontraram o valor de γ para o grau de entrada em torno de
2,1. Para o grau de saída, γ varia entre 2,3 e 3 [Donato et al. 2007] [Boccaletti et al. 2006]
[Barabási and Albert 1999]. Outra característica marcante na WWW é a dinamicidade da
rede. Isso decorre do fato de que constantemente novas páginas são adicionadas, o que
ocasiona a criação de novos links entre as páginas, além da religação de arestas de páginas
já existentes. Os estudos de [Barabási et al. 2000a] indicam que novas páginas tendem a
se conectar a páginas populares que possuem alto grau de entrada.
Figura 2.3: Representação do grafo da Web.
O estudo de componentes contidos no grafo da Web revela o que alguns autores chamam
de "cyber-comunidades"[Broder et al. 2000]. Estas comunidades são conjuntos contidos no
grafo, que seguem denições já encontradas na literatura, conhecidos como CFC, IN, OUT,
Tubos, Tentáculos e Desconectados. A Figura 2.4 apresenta um grafo com essas denições.
O conjunto CFC é um componente fortemente conectado que ca centralizado no grafo.
O conjunto IN é um componente fraco composto por vértices a partir dos quais é possível
alcançar os vértices do CFC. O componente fraco OUT é onde residem os vértices que
podem ser alcançados a partir de qualquer vértice contido em CFC. O conjunto Tubos é
2.3. O GRAFO DA WEB
24
o conjunto de vértices que conecta vértices de IN diretamente aos de OUT. No conjunto
Tentáculos residem vértices com ligações para vértices desconectados do conjunto CFC. Por
m, o conjunto Desconectado, como sugere o nome é onde residem os vértices desconectados
e pequenos componentes [Donato et al. 2007] [Broder et al. 2000].
Figura 2.4: Componentes em um grafo da Web. Figura adaptada de [Vitali et al. 2011].
Nos estudos realizados por [Broder et al. 2000], foi obtido um grafo de cerca com 200
milhões de vértices e 1,5 bilhão de arestas, gerado a partir de uma coleta no período de
maio a outubro de 1999. Neste grafo foi vericada a quantidade de vértices em cada
componente descrito anteriormente. O componente CFC representou cerca de 56 milhões
de vértices (o maior componente encontrado). No componente IN residiam cerca de 44
milhões de vértices e no componente OUT, também cerca de 44 milhões de vértices. Os
vértices restantes estavam contidos nos conjuntos Tubos/Tentáculos e Desconectados.
Com um grafo de cerca 200 milhões de vértices e 1,4 bilhão de arestas, os resultados dos
estudos de [Donato et al. 2007] apresentaram diferenças do estudo acima. O componente
CFC representou cerca 33% do grafo, o componente IN ocupava cerca de 11% do grafo.
O maior componente contido no grafo foi o OUT, representando cerca de 39% do grafo.
Os componentes Tubos/Tentáculos e Desconectados representaram, respectivamente, 13%
e 4% do grafo.
Outra métrica para ajudar a compreensão da topologia da Web é a distância média entre os vértices (d ), descrita na Seção 2.2.2.
Em um estudo realizado por
[Barabási et al. 2000a], os cálculos de distâncias resultaram que, em média, d vale 18,59,
ou seja, escolhidas duas páginas aleatórias no grafo da Web seriam necessários, em média,
2.3. O GRAFO DA WEB
25
19 passos para alcançar uma página a partir de outra. O mesmo resultado foi encontrado
nos estudos de [Broder et al. 2000], em que a distância média de um vértice i a outro
vértice j é também, em média, 19.
Ao tratar de estudos sobre a Web brasileira, um dos encontrados é o trabalho de
[Veloso et al. 2000]. O estudo apresenta o conteúdo e estrutura da Web brasileira no ano
2000, mais especicamente no mês de abril. Dentre os resultados apresentados, estão os
tipos de documentos encontrados e também suas quantidades, dos quais se destacam os
documentos HTML, PostScript, PDF, MS Word e de texto puro. Ainda neste trabalhos
são exibidos os tipos e quantidade de Domínios de Primeiro Nível (DPN) encontrados na
coleta. O estudo ainda se estende para identicar quais são os idiomas mais comuns na
Web brasileira. Por m, os autores estimam o tamanho da Web brasileira em relação à
quantidade de páginas. Porém, o único resultado do trabalho de Veloso que se assemelha
com o nosso foi a identicação da quantidade média de hyperlinks por página visitada, do
qual foi encontrado o valor 6,74. Em nosso trabalho representamos este valor como grau
médio dos vértices.
O outro estudo encontrado sobre a Web brasileira é o trabalho de [Modesto et al. 2005].
Nesse estudo, os autores apresentam um novo retrato da Web brasileira, demonstrando
ainda seu conteúdo e estrutura, porém com dados de uma coleta mais atualizada, coletada
em março de 2005. Para este trabalho foram buscados praticamente os mesmos resultados
contidos em [Veloso et al. 2000] com o objetivo visualizar as mudanças na Web em um
período de cinco anos. Nosso trabalho se intercede com este quando os autores apresentam
a estrutura topológica do grafo de seus estudos. Os autores encontraram em seu grafo
o modelo gravata já descrito, em que o componente CFC representa 25,27% do grafo, o
componente IN representa 12,95%, o componente OUT representa 45,33% , o componente
Tentáculos representam 3,87%, o componente Tubos representam 0,23% e o componente
Desconectados representam 12,35% do grafo.
Através da pesquisa bibliográca foi encontrado um trabalho que se assemelha ao de
[Veloso et al. 2000] e [Modesto et al. 2005], porém que realiza um caracterização da Web
portuguesa em [Gomes and Silva 2003]. Neste trabalho autores descrevem detalhes de uma
coleta realizada na Web portuguesa, que se entende por sítios com seu domínio terminado
2.4. REGISTROS DA WEB BRASILEIRA
26
em .pt, pelo crawler Viúva Negra (VN). A coleta resultou em um registrou cerca de 4
milhões de páginas de 131 mil sítios. Os autores constataram que 85% da Web portuguesa
está contida no domínio .pt e que os 15% restantes se tratam de sítios portugueses contidos
em domínios como .com, .net, .org e .tv.
2.4
Registros da Web Brasileira
O alcance do objetivo de se comparar os dados da Web obtidos a partir de uma coleta
por Web crawler, mais especicamente relacionado ao número de sítios por domínio, só é
possível se antes for realizada uma pesquisa de como os sítios estão registrados e distribuídos
no país. Atualmente no Brasil o órgão que regula o registro de domínios se trata do
Registro.br [Registro.br 2013]. O órgão disponibiliza estatísticas que quanticam a Web
Brasileira, estes dados poderão ser comparados com os resultados deste estudo. Até o
presente momento que esta seção é redigida, precisamente no dia 19 de julho de 2013, estão
registrados 3.267.353 domínios, distribuídos em cinco categorias. Na categoria Pessoas
Físicas estão registrados 9.738 domínios, o que representa 0,3% do total. Na categoria
Prossionais Liberais estão registrados 59.570 domínios o que representa 1,82% do total
de domínios. Para a categoria de Pessoas Jurídicas estão registrados 106.373 domínios,
este que representa 3,26% do total. A categoria Universidade, que contém os Domínios de
Primeiro Nível (DPN) .edu.br e br, há 3.596 domínios registrados, que representa 0,11%
do total. Por m, a categoria Genéricos que contém os DPNs .com.br, .net.br, .eco.br
e .emp.br, totalizam 3.088.076 domínios registrados, que representam 94,51% do total.
Dos DNPs, o .com.br representa a maioria dos domínios registrados, contendo 2.973.286
domínios com este DPN, o que representa 91% do total. Especicamente os domínios de
maior frequência e importância da Web são demonstrados na Tabela 2.1 juntamente com
a porcentagem de sites que os possuem.
Dentre os diversos registros de domínios contidos na Web brasileira, há um estudo
relacionado ao domínio .gov.br, mais precisamente o Censo da Web Governamental Brasileira [CGI and NIC 2010]. Este trabalho que mede e acompanha a evolução da Web
brasileira, disponibilizando dados numéricos da Web que são importantes referências para
esta dissertação. Estes dados são a distribuição por estados dos 1.351 domínios registrados
sobre o DPN .gov.br no Registro.br. A Tabela 2.2 apresentação a ocorrência de domínios
2.5. CONSIDERAÇÕES FINAIS
27
Tabela 2.1: Principais domínios da Web brasileira.
Domínios
.com.br
.net.br
.org.br
.blog.br
.edu.br
.gov.br
Porcentagens
91,06%
3,05%
1,45%
0,22%
0,07%
0,04%
Tabela 2.2: Distribuição dos domínios .gov.br por estado.
Estado
Paraná
Governo Federal
São Paulo
Santa Catarina
Minas Gerais
Rio Grande do Sul
Rio de Janeiro
Bahia
Ceará
Espírito Santo
Pernambuco
Mato Grosso do Sul
Goiás
Mato Grosso
Pará
Paraíba
Distrito Federal
Sergipe
Tocantins
Alagoas
Amazonas
Rio Grande do Norte
Rondônia
Piauí
Maranhão
Acre
Amapá
Roraima
Domínio
pr.gov.br
gov.br
sp.gov.br
sc.gov.br
mg.gov.br
rs.gov.br
rj.gov.br
ba.gov.br
ce.gov.br
es.gov.br
pe.gov.br
ms.gov.br
go.gov.br
mt.gov.br
pa.gov.br
pb.gov.br
df.gov.br
se.gov.br
to.gov.br
al.gov.br
am.gov.br
rn.gov.br
ro.gov.br
pi.gov.br
ma.gov.br
ac.gov.br
ap.gov.br
rr.gov.br
% de sites do Censo
17%
14%
14%
7%
7%
5%
5%
4%
3%
2%
2%
2%
2%
2%
2%
2%
1%
1%
1%
1%
1%
1%
1%
1%
1%
0%
0%
0%
.gov.br por estado.
2.5
Considerações Finais
O presente capítulo apresentou um estudo teórico da literatura relacionada a redes
complexas, grafos e Web. Iniciado pelos estudos de redes complexas, foram descritos o
2.5. CONSIDERAÇÕES FINAIS
28
que são e quais os tipos de redes complexas, juntamente com quais as características em
comum entre elas. A seguir, foi realizado um estudo sobre grafos, que são o modelo mais
usado para representar redes complexas em estudos. Ainda sobre grafos foram estudadas
algumas formas de quanticá-los e medi-los. Posteriormente foram realizados estudo sobre
a Web, quais suas características e quais os desaos de estudá-la. Um fato constatado
nesta etapa de estudos relacionados é o surgimento de artigos sobre a Web como um grafo
a partir dos anos de 1999 e 2000. Após este período praticamente nenhum artigo que se
relaciona a conectividade foi encontrado até o ano de 2005 em que surgiram novos trabalhos
relevantes sobre o tema. A partir deste estudo bibliográco foi possível também identicar
a principal diculdade de se analisar a Web, que está relacionada ao grande tamanho desta
rede, uma vez que isto demanda de muitos recursos computacionais. Devido a esta grande
demanda de recursos, estudos da Web são somente realizados a partir de amostas na escala
de milhões e até bilhões de URLs, o que mostra a superioridade de empresas como o Google
que em 2008 mapeara um trilhão de URLs [Alpert and Hajaj 2008].
Capítulo 3
Coleta de Dados e Metodologia
Para compreender os desaos de estudar o grafo da Web, inicialmente foi realizado
um estudo da bibliograa sobre o universo que engloba redes complexas, grafos e o grafo
da Web. A partir deste estudo foi possível dimensionar o tamanho do problema, mais
especicamente, saber qual é a forma mais apropriada para representar a Web nesse estudo,
quais são as principais técnicas para analisá-la e também as diculdades ao manusear e
interpretar dados de tal tamanho.
Os dados que compõem a base de estudo deste trabalho foram obtidos por um Web
crawler chamado Heritrix. Um Web crawler é um software que trabalha como um robô
que percorre a Web a partir de um conjunto de sítios iniciais chamados sementes. A partir
das sementes, são realizadas buscas em profundidade nas URLs descobertas, registrando e
armazenando os dados encontrados em um arquivo.
O arquivo de registros de saída do crawler contém uma série de informações da coleta
que podem ser úteis em vários estudos sobre a Web. Cada linha do arquivo de registros
contém doze campos com informações da coleta, como no exemplo abaixo. Os campos são
separados pelo caractere espaço.
2012-06-22T17:03:11.804Z 400 6089
http://tvmissoes.com.br/fotos/displayimage.php?album=topn&cat=0&pos=1606&lang=chinese_big5 LLLLL
http://tvmissoes.com.br/fotos/displayimage.php?album=topn&cat=0&pos=1606 text/html #014
20120622170303419+7563 sha1:HQMN7Z4Z7GFHBH6O5JTHBAQOUWWBBHGT - -
• Campo 1: representa o timestamp ;
29
3.1. MODELAGEM DOS GRAFOS
30
• Campo 2: código de status do protocolo HTTP;
• Campo 3: tamanho em bytes do arquivo hospedeiro;
• Campo 4: URL descoberta na página;
• Campo 5: código de trilha que mostra o rastro de downloads ;
• Campo 6: URL da página visitada;
• Campo 7: Tipo de documento de acordo com o formato MIME;
• Campo 8: identicador da thread que encontrou a página;
• Campo 9: o timestamp no formato RFC2550/ARC;
• Campo 10: resumo do conteúdo de acordo com o algoritmo SHA-1;
• Campo 11: tag source herdada pela URL;
• Campo 12: coluna para possíveis anotações.
Neste trabalho foram utilizadas duas coletas da Web realizadas pelo laboratório eSPEED do DCC da UFMG, realizada por alguns de seus pesquisadores com quem trabalhamos em cooperação. Ou seja, o processo de coleta não coube a este trabalho. A primeira
coleta utilizada foi iniciada em 9 de dezembro de 2012 e se estendeu até o dia 14 de janeiro
de 2013. Para esta coleta, o Heritrix foi congurado para coletar apenas URLs que tenham
seu domínio de primeiro nível terminado em .br, ou seja, apenas URLs pertinentes à Web
brasileira. A coleta partiu de 6.217 sementes e gerou um arquivo de log de 93,8 GBytes
que totalizou 327.370.153 de linhas de registro. A segunda coleta utilizada neste estudo foi
realizada durante o mês de agosto de 2013 e se concentrou apenas na Web governamental
brasileira, ou seja, sítios com o domínio de primeiro nível .gov.br. Esta coleta partiu de
1.386 sementes e gerou um log de 69,6 GBytes com 164.627.908 linhas de registro.
3.1
Modelagem dos Grafos
A partir dos registros de coleta do Heritrix é possível modelar um grafo com as informações contidas nele. Mais especicamente o campo 6, que contém a URL da página
visitada, representa o vértice de origem e o campo 4, que contém o link descoberto na
3.1. MODELAGEM DOS GRAFOS
31
Figura 3.1: Etapas da modelagem dos grafos.
página visitada, representa o vértice de destino. A partir destes campos presentes em cada
linha do arquivo de registros, é possível formar uma aresta dirigida e a junção de todas as
arestas forma o grafo.
Neste processo de modelagem foram usados apenas os registros que não retornaram
erro ao serem acessados, ou seja, páginas que retornaram os códigos HTTP 2xx e 3xx,
especicamente os códigos entre 200 e 399. A utilização dos registros com apenas as duas
classes de códigos reduziu o arquivo de coleta .br a 260.927.712 linhas, 20,3% a menos
que o arquivo da coleta original. Para o registro da coleta .gov.br, houve uma redução de
15,9%, que gerou um arquivo de 138.366.042 linhas de registro. A partir destas informações
iniciou-se a modelagem do grafo, que foi constituído de oito etapas como mostra a Figura
3.1. A primeira etapa foi iniciada extraindo-se os dois campos já citados do arquivo de
log utilizando comandos da linguagem AWK [GNU 2013]. A linguagem AWK é contida
nativamente em sistemas operacionais Linux e é utilizada processar grandes quantidades
de texto. Após este procedimento obtivemos um arquivo que representa uma lista de arcos
contendo uma URL completa como vértice de origem e outra URL completa como vértice
de destino.
A etapa seguinte no processo de modelagem do grafo foi a extração do sítio destas
3.1. MODELAGEM DOS GRAFOS
32
Tabela 3.1: Extração dos sítios das URLs.
Antes
http://www.cefetmg.br/site/instituicao/
http://tvmissoes.com.br/fotos/displayimage.php
Depois
www.cefetmg.br
tvmissoes.com.br
Tabela 3.2: Distinção entre sítios e subsítios.
sítio
terra.com.br
uol.com.br
subsítio
cifraclub.terra.com.br
pagseguro.uol.com.br
URLs. Este procedimento foi realizado por uma função criada na linguagem C que recebe
as URLs completas e retornam seus sítios. Nesta função são extraídos todos os caracteres
que estão entre as duas barras contidas após o protocolo de acesso e a primeira barra que
simboliza o primeiro diretório do sítio. Um exemplo do resultado deste passo pode ser
visualizado na Tabela 3.1 que apresenta a URL e o sítio extraído.
No processo de extração dos sítios cou considerado que subsítios e sítios seriam considerados vértices distintos no grafo. Esta característica adotada na modelagem foi necessária, pois diferentes subsítios de um mesmo sítio podem ser administrados por diferentes
entidades. A Tabela 3.2 apresenta exemplos de tipos de sítios e subsítios encontrados.
Na terceira etapa é feita uma ordenação dos arcos am de agrupar os arcos iguais,
uma vez que o passo anterior produziu arcos iguais. Esta atividade foi desempenhada pelo
programa sort também contido nativamente no Linux, em que cada aresta dirigida foi
ordenada pelo primeiro e logo após pelo segundo vértice.
Na etapa seguinte do processo de modelagem do grafo foi realizada uma ltragem na
lista de arcos, em que foram removidos e contados os laços encontrados, uma vez que se
objetiva neste estudo vericar a conectividades entre sítios distintos. A extração dos sítios
das URLs no passo anterior ocasionou o surgimento destes laços, pois o que anteriormente
eram URLs distintas, que criavam links dentro de um mesmo sítio, agora são vértices
iguais. A Tabela 3.3 apresenta um exemplo de formação de um laço encontrado após a
extração do sítio.
Nesta mesma etapa também foram removidas e contadas as arestas dirigidas repetidas
que surgiram no passo anterior. Estas arestas surgiram porque páginas diferentes de um
sítio A podem ter links para páginas diferentes de um sítio B, o que produziria, ao reduzir
3.1. MODELAGEM DOS GRAFOS
33
Tabela 3.3: Laços após a extração dos sítios.
Estado
Vértice de Origem
Vértice de Destino
Antes
http://tvmissoes.com.br/fotos/displayimage.php
http://tvmissoes.com.br/robots.txt
Depois
tvmissoes.com.br
tvmissoes.com.br
Tabela 3.4: Arestas repetidas após a extração dos sítios.
Estado
Antes
Depois
Vértice de Origem
http://www.techtudo.com.br/plantao.html
http://www.techtudo.com.br/plantao.html
www.techtudo.com.br
www.techtudo.com.br
Vértice de Destino
http://g1.globo.com/
http://g1.globo.com/economia/
g1.globo.com
g1.globo.com
as URLs para sítios, múltiplas arestas A→B. A Tabela 3.4 apresenta estas diferenças.
Terminadas as ltragens, a lista de arestas contém somente arestas direcionadas distintas.
A Tabela 3.5 exibe um trecho deste arquivo.
A quinta etapa executada na modelagem tem o objetivo de calcular a quantidade de
vértices distintos no grafo. Nesta etapa, um procedimento desenvolvido na linguagem
C adiciona todos os vértices distintos encontrados na lista de arcos em um vetor. Esta
atividade foi necessária para o cálculo da quantidade de vértices no grafo. Para facilitar
a pesquisa neste vetor, que será necessária futuramente, foi realizada uma ordenação do
mesmo utilizando o algoritmo Quicksort no sexto passo.
O sétimo passo consiste em salvar em arquivo os sítios que estão ordenados no vetor,
juntamente com seu índice, fazendo assim um mapeamento do sítio para um respectivo
valor numérico dado pelo índice. O oitavo e último passo constitui em substituir cada sítio
contido na lista de arcos ltrados por seu índice, gerando assim uma lista de arcos somente
com números. Esta tarefa foi desempenhada por uma função construída na linguagem C,
que tem como entrada o vértice desejado e o vetor dos vértices mapeados. Por meio de uma
busca binária no vetor, ele retorna o índice numérico do vértice desejado. A transformação
dos vértices em valores numéricos foi necessária pois, ao carregar o grafo na memória
primária da máquina, que irá realizar as análises, o grafo apenas com índices numérico
consumirá menos espaço.
Ao m do processo de modelagem, os grafos estão representados em disco como uma
lista de arcos em que os vértices são índices numéricos que representam os sítios, todos os
arcos são distintos e não há nenhum laço. Também ao m da modelagem foi possível obter
3.1. MODELAGEM DOS GRAFOS
34
Tabela 3.5: Trecho da lista de arestas do grafo .gov.br.
Vértice de Origem
adapec.to.gov.br
adapec.to.gov.br
adapec.to.gov.br
adapta.inpa.gov.br
adapta.inpa.gov.br
adapta.inpa.gov.br
adapta.inpa.gov.br
adapta.inpa.gov.br
adapta.inpa.gov.br
adema.se.gov.br
adm.balneariopinhal.rs.gov.br
adm.balneariopinhal.rs.gov.br
admin.es.gov.br
administracao.hidrolandia.go.gov.br
administracao.hidrolandia.go.gov.br
administrativo.ages.df.gov.br
admin.prodest.es.gov.br
adm.pmf.sc.gov.br
adm.pmf.sc.gov.br
aebescola.aeb.gov.br
Vértice de Destino
to.gov.br
webmail.adapec.to.gov.br
www.to.gov.br
acta.inpa.gov.br
blog.adapta.inpa.gov.br
insetosaquaticos.inpa.gov.br
rodriguesia.jbrj.gov.br
scielolab.iec.pa.gov.br
www.inpa.gov.br
www.adema.se.gov.br
balneariopinhal.rs.gov.br
radio.balneariopinhal.rs.gov.br
www.meioambiente.es.gov.br
comunicacao.hidrolandia.go.gov.br
www.hidrolandia.go.gov.br
www.distritofederal.df.gov.br
www.prodest.es.gov.br
adm2.pmf.sc.gov.br
portal.pmf.sc.gov.br
www.sjc.sp.gov.br
Tabela 3.6: Números obtidos das modelagens.
Valores
Total de Arcos
Laços
Arcos Repetidos
Sementes
Grafo .br
260.927.712
253.395.811
6.387.326
4.571
Grafo .gov.br
138.366.042
137.180.945
1.138.901
892
valores gerados neste processo. A Tabela 3.6 apresenta o número de total de arcos, o número
de laços, o número de arcos repetidos e o número de sementes. Estes valores encontrados na
modelagem dos grafos tiveram base nas coletas com requisições que retornaram os códigos
HTTP 2xx e 3xx. As dimensões dos grafos dos quais foram realizadas as análises estão
detalhadas na Tabela 3.7.
Tabela 3.7: Dimensões dos grafos de códigos HTTP 2xx e 3xx.
Dimensões
Vértices
Arcos
Grafo .br
519.917
1.140.004
Grafo .gov.br
19.523
45.304
3.2. MÉTODOS DE ANÁLISES DOS GRAFOS
3.2
35
Métodos de Análises dos Grafos
Após o término das modelagens dos grafos foi dado início ao processo de análise dos
mesmos. As análises foram feitas utilizando-se métricas para descrever a conectividade
dos grafos. Inicialmente, foram calculados os graus de entrada e de saída, a frequência
dos graus de entrada e de saída, a distância entre os vértices e os componentes fortemente
conectados.
Todas as métricas foram calculadas por algoritmos implementados em linguagem C.
Neste mesmo software que executa as métricas, os grafos em formato de lista de arestas
dirigidas, que estão armazenados em discos, são lidos e carregados na memória principal
como uma matriz de adjacências. A partir desta matriz o procedimento responsável pelo
cálculo dos graus armazena os graus de entrada e de saída dos vértices em vetores, além
de armazenar estes mesmos graus em um arquivo em disco. A partir dos vetores de graus
de entrada e graus de saída, um procedimento calcula quais são os graus mais frequentes
e os armazena em um arquivo em disco.
O cálculo das distâncias entre quaisquer dois vértices escolhidos aleatoriamente no
grafo é feito através do conhecido algoritmo de Dijkstra [Dijkstra 1959]. Do algoritmo
foi alterada sua saída para que ele gravasse em um arquivo em disco as distâncias que
podem ser percorridas no grafo, juntamente com as quantidades de vértices podem ser
alcançados para cada distância. A identicação dos componentes fortemente conectados
no grafo é realizada por um procedimento que percorre o grafo executando uma busca por
profundidade, marcando os vértices que podem ser alcançados. Neste mesmo procedimento
é realizada uma transposição no grafo e novamente é feita uma busca por profundidade
marcando os vértices que podem ser alcançados. Cada um dos componentes fortemente
conectados são encontrados ao identicar os vértices que possuem as mesmas marcações
nos dois grafos.
No processo de análise também foram calculados alguns dados estatísticos que não são
propriamente métricas de análises de grafos, mas são fundamentais para a identicar a
conectividade em qualquer tipo de rede. Os dados estatísticos que couberam a este estudo
foram a identicação do maior e menor valor nas amostras, média, mediana e coeciente
de variação. Estas estatísticas foram calculadas para os graus de entrada e de saída, e para
3.3. ESTUDOS COM O HTTRACK
36
as distâncias.
No processo de análise também foi usado o software Pajek, um programa desenvolvido
na plataforma Windows para análise, criação e visualização de grandes redes [Pajek 2013].
Inicialmente, a primeira atividade a ser desempenhada para o estudo dos grafos no Pajek
é a adequação de nossos grafos. Até então eles eram representados por uma lista de arcos.
É necessário que os grafos estejam nos moldes do Pajek para servirem como entrada. O
arquivo deve representar o que, no Pajek, se chama network, que deve conter primeiramente
a diretiva "*vertices N", em que N é a quantidade de vértices no grafo. Em seguida deve
ser explicitada a lista de vértices. Para esta tarefa, foram copiados os índices numéricos,
juntamente com os vértices que referenciam do arquivo com os vértices mapeados, gerado
na fase de modelagem, para a network a ser criada no Pajek. Em seguida é o momento
de descrever as conexões da rede. Desta vez a diretiva utilizada é "*Arcslist"que assume
que as arestas serão direcionadas. Para descrever as conexões foi necessário apenas copiar
a lista de arcos para a network, nalizando assim sua criação.
Com os grafos já adequados para serem bases de estudo no Pajek, o primeiro recurso
utilizado do software foi a identicação das estruturas topológicas dos grafos, descritas na
Seção 2.3. Esta tarefa é realizada criando-se de uma Partição no Pajek. Esta partição
é uma forma de destacar os vértices que desempenham a atividade desejada, neste caso,
identicar os grupos contidos no modelo gravata. Também no Pajek foi utilizada a criação
de vetores para o cálculo das métricas coeciente de agrupamento e betweenness. Outra
utilidade do Pajek nesta dissertação foi para validar os resultados das demais métricas que
foram implementadas, a saber, os graus de entrada e de saída, os componentes fortemente
conectados e as distâncias entre vértices. Estas métricas também foram calculadas por
meio da utilização de partições no Pajek.
3.3
Estudos com o HTTrack
No processo de coleta do Heritrix é descoberto um número de páginas muito superior
ao número de páginas processadas. Isto ocorre devido a limites físicos de espaço e processamento. O crawler também pode não repetir a varredura de links já encontrados, isto
ocorre pois este último prioriza mais a descoberta de novas páginas que a forma como as
páginas conhecidas estão conectadas entre si.
3.3. ESTUDOS COM O HTTRACK
37
Tabela 3.8: Sítios do componente fortemente conectado de 5 vértices.
sítios
www.anfac.com.br
www.ibfm.com.br
www.sinfac-ms.com.br
www.sinfaces.com.br
www.sinfacpe.com.br
Com base neste fato descrito, para concluir um dos objetivos deste estudo, que é vericar se uma coleta realizada pelo Heritrix é el a realidade da Web em relação à quantidade
de conexões, foi utilizado o software HTTrack [Roche 2013]. O HTTrack é um software
multiplataforma que realiza uma coleta exaustiva da Web, ou seja, realiza um download
completo das páginas desejadas para um diretório local podendo assim realizar uma navegação oine. Devido à grande necessidade de recursos de rede e armazenamento (disco)
exigidas pelo HTTrack foram coletados apenas os sítios de dois componentes fortemente
conectados encontrados no grafo .br. O primeiro CFC coletado contém cinco vértices e o
segundo contém 69 vértices. Este segundo também se trata do terceiro maior componente
fortemente conectado encontrado no grafo .br. Optamos pela escolha do terceiro maior
CFC, pois os vértices do segundo maior CFC do grafo .br são todos subsítios de um mesmo
sítio.
Esta etapa do estudo foi iniciada ao ser realizada uma alteração no algoritmo de descoberta de componentes fortemente conectados desenvolvido na linguagem C. Este novo
procedimento recebe como parâmetro o índice numérico do primeiro vértice do CFC, valor
já identicado no algoritmo que descobriu os componentes. Ainda neste procedimento é
salvo um arquivo de lista de arestas contendo todas as arestas dirigidas do CFC desejado.
A partir deste arquivo foi construído um código ainda na linguagem C para separar todos
os vértices contidos na lista de arestas e substituí-los pelos sítios dos quais fazem referência.
Os sítios encontrados nos componentes podem ser visualizados nas Tabelas 3.8 e 3.9.
Após o término da separação dos sítios encontrados nos CFCs, as listas foram importadas para o HTTrack, no qual foram realizadas as coletas em separado. O HTTrack é um
software bastante congurável em que é possível fazer diversas modicações nos parâmetros da coleta. Para nossas coletas foram alteradas apenas as taxas máximas de downloads.
O seu valor padrão era de 25 KBytes/s e foi alterada para 250 KBytes/s, am de agilizar
3.3. ESTUDOS COM O HTTRACK
38
Tabela 3.9: Sítios do componente fortemente conectado de 69 vértices.
Sítios
www.agualimpapocos.com.br
www.sub100.com.br
www.aguiaimperial.com.br
www.alcro.com.br
www.andreycavalcanteeserpa.com.br
www.anhangueraconstrutora.com.br
www.aplsoftwaremaringa.com.br
www.arqimoveis.com.br
www.arquiteturamais.com.br
www.beltrameimoveis.com.br
www.cantareirabr.com.br
www.centralsoft.com.br
www.ciamaringa.com.br
www.ciplart.com.br
www.construtoraatenas.com.br
www.construtoracidadeverde.com.br
www.construtoraelohim.com.br
www.construtoraglobal.com.br
www.construtorahabitat.com.br
www.construtoraitaminas.com.br
www.construtoramazzia.com.br
www.construtoraplanespaco.com.br
www.construtorazacarias.com.br
www.continentalsul.com.br
www.dalbosco.com.br
www.depositojapura.com.br
www.depositostaterezinha.com.br
www.eletromaringa.com.br
www.energysol.com.br
www.engeblock.com.br
www.granadoimoveis.com.br
www.granviaveiculos.com.br
www.grupoex.com.br
www.grupotoni.com.br
www.imobiliariacidadeverde.com.br
www.imobiliariafortaleza.com.br
www.imobiliariasucesso.com.br
www.itapavi.com.br
www.krum.com.br
www.maisvisaopaineis.com.br
www.marluc.com.br
www.marmorariacoliseu.com.br
www.menin.com.br
www.merlosimoveis.com.br
www.mitralconstrutora.com.br
www.novaenge.com.br
www.novaluzmga.com.br
www.nucleoimobiliariodetoledo.com.br
www.paranadecor.com.br
www.partilha.com.br
www.pisosecia.com.br
www.prfundacoes.com.br
www.procondomino.com.br
www.quadraconstrutora.com.br
www.ramirez.eng.br
www.raulvieiraimoveis.com.br
www.sandri.com.br
www.scobinengenharia.com.br
www.softwarebymaringa.com.br
www.sumei.com.br
www.techplus.ind.br
www.tgmaq.com.br
www.theodorado.com.br
www.trattomaringa.com.br
www.unicaimoveis.imb.br
www.ventaniamotonautica.com.br
www.verrigalvao.arq.br
www.vidrosmaxtemper.com.br
www.washiempreendimentos.com.br
3.3. ESTUDOS COM O HTTRACK
39
o processo de coleta. Ao m das coletas, para o CFC de cinco vértices os dados foram
coletados em torno de cinco horas, totalizando 602,2 MBytes de espaço em disco. Para o
CFC de 69 sítios, os dados foram coletados em aproximadamente de 16 horas, totalizando
cerca de 3,2 GB de espaço em disco.
Terminadas as coletas foram iniciadas as modelagens dos grafos obtidos. O modelo
do grafo quanto aos tipos de ligações entre vértices e identicação de sítios e subsítios
é o mesmo da modelagem anterior. Entretanto, como as bases dos dados da qual serão
formados os grafos se tratam de diretórios, documentos HTML, imagens, arquivos em
ash entre tantos outros, foi necessária a implementação de um novo programa para a
modelagem. O código que realiza a modelagem foi implementado na linguagem JAVA e
percorre os arquivos do diretório indicado buscando por URLs am de montar uma lista de
arestas. Mais especicamente o algoritmo inicia a leitura dos arquivos de código contidos
no diretório raiz, que é um parâmetro do programa. Em cada arquivo, o algoritmo busca,
a cada linha lida, por hyperlinks que direcionam para outra página. Estes hyperlinks são
identicados por expressões regulares que vericam se a string lida contém alguma tag
HTML utilizada para direcionar a navegação. Caso encontre uma tag do tipo <a href> e
esta não esteja direcionando para uma página do mesmo sítio, é realizada a extração da
URL desta string. O processo de armazenamento da URL encontrada é feito primeiramente
identicando o nome do diretório onde está armazenado o arquivo que contém a URL, o
nome do diretório é o sítio no qual é encontrada a URL. A seguir são inseridos em um
arquivo o nome do diretório juntamente com a URL encontrada, formando assim uma
aresta direcionada. O processo é repetido realizando uma busca recursiva em todos os
diretórios a partir da raiz, e assim, ao nal formando uma lista de arcos.
Ao se gerar a lista de arcos a partir da coleta do HTTrack, os vértices ainda são URLs
e devem ser transformados em números, como na modelagem da coleta do Heritrix. Para
isto foi novamente executado o código feito em linguagem C para a modelagem do grafo
do Heritrix, tendo porém, desta vez, a lista de arcos do HTTrack como entrada para o
algoritmo.
Após a conclusão da modelagem do grafo foi iniciado o trabalho de análise do universo
obtido pelo HTTrack e comparação com o mesmo universo encontrado no grafo gerado a
3.4. COMPARAÇÃO COM ESTATÍSTICAS DA WEB BRASILEIRA
40
Tabela 3.10: Extração do domínio de um sítio.
Antes
www.belohorizonte.mg.gov.br
www.pbh.gov.br
Depois
mg.gov.br
pbh.gov.br
partir do log do Heritrix. Como universo denimos todas as conexões do CFC e também
o primeiro nível de conexões para fora do CFC. Para esta comparação foram calculadas as
métricas de graus de saída e componentes fortemente conectados no algoritmo de análise
já desenvolvido. Somente o grau de saída foi calculado pois como foram coletados somente
os vértices dos CFCs, são desconhecidas as conexões de entrada que não sejam de algum
vértice do componente. Na descoberta do componente fortemente conectado foi comparado
seu resultado com o componente gerado a partir do grafo do Heritrix, com o objetivo de
observar alguma novidade ou mudança nas ligações do componente. Também após a modelagem foi utilizado o software Gephi para representar gracamente os dois componentes
fortemente conectados. O Gephi é um software multiplataforma utilizado para criação e
manipulação de redes de menor escala [Gephi 2008].
3.4
Comparação com Estatísticas da Web Brasileira
Para validar o alcance da coleta do Heritrix, além dos estudos com o HTTrack foi
realizada uma comparação das informações encontrados na coleta com os dados contidos
na pesquisa do Censo do .gov.br [CGI and NIC 2010]. Neste momento do estudo foi
realizada uma separação e extração de todos os domínios distintos encontrados nos sítios
descobertos na coleta da Web governamental brasileira. Nesta fase foi desenvolvido um
código na linguagem C para extrair o domínio juntamente com o domínio de primeiro nível
dos sítios, ou seja, todo conteúdo contido em torno dos dois últimos pontos da cadeia de
caracteres. A Tabela 3.10 exibe o resultado desta extração. Esta extração produz, assim
como na fase da modelagem do grafo, domínios repetidos. Para tanto o algoritmo criado
se encarrega de armazenar apenas domínios únicos.
Ao nalizar os experimentos foram comparadas a quantidade de sítios separados por
estados e também a quantidade total de domínios com os dados contidos no Censo
do .gov.br.
Esta separação ocorreu pela identicação do prexo de cada domínio
e contagem de sítios com o mesmo domínio.
Um exemplo seria a adição do sítio
3.5. CONSIDERAÇÕES FINAIS
41
www.belohorizonte.mg.gov.br que pertence ao domínio mg.gov.br à quantidade sítios
do estado de Minas Gerais. Esta é uma outra forma de vericar se dados coletados por
crawling se aproximam dos dados ociais da Web brasileira.
Atividades semelhantes foram desempenhadas no grafo .br, porém, para este foi realizada uma separação dos sítios por domínios de primeiro nível. Esta separação foi realizada
no software LibreOce Calc em que a lista de sítios descobertos na fase de modelagem
foi tratada como uma planilha. Posteriormente, cada sítio foi agrupado aos demais que
possuem o mesmo DPN em uma planilha a parte para serem contabilizados.
3.5
Considerações Finais
O texto descrito neste capítulo representou toda a metodologia executada para a obtenção dos resultados contidos no próximo capítulo. O trabalho inicia-se pelos estudos
da literatura sobre as formas de se entender, manipular e medir redes, grafos e Web, e
descrevendo como e quando foram realizadas as coletas que são a base dos estudos. Posteriormente são descritas as etapas para a obtenção dos grafos .br e .gov.br a partir de
suas perspectivas coletas, bem como as métricas utilizadas para analisá-los. Por m, são
descritas as etapas utilizadas na validação do estudo a partir de coletas realizadas por Web
crawlers, em nosso caso o Heritrix.
Capítulo 4
Resultados
Esse capítulo apresenta os resultados e análises gerados a partir da metodologia descrita
no Capítulo 3. Para melhor descrição e entendimento do texto, este capítulo foi dividido
em três seções. A Seção 4.1 apresenta os resultados obtidos do grafo .br, a Seção 4.2
apresenta os resultados obtidos do grafo .gov.br e, por m, a Seção 4.3 apresenta uma
comparação dos resultados dos dois grafos.
4.1
Resultados do Grafo .br
Inicialmente, os primeiros resultados obtidos foram os do grafo gerado a partir coleta
.br. Após a execução das etapas da modelagem descritas na Seção 3.1, esta retornou
os valores apresentadas na Tabela 4.1. Ao analisar a Tabela, encontramos o primeiro
indício de como a Web é uma rede pouco conectada, uma vez que do total de 260.927.712
arcos apenas 7.527.330 (arcos únicos e arcos repetidos) são de sítios distintos, ou seja,
aproximadamente 2,9% das conexões. A grande quantidade de conexões restante são laços
(97,1%). Esta grande quantidade de laços surge na fase da modelagem do grafo em que dos
arcos de página para página são transformados em arcos de sítio para sítio como mostra a
Tabela 3.3.
Tabela 4.1: Dados da modelagem do grafo .br.
Dimensões
Vértices
Arcos únicos
Laços
Sementes
Arcos Repetidos
Total de Arcos
42
Grafo .br
519.917
1.140.004
253.395.811
4.571
6.387.326
260.927.712
4.1. RESULTADOS DO GRAFO .BR
43
Com o intuito de vericar quais sítios possuem as maiores quantidades de conexões
internas, foram separados todos os vértices que possuíam laços (self-loops ). A análise
desses resultados sugere que a maior quantidade de conexões contidas na Web são para
páginas do mesmo sítio, uma vez que o número médio de laços por sítio é 487,38, um
valor alto comparado ao número médio arcos entre sítios distintos é de 14,48. Destes dados
também pode ser observado que a quantidade de laços em um vértice pode alcançar valores
altos, que superam inclusive os maiores graus de entrada do grafo. Outra descoberta neste
experimento foi que 24 vértices possuem 5.999 laços, que se trata da maior quantidade de
laços encontrada. Pela quantidade de sítios com o mesmo número de páginas, trabalhamos
com a hipótese, que depois foi avaliada no processo do coletor, de que, por ter um volume
grande de sítios no universo de coleta, o Heritrix realizou o escalonamento particionado
de forma igualitária entre os maiores sítios. Como a Web não pode ser toda coletada, a
coleta foi interrompida depois de um certo período, e no momento da interrupção poderia
ser este o status. A Tabela 4.2 lista esses 24 vértices com mais laços no grafo .br.
No processo de pós-modelagem do grafo foram também computados os arcos que mais
se repetem no grafo, conforme apresentado na Tabela 4.3. É possível identicar que com
os arcos ocorreu a mesma limitação identicada na separação das quantidades de laços.
Todos os 20 arcos mais repetições, possuem seus valores próximos a seis mil. Dentre estes
20 arcos que mais repetiram no grafo também é possível notar que todos são conexões
entre subsítios de um mesmo sítio.
As análises do grafo .br começaram ao serem executadas as métricas descritas na Seção
3.2. As análises foram iniciadas pelos graus de entrada e saída e também as frequências
dos graus dos vértices do grafo .br.
Quanto a análise dos graus, seus dados estatísticos podem ser visualizados detalhadamente na Tabela 4.4.
Destes dados foi possível identicar que o vértice
fotoblog.uol.com.br possui o grau de entrada 2.977, o maior encontrado. Também
foi possível identicar o vértice de maior grau de saída, o vértice www.lyrics.com.br, que
possui o grau 76.351. Em contraposição com os maiores graus apresentados, foram identicados os menores graus tanto de entrada quanto de saída, e este estudo resultou no valor
zero para todos eles. O grau médio de entrada é 2,19 para o grafo .br, este valor repete
4.1. RESULTADOS DO GRAFO .BR
44
Tabela 4.2: Os 24 vértices com mais laços no grafo .br.
Vértice
www.urbanotower.com.br
www.tvclubepe.com.br
www.telelista.com.br
www.sonetos.com.br
www.satoru.com.br
www.safadasgratis.com.br
www.parador12.com.br
www.lojalge.com.br
www.locaralpha.com.br
www.joharc.com.br
www.jacarei.sp.gov.br
www.hospitalunimedcriciuma.com.br
www.gratismusica.com.br
www.ghellere.com.br
www.domangelo.com.br
www.crcgo.org.br
www.companygraf.com.br
www.bazuah.com.br
www.bariguimotos.com.br
reidocrime.rpgonline.com.br
m.vagalume.com.br
bracirurgica.com.br
blogadao.shopping.uol.com.br
adegaparavinho.com.br
para o grau médio de saída, pois a soma de todos graus de entrada é igual a soma de todos
graus de saída. Os dados de graus de entrada mostraram ser mais simétricos que os graus
de saída, isto ocorre devido a mediana dos graus de entrada ter um valor mais próximo
dos graus médios. No cálculo do coeciente de variação (COV) é possível identicar a
diferença nas amostras dos graus que não é identicada na média. O grafo .br apresenta
o coeciente de variação 4,65 para seu grau de entrada, que difere muito do coeciente de
variação do grau de saída, representado pelo valor 55,96.
A Figura 4.1 apresenta um gráco que contrasta o grau de entrada com o grau de
saída dos vértices. Deste gráco é possível identicar vértices com valor alto para os graus
de entrada e de saída, representados pela aglomeração de pontos no centro do gráco.
Também é possível visualizar que a quantidade de vértices que possuem alto grau de saída
e baixo grau de entrada possui uma proporção similar à quantidade de vértices com baixo
grau de saída e alto grau de entrada. Para melhor visualizar os valores dos graus, as
4.1. RESULTADOS DO GRAFO .BR
45
Tabela 4.3: Os 20 arcos com mais repetições no grafo .br.
Arcos
todaoferta.uol.com.br
messenger.todaoferta.uol.com.br
www.papajogos.com.br
img.papajogos.com.br
www.topvideos.xpg.com.br
www.topvideos.com.br
www.sexotropical.com.br
img.sexotropical.com.br
www.imobox.com.br
ph1.imotrix.com.br
imusica.com.br
fotos.imusica.com.br
www.bueni.com.br
i.bueni.com.br
www.paneteria.com.br
media.paneteria.com.br
itaimpaulista.com.br
www.itaimpaulista.com.br
perl.limao.com.br
com.limao.com.br
dicas-l.com.br
www.dicas-l.com.br
www.ogao.com.br
assets-cache02.ogao.com.br
www.submarino.com.br
img.submarino.com.br
faro.com.br
www.faro.com.br
www.carangoweb.com.br
carangoweb.com.br
ibiubi.com.br
img.ibiubi.com.br
www.belladasemana.com.br
ia.bella.com.br
cbb.com.br
legado.cbb.com.br
gengibre.com.br
www.gengibre.com.br
shopping.uol.com.br
image.shopping.uol.com.br
No de repetições
5.998
5.998
5.998
5.996
5.995
5.994
5.994
5.994
5.993
5.993
5.992
5.992
5.992
5991
5.987
5986
5.985
5.984
5.983
5.980
Tabela 4.4: Dados estatísticos sobre os graus do grafo .br.
Métrica
Grau de entrada
Grau de saída
Menor
0
0
Maior
2.977
76.351
Média
2,19
2,19
Mediana
1
0
COV
4,65
55,96
Figuras 4.2(a) e 4.2(b) apresentam, respectivamente, o ranking dos graus de entrada e dos
graus de saída ordenados em ordem decrescente.
A Figura 4.3 apresenta os resultados da execução da métrica da frequência dos graus
de entrada e de saída. Devido à escala logarítmica do gráco para ambos os eixos, os graus
de valor zero foram transformados em 0,1 apenas para título de visualização. Ao analisar o
gráco é possível notar que, com exceção do grau 0 de entrada, os graus decaem como uma
lei de potência, característica comum no grafo da Web [Barabási and Albert 1999]. Ainda
na métrica de frequência dos graus, foram realizados ajustes para calcular a inclinação do
decaimento dos graus e, consequentemente, obter o valor do expoente desta lei de potência.
As Figuras 4.4(a) e 4.4(b) apresentam os grácos ajustados dos graus de entrada e saída,
respectivamente. Para os graus de entrada foi encontrado o exponente 2,24, enquanto para
os graus de saída foi identicado o exponente 1,71, valores próximos, porém os graus de
4.1. RESULTADOS DO GRAFO .BR
46
Figura 4.1: Graus do grafo .br.
(a) Graus de entrada
(b) Graus de saída
Figura 4.2: Ranking dos graus do grafo .br.
saída apresentam um maior decaimento. Este fato identicado no experimento se opõe
aos estudos de [Boccaletti et al. 2006], que identicou um maior decaimento dos graus
de entrada, com o valor do expoente do grau de saída maior que o expoente do grau de
entrada.
Para melhor apresentar estes resultados no contexto da Web, as Tabelas 4.5 e 4.6
apresentam 20 sítios com os maiores graus de entrada e de saída. As Tabelas exibem os
índices dos vértices, os graus, e os sítios que são referenciados pelos índices, respectivamente
4.1. RESULTADOS DO GRAFO .BR
47
Figura 4.3: Frequência dos graus do grafo .br.
(a) Graus de entrada
(b) Graus de saída
Figura 4.4: Ajuste dos graus do grafo .br.
na primeira, segunda e terceira colunas das Tabelas. Foi observado na Tabela dos vértices
com os maiores graus de entrada, que três sítios são blogs especializados em postagem de
fotograas, e também que, dentre os vinte, cinco sítios pertencem ao Google, bem como
quatro sítios que pertencem ao UOL. Na Tabela dos vértices com os maiores graus de saída
foram identicados cinco sítios especializados em realizar algum tipo de busca na Web.
A métrica seguinte a ser calculada foi as distâncias entre quaisquer dois vértices. Como
resultado, esta métrica apresentou que o grafo pode ser todo percorrido com até 26 passos,
4.1. RESULTADOS DO GRAFO .BR
48
Tabela 4.5: Os 20 vértices com os maiores graus de entrada.
Vértice
93.369
175.280
213.001
53.046
74.150
58.163
150.113
282.196
431.211
502.115
355.943
137.776
501.296
178.755
34.281
438.506
185.332
512.686
103.472
358.322
Grau de Entrada
2.977
1.644
1.536
1.495
1.474
1.013
928
803
754
732
720
700
677
660
597
533
514
489
459
442
Sítio
fotoblog.uol.com.br
onsoftware.softonic.com.br
selos.climatempo.com.br
cifraclub.terra.com.br
dplus.softonic.com.br
contador.s12.com.br
maps.google.com.br
www.band.com.br
www.orkut.com.br
www.vagas.com.br
www.ogao.com.br
letras.terra.com.br
www.uol.com.br
pagseguro.uol.com.br
blog.i.uol.com.br
www.peticaopublica.com.br
picasaweb.google.com.br
www.youtube.com.br
groups.google.com.br
www.fotolog.terra.com.br
Tabela 4.6: Os 20 vértices com os maiores graus de saída.
Vértice
403.756
288.565
397.715
93.369
429.609
369.508
18.701
370.040
481.156
481.918
331.130
400.800
364.108
387.486
309.564
351.906
475.924
260.146
126.189
210.005
Grau de Saída
76.351
34.591
22.166
9.706
4.469
4.413
3.988
3.134
3.119
2.834
2.559
1.968
1.613
1.551
1.475
1.389
1.331
1.325
1.288
1.255
Sítio
www.lyrics.com.br
www.blogorama.com.br
www.letrasdemusicas.com.br
fotoblog.uol.com.br
www.olx.com.br
www.guiademidia.com.br
aonde.com.br
www.guis.com.br
www.softonic.com.br
www.somanuncios.com.br
www.dihitt.com.br
www.loja2.com.br
www.gigabusca.com.br
www.janela.com.br
www.cifras.art.br
www.fechoo.com.br
www.shoppinglocaweb.com.br
www.acontecaeventos.com.br
jotabegeme.dihitt.com.br
sao-jose-estado-de-sergipe.somanuncios.com.br
4.1. RESULTADOS DO GRAFO .BR
49
Tabela 4.7: Dados estatísticos das distâncias.
Métrica
Distâncias
Menor
1
Maior
26
Média
7,66
Mediana
7
COV
1,24
ou seja, o diâmetro do grafo. A Tabela 4.7 apresenta dados estatísticos das distâncias de
forma detalhada. Destes dados é possível notar que a distância média percorrida no grafo
é 7,66, um valor que enquadra o grafo no fenômeno small-world descrito na Seção 2.1. Os
valores próximos entre média e mediana apresentam a distribuição dos dados de distâncias
de maneira aproximadamente simétrica, bem como o baixo coeciente de variação indica
a pouca variabilidade nos valores da amostra.
Por m, a última métrica executada no grafo .br foi a descoberta dos componentes
fortemente conectados (CFC). Como resultado da métrica foram obtidos 1.087 CFCs. Os
componentes com suas dimensões estão detalhados da Tabela 4.8. Dentre eles, o maior
CFC descoberto contém a quantidade de vértices na casa dos milhares, 21 CFCs possuem
vértices na casa das dezenas e 1.065 CFCs possuem a quantidade de vértices na casa das
unidades. Os resultados desta métrica também revelam outra característica no grafo da
Web brasileira, como encontrado na literatura. De acordo com os estudos apresentados na
Seção 2.3, no grafo da Web é encontrado um grande componente fortemente conetado e vários outros com um pequeno número de vértices [Broder et al. 2000] [Modesto et al. 2005]
[Donato et al. 2007].
Além das métricas executadas no grafo .br, cujos resultados auxiliam a análise da conectividade da Web brasileira, no grafo também foram separados os vértices por domínios
para obter suas porcentagens. Esta tarefa reduziu o número de elementos que serão comparados com dados divulgados pelo Registro.br [Registro.br 2013]. A extração dos domínios
reduziu os 519.917 sítios do grafo a 253.136 domínios distintos, esta redução ocorre devido
a remoção dos subsítios que são considerados vértices no grafo. As porcentagens e número
de sítios dos principais domínios são exibidas na Tabela 4.9. Os dados apresentam que a
coleta utilizada nesse estudo contém 7,47% de todos domínios registrados no Brasil, uma
porcentagem considerável. Entretanto, esta porcentagem seria maior se consideramos que
parte dos domínios são registrados apenas para guardar seu nome e não têm páginas com
grande atividade na Web ou então apenas o mantém para respostas de DNS. Os dados
4.1. RESULTADOS DO GRAFO .BR
50
Tabela 4.8: Quantidade de componentes fortemente conectados no grafo .br.
Número de vértices no CFC
57.063
70
69
53
23
21
20
19
18
15
14
13
12
11
10
9
8
7
6
5
4
3
2
Quantidade de CFC
1
1
1
1
1
2
2
1
3
2
1
2
1
1
2
2
6
6
13
15
35
139
849
Tabela 4.9: Dados de domínios por DPN.
DPN
.com.br
.net.br
.org.br
.blog.br
.edu.br
.gov.br
Demais domínios
Total
Registro.br
%
N
91,14% 3.086.226
3,00% 101.748
1,42%
48.220
0,23%
7.639
0,07%
2.473
0,04%
1.361
4,1%
138.498
100% 3.386.165
o
Descobertos
%
N % Descobertos/Registro.br
87,40% 221.263
7,17%
0,48%
1.243
1,22%
5,15% 13.048
27,06%
0,20%
528
6,91%
0,33%
850
34,37%
0,25%
638
46,88%
6,19% 15.566
11,24%
100% 253.136
7,47%
o
também apresentam que as porcentagens entre os Domínios de Primeiro Nível (DNPs) se
mostram não idênticas mas compatíveis, mesmo nossos dados sendo apenas uma amostra
do total de domínios. O domínio .com.br apresenta a maioria dos sítios, seguido pelos demais com valores inferiores. Um fato identicado em nosso estudo é que os DPNs .org.br,
.edu.br e .gov.br apresentaram as maiores porcentagens de domínios descobertos em
relação ao total registrado, se compararmos com os demais DPNs.
4.1. RESULTADOS DO GRAFO .BR
51
Tabela 4.10: Dados estatísticos sobre os graus do CFC do grafo .br.
Métrica
Grau de entrada
Grau de saída
Menor
1
1
Maior
2.975
3.622
Média
7,06
7,06
Mediana
2
2
COV
3,33
4,28
4.1.1 Maior Componente Fortemente Conectado do Grafo .br
A descoberta de um grande CFC e outros com tamanho reduzido já era esperado, uma
vez que essa característica é comum no grafo da Web e muito encontrada na literatura
[Broder et al. 2000] [Modesto et al. 2005]. A partir dos métodos utilizados para descobrir
os CFCs, o maior componente foi extraído e transformado em um grafo a parte para ser
analisado. O subgrafo extraído do grafo principal possui 57.063 vértices e 402.897 arcos.
As análises tiveram início pelo estudo dos graus, em que foram realizados cálculos
estatísticos dos mesmos. Os dados podem ser visualizados na Tabela 4.10. O maior
grau de entrada e o maior grau de saída apresentados na Tabela pertencem ao sítio
fotoblog.uol.com.br. Em comparação com o grafo completo, o sítio citado também
é o vértice de maior grau de entrada, e diminui em dois o seu valor dentro do CFC, o que
indica que dois sítios que se conectam ao fotoblog.uol.com.br estão ausentes no CFC.
Este CFC também apresentou os maiores graus médios, o que congura esse CFC como
o grafo mais conectado estudado nesta dissertação. Diferentemente do grau de entrada,
uma grande redução aconteceu no maior grau de saída (de 76.351 no grafo completo para
3.622). Os menores graus tanto de entrada quanto de saída são 1, isto ocorre devido a
uma das regras que conguram um componente como fortemente conectado, a saber, cada
vértice deve ter no mínimo uma conexão de entrada e uma conexão de saída. O valor da
média dos graus mais que triplicou comparado a média dos graus do grafo completo. Este
aumento ocorreu devido a inexistência de vértices com grau zero na amostra da qual foi
calculada a média. A amostra dos dados dos graus ainda se mostra assimétrica devido ao
baixo valor da mediana comparado à média. Os valores relativamente baixos dos coecientes de variação dos graus de entrada e de saída em relação aos valores do grafo completo
indicam que há menor variação nos valores dos graus na amostra do qual foi calculado.
A Figura 4.5 apresenta um gráco com os graus de entrada em contraste com os graus
de saída. Desta gura visualiza-se que há variabilidade similar entre os graus de entrada
4.1. RESULTADOS DO GRAFO .BR
52
Figura 4.5: Graus do maior CFC do grafo .br.
(a) Graus de entrada
(b) Graus de saída
Figura 4.6: Rank dos graus do CFC do grafo .br.
e saída de um vértice ainda maior que do grafo completo. Também é possível notar que
a quantidade de vértices com alto grau de saída e baixo de entrada é quase simétrica
à quantidade de vértices com alto grau de entrada e baixo grau de saída. Para melhor
visualizar os valores dos graus, as Figuras 4.6(a) e 4.6(b) apresentam respectivamente o
ranking dos graus de entrada e dos graus de saída ordenados em ordem decrescente.
A métrica seguinte calculada, a frequência dos graus, conrma fato anteriormente descrito sobre a similaridade dos graus de entrada e saída. A Figura 4.7 apresenta um gráco,
4.1. RESULTADOS DO GRAFO .BR
53
Figura 4.7: Frequência dos graus do maior CFC.
(a) Graus de entrada
(b) Graus de saída
Figura 4.8: Ajuste dos graus do maior CFC do grafo .br.
com os eixos em escala logarítmica, das frequências dos graus de entrada e saída. O gráco
mostra que as frequências são bastante próximas. Os ajustes feitos nos grácos das Figuras
4.8(a) e 4.8(b) justicam esta proximidade do qual foi encontrado o exponente 1,76 para
o grau de entrada e 1,73 para o grau de saída.
Por m, a última métrica executada foi a distância entre vértices que tem seus dados
estatísticos apresentados detalhadamente na Tabela 4.11. O cálculo retornou que todos os
vértices do CFC podem ser alcançados com até 25 passos, ou seja, o diâmetro do componente. Este valor representa um a menos que o diâmetro do grafo completo, mostrando
4.1. RESULTADOS DO GRAFO .BR
54
Tabela 4.11: Dados estatísticos das distâncias do CFC.
Métrica
Distâncias
Menor
1
Maior
25
Média
7,21
Mediana
7
COV
1,28
como o CFC tem a dimensão em termos estruturais bem próximo ao grafo completo. Com
base na distância média encontrada, um valor em torno de 6, neste CFC também foi identicado o fenômeno small-world. Os dados de distância também se mostraram simétricos,
devido a proximidade dos valores da média e mediana, e também o baixo coeciente de
variação.
4.1.2 Análise do Grafo .br via Pajek
Após a obtenção dos resultados nos experimentos anteriores, fez-se necessário validar
os resultados do algoritmo desenvolvido para análises. Para validar estes resultados foi utilizado o Pajek (palavra eslovena para Aranha), um programa da plataforma Windows para
análise, criação e visualização de grandes redes. Ele está disponível gratuitamente, para
uso não comercial, no endereço Web (http://pajek.imfm.si/doku.php?id=download).
Como descrito na Seção 3.2, inicialmente foi necessário uma adequação do grafo para
servir como entrada para o Pajek. Ao dar início às análises, a primeira métrica calculada
foi os graus de entrada. Para isto é necessária a criação de uma partição para destacar
os graus de entrada dos vértices. A Figura 4.9 apresenta os vértices com os vinte maiores
graus de entrada, que conferem exatamente com os resultados obtidos em nosso algoritmo,
exibido na Tabela 4.5.
A mesma exatidão foi encontrada nos graus de saída dos vértices. A Figura 4.10 exibe
os vinte vértices com os maiores graus de saída encontrados no Pajek. Podemos notar que
todos os campos são exatamente equivalentes aos da Tabela 4.6, que foi gerada pelo nosso
algoritmo.
Pelo Pajek também foi possível criar uma partição que realizasse a descoberta dos
componentes fortemente conectados. Os mesmos 1.087 CFCs foram encontrados no Pajek,
assim como nas execuções de nosso algoritmo. A Figura 4.11 apresenta os CFCs com pelo
menos dez vértices, exceto o cluster 0 que contém os 459.855 vértices que não pertencem
a nenhum CFC. Os mesmos valores podem ser encontrados na Tabela 4.8, gerada com os
resultados de nosso algoritmo, conrmando novamente delidade de nossos resultados. No
4.1. RESULTADOS DO GRAFO .BR
55
Figura 4.9: Graus de entrada do grafo .br no Pajek.
Figura 4.10: Graus de saída do grafo .br no Pajek.
Pajek também foi calculada a distância entre todos os pares de vértices. A partir desta
métrica foi identicado o valor 26 para o diâmetro do grafo e a distância média de 7,66,
exatamente os mesmos valores encontrados em nosso algoritmo.
Além da validação dos resultados dos experimentos, o Pajek também foi utilizado para
identicar a estrutura topológica do grafo em estudo. Assim como descrito na literatura, o
Pajek encontrou uma estrutura que se assemelha a uma gravata borboleta cujas dimensões
dos conjuntos podem ser visualizadas na Tabela 4.12. Os dados da Tabela mostram que
o componente OUT é o maior e o único que não se conecta a nenhum outro componente.
4.1. RESULTADOS DO GRAFO .BR
56
Figura 4.11: Componentes fortemente conectados do grafo .br no Pajek.
Tabela 4.12: Dimensões do modelo da gravata no grafo .br.
Componente
SCC
IN
OUT
TUBOS
TENTÁCULOS
DESCONECTADOS
No
Grafo .br
de Vértices Percentual
57.063
10,98%
12.829
2,47%
290.646
55,90%
4.943
0,95%
152.250
29,28%
835
0,16%
Este fato, do ponto de vista da rede, ao se percorrer o grafo da Web, assim que este
componente for alcançado, em algum momento a navegação será interrompida por falta
de caminhos a serem percorridos. Outro fato que chamou a atenção foi a quantidade de
vértices em TENTÁCULOS, que são do ponto de vista da navegação da rede, caminhos
que não se conectam a nenhum outro componente da rede. Ou seja, em certo ponto a
navegação também será interrompida por falta de caminhos a serem percorridos, o mesmo
princípio do componente OUT.
O Pajek foi também utilizado para calcular o betweenness. Está avaliação retornou
que o vértice que possui o maior valor de betweenness é o sítio www.uol.com.br com o
valor 0,0102. A Figura 4.12 apresenta os vinte vértices com os maiores valores de between-
ness. Os baixos valores apresentados na gura indicam poucas quantidades de caminhos
que passam pelos vértices, o que novamente sugere a Web como uma rede pouco conectada. Um fato identicado ao analisar a gura é que muitos dos vértices apresentados
4.1. RESULTADOS DO GRAFO .BR
57
Figura 4.12: Os 20 vértices com os maiores valores de betweenness no grafo .br.
nela também estão contidos nas listas dos 20 vértices com maiores graus. Mais especicamente o sítio fotoblog.uol.com.br está contido nas listas de maiores graus de entrada
e de saída. Os sítios www.uol.com.br, maps.google.com.br, pagseguro.uol.com.br,
onsoftware.softonic.com.br e cifraclub.terra.com.br estão contidos apenas na lista
dos vértices dos maiores graus de entrada. Os sítios www.dihitt.com.br e aonde.com.br
estão contidos apenas na lista dos vértices com os maiores graus de saída.
Ao m dos experimentos do grafo .br no Pajek foi calculado o coeciente de agrupamento. Como resultado esta métrica apresentou que, dos 519.917 vértices existentes no
grafo, apenas 1.180 vértices possuem o coeciente de agrupamento de valor 1, ou seja,
existem 1.180 vértices no grafo em que todos os vizinhos adjacentes de cada vértice estão
conectados entre si. Esta métrica ainda resultou no coeciente de agrupamento médio
do grafo, que é representado pelo valor 0,0921. Este baixo valor indica que, em geral,
os vizinhos adjacentes de cada vértice estão pouco conectados entre si, o que contraria
a armação de [Boccaletti et al. 2006], que descreve a Web como uma rede com elevado
coeciente de agrupamento.
4.1.3 Resultados do HTTrack
Como descrito na Seção 3.3, um dos objetivos desse estudo foi vericar se uma coleta
feita pelo Heritrix pode ser considerada representativa em relação à conectividade do grafo
coletado. A partir disso foram coletados no HTTrack os sítios contidos em dois dos com-
4.1. RESULTADOS DO GRAFO .BR
(a) Heritrix
58
(b) HTTrack
Figura 4.13: Universos de 5 vértices.
ponentes fortemente conectados existentes no grafo .br. Por o HTTrack ser um software
que consome muitos recursos de rede e armazenamento, os CFCs escolhidos para a coleta
possuem uma pequena quantidade de vértices, mais precisamente 5 e 69 vértices. Dos grafos modelados a partir das coletas do HTTrack foram calculadas as métricas de graus de
saída e componentes fortemente conectados. Destes dois CFCs foram também observadas
as conexões dos vértices para fora do componente a m de se avaliar se uma coleta do
Heritrix se aproxima da quantidade de hyperlinks coletados no HTTrack.
Os estudos dessa etapa dos experimentos começaram pela identicação do universo que
estão contidos os cinco vértices da Tabela 3.8. Como universo, denimos o conjunto de
todas as conexões dentro do CFC e também o primeiro nível de conexões de saída dos
vértices para fora do componente. Neste universo de 5 vértices do grafo gerado da coleta
da Heritrix foram encontrados 18 arcos como mostra a Figura 4.13(a). No mesmo universo
da coleta do HTTrack foram encontrados 120 arcos que podem ser visualizados na Figura
4.13(b). Os dados apresentados dão os primeiros indícios de quão completa é uma coleta
do HTTrack e também é possível notar o surgimento da árvore geradora mínima na Figura
4.13(a), que é uma das características do processo de crawling adotado na coleta de dados
da Web.
Para comparar os dois subgrafos foram calculados os graus de saída e exibidos na Tabela
4.1. RESULTADOS DO GRAFO .BR
59
Tabela 4.13: Comparação dos graus de saída dos subgrafos de 5 vértices.
Vértice
www.anfac.com.br
www.ibfm.com.br
www.sinfac-ms.com.br
www.sinfaces.com.br
www.sinfacpe.com.br
Grau de saída Heritrix
14
1
1
1
1
Grau de saída HTTrack
51
2
31
25
11
4.13. Os dados apresentados na Tabela para o universo dos 5 sítios, gerado da coleta do
HTTrack, mostram uma quantidade maior de conexões na nova coleta do que o universo
do Heritrix.
O último cálculo realizado neste subgrafo foi a descoberta do componente fortemente
conectado para vericar a semelhança entre os componentes. O componente originado da
coleta do Heritrix possui oito arcos e sua topologia se assemelha a uma estrela, em que
existe um vértice centralizado que possui conexão para os demais e os demais se conectam
a ele, como exibido na Figura 4.14(a). O componente fortemente conectado encontrado
a partir dos dados do HTTrack possui 12 arcos. Esta diferença de quatro arcos a mais
comparado ao anterior são os arcos que conectam os vértices que não são o centro da
estrela como mostra a Figura 4.14(b). A primeira etapa deste estudo com a coleta do
HTTrack conrmou o já esperado, coletas por crawling não coletam boa parte dos links
contidos nas páginas. Neste primeiro caso a maioria dos links não coletados se direcionam
para fora do componente.
Ao término dos estudos do CFC de cinco vértices foram iniciadas as análises com o
subgrafo montado a partir dos 69 vértices apresentados na Tabela 3.9. Os arcos extraídos
do grafo .br que tem como vértice de origem algum dos 69 vértices, formaram um universo
que possui 196 arcos que se conectam conforme mostra a Figura 4.15(a). No entanto, o
grafo dos mesmos 69 vértices encontrados a partir da modelagem dos dados do HTTrack
possui 548 arcos, um valor quase triplicado ao se comparar com os dados gerados pelo
Heritrix. Este grafo é exibido na Figura 4.15(b). Os vértices em destaque nas guras que
apresentam os universos com 5 vértices e também com 69 vértices representam os CFCs
contidos nos mesmos.
O cálculo dos graus de saída dão um segundo indício de quão mais completa é uma
coleta por HTTrack pela quantidade maior de conexões de saída de seus vértices. A Tabela
4.1. RESULTADOS DO GRAFO .BR
(a) Heritrix
60
(b) HTTrack
Figura 4.14: CFCs de 5 vértices.
(a) Heritrix
(b) HTTrack
Figura 4.15: Universos de 69 vértices.
4.14 apresenta os vértices com os maiores graus de saída. Nesta Tabela se destacam os
graus do subgrafo do Heritrix, em que apenas um vértice apresenta o grau diferente de um.
A terceira comparação realizada em relação aos subgrafos gerados a partir dos 69
vértices é a identicação dos componentes fortemente conectados nos mesmos. Após o
cálculo da métrica foi identicado um CFC com os 69 vértices e 136 arcos contido no
universo dos 69 vértices gerado da coleta do Heritrix. Assim como no CFC de 5 vértices
gerados do Heritrix, este também apresenta um formato estrela como exibido na Figura
4.1. RESULTADOS DO GRAFO .BR
61
Tabela 4.14: Os 20 vértices com os maiores graus de saída dos subgrafos de 69 vértices.
Vértice
www.sub100.com.br
www.softwarebymaringa.com.br
www.grupotoni.com.br
www.merlosimoveis.com.br
www.dalbosco.com.br
www.raulvieiraimoveis.com.br
www.partilha.com.br
www.ciplart.com.br
www.theodorado.com.br
www.arqimoveis.com.br
www.washiempreendimentos.com.br
www.vidrosmaxtemper.com.br
www.verrigalvao.arq.br
www.ventaniamotonautica.com.br
www.unicaimoveis.imb.br
www.trattomaringa.com.br
www.tgmaq.com.br
www.techplus.ind.br
www.sumei.com.br
www.scobinengenharia.com.br
Grau de saída Heritrix
116
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Grau de saída HTTrack
386
54
25
9
4
3
3
3
2
2
1
1
1
1
1
1
1
1
1
1
4.16(a).
A identicação do componente fortemente conectado a partir dos dados gerados pelo
HTTrack apresentou resultados que contrariaram a tendência de que os dados do HTTrack
são mais completos em relação a conectividade. O CFC encontrado possui 60 vértices e
119 arcos exibidos na Figura 4.16(b), dos estudos realizados nesta comparação é a única
vez que os dados do Heritrix se mostraram mais completos. Entretanto, foi realizada uma
pesquisa para descobrir o motivo pelo qual o CFC do HTTrack possui dimensões menores
que o CFC do Heritrix. Do ponto de vista da Web, foram buscadas as conexões entre os
sítios que estavam contidas no CFC do Heritrix e não se encontravam no CFC do HTTrack.
Após esta identicação foi constatado que algumas conexões não existiam mais e um sítio
estava desativado. As demais conexões em falta no CFC ainda existiam no grafo, mas não
se enquadravam mais ao CFC por não existir um caminho direcionado nas duas direções
entre os vértices que as conectam. A Tabela 4.15 apresenta as conexões contidas no CFC
do Heritrix mas inexistentes do CFC do HTTrack.
Neste estudo, envolvendo a comparação dos dados do Heritrix e HTTrack, tam-
4.1. RESULTADOS DO GRAFO .BR
62
(a) Heritrix
(b) HTTrack
Figura 4.16: CFCs de 69 vértices.
Tabela 4.15: Conexões inexistentes no CFC do HTTrack.
Conexão
www.arquiteturamais.com.br
Motivo
www.sub100.com.br
Não existe o link
www.ciplart.com.br
www.sub100.com.br
www.dalbosco.com.br
www.sub100.com.br
Não existe o link
www.maisvisaopaineis.com.br
www.sub100.com.br
Sítio não existe mais
www.nucleoimobiliariodetoledo.com.br
www.sub100.com.br
Não existe o link
www.partilha.com.br
www.sub100.com.br
www.raulvieiraimoveis.com.br
www.sub100.com.br
www.sub100.com.br
www.sub100.com.br
Não existe o link
Não existe o link
Não existe o link
www.arquiteturamais.com.br
Link existe mas está fora do CFC
www.ciplart.com.br
Link existe mas está fora do CFC
www.sub100.com.br
www.dalbosco.com.br
Link existe mas está fora do CFC
www.sub100.com.br
www.maisvisaopaineis.com.br
Link existe mas está fora do CFC
www.sub100.com.br
www.nucleoimobiliariodetoledo.com.br
www.sub100.com.br
www.partilha.com.br
www.sub100.com.br
www.raulvieiraimoveis.com.br
Não existe o link
Link existe mas está fora do CFC
Link existe mas está fora do CFC
www.sub100.com.br
www.unicaimoveis.imb.br
www.sub100.com.br
www.washiempreendimentos.com.br
Link existe mas está fora do CFC
Não existe o link
www.unicaimoveis.imb.br
www.sub100.com.br
Link existe mas está fora do CFC
www.washiempreendimentos.com.br
www.sub100.com.br
Não existe o link
bém foram pesquisadas possíveis conexões que estivessem contidas apenas no CFC
do HTTrack.
Foi descoberto nesta pesquisa que o CFC do HTTrack possui uma
única conexão que é inexistente no CFC do Heritrix.
Foi encontrado um hyper-
link no sítio www.softwarebymaringa.com.br que direcionava a navegação para o sítio
www.centralsoft.com.br.
A conclusão desta etapa dos experimentos de comparação entre os componentes coletados pelo Heritrix e HTTrack apresentou os universos coletados pelo HTTrack com
um número maior de conexões. Apesar da diminuição para 60 vértices do componente
fortemente conectado descoberto no universo dos 69 vértices do HTTrack, esta pode ser
explicada como sendo uma mudança na Web. Em geral, como já descrito o HTTrack coletou um número maior de links nas páginas em que ele visitou, porém a coleta do Heritrix
4.2. RESULTADOS DO GRAFO .GOV.BR
63
Tabela 4.16: Dados da modelagem do grafo .gov.br.
Dimensões
Vértices
Arcos Únicos
Laços
Sementes
Arcos Repetidos
Total de Arcos
Grafo .gov.br
19.523
45.304
137.180.945
892
1.138.901
138.366.042
se apresentou mais completa que o esperado.
4.2
Resultados do Grafo .gov.br
A etapa corrente deste documento apresenta os resultados obtidos nos estudos cujo
objetivo é descobrir a conectividade e a estrutura topológica da Web .gov.br. Estes
estudos foram realizados em um grafo modelado do arquivo de registros de coleta do crawler
Heritrix, conforme descrito detalhadamente na Seção 3.1.
Após nalizada a modelagem, foi descoberto o total de 138.366.042 arcos coletados
pelo Heritrix a partir de 892 URLs sementes. Destes arcos, 137.180.945 são links para o
mesmo sítio, ou seja, os laços, estes que representam 99,14% da conexões coletadas pelo
Heritrix. Os vinte sítios com as maiores quantidade de laços são exibidos na Tabela 4.17.
A quantidade de arcos repetidos descobertos totaliza 1.138.901 arcos, nalizando assim
o grafo com um total de 19.523 vértices e 45.304 arcos únicos. Assim como no estudo
da Web .br, a Web .gov.br apresentou ser uma rede pouco conectada devido à baixa
quantidade de conexões entre sítios distintos. De todos os 138.366.042 arcos encontrados
somente 1.184.205 (únicos e repetidos) são entre vértices distintos, que representa 0,86%
do total de conexões coletadas, um valor muito baixo. Os valores obtidos na modelagem
do grafo .gov.br estão detalhados na Tabela 4.16.
Após o processo de modelagem do grafo .gov.br também foram contabilizados os arcos
descobertos na coleta que mais se repetiram, como exibido na Tabela 4.18. Assim como
no grafo .br a maioria dos arcos são entre subsítios de um mesmo sítio.
O trabalho de análise teve início estudando o grafo dirigido modelado que possui 19.523
vértices e 45.304 arestas dirigidas. Deste gráco foram calculadas as métricas graus de
entrada e graus de saída, frequência dos graus de entrada e saída, distâncias entre vértices
e componentes fortemente conectados.
4.2. RESULTADOS DO GRAFO .GOV.BR
64
Tabela 4.17: Os 20 vértices com mais laços.
Vértice
www.bombeiros-bm.rs.gov.br
cidade.jundiai.sp.gov.br
ww1.alesc.sc.gov.br
www.teixeiradefreitas.ba.gov.br
www.alesc.sc.gov.br
www.al.ba.gov.br
www.portaltransparencia.gov.br
www.arquivoestado.sp.gov.br
www.marialva.pr.gov.br
www.amazonasenergia.gov.br:8080
www.dive.sc.gov.br
portal1.trtrio.gov.br:7777
portal.trtrio.gov.br:7777
transparencia.gov.br
celepar7cta.pr.gov.br
portal2.trtrio.gov.br:7777
participatorio.juventude.gov.br
www.lapa.pr.gov.br
www.cmcm.pr.gov.br
www.camaravotorantim.sp.gov.br:8080
Quantidade de laços
446.423
439.754
434.271
429.488
428.672
428.181
424.553
420.261
420.110
419.426
418.373
416.472
416.088
416.019
415.093
414.833
413.618
410.262
409.013
408.148
Tabela 4.18: Os 20 arcos com mais repetições no grafo .gov.br.
Arcos
www.rs.gov.br
sis2.funasa.gov.br
educadores.diaadia.pr.gov.br
www4.planalto.gov.br
www.paraiba.pb.gov.br
consulta.almg.gov.br
www.rj.gov.br
www1.saude.ba.gov.br
alvaraja.rio.rj.gov.br
www.saude.go.gov.br
cade.gov.br
cmbhweb.cmbh.mg.gov.br
saladeimprensa.ibge.gov.br
www.creci-sc.gov.br
www.e-parana.pr.gov.br
@asms.londrina.pr.gov.br
www.jfrn.gov.br
www.almg.gov.br
www.santosdumont.mg.gov.br
www.transparencia.es.gov.br
www.estado.rs.gov.br
sis.funasa.gov.br
www.educadores.diaadia.pr.gov.br
www.planalto.gov.br
static.paraiba.pb.gov.br
mediaserver.almg.gov.br
download.rj.gov.br
cnes.datasus.gov.br
www.rio.rj.gov.br
www.sgc.goias.gov.br
www.cade.gov.br
www.cmbh.mg.gov.br
www.ibge.gov.br
rep.creci-sc.gov.br
www.video.pr.gov.br
asms.londrina.pr.gov.br
www.in.gov.br
mediaserver.almg.gov.br
www.carmodorioclaro.mg.gov.br
www.protocolo.es.gov.br
No de repetições
31.500
2.1211
19.761
18.708
17.398
16.191
16005
14.933
14.018
13.213
13.093
12.957
12.929
12.540
11.918
11.227
10.826
10.126
9.988
9.754
4.2. RESULTADOS DO GRAFO .GOV.BR
65
Tabela 4.19: Dados estatísticos sobre os graus do grafo .gov.br.
Métrica
Grau de entrada
Grau de saída
Menor
0
0
Maior
343
760
Média
2,32
2,32
Mediana
1
0
COV
3,39
5,16
Iniciando os estudos dos graus do grafo .gov.br, foram calculados os dados estatísticos exibidos na Tabela 4.19. Os dados apresentam o maior grau de entrada que pertence ao sítio www.in.gov.br, e também o maior grau de saída, que pertence ao sítio
www.nre.seed.pr.gov.br. Os menores graus encontrados do grafo apresentam o valor
zero, tanto para entrada quanto para saída. O valor baixo dos graus médios indica a baixa
conectividade do grafo. Os dados dos graus de entrada apresentam maior simetria por
ser a mediana mais próxima da média e menor variabilidade por ter menor coeciente de
variação comparados aos graus de saída.
A Figura 4.17 apresenta um gráco com os eixos em escala logarítmica em que os
graus de entrada são contrastados com os graus de saída. Neste gráco a distribuição
dos pontos é semelhante aos grácos dos estudos anteriores, onde existem vértices que
possuem valores altos para graus de entrada e saída. Também são identicados vértices
que possuem alto grau de entrada e baixo grau de saída, bem como vértices com alto grau
de saída e baixo grau de entrada. Vale lembrar que, em todos os grácos com os eixos em
escala logarítmica do estudo, os vértices que possuem grau zero foram substituídos por 0,1
para serem visualizados. Os graus dos vértices também foram separados por ranking para
a visualização de seus valores em ordem decrescente, como mostram as Figuras 4.18(a) e
4.18(b) que apresentam respectivamente o ranking dos graus de entrada e o ranking dos
graus de saída.
A partir da métrica dos graus também foi possível identicar os sítios que possuem
maiores graus de entrada e graus de saída, apresentados respectivamente nas Tabelas 4.20
e 4.21.
A métrica seguinte calculada foi a frequência dos graus de entrada e de saída. A Figura
4.19 apresenta um gráco com os eixos em escala logarítmica com as frequências dos graus.
Deste é possível visualizar a maior incidência de graus com valores baixos e depois um
decaimento como uma lei de potência, com exceção do grau de entrada zero. Este fato
4.2. RESULTADOS DO GRAFO .GOV.BR
66
Tabela 4.20: Os 20 vértices com os maiores graus de entrada do grafo .gov.br.
Vértice
13.737
5.140
13.554
19.169
17.544
15.696
5.158
9.629
15.963
14.814
16.522
14.821
9.468
10.885
16.142
5.141
11.924
12.243
14.692
19.463
Grau de Entrada
343
287
255
245
242
239
237
213
173
166
159
147
145
143
135
133
127
125
119
110
Sítio
www.in.gov.br
portal.mec.gov.br
www.ibge.gov.br
www2.camara.gov.br
www.senado.gov.br
www.planalto.gov.br
portal.saude.gov.br
www.camara.gov.br
www.portaldatransparencia.gov.br
www.mj.gov.br
www.receita.fazenda.gov.br
www.mma.gov.br
www.brasil.gov.br
www.cgu.gov.br
www.prefeitura.sp.gov.br
portal.mj.gov.br
www.cultura.gov.br
www.diaadiaeducacao.pr.gov.br
www.mds.gov.br
www6.senado.gov.br
Tabela 4.21: Os 20 vértices com os maiores graus de saída do grafo .gov.br.
Vértice
15.150
9.337
10.934
11.395
2.269
5.228
18.763
16.935
8.833
17.651
9.468
17.715
15.490
19.119
16.142
19.201
15.950
15.324
5.158
15.743
Grau de Saída
760
716
535
381
286
230
223
221
212
205
198
195
164
155
138
137
135
133
122
117
Sítio
www.nre.seed.pr.gov.br
www.bibliotecavirtual.sp.gov.br
www.cidadao.pr.gov.br
www.comunidade.diaadia.pr.gov.br
dominios.governoeletronico.gov.br
portaldoprofessor.mec.gov.br
www.turismo.mg.gov.br
www.santur.sc.gov.br
www.almg.gov.br
www.servicos.gov.br
www.brasil.gov.br
www.setur.rs.gov.br
www.pe.gov.br
www1.saude.ba.gov.br
www.prefeitura.sp.gov.br
www2.cultura.gov.br
www.portalconsular.mre.gov.br
www.palmares.gov.br
portal.saude.gov.br
www.pm.pb.gov.br
4.2. RESULTADOS DO GRAFO .GOV.BR
67
Figura 4.17: Graus do grafo.
(a) Graus de entrada
(b) Graus de saída
Figura 4.18: Ranking dos graus do grafo .gov.br.
também ocorreu nos grafos estudados anteriormente. A partir da frequência apresentada
no gráco foram realizados ajustes para se obter o expoente das leis de potência. Para
a distribuição dos graus de entrada foi encontrado o expoente 2,28 mostrado no gráco
da Figura 4.20(a), para a distribuição dos graus de saída foi encontrado o expoente 1,72
exibido na Figura 4.20(b).
A métrica seguinte a ser calculada foi as distâncias entre os vértices. Desta métrica
foi encontrada a distância média 5,91, valor que enquadra a rede da Web governamental
4.2. RESULTADOS DO GRAFO .GOV.BR
68
Figura 4.19: Frequência dos graus de entrada e de saída do grafo .gov.br.
(a) Graus de entrada
(b) Graus de saída
Figura 4.20: Ajuste dos graus do grafo .gov.br.
brasileira no fenômeno small-world. No cálculo também foi encontrada a maior distância
que pode ser percorrida entre dois vértices, valor igual a 19, que representa o diâmetro
do grafo. O diâmetro 19 é um valor alto para um grafo de tais dimensões, este valor
indica a baixa conectividade da rede. Como ocorrido nos resultados dos outros grafos, os
dados de distância são simétricos como mostra a proximidade entre média e mediana e
também pelo baixo coeciente de variação. Dados estatísticos das distâncias são exibidos
detalhadamente na Tabela 4.22.
4.2. RESULTADOS DO GRAFO .GOV.BR
69
Tabela 4.22: Dados estatísticos das distâncias do grafo .gov.br.
Métrica
Distâncias
Menor
1
Maior
19
Média
5,91
Mediana
6
COV
1,16
Tabela 4.23: Quantidade de CFC no grafo .gov.br.
Número de vértices no CFC
5.234
16
9
7
5
4
3
2
Quantidade de CFC
1
1
1
1
2
1
25
168
A última métrica calculada no grafo gerado a partir da Web .gov.br foi a descoberta
de componentes fortemente conectados. Esta métrica resultou na descoberta de 200 CFCs
no grafo, que possuem as dimensões mostradas na Tabela 4.23. Mais uma vez os resultados
obtidos se assemelham com uma característica da Web encontrada na literatura que descreve a grande fragmentação de componentes dentro do grafo da Web [Broder et al. 2000].
Destes componentes, é encontrado um grande componente fortemente conectado e uma
grande quantidade de CFCs com as dimensões bastante reduzidas.
4.2.1 Maior Componente Fortemente Conectado do Grafo .gov.br
Após a análise do grafo completo foi realizada a execução das mesmas métricas no
maior componente fortemente conectado encontrado no grafo. Este CFC possui um total
de 5.234 vértices e 23.255 arestas dirigidas e foi inteiramente extraído do grafo completo
para análises à parte. Iniciando os estudos sobre os graus, foram gerados dados estatísticos
sobre os mesmos, exibidos na Tabela 4.24. Comparando-se esses resultados aos equivalentes
do grafo .gov.br, o valor da média mais que dobrou, este fato apresenta apresenta o CFC
como um grafo mais conectado que o grafo completo. Um dos fatores que inuenciaram este
resultado é a não existência da grandes quantidades de vértices com grau zero, tanto para
entrada quanto para saída, no CFC. O coeciente de variação também apresentou valor
reduzido comparado ao grafo completo, os valores encontrados indicam menor variação
entre os graus dos vértices.
4.2. RESULTADOS DO GRAFO .GOV.BR
70
Tabela 4.24: Dados estatísticos sobre os graus maior do CFC do grafo .gov.br.
Métrica
Grau de entrada
Grau de saída
Menor
1
1
Maior
321
268
Média
4,44
4,44
Mediana
1
2
COV
2,96
2,29
Figura 4.21: Graus do maior CFC do grafo .gov.br.
Deste subgrafo, também nos estudos dos graus de entrada e saída, foi apresentado o
gráco com os eixos em escala logarítmica na Figura 4.21, em que os graus de entrada estão
em contraste com os graus de saída dos vértice. Deste gráco nota-se a mesma distribuição
dos pontos encontrada nos grafos completos .gov.br e .br. Os graus dos vértices também
foram separados por ranking para a visualização de seus valores em ordem decrescente,
como mostram as Figuras 4.22(a) e 4.22(b) que apresentam respectivamente o ranking dos
graus de entrada e o ranking dos graus de saída.
Em seguida, destes graus foram calculadas suas frequências e exibidas na Figura 4.23.
É possível visualizar a maior incidência de graus com valores baixos e depois um decaimento como uma lei de potência, assim como em todos os experimentos anteriores dessa
dissertação. No entanto, para a identicação do expoente das leis de potência foram realizados ajustes nos pontos do gráco. A Figura 4.24(a) apresenta o ajuste dos graus de
entrada do qual foi descoberto o valor 2,01 para o expoente. A Figura 4.24(b) apresenta
4.2. RESULTADOS DO GRAFO .GOV.BR
(a) Graus de entrada
71
(b) Graus de saída
Figura 4.22: Ranking dos graus do CFC do grafo .gov.br.
Figura 4.23: Frequência dos graus do CFC do grafo .gov.br.
o ajuste dos graus de entrada com o expoente 1,79. Um fato observado no estudo é que
em todos os cálculos de graus, a distribuição probabilística destes graus apresentaram uma
lei de potência com expoentes maiores nos graus de entrada que nos graus de saída, em
geral isso indica que existem mais vértices com graus de saída elevados do que com graus
de entrada elevados.
Por m, calculamos as distâncias entre quaisquer dois vértices do subgrafo em estudo.
Os dados descobertos são exibidos na Tabela 4.25. Comparando-as aos dados de distâncias
4.2. RESULTADOS DO GRAFO .GOV.BR
72
(a) Graus de entrada
(b) Graus de saída
Figura 4.24: Ajuste dos graus do maior CFC do grafo .gov.br.
Tabela 4.25: Dados estatísticos das distâncias no maior CFC do grafo .gov.br.
Métrica
Distâncias
Menor
1
Maior
17
Média
5,51
Mediana
5
COV
1,09
obtidas para o grafo .gov.br, os dados mostram pouca diferença, apenas uma redução de
2 no valor do diâmetro e uma pequena redução na média. A pequena diferença encontrada
nos valores da média e do diâmetro sugere que este maior CFC abrange a maior parte do
grafo e que o restante do grafo está desconexo de um grande núcleo ou não é alcançável.
4.2.2 Análise do Grafo .gov.br via Pajek
Após a obtenção dos resultados nos experimentos anteriores, também foi necessário
validar os resultados obtidos para as métricas do grafo .gov.br. Para validar estes resultados, novamente foi utilizado o software Pajek. Como descrito na Seção 3.2, foi criada
uma network de nosso grafo para ser a base dos estudos no Pajek. Ao dar início às análises,
a primeira métrica calculada foi a dos graus de entrada. Para isto é necessária a criação de
uma partição para destacar os graus de entrada dos vértices. A Figura 4.25 apresenta os
vértices com os vinte maiores graus de entrada, que conferem exatamente com os resultados
obtidos em nosso algoritmo, exibidos na Tabela 4.20.
A mesma exatidão foi encontrada nos graus de saída dos vértices. A Figura 4.26 exibe
os vinte vértices com os maiores graus de saída encontrados no Pajek. Desta gura é
possível notar que as colunas Vertex, Cluster e Id são exatamente equivalentes as colunas
Vértice, Graus de saída e Sítio da Tabela 4.21, que foi gerada pelo nosso algoritmo.
4.2. RESULTADOS DO GRAFO .GOV.BR
73
Figura 4.25: Graus de entrada do grafo .gov.br no Pajek.
Figura 4.26: Graus de saída do grafo .gov.br no Pajek.
Pelo Pajek também foi criada uma partição para destacar os clusters que indicam os
componentes fortemente conectados encontrados. Os mesmos 200 CFCs foram encontrados no Pajek, assim como nas execuções de nosso algoritmo. A Figura 4.27 apresenta os
CFCs com pelo menos quatro vértices. Todos componentes exibidos na gura são fortemente conectados, exceto o representado pelo cluster 0, que são os 13.832 vértices que não
pertencem a nenhum CFC. Ao realizar uma comparação, as quantidades de vértices da
coluna Freq da gura são exatamente equivalentes à coluna Número de Vértices no CFC
4.2. RESULTADOS DO GRAFO .GOV.BR
74
Figura 4.27: Componentes fortemente conectados do grafo .gov.br no Pajek.
Tabela 4.26: Dimensões do modelo da gravata no grafo .gov.br.
Componente
SCC
IN
OUT
TUBOS
TENTÁCULOS
DESCONECTADOS
Grafo .gov.br
Quant. Vértices % do Total
5.234 26,8094%
623
3,1911%
12.776 65,4408%
63
0,3227%
761
3,8980%
66
0,3381%
da Tabela 4.23, o que mais uma vez conrma a delidade dos nossos resultados.
No Pajek também foi calculada a distância entre quaisquer dois vértices. Desta métrica
foi identicado o valor 19 para o diâmetro do grafo e distância média de 5,91, exatamente
os mesmos valores encontrados em nosso algoritmo.
Assim como nos experimentos do grafo .br, o Pajek também foi utilizado para identicar a estrutura topológica do grafo .gov.br. Para este grafo também foi encontrada a
estrutura que se assemelha a uma gravata borboleta e as dimensões dos conjuntos podem
ser visualizadas na Tabela 4.26. Os dados da Tabela mostram que o componente OUT é
o maior e o único que não se conecta a nenhum outro componente. Este fato, do ponto de
vista da rede, ao se percorrer o grafo da Web, assim que este componente for alcançado em
algum momento a navegação será interrompida por falta de caminhos a serem percorridos.
O Pajek foi utilizado também para calcular a métrica o betweenness do grafo .gov.br.
O cálculo desta métrica veio por meio da criação de um vetor que armazena o resultado para
cada vértice. A Figura 4.28 apresenta os vinte vértices com os maiores valores de between-
ness. O sítio com o maior valor apresentado se trata do portaldoprofessor.mec.gov.br
com o betweenness 0,0363. Os baixos valores desta métrica, juntamente com o alto valor
do diâmetro do grafo .gov.br, sugerem que o grafo possui pouca variedade de caminhos
a serem percorridos. Assim como ocorre no grafo .br, muitos dos vértices que possuem
4.2. RESULTADOS DO GRAFO .GOV.BR
75
Figura 4.28: Os 20 vértices com os maiores valores de betweenness no grafo .gov.br.
os maiores betweenness também possuem um grande valor nos graus. Mais especicamente os sítios www.brasil.gov.br, portal.saude.gov.br e www.prefeitura.sp.gov.br
estão entre os vinte vértices com os maiores graus de entrada e graus de saída.
Os sítios portal.mec.gov.br, www.cgu.gov.br, www.mma.gov.br, www.ibge.gov.br,
www.portaldatransparencia.gov.br,
www.cultura.gov.br,
www.senado.gov.br e
portal.mj.gov.br estão apenas entre os vinte vértices com os maiores graus
de entrada.
Os sítios portaldoprofessor.mec.gov.br, www.cidadao.pr.gov.br,
www.bibliotecavirtual.sp.gov.br e www.nre.seed.pr.gov.br estão apenas entre os
vinte vértices com os maiores graus de saída.
Ao m dos experimentos do grafo .gov.br no Pajek, foi calculado o coeciente de
agrupamento. Como resultado esta métrica apresentou que dos 19.523 vértices existentes
no grafo, apenas 364 vértices possuem o coeciente de agrupamento de valor 1, ou seja,
existem 364 vértices no grafo em que todos os vizinhos adjacentes de cada vértice estão
conectados entre si. Esta métrica ainda resultou no coeciente de agrupamento médio do
grafo, que é representado pelo valor 0,1530. Este baixo valor indica que de forma geral
os vizinhos adjacentes de cada vértice estão pouco conectados entre si, porém, ainda é
superior aos 0,0921 encontrados no grafo .br.
4.2.3 O Censo da Web Governamental Brasileira
A presente seção deste capítulo de resultados, assim como a Seção 4.1.3, apresenta
estudos realizados para validar os dados obtidos na coleta do Heritrix. Porém, desta vez não
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
76
se referindo à conectividade e sim à quantidade de vértices descobertos, ou contextualizando
pela Web, a quantidade de sítios e domínios descobertos na coleta do .gov.br. Assim
como descrito na Seção 3.4, nossos resultados foram comparados com os fornecidos pelo
órgão regulador de registro de domínios Registro.br [Registro.br 2013] e com um estudo
do Censo da Web Governamental Brasileira realizado pelo Comitê Gestor da Internet no
Brasil [CGI and NIC 2010].
O primeiro resultado obtido foi a quantidade de domínios encontrados nos sítios coletados pelo Heritrix. Dos 19.523 sítios descobertos no conjunto de dados da coleta .gov.br
foram obtidos 828 domínios distintos contidos nestes sítios. Precisamente no dia 8 de abril
de 2014, momento em que esta seção é redigida, estão registrados 1.361 domínios .gov.br
no Registro.br. Isto representa que a coleta realizada alcançou cerca de 60,8% de domínios
existentes na Web governamental brasileira. Um fato que deve ser considerado destes valores é que, do valor total de domínios registrados, muitos deles podem não estar em uso e
sítios que possuem algum dos domínios podem estar desativados. Isto elevaria a porcentagem de domínios descobertos na coleta ao se levar em conta quantidade real de domínios
em uso. Estes fatos caracterizam a coleta .gov.br como um retrato representativo da Web
governamental.
Posteriormente, foram separados os sítios por estados conforme também descrito na
Seção 3.4. Ao se comparar os resultados obtidos com o Censo de 2010 [CGI and NIC 2010],
foi observado que as porcentagens de sítios por estados obtidos em nossos estudos são
equivalentes aos do Censo de 2010. Das poucas exceções, as diferenças mais chamativas
cam por conta dos sítios do Governo Federal (.gov.br) que em nosso estudo apresentou
uma diferença de 14% para um valor próximo de 17,67% e também do estado do Paraná que
reduziu de 17% para 13,44%. As demais porcentagens apresentaram pequena ou nenhuma
diferença dos estudos de 2010 para o presente estudo. As porcentagens de sítios de todos
os estados estão detalhados na Tabela 4.27.
4.3
Comparação entre os grafos .br e .gov.br
A nalização da descrição dos resultados e análises desenvolvidos nesta dissertação é
feita nesta seção, que apresenta uma síntese dos resultados e uma comparação dos grafos
estudados.
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
77
Tabela 4.27: Porcentagem de sítios separados por estado.
Estado
Governo Federal
São Paulo
Paraná
Minas Gerais
Rio Grande do Sul
Santa Catarina
Rio de Janeiro
Bahia
Ceará
Espírito Santo
Pernambuco
Mato Grosso do Sul
Goiás
Pará
Distrito Federal
Tocantins
Sergipe
Paraíba
Alagoas
Amazonas
Rio Grande do Norte
Mato Grosso
Rondônia
Maranhão
Piauí
Acre
Roraima
Amapá
% de sítios do Estudo
18%
16%
13%
7%
6%
5%
4%
4%
3%
2%
2%
2%
2%
2%
1%
1%
1%
1%
1%
1%
1%
1%
1%
1%
1%
0%
0%
0%
% de sítios do Censo
14%
14%
17%
7%
5%
7%
5%
4%
3%
2%
2%
2%
2%
2%
1%
1%
1%
2%
1%
1%
1%
2%
1%
1%
1%
0%
0%
0%
Ao se iniciar pelo grafo .br o primeiro dado de diferença evidente é entre a quantidade
de arcos encontrados no log do Heritrix e número de arcos após no grafo após a modelagem. De 260.927.712 de arcos contidos no log, a quantidade foi reduzida a 1.140.004
no grafo modelado. Este dado evidencia o quanto a Web é desconectada quando trata-se
de conexões entre sítios distintos, uma vez que o grafo modelado só contém arcos que
conectam sítios diferentes. Esta baixa conectividade ca mais evidente ao se comparar o
número médio de arcos por vértices, considerando somente vértices distintos obtém-se o
valor 2,19, ao considerar também os laços e arcos repetidos este valor aumenta para 501,86.
Esta grande diferença também se repete no grafo .gov.br, onde a quantidade de arcos no
log é de 138.366.042 e ocorre uma redução maior, pois o grafo modelado contém somente
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
78
45.304 arcos. A diferença na proporção de arcos por vértices é maior neste grafo da Web
governamental, para o grafo somente com vértices distintos tem-se em média 2,32 arcos
por vértice. Entretanto, se forem adicionados os arcos repetidos e laços a este grafo, a
proporção de arcos por vértices se eleva a 7087,33. Estes fatos citados dão indícios de quão
alta é a conectividade da Web intrasítios, bem como a conectividade da Web é baixa ao
considerarmos sítios distintos.
A partir do processo de modelagem do grafo, também foi possível identicar os sítios que
continham as maiores quantidades de laços, ou seja, as maiores quantidades de hyperlinks
para páginas do mesmo sítio. Este dado apresenta uma grande diferença entre o grafo
.br e grafo .gov.br. No grafo .br foram encontrados 24 sítios, exibidos na Tabela 4.2,
com 5.999 laços, este que é o maior número de laços do grafo. Para o grafo .gov.br
foi descoberto o sítio www.bombeiros-bm.rs.gov.br com a quantidade máxima de laços,
446.423. O maior número de laços em um vértice no grafo .gov.br é alto, maior inclusive
que o maior grau de entrada e maior grau de saída. Este fato apresenta novamente a Web
como uma rede muito conectada apenas entre páginas de um mesmo sítio.
Posteriormente, foram calculadas métricas para investigar a topologia de cada um.
Iniciado pelos graus de entrada, o grafo .br tem o sítio fotoblog.uol.com.br como vértice
de maior grau de entrada, seu grau é 2.977. Quanto ao grafo .gov.br, o sítio que possui
o maior grau de entrada é o www.in.gov.br com o grau 343. Nos dois grafos estes valores
são considerados baixos devido à quantidade de conexões existentes nos grafos.
Em contraste com o grau de entrada, foram calculados os graus de saída nos dois grafos.
Nesta métrica o sítio www.lyrics.com.br representa o vértice de maior grau de saída do
grafo .br, seu grau é 76.351. Para o grafo .gov.br o sítio www.nre.seed.pr.gov.br é o
vértice de maior grau de saída, com o grau 760. Nos dois casos ocorreram que os vértices
possuem maiores conexões de saída do que de entrada nos grafos.
Na literatura é encontrado que a distribuição probabilística dos graus segue uma lei de
potência [Barabási and Albert 1999], [Barabási et al. 2000b]. Em todos os graus dos dois
grafos também foi encontrada uma lei de potência, com os seguinte expoentes:
• Grafo .br
Graus de entrada = 2,24
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
79
Graus de saída = 1,71
Graus de entrada do maior CFC .br = 1,76
Graus de saída do maior CFC = 1,73
• Grafo .gov.br
Graus de entrada = 2,28
Graus de saída = 1,72
Graus de entrada do maior CFC = 2,01
Graus de saída do maior CFC = 1,79
Para os graus de entrada e saída dos dois grafos, foram calculados alguns dados estatísticos que auxiliam na identicação da estrutura topológica dos grafos. Para contrastar com
os maiores graus já apresentados, foram identicados os menores graus tanto de entrada
quanto de saída, e este estudo resultou no valor zero para todos eles. O grau médio de
entrada é 2,19 para o grafo .br e 2,32 para o grafo .gov.br, que são valores próximos ao
levarmos em consideração a grande diferença nas dimensões dos dois grafos. Estes valores
se repetem para os graus médios de saída, pois a soma de todos graus de entrada é igual a
soma de todos graus de saída. No cálculo do coeciente de variação é possível identicar
uma diferença em relação aos graus que não é identicada na média. O grafo .br possui
em seu grau de entrada o coeciente de variação 4,65, que difere muito do coeciente do
grau de saída, representado pelo valor 55,96. O mesmo não acontece no grafo .gov.br que
apresenta o coeciente de variação 3,39 para o grau de entrada e 5,16 para o grau de saída,
uma diferença relativamente pequena.
Cálculos estatísticos também foram executados para os dados de distâncias. Neste
cálculo foi encontrada a distância um, como menor distância para os dois grafos. A maior
distância que pode ser percorrida no grafo também representa o diâmetro do mesmo e
foram encontrados os valores 26 para o grafo .br e 19 para o grafo .gov.br. As distâncias
médias encontradas, 7,66 para o grafo .br e 5,91 para o grafo .gov.br, ambas apresentam
a propriedade de small-world por serem valores próximos a seis.
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
80
Nos estudos seguintes foram calculadas as descobertas de componentes fortemente conectados (CFCs) nos dois grafos. No grafo .br foram encontrados 1.087 CFCs e no
grafo .gov.br foram encontrados 200 CFCs. Em ambos os grafos foram encontrados
um grande CFC e o restante são CFCs com um quantidade reduzida de vértices. Esta
é uma característica encontrada na literatura sobre o grafo da Web [Broder et al. 2000],
[Modesto et al. 2005].
Em continuidade nos estudos, o maior CFC foi extraído dos dois grafos para serem
realizadas as mesmas investigações em separado. Iniciado pelas estatísticas dos graus, foi
identicado o menor grau com valor um, tanto para entrada quanto para saída nos dois
grafos. O maior grau de entrada do CFC do grafo .br é representado pelo valor 2.985, com
um valor superior, o maior grau de saída do CFC é 3.622. No CFC do grafo .gov.br o maior
grau de entrada foi superior ao maior grau de saída, a única ocorrência do estudo. Seu
maior valor de entrada é 321 e o maior valor de saída é 268. Os graus médios encontrados
no CFC do grafo .br apresentaram o valor 7,06, que difere muito do grau médio 2,19
encontrado no grafo completo. Para o CFC do grafo .gov.br foram encontrados os graus
médios 4,44, valor maior que os 2,32 encontrados no grafo completo. Este aumento nos
valores médios dos graus dá-se a inexistência de vértices com grau zero na amostra da qual
foi calculada as médias. Ainda com os dados estatísticos dos graus, foram calculados os
coecientes de variação. No CFC do grafo .br foi encontrado o coeciente de variação 3,33
para os graus de entrada e 4,28 para os graus de saída. Estes dados mostram uma pequena
diferença de variação entre si comparado aos coecientes do grafo completo. No CFC do
grafo .gov.br, também com pouca diferença, foi encontrado o coeciente de variação 2,96
para os graus de entrada e 2,29 para os graus de saída.
Para os CFCs também foram calculadas as estatísticas das distâncias. A menor distância encontrada para os dois CFCs foi a distância um. O diâmetro encontrado no CFC
do grafo .br é representado pelo valor 25, um valor a menos do diâmetro do grafo .br
completo. Esta proximidade dos diâmetros pode indicar que o CFC representa a maior
porcentagem de vértices que podem ser alcançados no grafo. O mesmo também acontece
no grafo .gov.br, em que o diâmetro do mesmo é 17, dois a menos que no grafo completo.
Nestes subgrafos as distâncias médias também caracterizam o fenômeno small-world, com
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
81
a média 7,21 para o CFC do grafo .br e 5,51 para o CFC do grafo .gov.br.
Por m, as últimas investigações realizadas foram a identicação da estrutura topológica, juntamente com os betweenness e coeciente de agrupamento. Na literatura, encontramos nos estudos sobre grafos da Web, o que é chamado de estrutura gravata borboleta
[Broder et al. 2000], [Modesto et al. 2005] e [Donato et al. 2007]. Para a identicação de
tal estrutura, nos dois grafos foi utilizado o software Pajek, do qual serão identicados
os conjuntos CFC, IN, OUT, TENTÁCULOS, TUBOS E DESCONECTADOS. Nos dois
grafos foram identicados porcentagens de vértices semelhantes para todos os conjuntos,
exceto o conjunto TENTÁCULOS do grafo .br. Este conjunto contém quase 30% de vértices do total no grafo .br, em comparação, o grafo .gov.br contém aproximadamente 3,9%
no mesmo conjunto. Do ponto de vista de redes, esta grande quantidade de vértices no
conjunto TENTÁCULOS do grafo .br representa uma grande parte da rede que não pode
alcançar ou não pode ser alcançada por outro componente da rede. Outro fato observado
neste estudo da estrutura do grafo da Web é o quanto o conjunto IN diminuiu a quantidade
de vértices em comparado com os dados contidos na literatura. Nos dois grafos o conjunto
não atingiu 3,2% enquanto em [Donato et al. 2007] este conjunto ocupara cerca de 11%
do grafo.
O betweenness, também calculado no software Pajek, apresentou nos dois grafos valores muito baixos, que não alcançam se quer 0,1. O sítio www.uol.com.br do grafo .br é
o vértice com o maior valor de betweenness, 0,0102. No grafo .gov.br o valor do maior
betweenness é levemente superior e pertence o sítio portaldoprofessor.mec.gov.br com
o betweenness 0,0363. Por m, a última métrica a se comparar é o coeciente de agrupamento, que retornou valores médio baixos para os dois grafos. O coeciente de agrupamento
médio do grafo .br é representado pelo valor 0,0921, bem como o coeciente de agrupamento médio do grafo .gov.br é representado pelo valor 0,1530. Isso indica que o grafo
tem pouco grau de agrupamento, ou seja, os vizinhos adjacentes dos vértices são pouco
conectados entre si.
Esta seção apresentou as considerações sobre os resultados dos experimentos, destacando as principais descobertas realizadas com as análise. O capítulo a seguir apresenta
as conclusões do trabalho e direções para trabalhos futuros.
4.3. COMPARAÇÃO ENTRE OS GRAFOS .BR E .GOV.BR
82
Um fato que deve ser novamente citado refere-se a limitação de estudos de conectividade
da Web utilizando coleta geradas por Web crawlers. É uma característica do crawler não
repetir a varredura de links que referenciam páginas já encontradas, isto ocorre pois o
crawler prioriza mais a descoberta de novas páginas que a forma de como as páginas
conhecidas estão conectadas entre si. Um exemplo prático seria de uma página A que tem
um link para uma página B e uma página C que também tem um link para A. Ao visitar
a página C, o link C→A não será processado pois a página A já foi descoberta. Esta
característica de coletas realizadas por crawling afeta muito o estudo da conectividade da
Web, principalmente no cálculo das métricas de coeciente de agrupamente e betweenness
que muito dependem da conectividade de vértices adjacentes.
Capítulo 5
Conclusão
A presente dissertação apresentou um estudo relacionado à conectividade e à estrutura
topológica da Web brasileira. Os resultados foram obtidos através de métricas calculadas para os diferentes grafos estudados, que são o grafo da Web brasileira (.br), o maior
componente fortemente conectado descoberto neste grafo, o grafo da Web governamental
brasileira, e também seu maior componente fortemente conectado. Os grafos foram modelados a partir de coletas de dados realizadas com o Web Crawler Heritrix. Subgrafos desta
coleta que compõem componentes fortemente conectados do grafo .br foram coletados pelo
software HTTrack, que realiza uma coleta exaustiva da Web, para ns de comparação e
validação da coleta do Heritrix. Com o objetivo de comparar e validar as análises, a partir
dos sítios descobertos nas coletas, foram realizadas diversas comparações com dados do
órgão regulamentador de domínios no Brasil, bem como com dados existentes na bibliograa. As URLs descobertas no grafo .br foram agrupadas por domínios de primeiro nível
e tiveram suas porcentagens comparadas com os dados do Registro.br, bem como os sítios
do grafo .gov.br foram separados por estados e suas porcentagens comparadas com os
dados do Censo da Web Governamental Brasileira.
A conclusão deste trabalho só foi possível após uma série de estudos sobre o universo
que envolve grafos e Web, apresentados no Capítulo 2. Os estudos tiveram início nas
denições de redes complexas, quais são seus tipos e suas características. Posteriormente
foi realizado o estudo sobre grafos, forma utilizada para representar a Web neste estudo.
Dos grafos foram estudadas suas características e as melhores formas de medi-las. Ao m
desta pesquisa bibliográca foi estudado o grafo da Web, seu modelo e conceitos, quais são
suas características, quais os desaos encontrados no estudo e quais os estudos já realizados
83
84
sobre o tema, inclusive da Web brasileira.
Posteriormente foram descritas as etapas desempenhadas que se mostraram necessárias
para a obtenção dos resultados, no Capítulo 3. O capítulo se inicia com uma breve descrição
do Web Crawler que realizou a coleta, bem como a descrição do seu registro de coleta.
Desta coleta foi descrita a forma como são modelados os grafos, assim como as métricas
escolhidas para serem executadas nos grafos e a forma como os resultados foram validados.
Em seguida foram descritas as etapas para a modelagem do grafo a partir da coleta pelo
HTTrack e quais comparações realizadas com o grafo gerado da coleta do Heritrix. Por
m, foi descrito como seriam feitas as comparações entre os resultados obtidos e os dados
contidos na bibliograa.
Para tanto, após a descrição da metodologia o Capítulo 4 apresenta os resultados obtidos divididos basicamente em três partes: resultados do grafo .br, resultados do grafo
.gov.br e uma comparação entre os resultados. Para o grafo .br e seu maior CFC inicialmente são apresentados os resultados obtidos a partir do cálculo das métricas, seguidos
pela validação dos resultados no software Pajek e a comparação com o grafo gerado pela
coleta via HTTrack. A segunda parte do capítulo de resultados se inicia com a apresentação dos resultados da métricas calculadas no grafo .gov.br, seguidos pela validação dos
resultados no software Pajek e a comparação dos dados obtidos com os do Censo da Web
Governamental Brasileira. Por m, o capítulo de resultados é nalizado apresentando uma
comparação entre os principais resultados obtidos nos grafos .br e .gov.br.
Ao m deste estudo, pode-se armar que a proposta deste trabalho de se realizar análise
da conectividade da Web brasileira a partir de subgrafos foi alcançada. Um estudo que se
mostrou promissor justamente por não haver no Brasil nenhum outro estudo sobre a Web
que seja focado na conectividade dos sítios e estrutura topológica da rede.
Por últimas considerações, pode-se dizer que a Web brasileira é uma rede grande,
mutável e pouco conectada em que vértices tendem a se conectar a aqueles que possuem
grandes quantidades de conexões. Só se pode dizer que a Web é muito conectada intrasítios,
pois as maiores quantidades de conexões nela são entre páginas do mesmo sítio, ou seja,
os laços. Em relação as coletas utilizadas no estudo, elas se mostraram representativas
em relação ao número de sítios descobertos. Mesmo com apenas uma amostra do total de
5.1. CONTRIBUIÇÕES
85
sítios existentes na Web brasileira, as porcentagens de domínios destes sítios distribuídos
por DPNs se mostraram equivalentes às porcentagens reais fornecidas pelo Registro.br.
Porém, em relação às ligações entre sítios, pode ser que o conjunto real de conexões entre
sítios distintos seja bem maior.
O modelo de gravata ainda representa a Web como estrutura topológica, porém com
diferenças nas porcentagens dos conjuntos, principalmente no conjunto IN que diminuiu
consideravelmente. Ainda da estrutura topológica foi possível concluir que a Web encontrase mais desconectada que no passado se compararmos com os dados contidos na literatura.
Todas os fatos apresentados nos levam a crer que seria improvável navegar por toda a
Web sem o uso de sistemas de busca e que sem estes sistemas boa parte da Web estaria
inacessível.
5.1
Contribuições
Após a realização de todo o processo descrito anteriormente foi possível identicar as
principais contribuições deste trabalho, que são as descobertas obtidas as partir das análises
dos resultados, mais especicamente:
• Nos graus dos vértices em todos os grafos que foi encontrada a distribuição de lei de potência, fato que já era esperado por ser um característica do
grafo da Web muito descrita na bibliograa [Barabási et al. 2000a], [Chayes 2013],
[Barabási et al. 2000b] e [Boccaletti et al. 2006]. Em todos os grafos estudados nesta
dissertação os expoentes dos graus de entrada são maiores que os expoentes dos graus
de saída, fato até então inexistente na bibliograa. Os expoentes dos graus de entrada
são representados por valores entre 2 e 2,3, exceto o expoente dos graus de entrada
do maior CFC do grafo .br. que tem o valor 1,76, enquanto os expoentes dos graus
de saída variam entre 1,7 e 1,8. Os valores baixos nos expoentes dos graus de saída
indicam maior frequência de vértices com elevados graus de saída em comparação aos
vértices com alto grau de entrada. Das análises dos graus também foi interpretado
que a grande variação dos graus sugere que os vértices se conectam a vértices que já
possuem grandes quantidades de conexões.
• Os graus médios descobertos nos grafos .br e .gov.br, respectivamente represen-
5.1. CONTRIBUIÇÕES
86
tados pelos valores 2,19 e 2,32, são inferiores aos 6,74 encontrados nos estudos de
[Veloso et al. 2000]. Esta que foi a única bibliograa encontrada que deniu numericamente o grau médio.
• A Web se mostrou uma rede bastante fragmentada devido à grande quantidade de
componentes fortemente conectados. Tanto no grafo .br quanto no grafo .gov.br
foram encontrados um grande CFC e numerosos outros com dimensões menores. Os
maiores componentes fortemente conectados dos dois grafos apresentam características semelhantes aos seus grafos completos. Nos grafos e seus maiores CFCs são
encontradas as lei de potência na distribuição da frequência dos graus com expoentes
próximos e valores próximos para o diâmetro. Entretanto, o maior CFC do grafo .br,
que possui o grau médio 7,06, bem como os baixos valores 1,76 e 1,73 dos expoentes
das leis de potência dos graus de entrada e de saída, respectivamente, é o grafo mais
conectado estudado nesta dissertação.
• Todos os grafos estudados se enquadram no fenômeno small-world, com distância
médias que variam entre 5,51 e 7,66, valores menores que os valores próximos de 19
contidos nos estudos de [Barabási et al. 2000a] e [Broder et al. 2000]. Entretanto, os
grafos apresentaram valores elevados de diâmetro que variam entre 19 e 26, bem como
os vértices possuem valores de betweenness baixos que indicam a baixa variedade de
caminhos a serem percorridos nos grafos.
• As estruturas topológicas dos grafos .br e .gov.br ainda são representadas pelo modelo gravata. Porém, o conjunto IN apresenta tamanho pequeno que não representa
sequer 3,2% dos vértices de cada grafo. Isto pode ter ocorrido devido ao crescimento
desordenado da rede desde os estudos apresentados na Seção 2.3. Outro fato descoberto neste estudo foi a grande quantidade de vértices no conjunto TENTÁCULOS,
que representam quase 29,3% do grafo .br. Ao percorrer este trecho do grafo, em
algum momento resultará no m da navegação, pois mais nenhum vértice poderá ser
alcançado.
• O HTTrack realiza uma coleta que representa mais elmente as conexões da Web,
porém, ele é inviável devido ao tempo gasto na coleta e também a limites compu-
5.2. TRABALHOS FUTUROS
87
tacionais. Um exemplo é a execução da coleta dos 69 sites que durou em torno de
18 horas em uma conexão de Internet de 10 Mbit/s e o armazenamento dos sítios
que ocuparam em torno de 3,2 GB de espaço em disco. Apesar da coleta pelo Web
crawler Heritrix ser menos completa que no HTTrack ainda sim a diferença entre
eles foi menor que o esperado, fazendo do Heritrix o software mais recomendado para
realizar grandes coletas para estudos da Web. Este argumento é justicado na coleta
.gov.br por a mesma ter coletado 60,9% dos domínios registrados no Registro.br, o
que torna esta coleta um retrato representativo da Web governamental.
5.2
Trabalhos Futuros
Para trabalhos futuros, sugere-se que sejam realizadas pesquisas complementares à
nossa, que atendam aos seguintes delineamentos:
• Realizar este mesmo estudo acerca da conectividade e estrutura topológica da Web
em uma coleta de universo diferente dos já estudados. Um exemplo seria realizar
os estudos apenas em sítios da Web que pertençam ao domínio de primeiro nível
.blog.br.
• Refazer os estudos da Web brasileira (.br) em coletas de diferentes períodos e realizar
cálculos estatísticos nos resultados com o objetivo de se obter previsões de como
estará estruturada a Web no Futuro.
Referências Bibliográcas
[Alpert and Hajaj 2008] Alpert, J. and Hajaj, N. (2008). We knew the Web was big...
http://googleblog.blogspot.com.br/2008/07/we-knew-web-was-big.html. Acesso
em 29 janeiro 2014.
[Barabási and Albert 1999] Barabási, A. L. and Albert, R. (1999). Emergence of Scaling
in Random Networks. Science, 286(509):111.
[Barabási et al. 2000a] Barabási, A.-L., Albert, R., and Jeong, H. (2000a). Scale-free Characteristics of Random Networks: The Topology of the World-Wide Web. Physica A,
281:6977.
[Barabási et al. 2000b] Barabási, A.-L., Albert, R., Jeong, H., and Bianconi, G. (2000b).
Power-law Distribution of the World Wide Web. Science, 287:12.
[Benevenuto et al. 2011] Benevenuto, F., Almeida, J. M., and Silva, A. S. (2011). Explorando Redes Sociais Online: Da Coleta e Análise de Grandes Bases de Dados às
Aplicações. XXIX Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuí-
dos (SBRC), pages 64102.
[Boccaletti et al. 2006] Boccaletti, S., Latora, V., Moreno, Y., Chavez, M., and Hwang,
D. (2006). Complex Networks: Structure and Dynamics. Physics Reports, 424:175308.
[Broder et al. 2000] Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan, S.,
Stata, R., Tomkins, A., and Wiener, J. (2000). Graph Structure in the Web. Computer
Networks, 33:309320.
[Caldarelli 2007] Caldarelli, G. (2007). Scale-Free Networks: Complex Webs in Nature and
Technology. Oxford University Press.
88
REFERÊNCIAS BIBLIOGRÁFICAS
89
[CGI and NIC 2010] CGI and NIC (2010). Dimensões e Características da Web Brasileira:
Um Estudo do .gov.br.
http://cgi.br/publicacoes/pesquisas/govbr/
cgibr-nicbr-censoweb-govbr-2010.pdf. Acesso em 17 dezembro 2013.
[Chayes 2013] Chayes, J. (2013). Mathematics of Web Science: Structure, Dynamics and
Incentives. Philosophical Transactions of the Royal Society A, 371:14.
[Chung and Lu 2004] Chung, F. and Lu, L. (2004). Complex Graphs and Networks. American Mathematical Society.
[Diestel 2005] Diestel, R. (2005). Graph Theory. Springer-Verlag Heidelberg, New York.
[Dijkstra 1959] Dijkstra, E. W. (1959). A Note on Two Problems in Connection with
Graphs. Numerische Mathematik 1, pages 269271.
[Donato et al. 2007] Donato, D., Laura, L., Leonardi, S., and Millozzi, S. (2007). Graph
Mining: Laws, Generators, and Algorithms. ACM Computing Surveys, 7(1):125.
[Easley and Kleinberg 2010] Easley, D. and Kleinberg, J. (2010). Networks, Crowds, and
Markets: Reasoning About a Highly Connected World. Cambridge University Press.
[Gephi 2008] Gephi (2008). Gephi: An Open Source Graph Visualization and Manipulation Software. https://www.gephi.org. Acesso em 15 agosto 2013.
[GNU 2013] GNU (2013). The GNU Awk User's Guide. http://www.gnu.org/software/
gawk/manual/gawk.html. Acesso em 11 dezembro 2013.
[Gomes and Silva 2003] Gomes, D. and Silva, M. J. (2003). A Characterization of the
Portuguese Web. 3rd ECDL Workshop on Web Archives, pages 114.
[Hofstad 2010] Hofstad, R. V. D. (2010). Random Graphs and Complex Networks. Eindhoven University of Technology, Eindhoven.
[Jack and Binns 2012] Jack, P. and Binns, A. (2012). Heritrix - Internet Archive Webteam Conuence. https://webarchive.jira.com/wiki/display/Heritrix/Heritrix.
Acesso em 31 julho 2013.
REFERÊNCIAS BIBLIOGRÁFICAS
90
[Kumar et al. 2000] Kumar, R., Raghavan, P., Rajagopalan, S., Sivakumar, D., Tompkins,
A., and Upfal, E. (2000). The Web as a Graph. Nineteenth ACM SIGMOD-SIGACT-
SIGART Symposium on Principles of Database Systems, pages 110.
[Modesto et al. 2005] Modesto, M., Álvaro R. Pereira Jr., Ziviani, N., Castillo, C., and
Baeza-Yates, R. (2005). Um Novo Retrato da Web Brasileira. SEMISH, (32):20052017.
[Mohr et al. 2004] Mohr, G., Stack, M., Ranitovic, I., Avery, D., and Kimpton, M. (2004).
An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. Interna-
tional Web Archiving Workshop, (4):115.
[Newman 2003] Newman, M. (2003). The Structure and Function of Complex Networks.
SIAM, (45):167256.
[Newman et al. 2006] Newman, M., Barabási, A.-L., and Watts, D. J. (2006). The Struc-
ture and Dynamics of Networks. Princeton University Press, Princeton - New Jersey.
[Pajek 2013] Pajek (2013). Pajek - Program for Large Network Analysis. http://pajek.
imfm.si/doku.php?id=pajek. Acesso em 12 dezembro 2013.
[Registro.br 2013] Registro.br (2013). Registro de Domínios para a Internet no Brasil.
www.registro.br. Acesso em 20 agosto 2013.
[Rocha 2007] Rocha,
Art
of
D.
Computer
A.
M.
(2007).
Programming.
NazaWiki
-
Kung
Fu
and
the
http://danielamaral.wikidot.com/
paa-2007-1-projeto-1-componentes-fortemente-conectados.
Acesso em 18
junho 2013.
[Roche 2013] Roche, X. (2013). HTTrack Website Copier. http://www.httrack.com/.
Acesso em 16 dezembro 2013.
[Veloso et al. 2000] Veloso, E. A., de Moura, E. S., Golgher, P. B., da Silva, A. S., Almeida,
R. B., Laender, A. H. F., Ribeiro-Neto, B., and Ziviani, N. (2000). Um Retrato da Web
Brasileira. Anais do XXI Seminário Integrado de Hardware e Software (SEMISH 00),
pages 110.
REFERÊNCIAS BIBLIOGRÁFICAS
91
[Vitali et al. 2011] Vitali, S., Glattfelder, J. B., and Battiston, S. (2011). The Network
of Global Corporate Control. http://www.plosone.org/article/info%3Adoi%2F10.
1371%2Fjournal.pone.0025995. Acesso em 19 junho 2013.
[West 2000] West, D. B. (2000). Introduction to Graph Theory. Pearson Education.
Download

html http