00_C&T18.book Page 9 Wednesday, September 10, 2003 3:05 PM
Projeto de Sistema para
Gerenciamento de
Acesso à Web
Project for a Web Management Access System
ANGELA M.C.J. CORRÊA
Universidade Metodista de Piracicaba
[email protected]
MARIA I. DE L. MONTEBELO
Universidade Metodista de Piracicaba
[email protected]
ELISABETE M. D’ÁVILA BARINI
Universidade Metodista de Piracicaba
[email protected]
JOSÉ CARLOS CHRISTOFOLETTI
Universidade Metodista de Piracicaba
[email protected]
SILVIO LUIZ PLOTEGHER
Indústrias Romi S/A
[email protected]
WLADIMIR DA COSTA
Universidade Metodista de Piracicaba
[email protected]
RESUMO – Com o crescente uso dos serviços da internet, principalmente a internet acadêmica da Universidade Metodista
de Piracicaba (IA), o administrador do sistema necessitará cada vez mais de meios que lhe permitam proceder a análises
comportamentais das máquinas computacionais alocadas para fornecer tais serviços. O resultado dessas análises deve servir de auxílio nos processos de tomada de decisão. O projeto em questão vem preencher uma lacuna existente, já que as
ferramentas hoje disponíveis nessa área são de uso mais genérico, não focando seus resultados estatísticos dentro da realidade da IA. Trata-se de estudo aplicado ao Núcleo de Computação da UNIMEP com o objetivo de identificar o comportamento dos usuários e dos tipos e perfis dos serviços oferecidos pela IA. Para tanto, estudou-se o comportamento dos
arquivos Log gerados pelo sistema operacional (SO) e, a partir do estudo, chegou-se a vários resultados estatísticos. A produção de dados fundamenta-se em amostragem estratificada e a análise, em metodologias estatísticas descritivas.
Palavras-chave: ACESSO À WEB – INTERNET – ARQUIVO LOG – ESTATÍSTICA DESCRITIVA – AMOSTRAGEM ESTRATIFICADA –
PROJETO DE SISTEMA.
ABSTRACT – Due to the deployment of all services being offered by the internet, mainly the academic internet of the Universidade Metodista de Piracicaba (IA), the system administrator will require software tools providing him means to proceed in all behavioral analyses of all computer machines allocated to supply such services. The result of these analyses can
be used as an aid in the decision-making-processes. This project intends to fulfill the existent gap, as the available software
tools off-the-shelf are designed for a more generic application and they rarely focus their results as expected by internet academic. This is related to the study conducted mainly to the UNIMEP’s Computer Department in order to identify the characteristics of all users of the system as well as the services offered by the internet academic. The project studied the behavior
off Log files generated by the operating system resulting, in several statistical results. Data aquision is based on stratification
sampling, and data analysis on descriptive statistic.
Keywords: WEB ACESS – INTERNET – LOG FILE – DESCRIPTIVE STATISTIC – STRATIFICATION SAMPLING – SYSTEM PROJECT.
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
9
00_C&T18.book Page 10 Wednesday, September 10, 2003 3:05 PM
INTRODUÇÃO
A
área administrativa, dentro da arquitetura
atual do sistema da IA, em sua configuração,
precisa ser constantemente monitorada em
termos de acessos. Essa monitoração visa um acompanhamento da carga de máquina, ou seja, da disponibilidade de acessos aos usuários. Entretanto,
pela inexistência de ferramentas específicas de análise dentro da realidade da IA e pela não aplicabilidade das ferramentas de uso genérico, por questões
técnicas e de custos, relata-se o desenvolvimento de
um Projeto de Sistema de Gerenciamento de Acessos à Web, para os tratamentos específicos dos
dados produzidos pelo SO.
A arquitetura atual do ambiente computacional dos laboratórios do Núcleo de Computação da
Unimep é constituída, basicamente, de duas estruturas físicas. A primeira estrutura concentra as
máquinas dos Laboratórios de Rede (Rede 1 até
Rede 5), Estação RISC, Laboratório de Estágio
Supervisionado e Laboratório de Orientação (Rede
6 até Rede 9). A segunda estrutura está vinculada à
sala dos servidores. Nela encontram-se dispostas as
máquinas responsáveis pelos serviços de Rede Local
e Serviços da Web. Apesar de toda a malha de rede
constituir-se basicamente de duas arquiteturas, o
Projeto de Sistema de Gerenciamento de Acessos à
Web está afeto somente ao servidor fcti.unimep.br,
já que este é o servidor responsável pelos serviços da
IA (Serviços da Web e FTP).
O Projeto de Sistema para Gerenciamento de
Acessos à Web aqui relatado visa dotar o Laboratório
de Informática do Núcleo de Computação da Faculdade de Ciência e Tecnologia da Informação (FCTI)
da UNIMEP de uma ferramenta de análise comportamental de uso da IA e auxiliar o administrador do
sistema na análise dos serviços prestados. Fornece,
também, meios para previsão de alocação de recursos operacionais e de estrutura computacional em
função das cargas das máquinas (computadores), ou
seja, propõe-se a subsidiar o gerenciamento, o planejamento e as informações para auxiliar o processo de
tomada de decisões.
Justificativa adicional para o desenvolvimento
do projeto é que, atualmente, não há nenhum controle estatístico dos serviços da Web oferecidos pela
IA, nem tampouco pode-se fazer previsão do que se
10
convenciona chamar de carga de máquina, dificultando sobremaneira todo o processo de decisão
relacionado a esses serviços. Da mesma forma, pela
inexistência de controle estatístico, tem sido muito
difícil identificar os pontos críticos dos serviços oferecidos pela Web, o que impede a oferta de melhores serviços aos usuários. Também não há no
mercado ferramentas específicas que produzam
resultados de análise desses serviços, e as ferramentas de uso genérico não se aplicam, posto que o tratamento dos dados produzidos pelo SO é muito
particular da IA.
METODOLOGIA
O presente projeto está baseado na análise dos
arquivos Log (relatórios) gerados pelo SO da IA.
Esses arquivos Log estão no formato padrão ASCII
e dessa forma são interpretados, resultando em
informações fundamentais para a produção e análise de dados.
Os serviços da Web ou FTP podem ser
configurados para registrar os acessos e
atividades do servidor. O Log (Relatório
Padrão Microsoft IIS) pode auxiliar no processo de regulação dos acessos, determinar tipos de acessos, desenvolver planos
de segurança, e ainda pode ser um potencial meio de identificar problemas nos sites.
[...] Os Logs gerados pelo SO podem ser
lidos através de um editor de texto (formato padrão ASCII), podendo assim ser
interpretados por uma ferramenta de SW.
[...] O tipo de Log no formato Microsoft IIS
possui um formato ASCII não customizável,
incluindo itens básicos como User’s IP
Address, User Name, Request Date and
Time. [...] Inclui ainda informações detalhadas
sobre bytes recebidos/enviados. (Manual
Microsoft – About Logging Site Activity,
Help do Sistema Operacional, Microsoft
Corporation, 2000)
A partir dos dados registrados em um arquivo
Log – no caso, dentro do padrão determinado pela
Microsoft (Relatório Padrão Microsoft ISS-SO Windows NT) –, o Projeto de Sistema para Gerenciamento de Acessos à Web faz uso de metodologias da
estatística descritiva, produzindo os resultados estatísticos que são usados na análise do administrador
do sistema.
Dezembro • 2001
00_C&T18.book Page 11 Wednesday, September 10, 2003 3:05 PM
A estatística descritiva pode ser definida
como os métodos que envolvem a coleta,
a apresentação e a caracterização de um
conjunto de dados de modo a descrever,
apropriadamente, as várias características
de um conjunto. [...] Quando a população
se torna grande, é geralmente dispendioso
demais, consome muito tempo e é muito
enfadonho obter informações sobre a
população inteira. Decisões pertinentes às
características da população devem ser
baseadas na informação contida numa
amostra da população. A teoria da probabilidade oferece a ligação, averiguando a probabilidade de que os resultados da amostra
reflitam os resultados da população.
(Levine et al., 2000: 5)
A coleta de dados, no caso constituída pela
interpretação dos eventos registrados pelo arquivo
Log, é parte importante considerada no projeto
deste sistema, pois:
A fase de coleta de dados é uma parte
importante nesse processo, pois se a amostra não contiver informações adequadas,
todo o tratamento estatístico realizado posteriormente não trará informações conclusivas sobre a população sob investigação ou
estudo. Além disso, podem-se tomar decisões erradas quando a amostra não é adequada. (Akanime & Yamamoto, 1998: 8)
O Log gerado pelo SO registra todos os eventos executados pela IA. Entretanto, considerando
que a quantidade de informações registradas pelo
arquivo Log é demasiadamente grande, o projeto
faz uso da amostragem estratificada para a produção de dados, conforme Freund & Simon:
Se dispusermos de dados sobre a composição de uma população, e isto tem importância para a nossa pesquisa, podemos
eventualmente melhorar uma amostragem
aleatória mediante estratificação. Trata-se
de um processo que consiste em estratificar (ou dividir) a população em certo
número de subpopulações que não se
superpõem, chamadas estratos, ou camadas, e extrair uma amostra de cada estrato.
Se os elementos selecionados em cada
estrato constituem amostras aleatórias simples, o processo global – estratificação
seguida de amostragem aleatória – é chamado amostragem aleatória estratificada
(simples). (Freund & Simon, 1997: 185)
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
O Projeto de Sistema para Gerenciamento de
Acesso à Web foi desenvolvido dentro da metodologia da prototipagem não operacional, conforme
Pressman (1987) e Stair (1998). A partir dessa
metodologia, criou-se um modelo de sistema em
que a visualização dos resultados estatísticos interage de forma mais rápida com o usuário. Registrase que:
A prototipagem pode produzir protótipos
operacionais, parcialmente operacionais ou
não-operacionais. [...] Um protótipo nãooperacional normalmente inclui especificações e formatos de saídas e entradas. As
saídas consistem em relatórios impressos
e/ou em telas de computadores. [...] A principal vantagem de um protótipo não-operacional é que ele pode ser desenvolvido
com mais rapidez, [...] permitindo ao usuário do sistema visualizar seus resultados
mais rapidamente. (Stair, 1998: 301)
A produção dos resultados estatísticos e a construção de tabelas e gráficos foram projetadas de forma
a apresentar as informações do modo mais amigável
ao usuário, objetivando guiá-lo para conclusões mais
rápidas. Apesar de o Projeto de Sistema de Gerenciamento de Acessos à Web ser uma ferramenta de uso
específico, a construção dos gráficos e das tabelas de
freqüência foi baseada nas apresentações sugeridas
por Levine et al. (2000) e Corrêa (2000).
Ratifica-se que o Projeto de Sistema para
Gerenciamento de Acessos à Web foi desenvolvido
com a aplicação de métodos estatísticos e o uso da
metodologia da prototipagem não-operacional. As
telas foram geradas pelo software Microsoft Visual
Basic For 32-bit Windows Development. Com as
metodologias estatísticas Amostragem Estratificada
e Estatística Descritiva integradas à prototipação,
analisaram-se os dados contidos nos arquivos Log
(relatórios) gerados pelo SO, disponibilizando-se as
informações produzidas na forma de relatórios
diversos (tabelas de freqüência e gráficos). O projeto
proposto não trabalha com sistema de computação
no sistema de computação em tempo real – ou seja,
a análise das informações (rodando em batch) provenientes dos arquivos Log é computada em uma
base de tempo já transcorrido, não havendo processamento das informações no momento exato em
que um determinado acesso e/ou serviço for solicitado à IA. No entanto, o projeto está estruturado de
11
00_C&T18.book Page 12 Wednesday, September 10, 2003 3:05 PM
forma a permitir, no futuro, análise comportamental em tempo real.
About Logging Site Activity, Help do Sistema Operacional, Microsoft Corporation, 2000).
CARACTERIZAÇÃO
DOS ARQUIVOS LOG
Quadro 1. Critérios para geração dos arquivos Log.
Nº
CRITÉRIO
ARQUIVO LOG GERADO
O arquivo Log gerado pelo SO é um arquivo
do tipo denominado diário. Isso significa que são
registrados todos os eventos a partir da 00:00:00
hora de um dia até as 23:59:59 horas do mesmo
dia, ficando o arquivo Log armazenado em um diretório previamente definido quando da configuração
do SO. Por evento entende-se todos os acessos e serviços realizados e/ou solicitados pelos usuários ao
provedor da IA. Dessa forma, o SO armazena todos
os arquivos Log gerados ao longo do mês e ano, que
são mantidos no mesmo diretório. No ano seguinte,
esse mesmo sistema operacional cria, automaticamente, um novo diretório, no qual armazena todos
os arquivos Log do referido ano, e assim o processo
continua, sucessivamente.
É interessante observar que, como todos os
arquivos Log são mantidos pelo SO, o administrador
pode, a qualquer momento, fazer uma análise comportamental, tomando como amostra o arquivo Log
desejado. Dentro da estrutura dos arquivos Log,
pode-se, então, consultar qualquer Log que se queira.
É preciso lembrar, contudo, que a escolha deve ser
sempre em uma base de tempo já transcorrido.
Para efeito deste estudo, todos os arquivos Log
gerados pelo SO estão contidos no diretório
C:\WINNT\SYSTEM32\LOGFILES\W3SVC1
(estrutura do servidor fcti.unimep.br). Os arquivos
Log gerados são identificados pelo SO com facilidade.
Por exemplo, consideremos que o arquivo desejado é
o arquivo Log IN000402.LOG. Sua localização e
identificação será C:\WINNT\SYSTEM32\LOGFILES\W3SVC1\IN000402.LOG, sendo que IN são as
iniciais do arquivo Log; 00 indica o ano (no caso, o
ano 2000); 04 indica o mês (no caso, abril) e 02
indica o dia (no caso, dia 2). Assim, o arquivo
IN000402.LOG contém todas as informações registradas pelo SO para o dia 2 de abril de 2000, das
00h até as 23:59:59 do mesmo dia. No dia
seguinte, o SO cria outro arquivo Log, identificado
como IN000403.LOG.
O formato do arquivo Log no padrão Microsoft IIS Log Format pode ser configurado em um
dos cinco diferentes critérios para geração de relatórios registrados no quadro 1 (Manual Microsoft –
1
2
3
4
5
12
Por tamanho de arquivo
Registro por hora
Registro diário
Registro semanal
Registro mensal
Inetsvnn.Log
Inyymmddhh.Log
Inyymmdd.Log
Inyymmww.Log
Inyymm.Log
O presente projeto trabalha com o critério
número 3 (registro diário) pois essa é a configuração
atual do provedor da IA. Registra-se que “o processo de Log para o acesso à Web é realizado por
módulos, dentro do SO, operando independentemente de outras atividades do servidor. Consiste no
registro de todas as informações pertinentes aos
acessos realizados na Web, chamado de Logging”
(Manual Microsoft – About Logging Site Activity,
Microsoft Corporation, 2000).
Normalmente, como processo de configuração do sistema de Log, o administrador pode determinar diferentes formatos a serem gerados pelo
processo de Logging – o que é permitido durante a
configuração do SO, habilitando ou desabilitando
determinados diretórios para os sites. No caso do
provedor da Web objeto deste estudo, todos os sites
estão habilitados, o que significa que todos os acessos são possíveis e todos os seus eventos são registrados pelo arquivo Log.
O quadro 2 ilustra o resultado de um arquivo
Log no formato Microsoft IIS Log Format, com
todos os seus campos registrados em um determinado dia (período).
Para efeito da análise da natureza dos serviços
executados pela IA, o projeto selecionou os três
principais. Esses serviços são tratados de Natureza
dos Serviços. Os serviços não classificados dentro
dos selecionados são interpretados pelo projeto
como Outros, de menor importância para a análise
estatística. Os serviços oferecidos estão registrados
no campo do arquivo Log denominado Request
Type. Os serviços selecionados são descritos no quadro 3.
Dezembro • 2001
00_C&T18.book Page 13 Wednesday, September 10, 2003 3:05 PM
Quadro 2. Arquivo Log gerado no modelo Microsoft IIS
Log Format.
CAMPOS
LOG1
LOG2
User´s IP Address
User Name
Date
Time
Service
and Instance
Computer Name
IP Address of Server
Time Taken
Bytes Received
Bytes Sent
Service Status Code
Windows 2000 Status
Code
Request Type
Target of Operation
200.246.52.195
02/04/2000
07:55:20
200.246.52.195
02/04/2000
23:53:11
W3SVC1
W3SVC1
NT02_FCTI
172.21.13.45
4297
332
202
200
NT02_FCTI
172.21.13.45
4391
330
139
200
0
0
GET
/pessoais/
index.htm
GET
/reta_v.gif
Quadro 3. Natureza dos principais serviços executados
pelo provedor.
NATUREZA
DESCRIÇÃO
DOS SERVIÇOS
GET
LOAD
HEAD
OUTROS
Realiza uma operação de busca de
informação na Web. Toda operação de
busca, feita por um determinado usuário. Significa uma requisição ou solicitação de informação.
Realiza uma operação de carga à Web.
Disponibiliza informação no site. Pode
ser realizada pelos usuários que possuem acesso a todas as informações
disponíveis.
Realiza uma operação de atualização ou
de disponibilização de novas informações ao provedor pelo usuário com status de proprietário daquela determinada
informação.
Qualquer outra atividade executada pelo
Servidor fora das três classificações
anteriores.
A descrição do significado de cada campo de
registro contido em um arquivo Log está registrada
no quadro 4.
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
Quadro 4. Descrição do significado de cada campo do
arquivo Log.
CAMPOS
DESCRIÇÃO
Indica o usuário do serviço. Aquele que solicitou o serviço
User Name
Normalmente estará em branco
Data de acesso ao serviço.
Date
Formato dd/mm/aa
Hora de acesso ao serviço.
Time
Formato hh:mm:ss
Service and Ins- Identifica o endereço lógico da máquina
tance
(Servidor)
Identifica o nome lógico da máquina
Computer Name
(Servidor)
IP Address of
Identifica o endereço IP da máquina
Server
(Servidor)
Tempo gasto para estabelecer link de acesso
Time Taken
(dado em ms)
Bytes recebidos pelo Servidor no momento
Bytes Received
da conexão
Bytes Sent
Bytes enviados pelo Servidor ao usuário
Service Status
Código do serviço realizado
Code
Windows Status
Código do SO
Code
Request Type
Natureza do serviço executado
Target of
Endereço IP visitado pelo usuário
Operation
User´s IP Address
TRATAMENTO
DAS INFORMAÇÕES
No processo de produção de dados a partir
do arquivo Log desejado, o projeto prevê que as
informações não necessárias à análise estatística
sejam filtradas. Isso significa que, como parte inicial
do processo de produção de dados, alguns campos
do arquivo Log serão eliminados, por não possuírem significado para o objetivo proposto. O quadro
5 apresenta todos os campos do arquivo Log, sendo
que campo identifica os registros do arquivo Log;
tipo identifica a natureza da informação – quantitativa ou qualitativa – e status identifica se a variável
será usada (significando que é válida para a análise
estatística proposta pelo projeto) ou filtrada (significando que não tem importância para a análise estatística) no processo inicial de análise.
13
00_C&T18.book Page 14 Wednesday, September 10, 2003 3:05 PM
Quadro 5. Definição dos campos usados no processo de
análise, filtragem e tipo das variáveis.
CAMPO
TIPO
STATUS
User´s IP Address
User Name
Date
Time
Service and Instance
Computer Name
IP Address of Server
Time Taken
Bytes Received
Bytes Sent
Service Status Code
Windows Status Code
Request Type
Target of Operation
Qualitativa
Quantitativa
Quantitativa
Quantitativa
Quantitativa
Quantitativa
Qualitativa
Qualitativa
Usada
Filtrada
Usada
Usada
Filtrada
Filtrada
Filtrada
Usada
Usada
Usada
Filtrada
Filtrada
Usada
Usada
Como parte do processo de filtragem das
informações desnecessárias à produção de dados
primários, o projeto prevê a criação de um arquivo
temporário de dados denominado Log.Tmp, no
qual são armazenados, para as fases posteriores,
todos os registros a ser utilizados na análise. A figura
1 ilustra o fluxograma inicial do processo de produção de dados primários. Nesse fluxograma, existem
blocos principais, conforme mostra o quadro 6.
Fig. 1. Fluxograma inicial do processo de produção de
dados primários.
Início
Seleção do arquivo
Log
Filtragem das
informações
Geração de arquivo
temporário (Log. Tmp)
Aplicações das
rotinas de análise
Visualização dos
resultados
Fim
14
Quadro 6. Apresentação descritiva do fluxo básico de leitura, filtragem, geração do arquivo temporário,
rotinas de análise e visualização dos resultados.
TAREFAS
DESCRIÇÃO
Usuário seleciona o arquivo Log desejado.
Isto significa que o primeiro arquivo Log de
uma semana já transcorrida deve ser
escolhida pelo usuário.
Filtragem
Processo de eliminação dos campos
das Informações
desnecessários. Veja Quadro 5.
Gera arquivo temporário para uso posterior. Este é o arquivo, já filtrado, que conGeração de Arquivo
tém todas as informações dos Log
Temporário
acumulados durante a semana escolhida.
Log.Tmp
Veja Metodologia de Produção e Análise de
Dados.
Executa, a partir da seleção pelo usuário,
as análises estatísticas. Estas são as funAplicações das
ções estatísticas produzidas pelo projeto.
rotinas de Análise Veja Quadro 9 – Sumário das funções disponíveis pelo Gerenciamento Estatístico de
Acessos a Web.
Visualização dos resultados estatísticos
Visualização
produzidos através de tabelas de freqüêndos Resultados
cia e gráficos.
Seleção
do Arquivo Log
Os registros que devem permanecer após o
processo denominado de filtragem, como demonstrado no quadro 5, são aqueles que o projeto manipula para a produção dos resultados estatísticos.
DESENVOLVIMENTO DO SISTEMA
Os dados a ser analisados são todas as informações restantes do processo de filtragem do
arquivo denominado Log.Tmp de um certo
número de subpopulações que não se superpõem,
posto que são informações incrementais, mudando
ao longo do tempo, obtidas por amostragem estratificada proporcional com seleção sistemática
(Freund & Simon, 1997). Observa-se que a população alvo, constituída pelo conjunto de informações
do arquivo Log.Tmp, é quantificada em megabytes.
Considerando o volume de dados contidos
no Log, que todos os acessos são registrados e que a
resolução do sistema, para registro da hora do
acesso, é de um segundo, chegou-se empiricamente
ao valor de 20% para a estratificação proporcional.
Isso significa que, para cada cinco acessos registrados no Log, será extraído o primeiro acesso para a
amostra objeto de análise.
Dezembro • 2001
00_C&T18.book Page 15 Wednesday, September 10, 2003 3:05 PM
O Projeto de Sistema para Gerenciamento de
Acesso à Web prevê sempre a análise estatística em
lote do período de uma semana, iniciando-se sempre em uma segunda-feira. Dessa forma, a amostra
deve ser sempre obtida de modo a que a seleção de
um arquivo Log coincida com o início de uma dada
semana. Como o sistema projetado não estará operando em tempo real, a seleção da amostra deve,
obrigatoriamente, levar em conta o período de uma
semana já transcorrido. A seleção dos arquivos Log
se dá na forma de seleção semanal, isto é, por numeração da semana. Considerando-se, como ilustração, outubro de 2000 e que a semana 41 se inicia no
domingo, o gerenciamento fará a análise dos arquivos Log a partir da segunda-feira, dia 9 de outubro.
A partir dessa data, o gerenciamento de acessos será
processado do dia 9 até o dia 15 de outubro, como
pode ser observado na tabela 1. Isso significa que
todo o processamento computacional (seleção, filtragem e produção dos resultados) será tomado dos
arquivos Log IN001009.LOG, IN001010.LOG,
IN001011.LOG, IN001012.LOG, IN001013.LOG,
IN001014.LOG e o IN001015.LOG, gerando o
arquivo Log.Tmp.
Tab. 1. Calendário do mês de outubro de 2000, com a disposição do número das semanas.
OUTUBRO/2000
1
8
15
22
29
2
9
16
23
30
3
10
17
24
31
4
11
18
25
1
5
12
19
26
2
SEMANA
6
13
20
27
3
7
14
21
28
4
40
41
42
43
44
Considerando que a seleção de informações
para análise a partir do arquivo Log será feita de
forma estratificada, ela se dará pela divisão em quatro estratos temporais. A divisão em estratos, como
mostrado no quadro 7, objetiva identificar melhor o
comportamento dos acessos à IA dentro e fora do
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
período regular de aula. Cada estrato conterá parte
da população geral de informações de interesse a
cada seis horas.
Quadro 7. Demonstrativo dos estratos produzidos em função dos horários pela estratificação definida.
1º ESTRATO 2º ESTRATO 3º ESTRATO 4º ESTRATO
00:00:01 06:00:00 -
06:00:01 12:00:00 -
12:00:01 18:00:00 -
18:00:01 24:00:00 -
Observa-se que o Projeto do Sistema de
Gerenciamento de Acessos à Web produz diversos
resultados estatísticos, que estão resumidos no quadro 8.
Esses resultados podem ser visualizados em
tabelas de freqüência e gráficos para cada uma
das funções definidas no quadro 8, e todas elas
podem ser acessadas por meio de diversas telas
criadas pelo projeto. Como ilustração dos resultados produzidos, apresenta-se as várias figuras a
seguir. A figura 2 ilustra uma das páginas de
acesso. No caso, tem-se a página que dá acesso à
função 7 (quantidade de bytes recebidos para o
estrato 1).
A figura 3 apresenta o resultado da geração da
informação referente à função 7 (quantidade de
bytes recebidos para o estrato 1). Esses resultados
são apresentados pelo projeto de três formas: 1. um
gráfico de setores para a distribuição percentual do
estrato (quantidade de bytes recebidos); 2. um gráfico de barras apresentando a quantidade de bytes
gastos por natureza de serviço, com distribuição
durante a semana; e 3. uma tabela de freqüência
com o total dos bytes recebidos no mesmo período.
Outro resultado gerado pelo projeto pode
ser visualizado nas figuras 4 e 5. A figura 4 ilustra
a página de acesso da função 2 (origem dos acessos). Através dessa tela, o projeto permite que se
visualize a origem dos acessos. No caso, apresenta-se a origem dos acessos para o NCU.
15
00_C&T18.book Page 16 Wednesday, September 10, 2003 3:05 PM
Quadro 8. Sumário das funções disponíveis pelo Gerenciamento Estatístico de Acessos à Web.
Nº DA FUNÇÃO
FUNÇÃO
1
2
3
4
5
6
7
8
9
Total de acessos por estrato. Registra a quantidade de acessos ocorridos em cada estrato nos dias da semana. Apresenta ainda a totalização dos acessos por dia e na semana, apresentando ainda a sua distribuição percentual.
Origem dos acessos – Identifica a origem dos acessos a IA, sendo esses, basicamente, de 5 (cinco) tipos diferentes.
O Núcleo de Computação da UNIMEP (NCU); os externos; os de outros departamentos da UNIMEP; os de origem confidencial e os classificados como Outros.
Quantidade de serviços executados, natureza dos serviços e tabela de freqüência. Neste caso o projeto prevê a classificação dos tipos de serviços em 4 (quatro), quais sejam, a função GET; a função LOAD; a função HEAD e as funções classificadas como OUTROS.
Horário de pico dos acessos (dentro de um estrato). É definido pela maior quantidade de acessos ocorrido em um
estrato no intervalo de uma (1) hora. Ainda para esta função, o projeto registra, para aquele dado horário de pico,
quais foram os serviços executados (GET;LOAD;HEAD ou OUTROS).
Determinação do valor mais freqüente da natureza dos serviços (GET;LOAD;HEAD ou OUTROS)
Área mais visitada. Registra as últimas dez (10) áreas mais visitadas. Nesse caso, o administrador do sistema pode
selecionar previamente quais as áreas que pretende monitorar.
Quantidade de bytes recebidos/bytes enviados pelo servidor por natureza de serviço. Registra a totalização dos bytes
recebidos/enviados pelo servidor/para usuário ao estabelecer o link de comunicação.
Tempo gasto por acesso à CPU em função da natureza do serviço. Os tempos registrados no arquivo Log estão em
milisegundos.
Gráfico de tendência mensal. Registro dos tempos acumulados de acesso à CPU por natureza de serviço, fornecendo
também a totalização dos tempos.
Fig. 2. Tela de acesso à função 7 – quantidade de bytes recebidos para o estrato 1.
16
Dezembro • 2001
00_C&T18.book Page 17 Wednesday, September 10, 2003 3:05 PM
Fig. 3. Tela da função 7 – quantidade de bytes recebidos/enviados pelo servidor por natureza de serviço. Apresentação dos
resultados por meio de gráfico de setores, gráfico de barras e tabela de freqüência.
Fig. 4. Tela de acesso à função 2 – origem dos acessos (NCU).
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
17
00_C&T18.book Page 18 Wednesday, September 10, 2003 3:05 PM
Fig. 5. Tela de resultados produzidos pela função 2 (origem dos acessos – NCU). Apresentação dos resultados por meio
de gráfico de barras e tabelas de freqüência.
Já a figura 5 apresenta o resultado da geração
da informação origem de acesso de quatro maneiras: 1. um gráfico de barras, com a distribuição percentual de todas as origens dos acessos (nesse caso, o
administrador do sistema pode visualizar, para a origem selecionada, qual sua distribuição percentual
comparada às demais origens); 2. um gráfico de barras apresentando a quantidade de acessos diários
ocorridos; 3. uma tabela de freqüência com a totalização dos acessos; e 4. uma segunda tabela de freqüência, para a totalização de todas as origens dos
acessos na semana.
CONSIDERAÇÕES FINAIS
O projeto disponibilizou ao Núcleo de Computação da Universidade Metodista de Piracicaba
uma importante ferramenta de análise comportamental de sua IA. Por ter sido desenvolvido de
forma a produzir resultados estatísticos relevantes e
de acesso amigável, constitui importante ferramenta
de auxílio ao processo de tomada de decisão, permitindo ao administrador do setor monitorar constan18
temente o perfil de utilização de todos os recursos
disponíveis na IA.
Resultados como horários de pico por
estrato permitem ao administrador identificar
diretamente os períodos em que há maior
concentração de uso, podendo agir prontamente
para a disponibilização de recursos ou, ainda,
identificar possíveis congestionamentos na rede.
Conhecer a natureza dos serviços mais solicitados
permite identificar a necessidade de expandir a
capacidade do sistema, em termos de meios físicos de armazenamento. Esses são apenas alguns
exemplos da importância da ferramenta projetada, função intrínseca deste Projeto de Sistema
para Gerenciamento de Acesso à Web.
É possível registrar, ainda, que, dada a importância do Projeto de Sistema para Gerenciamento
de Acesso à Web para o ambiente de gerenciamento
da IA, ele poderá ter continuidade posterior, viabilizando o desenvolvimento de um sistema em tempo
real, ou mesmo ser expandido para outros serviços
ou acessos à Web.
Dezembro • 2001
00_C&T18.book Page 19 Wednesday, September 10, 2003 3:05 PM
REFERÊNCIAS BIBLIOGRÁFICAS
AKANIME, C.T. & YAMAMOTO, R.K. Estatística Descritiva. São Paulo: Érica, 1998.
CORRÊA, A.M.C.J. Conceitos Básicos de Estatística Descritiva para Análise Exploratória de Dados (Notas de Aulas). Piracicaba:
FCTI-UNIMEP, 2000 [digitado].
FREUND, J.E. & SIMON, G.A. Estatística Aplicada. Trad. A.A. Farias. Porto Alegre: Bookman, 1997.
LEVINE, D.M.; BERENSON, M.L. & STEPHAN, D. Estatística: teoria e aplicações. Trad. C.P. de Souza. Rio de Janeiro: LTC,
2000.
Manual Microsoft. About Logging Site Activity – conceitos básicos sobre sistemas de Log para provedores Web e SFTP. Microsoft
Corporation, 2000.
PRESSMAN, R.S. Software Engineering – a practitioner’s approach. 2.ª ed. Singapore: McGraw Hill International Editions,
1987.
Software Microsoft Visual Basic For 32-bit Windows Development. Microsoft Corporation, 1997.
STAIR, R.M. Princípios de Sistemas de Informação – uma abordagem gerencial. Trad. M.L.I. Vieira (cap. 1-8) & D.C. de Alencar
(cap. 9-16). Rio de Janeiro: LTC, 1998.
REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12
19
00_C&T18.book Page 20 Wednesday, September 10, 2003 3:05 PM
20
Dezembro • 2001
Download

Projeto de Sistema para Gerenciamento de Acesso à Web