00_C&T18.book Page 9 Wednesday, September 10, 2003 3:05 PM Projeto de Sistema para Gerenciamento de Acesso à Web Project for a Web Management Access System ANGELA M.C.J. CORRÊA Universidade Metodista de Piracicaba [email protected] MARIA I. DE L. MONTEBELO Universidade Metodista de Piracicaba [email protected] ELISABETE M. D’ÁVILA BARINI Universidade Metodista de Piracicaba [email protected] JOSÉ CARLOS CHRISTOFOLETTI Universidade Metodista de Piracicaba [email protected] SILVIO LUIZ PLOTEGHER Indústrias Romi S/A [email protected] WLADIMIR DA COSTA Universidade Metodista de Piracicaba [email protected] RESUMO – Com o crescente uso dos serviços da internet, principalmente a internet acadêmica da Universidade Metodista de Piracicaba (IA), o administrador do sistema necessitará cada vez mais de meios que lhe permitam proceder a análises comportamentais das máquinas computacionais alocadas para fornecer tais serviços. O resultado dessas análises deve servir de auxílio nos processos de tomada de decisão. O projeto em questão vem preencher uma lacuna existente, já que as ferramentas hoje disponíveis nessa área são de uso mais genérico, não focando seus resultados estatísticos dentro da realidade da IA. Trata-se de estudo aplicado ao Núcleo de Computação da UNIMEP com o objetivo de identificar o comportamento dos usuários e dos tipos e perfis dos serviços oferecidos pela IA. Para tanto, estudou-se o comportamento dos arquivos Log gerados pelo sistema operacional (SO) e, a partir do estudo, chegou-se a vários resultados estatísticos. A produção de dados fundamenta-se em amostragem estratificada e a análise, em metodologias estatísticas descritivas. Palavras-chave: ACESSO À WEB – INTERNET – ARQUIVO LOG – ESTATÍSTICA DESCRITIVA – AMOSTRAGEM ESTRATIFICADA – PROJETO DE SISTEMA. ABSTRACT – Due to the deployment of all services being offered by the internet, mainly the academic internet of the Universidade Metodista de Piracicaba (IA), the system administrator will require software tools providing him means to proceed in all behavioral analyses of all computer machines allocated to supply such services. The result of these analyses can be used as an aid in the decision-making-processes. This project intends to fulfill the existent gap, as the available software tools off-the-shelf are designed for a more generic application and they rarely focus their results as expected by internet academic. This is related to the study conducted mainly to the UNIMEP’s Computer Department in order to identify the characteristics of all users of the system as well as the services offered by the internet academic. The project studied the behavior off Log files generated by the operating system resulting, in several statistical results. Data aquision is based on stratification sampling, and data analysis on descriptive statistic. Keywords: WEB ACESS – INTERNET – LOG FILE – DESCRIPTIVE STATISTIC – STRATIFICATION SAMPLING – SYSTEM PROJECT. REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 9 00_C&T18.book Page 10 Wednesday, September 10, 2003 3:05 PM INTRODUÇÃO A área administrativa, dentro da arquitetura atual do sistema da IA, em sua configuração, precisa ser constantemente monitorada em termos de acessos. Essa monitoração visa um acompanhamento da carga de máquina, ou seja, da disponibilidade de acessos aos usuários. Entretanto, pela inexistência de ferramentas específicas de análise dentro da realidade da IA e pela não aplicabilidade das ferramentas de uso genérico, por questões técnicas e de custos, relata-se o desenvolvimento de um Projeto de Sistema de Gerenciamento de Acessos à Web, para os tratamentos específicos dos dados produzidos pelo SO. A arquitetura atual do ambiente computacional dos laboratórios do Núcleo de Computação da Unimep é constituída, basicamente, de duas estruturas físicas. A primeira estrutura concentra as máquinas dos Laboratórios de Rede (Rede 1 até Rede 5), Estação RISC, Laboratório de Estágio Supervisionado e Laboratório de Orientação (Rede 6 até Rede 9). A segunda estrutura está vinculada à sala dos servidores. Nela encontram-se dispostas as máquinas responsáveis pelos serviços de Rede Local e Serviços da Web. Apesar de toda a malha de rede constituir-se basicamente de duas arquiteturas, o Projeto de Sistema de Gerenciamento de Acessos à Web está afeto somente ao servidor fcti.unimep.br, já que este é o servidor responsável pelos serviços da IA (Serviços da Web e FTP). O Projeto de Sistema para Gerenciamento de Acessos à Web aqui relatado visa dotar o Laboratório de Informática do Núcleo de Computação da Faculdade de Ciência e Tecnologia da Informação (FCTI) da UNIMEP de uma ferramenta de análise comportamental de uso da IA e auxiliar o administrador do sistema na análise dos serviços prestados. Fornece, também, meios para previsão de alocação de recursos operacionais e de estrutura computacional em função das cargas das máquinas (computadores), ou seja, propõe-se a subsidiar o gerenciamento, o planejamento e as informações para auxiliar o processo de tomada de decisões. Justificativa adicional para o desenvolvimento do projeto é que, atualmente, não há nenhum controle estatístico dos serviços da Web oferecidos pela IA, nem tampouco pode-se fazer previsão do que se 10 convenciona chamar de carga de máquina, dificultando sobremaneira todo o processo de decisão relacionado a esses serviços. Da mesma forma, pela inexistência de controle estatístico, tem sido muito difícil identificar os pontos críticos dos serviços oferecidos pela Web, o que impede a oferta de melhores serviços aos usuários. Também não há no mercado ferramentas específicas que produzam resultados de análise desses serviços, e as ferramentas de uso genérico não se aplicam, posto que o tratamento dos dados produzidos pelo SO é muito particular da IA. METODOLOGIA O presente projeto está baseado na análise dos arquivos Log (relatórios) gerados pelo SO da IA. Esses arquivos Log estão no formato padrão ASCII e dessa forma são interpretados, resultando em informações fundamentais para a produção e análise de dados. Os serviços da Web ou FTP podem ser configurados para registrar os acessos e atividades do servidor. O Log (Relatório Padrão Microsoft IIS) pode auxiliar no processo de regulação dos acessos, determinar tipos de acessos, desenvolver planos de segurança, e ainda pode ser um potencial meio de identificar problemas nos sites. [...] Os Logs gerados pelo SO podem ser lidos através de um editor de texto (formato padrão ASCII), podendo assim ser interpretados por uma ferramenta de SW. [...] O tipo de Log no formato Microsoft IIS possui um formato ASCII não customizável, incluindo itens básicos como User’s IP Address, User Name, Request Date and Time. [...] Inclui ainda informações detalhadas sobre bytes recebidos/enviados. (Manual Microsoft – About Logging Site Activity, Help do Sistema Operacional, Microsoft Corporation, 2000) A partir dos dados registrados em um arquivo Log – no caso, dentro do padrão determinado pela Microsoft (Relatório Padrão Microsoft ISS-SO Windows NT) –, o Projeto de Sistema para Gerenciamento de Acessos à Web faz uso de metodologias da estatística descritiva, produzindo os resultados estatísticos que são usados na análise do administrador do sistema. Dezembro • 2001 00_C&T18.book Page 11 Wednesday, September 10, 2003 3:05 PM A estatística descritiva pode ser definida como os métodos que envolvem a coleta, a apresentação e a caracterização de um conjunto de dados de modo a descrever, apropriadamente, as várias características de um conjunto. [...] Quando a população se torna grande, é geralmente dispendioso demais, consome muito tempo e é muito enfadonho obter informações sobre a população inteira. Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. A teoria da probabilidade oferece a ligação, averiguando a probabilidade de que os resultados da amostra reflitam os resultados da população. (Levine et al., 2000: 5) A coleta de dados, no caso constituída pela interpretação dos eventos registrados pelo arquivo Log, é parte importante considerada no projeto deste sistema, pois: A fase de coleta de dados é uma parte importante nesse processo, pois se a amostra não contiver informações adequadas, todo o tratamento estatístico realizado posteriormente não trará informações conclusivas sobre a população sob investigação ou estudo. Além disso, podem-se tomar decisões erradas quando a amostra não é adequada. (Akanime & Yamamoto, 1998: 8) O Log gerado pelo SO registra todos os eventos executados pela IA. Entretanto, considerando que a quantidade de informações registradas pelo arquivo Log é demasiadamente grande, o projeto faz uso da amostragem estratificada para a produção de dados, conforme Freund & Simon: Se dispusermos de dados sobre a composição de uma população, e isto tem importância para a nossa pesquisa, podemos eventualmente melhorar uma amostragem aleatória mediante estratificação. Trata-se de um processo que consiste em estratificar (ou dividir) a população em certo número de subpopulações que não se superpõem, chamadas estratos, ou camadas, e extrair uma amostra de cada estrato. Se os elementos selecionados em cada estrato constituem amostras aleatórias simples, o processo global – estratificação seguida de amostragem aleatória – é chamado amostragem aleatória estratificada (simples). (Freund & Simon, 1997: 185) REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 O Projeto de Sistema para Gerenciamento de Acesso à Web foi desenvolvido dentro da metodologia da prototipagem não operacional, conforme Pressman (1987) e Stair (1998). A partir dessa metodologia, criou-se um modelo de sistema em que a visualização dos resultados estatísticos interage de forma mais rápida com o usuário. Registrase que: A prototipagem pode produzir protótipos operacionais, parcialmente operacionais ou não-operacionais. [...] Um protótipo nãooperacional normalmente inclui especificações e formatos de saídas e entradas. As saídas consistem em relatórios impressos e/ou em telas de computadores. [...] A principal vantagem de um protótipo não-operacional é que ele pode ser desenvolvido com mais rapidez, [...] permitindo ao usuário do sistema visualizar seus resultados mais rapidamente. (Stair, 1998: 301) A produção dos resultados estatísticos e a construção de tabelas e gráficos foram projetadas de forma a apresentar as informações do modo mais amigável ao usuário, objetivando guiá-lo para conclusões mais rápidas. Apesar de o Projeto de Sistema de Gerenciamento de Acessos à Web ser uma ferramenta de uso específico, a construção dos gráficos e das tabelas de freqüência foi baseada nas apresentações sugeridas por Levine et al. (2000) e Corrêa (2000). Ratifica-se que o Projeto de Sistema para Gerenciamento de Acessos à Web foi desenvolvido com a aplicação de métodos estatísticos e o uso da metodologia da prototipagem não-operacional. As telas foram geradas pelo software Microsoft Visual Basic For 32-bit Windows Development. Com as metodologias estatísticas Amostragem Estratificada e Estatística Descritiva integradas à prototipação, analisaram-se os dados contidos nos arquivos Log (relatórios) gerados pelo SO, disponibilizando-se as informações produzidas na forma de relatórios diversos (tabelas de freqüência e gráficos). O projeto proposto não trabalha com sistema de computação no sistema de computação em tempo real – ou seja, a análise das informações (rodando em batch) provenientes dos arquivos Log é computada em uma base de tempo já transcorrido, não havendo processamento das informações no momento exato em que um determinado acesso e/ou serviço for solicitado à IA. No entanto, o projeto está estruturado de 11 00_C&T18.book Page 12 Wednesday, September 10, 2003 3:05 PM forma a permitir, no futuro, análise comportamental em tempo real. About Logging Site Activity, Help do Sistema Operacional, Microsoft Corporation, 2000). CARACTERIZAÇÃO DOS ARQUIVOS LOG Quadro 1. Critérios para geração dos arquivos Log. Nº CRITÉRIO ARQUIVO LOG GERADO O arquivo Log gerado pelo SO é um arquivo do tipo denominado diário. Isso significa que são registrados todos os eventos a partir da 00:00:00 hora de um dia até as 23:59:59 horas do mesmo dia, ficando o arquivo Log armazenado em um diretório previamente definido quando da configuração do SO. Por evento entende-se todos os acessos e serviços realizados e/ou solicitados pelos usuários ao provedor da IA. Dessa forma, o SO armazena todos os arquivos Log gerados ao longo do mês e ano, que são mantidos no mesmo diretório. No ano seguinte, esse mesmo sistema operacional cria, automaticamente, um novo diretório, no qual armazena todos os arquivos Log do referido ano, e assim o processo continua, sucessivamente. É interessante observar que, como todos os arquivos Log são mantidos pelo SO, o administrador pode, a qualquer momento, fazer uma análise comportamental, tomando como amostra o arquivo Log desejado. Dentro da estrutura dos arquivos Log, pode-se, então, consultar qualquer Log que se queira. É preciso lembrar, contudo, que a escolha deve ser sempre em uma base de tempo já transcorrido. Para efeito deste estudo, todos os arquivos Log gerados pelo SO estão contidos no diretório C:\WINNT\SYSTEM32\LOGFILES\W3SVC1 (estrutura do servidor fcti.unimep.br). Os arquivos Log gerados são identificados pelo SO com facilidade. Por exemplo, consideremos que o arquivo desejado é o arquivo Log IN000402.LOG. Sua localização e identificação será C:\WINNT\SYSTEM32\LOGFILES\W3SVC1\IN000402.LOG, sendo que IN são as iniciais do arquivo Log; 00 indica o ano (no caso, o ano 2000); 04 indica o mês (no caso, abril) e 02 indica o dia (no caso, dia 2). Assim, o arquivo IN000402.LOG contém todas as informações registradas pelo SO para o dia 2 de abril de 2000, das 00h até as 23:59:59 do mesmo dia. No dia seguinte, o SO cria outro arquivo Log, identificado como IN000403.LOG. O formato do arquivo Log no padrão Microsoft IIS Log Format pode ser configurado em um dos cinco diferentes critérios para geração de relatórios registrados no quadro 1 (Manual Microsoft – 1 2 3 4 5 12 Por tamanho de arquivo Registro por hora Registro diário Registro semanal Registro mensal Inetsvnn.Log Inyymmddhh.Log Inyymmdd.Log Inyymmww.Log Inyymm.Log O presente projeto trabalha com o critério número 3 (registro diário) pois essa é a configuração atual do provedor da IA. Registra-se que “o processo de Log para o acesso à Web é realizado por módulos, dentro do SO, operando independentemente de outras atividades do servidor. Consiste no registro de todas as informações pertinentes aos acessos realizados na Web, chamado de Logging” (Manual Microsoft – About Logging Site Activity, Microsoft Corporation, 2000). Normalmente, como processo de configuração do sistema de Log, o administrador pode determinar diferentes formatos a serem gerados pelo processo de Logging – o que é permitido durante a configuração do SO, habilitando ou desabilitando determinados diretórios para os sites. No caso do provedor da Web objeto deste estudo, todos os sites estão habilitados, o que significa que todos os acessos são possíveis e todos os seus eventos são registrados pelo arquivo Log. O quadro 2 ilustra o resultado de um arquivo Log no formato Microsoft IIS Log Format, com todos os seus campos registrados em um determinado dia (período). Para efeito da análise da natureza dos serviços executados pela IA, o projeto selecionou os três principais. Esses serviços são tratados de Natureza dos Serviços. Os serviços não classificados dentro dos selecionados são interpretados pelo projeto como Outros, de menor importância para a análise estatística. Os serviços oferecidos estão registrados no campo do arquivo Log denominado Request Type. Os serviços selecionados são descritos no quadro 3. Dezembro • 2001 00_C&T18.book Page 13 Wednesday, September 10, 2003 3:05 PM Quadro 2. Arquivo Log gerado no modelo Microsoft IIS Log Format. CAMPOS LOG1 LOG2 User´s IP Address User Name Date Time Service and Instance Computer Name IP Address of Server Time Taken Bytes Received Bytes Sent Service Status Code Windows 2000 Status Code Request Type Target of Operation 200.246.52.195 02/04/2000 07:55:20 200.246.52.195 02/04/2000 23:53:11 W3SVC1 W3SVC1 NT02_FCTI 172.21.13.45 4297 332 202 200 NT02_FCTI 172.21.13.45 4391 330 139 200 0 0 GET /pessoais/ index.htm GET /reta_v.gif Quadro 3. Natureza dos principais serviços executados pelo provedor. NATUREZA DESCRIÇÃO DOS SERVIÇOS GET LOAD HEAD OUTROS Realiza uma operação de busca de informação na Web. Toda operação de busca, feita por um determinado usuário. Significa uma requisição ou solicitação de informação. Realiza uma operação de carga à Web. Disponibiliza informação no site. Pode ser realizada pelos usuários que possuem acesso a todas as informações disponíveis. Realiza uma operação de atualização ou de disponibilização de novas informações ao provedor pelo usuário com status de proprietário daquela determinada informação. Qualquer outra atividade executada pelo Servidor fora das três classificações anteriores. A descrição do significado de cada campo de registro contido em um arquivo Log está registrada no quadro 4. REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 Quadro 4. Descrição do significado de cada campo do arquivo Log. CAMPOS DESCRIÇÃO Indica o usuário do serviço. Aquele que solicitou o serviço User Name Normalmente estará em branco Data de acesso ao serviço. Date Formato dd/mm/aa Hora de acesso ao serviço. Time Formato hh:mm:ss Service and Ins- Identifica o endereço lógico da máquina tance (Servidor) Identifica o nome lógico da máquina Computer Name (Servidor) IP Address of Identifica o endereço IP da máquina Server (Servidor) Tempo gasto para estabelecer link de acesso Time Taken (dado em ms) Bytes recebidos pelo Servidor no momento Bytes Received da conexão Bytes Sent Bytes enviados pelo Servidor ao usuário Service Status Código do serviço realizado Code Windows Status Código do SO Code Request Type Natureza do serviço executado Target of Endereço IP visitado pelo usuário Operation User´s IP Address TRATAMENTO DAS INFORMAÇÕES No processo de produção de dados a partir do arquivo Log desejado, o projeto prevê que as informações não necessárias à análise estatística sejam filtradas. Isso significa que, como parte inicial do processo de produção de dados, alguns campos do arquivo Log serão eliminados, por não possuírem significado para o objetivo proposto. O quadro 5 apresenta todos os campos do arquivo Log, sendo que campo identifica os registros do arquivo Log; tipo identifica a natureza da informação – quantitativa ou qualitativa – e status identifica se a variável será usada (significando que é válida para a análise estatística proposta pelo projeto) ou filtrada (significando que não tem importância para a análise estatística) no processo inicial de análise. 13 00_C&T18.book Page 14 Wednesday, September 10, 2003 3:05 PM Quadro 5. Definição dos campos usados no processo de análise, filtragem e tipo das variáveis. CAMPO TIPO STATUS User´s IP Address User Name Date Time Service and Instance Computer Name IP Address of Server Time Taken Bytes Received Bytes Sent Service Status Code Windows Status Code Request Type Target of Operation Qualitativa Quantitativa Quantitativa Quantitativa Quantitativa Quantitativa Qualitativa Qualitativa Usada Filtrada Usada Usada Filtrada Filtrada Filtrada Usada Usada Usada Filtrada Filtrada Usada Usada Como parte do processo de filtragem das informações desnecessárias à produção de dados primários, o projeto prevê a criação de um arquivo temporário de dados denominado Log.Tmp, no qual são armazenados, para as fases posteriores, todos os registros a ser utilizados na análise. A figura 1 ilustra o fluxograma inicial do processo de produção de dados primários. Nesse fluxograma, existem blocos principais, conforme mostra o quadro 6. Fig. 1. Fluxograma inicial do processo de produção de dados primários. Início Seleção do arquivo Log Filtragem das informações Geração de arquivo temporário (Log. Tmp) Aplicações das rotinas de análise Visualização dos resultados Fim 14 Quadro 6. Apresentação descritiva do fluxo básico de leitura, filtragem, geração do arquivo temporário, rotinas de análise e visualização dos resultados. TAREFAS DESCRIÇÃO Usuário seleciona o arquivo Log desejado. Isto significa que o primeiro arquivo Log de uma semana já transcorrida deve ser escolhida pelo usuário. Filtragem Processo de eliminação dos campos das Informações desnecessários. Veja Quadro 5. Gera arquivo temporário para uso posterior. Este é o arquivo, já filtrado, que conGeração de Arquivo tém todas as informações dos Log Temporário acumulados durante a semana escolhida. Log.Tmp Veja Metodologia de Produção e Análise de Dados. Executa, a partir da seleção pelo usuário, as análises estatísticas. Estas são as funAplicações das ções estatísticas produzidas pelo projeto. rotinas de Análise Veja Quadro 9 – Sumário das funções disponíveis pelo Gerenciamento Estatístico de Acessos a Web. Visualização dos resultados estatísticos Visualização produzidos através de tabelas de freqüêndos Resultados cia e gráficos. Seleção do Arquivo Log Os registros que devem permanecer após o processo denominado de filtragem, como demonstrado no quadro 5, são aqueles que o projeto manipula para a produção dos resultados estatísticos. DESENVOLVIMENTO DO SISTEMA Os dados a ser analisados são todas as informações restantes do processo de filtragem do arquivo denominado Log.Tmp de um certo número de subpopulações que não se superpõem, posto que são informações incrementais, mudando ao longo do tempo, obtidas por amostragem estratificada proporcional com seleção sistemática (Freund & Simon, 1997). Observa-se que a população alvo, constituída pelo conjunto de informações do arquivo Log.Tmp, é quantificada em megabytes. Considerando o volume de dados contidos no Log, que todos os acessos são registrados e que a resolução do sistema, para registro da hora do acesso, é de um segundo, chegou-se empiricamente ao valor de 20% para a estratificação proporcional. Isso significa que, para cada cinco acessos registrados no Log, será extraído o primeiro acesso para a amostra objeto de análise. Dezembro • 2001 00_C&T18.book Page 15 Wednesday, September 10, 2003 3:05 PM O Projeto de Sistema para Gerenciamento de Acesso à Web prevê sempre a análise estatística em lote do período de uma semana, iniciando-se sempre em uma segunda-feira. Dessa forma, a amostra deve ser sempre obtida de modo a que a seleção de um arquivo Log coincida com o início de uma dada semana. Como o sistema projetado não estará operando em tempo real, a seleção da amostra deve, obrigatoriamente, levar em conta o período de uma semana já transcorrido. A seleção dos arquivos Log se dá na forma de seleção semanal, isto é, por numeração da semana. Considerando-se, como ilustração, outubro de 2000 e que a semana 41 se inicia no domingo, o gerenciamento fará a análise dos arquivos Log a partir da segunda-feira, dia 9 de outubro. A partir dessa data, o gerenciamento de acessos será processado do dia 9 até o dia 15 de outubro, como pode ser observado na tabela 1. Isso significa que todo o processamento computacional (seleção, filtragem e produção dos resultados) será tomado dos arquivos Log IN001009.LOG, IN001010.LOG, IN001011.LOG, IN001012.LOG, IN001013.LOG, IN001014.LOG e o IN001015.LOG, gerando o arquivo Log.Tmp. Tab. 1. Calendário do mês de outubro de 2000, com a disposição do número das semanas. OUTUBRO/2000 1 8 15 22 29 2 9 16 23 30 3 10 17 24 31 4 11 18 25 1 5 12 19 26 2 SEMANA 6 13 20 27 3 7 14 21 28 4 40 41 42 43 44 Considerando que a seleção de informações para análise a partir do arquivo Log será feita de forma estratificada, ela se dará pela divisão em quatro estratos temporais. A divisão em estratos, como mostrado no quadro 7, objetiva identificar melhor o comportamento dos acessos à IA dentro e fora do REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 período regular de aula. Cada estrato conterá parte da população geral de informações de interesse a cada seis horas. Quadro 7. Demonstrativo dos estratos produzidos em função dos horários pela estratificação definida. 1º ESTRATO 2º ESTRATO 3º ESTRATO 4º ESTRATO 00:00:01 06:00:00 - 06:00:01 12:00:00 - 12:00:01 18:00:00 - 18:00:01 24:00:00 - Observa-se que o Projeto do Sistema de Gerenciamento de Acessos à Web produz diversos resultados estatísticos, que estão resumidos no quadro 8. Esses resultados podem ser visualizados em tabelas de freqüência e gráficos para cada uma das funções definidas no quadro 8, e todas elas podem ser acessadas por meio de diversas telas criadas pelo projeto. Como ilustração dos resultados produzidos, apresenta-se as várias figuras a seguir. A figura 2 ilustra uma das páginas de acesso. No caso, tem-se a página que dá acesso à função 7 (quantidade de bytes recebidos para o estrato 1). A figura 3 apresenta o resultado da geração da informação referente à função 7 (quantidade de bytes recebidos para o estrato 1). Esses resultados são apresentados pelo projeto de três formas: 1. um gráfico de setores para a distribuição percentual do estrato (quantidade de bytes recebidos); 2. um gráfico de barras apresentando a quantidade de bytes gastos por natureza de serviço, com distribuição durante a semana; e 3. uma tabela de freqüência com o total dos bytes recebidos no mesmo período. Outro resultado gerado pelo projeto pode ser visualizado nas figuras 4 e 5. A figura 4 ilustra a página de acesso da função 2 (origem dos acessos). Através dessa tela, o projeto permite que se visualize a origem dos acessos. No caso, apresenta-se a origem dos acessos para o NCU. 15 00_C&T18.book Page 16 Wednesday, September 10, 2003 3:05 PM Quadro 8. Sumário das funções disponíveis pelo Gerenciamento Estatístico de Acessos à Web. Nº DA FUNÇÃO FUNÇÃO 1 2 3 4 5 6 7 8 9 Total de acessos por estrato. Registra a quantidade de acessos ocorridos em cada estrato nos dias da semana. Apresenta ainda a totalização dos acessos por dia e na semana, apresentando ainda a sua distribuição percentual. Origem dos acessos – Identifica a origem dos acessos a IA, sendo esses, basicamente, de 5 (cinco) tipos diferentes. O Núcleo de Computação da UNIMEP (NCU); os externos; os de outros departamentos da UNIMEP; os de origem confidencial e os classificados como Outros. Quantidade de serviços executados, natureza dos serviços e tabela de freqüência. Neste caso o projeto prevê a classificação dos tipos de serviços em 4 (quatro), quais sejam, a função GET; a função LOAD; a função HEAD e as funções classificadas como OUTROS. Horário de pico dos acessos (dentro de um estrato). É definido pela maior quantidade de acessos ocorrido em um estrato no intervalo de uma (1) hora. Ainda para esta função, o projeto registra, para aquele dado horário de pico, quais foram os serviços executados (GET;LOAD;HEAD ou OUTROS). Determinação do valor mais freqüente da natureza dos serviços (GET;LOAD;HEAD ou OUTROS) Área mais visitada. Registra as últimas dez (10) áreas mais visitadas. Nesse caso, o administrador do sistema pode selecionar previamente quais as áreas que pretende monitorar. Quantidade de bytes recebidos/bytes enviados pelo servidor por natureza de serviço. Registra a totalização dos bytes recebidos/enviados pelo servidor/para usuário ao estabelecer o link de comunicação. Tempo gasto por acesso à CPU em função da natureza do serviço. Os tempos registrados no arquivo Log estão em milisegundos. Gráfico de tendência mensal. Registro dos tempos acumulados de acesso à CPU por natureza de serviço, fornecendo também a totalização dos tempos. Fig. 2. Tela de acesso à função 7 – quantidade de bytes recebidos para o estrato 1. 16 Dezembro • 2001 00_C&T18.book Page 17 Wednesday, September 10, 2003 3:05 PM Fig. 3. Tela da função 7 – quantidade de bytes recebidos/enviados pelo servidor por natureza de serviço. Apresentação dos resultados por meio de gráfico de setores, gráfico de barras e tabela de freqüência. Fig. 4. Tela de acesso à função 2 – origem dos acessos (NCU). REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 17 00_C&T18.book Page 18 Wednesday, September 10, 2003 3:05 PM Fig. 5. Tela de resultados produzidos pela função 2 (origem dos acessos – NCU). Apresentação dos resultados por meio de gráfico de barras e tabelas de freqüência. Já a figura 5 apresenta o resultado da geração da informação origem de acesso de quatro maneiras: 1. um gráfico de barras, com a distribuição percentual de todas as origens dos acessos (nesse caso, o administrador do sistema pode visualizar, para a origem selecionada, qual sua distribuição percentual comparada às demais origens); 2. um gráfico de barras apresentando a quantidade de acessos diários ocorridos; 3. uma tabela de freqüência com a totalização dos acessos; e 4. uma segunda tabela de freqüência, para a totalização de todas as origens dos acessos na semana. CONSIDERAÇÕES FINAIS O projeto disponibilizou ao Núcleo de Computação da Universidade Metodista de Piracicaba uma importante ferramenta de análise comportamental de sua IA. Por ter sido desenvolvido de forma a produzir resultados estatísticos relevantes e de acesso amigável, constitui importante ferramenta de auxílio ao processo de tomada de decisão, permitindo ao administrador do setor monitorar constan18 temente o perfil de utilização de todos os recursos disponíveis na IA. Resultados como horários de pico por estrato permitem ao administrador identificar diretamente os períodos em que há maior concentração de uso, podendo agir prontamente para a disponibilização de recursos ou, ainda, identificar possíveis congestionamentos na rede. Conhecer a natureza dos serviços mais solicitados permite identificar a necessidade de expandir a capacidade do sistema, em termos de meios físicos de armazenamento. Esses são apenas alguns exemplos da importância da ferramenta projetada, função intrínseca deste Projeto de Sistema para Gerenciamento de Acesso à Web. É possível registrar, ainda, que, dada a importância do Projeto de Sistema para Gerenciamento de Acesso à Web para o ambiente de gerenciamento da IA, ele poderá ter continuidade posterior, viabilizando o desenvolvimento de um sistema em tempo real, ou mesmo ser expandido para outros serviços ou acessos à Web. Dezembro • 2001 00_C&T18.book Page 19 Wednesday, September 10, 2003 3:05 PM REFERÊNCIAS BIBLIOGRÁFICAS AKANIME, C.T. & YAMAMOTO, R.K. Estatística Descritiva. São Paulo: Érica, 1998. CORRÊA, A.M.C.J. Conceitos Básicos de Estatística Descritiva para Análise Exploratória de Dados (Notas de Aulas). Piracicaba: FCTI-UNIMEP, 2000 [digitado]. FREUND, J.E. & SIMON, G.A. Estatística Aplicada. Trad. A.A. Farias. Porto Alegre: Bookman, 1997. LEVINE, D.M.; BERENSON, M.L. & STEPHAN, D. Estatística: teoria e aplicações. Trad. C.P. de Souza. Rio de Janeiro: LTC, 2000. Manual Microsoft. About Logging Site Activity – conceitos básicos sobre sistemas de Log para provedores Web e SFTP. Microsoft Corporation, 2000. PRESSMAN, R.S. Software Engineering – a practitioner’s approach. 2.ª ed. Singapore: McGraw Hill International Editions, 1987. Software Microsoft Visual Basic For 32-bit Windows Development. Microsoft Corporation, 1997. STAIR, R.M. Princípios de Sistemas de Informação – uma abordagem gerencial. Trad. M.L.I. Vieira (cap. 1-8) & D.C. de Alencar (cap. 9-16). Rio de Janeiro: LTC, 1998. REVISTA DE CIÊNCIA & TECNOLOGIA • V. 8, Nº 18 – pp. 9-12 19 00_C&T18.book Page 20 Wednesday, September 10, 2003 3:05 PM 20 Dezembro • 2001