Caracterização do comportamento do usuário de Mídia Contínua Jussara Almeida Junho 2005 (Apresentacao de Fabricio Benevenuto) Background Por que caracterizar? Geração de carga sintética Entendimento da carga Dois tipos de mídia Pré-armazenado: foco no comportamento do usuário Ao vivo: foco no valor do conteúdo Motivação Interatividade tem grande impacto no desempenho das técnicas de distribuição Pouco conhecimento do comportamento do usuário Caracterizações anteriores tiveram foco para poucos aspectos da carga e para poucos tipos de carga (educacional) Resultados podem ser muito específicos tanto pelos aspectos caracterizados quanto pelo tipo de carga caracterizada Nenhum trabalho sobre conteúdo ao vivo Introdução Conteúdo ao vivo complemento de programas de televisão. Reality shows Câmeras em jogos de futebol Conteúdo sob demanda Rádio e pequenos clips Ensino a distância Conteúdo ao vivo X Pré-armazenados Qual a diferença da carga resultante de clicar com um mouse para a carga quando se usa um controle remoto? Vídeo sob demanda Artigo: Analyzing Client Interactivity in Streaming Media Conteúdo pré-armazenado Foco no comportamento do cliente (interatividade) Fonte de dados Fonte de dados: eTeach: Universidade of Wisconsin-Madison Universo Online (UOL): Rádio Uol e TV Uol ISP: Provedor de áudio Três classes de carga de trabalho: Educacional: eTeach Entretenimento (vídeo): TV/UOL Entretenimento (áudio): Radio/UOL e ISP/Audio Modelo Hierárquico Variação da carga nos dias •Educacional: acesso concentrado nos dias da semana •Entretenimento: acesso mais distribuído. Características de acesso aos arquivos Frequência de acesso aos arquivos Processo de chegada das sessões Posição inicial Tempos ON e OFF Número e tipo de interação em uma mesma sessão Jump distance Processo de chegada das sessões eTeach: Weibull e Lognormal Posição inicial Áudio: sessões começam no início do arquivo Vídeo: boa parte das sessões para arquivos grandes não começam do início Cumulative Percentage Número e tipo de interação em uma mesma sessão Audio: uma requisição/sessão # Interactive Requests Video: Mais interações com o aumento do tamanho do arquivo Maior # interações para conteúdo educacional (Pausa mais frequente) Vídeos grandes: jumps backwards e forwards igualmente prováveis Interação do cliente com vídeo A probabilidade de uma certa interação é maior se a interação anterior, dentro da mesma seção, for pause/jump forwards, jump backwards? Esta probabilidade muda quando o cliente dispara mais requisições dentro de uma mesma seção? Interações consecutivas - Prob. de uma interação (ou par) não depende do # de interações desde o início da sessão. - Facilita a geração de carga - Uma interação é mais freqüentemente seguida por uma interação do mesmo tipo Jump distance Vídeos curtos: distância média de jump backwards é maior Vídeos longos: - dist. média em ambas as direções é a mesma - Distância média aumenta com tamanho mas é sempre <= 45 s - Forte localidade espacial -> prefetching Padrões de comportamento interativo Files 1.5 min Audio Videos 5 mins Videos 5 mins Conclusões Variações de carga Educacional: acesso concentrado nos dias de semana Entretenimento: acesso mais distribuído no tempo Interação do cliente Sessões dos clientes de áudio: interatividade baixa Uma requisição por prefixo do arquivo ou arquivo inteiro Sessões dos clientes de vídeo: interatividade alta Grande número de requisições para arquivos educacionais Pausa é a interação mais freqüente Cada tipo de interação é mais freqüente seguida de uma interação do mesmo tipo Porcentagem significante de sessões começa de posições arbitrárias Forte localidade espacial entre as interações Conteúdo ao vivo Artigo: A hierarchical characterization of Live Streaming Media Workload Conteúdo ao vivo Comportamento do usuário definido pelo valor do conteúdo Conteúdo ao vivo X Pré-armazenados Valor do conteúdo Assistir a final da Copa do mundo ao vivo x assistir em uma fita de vídeo. Internet surge como um mecanismo para distribuição de conteúdo ao vivo. Permite ao usuário o controle do que ele vê. (ex. Visão do goleiro) Conteúdo ao vivo X Pré-armazenados Operações VCR só estão disponíveis para objetos pré-armazenados Correlação entre diversas variáveis pode ser fundamentalmente diferente Padrões de acesso: objetos pré-armazenados: user driven objetos ao vivo: object driven Hierarquia para Caracterização de Live Streaming Media Transferências Iniciar Terminar Stream#1 Stream#2 Camada de ON OFF ON Sessão Camada de Cliente ON ON OFF ON OFF > TOFF ON Estudo de caso: reality show Período do log analisado # total de objetos distintos 28 dias, 2002 2 # total de IPs distintos # total de clientes distintos # total de transferências # total de sessões 364184 690650 > 3 milhões > 1,5 milhão Quantidade total de conteúdo servido > 4,65 TBytes Camada de Cliente Características relacionadas à população de clientes e ao seu comportamento. Distribuição Topológica e Geográfica dos Clientes Acessos se originaram de 1010 AS’s diferentes, espalhados por 65 países distintos. Número de Clientes Ativos - O número de clientes simultâneos se concentra antes do 1000 - Mas temos situações em que temos quase 2000 Comportamento temporal Perfil de Interesse dos Clientes - Rank dos clientes em termos de número de transferência. - Grau de interesse dos usuários. Camada de Sessão Características relevantes observadas dentro de cada sessão Número de Sessões Threshold escolhido para identificar diferentes sessões (TOFF): 1500 segundos. Distribuição do Período OFF Ativo - Picos mostram a variabilidade do comportamento dos usuários (diariamente, semanalmente, etc) Número de Transferências por Sessão - Maior parte das sessões com poucas transferências. Camada de Transferência Granularidade: transferências unicast individuais Número de Transferências Concorrentes - Maior parte do tempo tem poucas transferências. - Períodos com cerca de 2000 transferências simultâneas. Comportamento temporal Distribuição da Duração de Transferências Distribuição do quanto o conteúdo é capaz de prender a atenção dos usuários. Largura de Banda Utilizada pelas Transferências Picos: largura de banda limitada pela velocidade de conexão do cliente (modem, DSL). Restante: momentos de congestionamento. Ocorrem limitações na rede ou no servidor. Conclusões Padrão de acesso de vídeo ao vivo é bem diferente de vídeo pré-armazenado Características das cargas de trabalho de live streaming media são dependentes da natureza do conteúdo ao vivo Nível de concorrência no servidor exibe padrões que se repetem com o tempo