Caracterização do comportamento
do usuário de Mídia Contínua
Jussara Almeida
Junho 2005
(Apresentacao de Fabricio Benevenuto)
Background

Por que caracterizar?



Geração de carga sintética
Entendimento da carga
Dois tipos de mídia


Pré-armazenado: foco no
comportamento do usuário
Ao vivo: foco no valor do conteúdo
Motivação


Interatividade tem grande impacto no
desempenho das técnicas de distribuição
Pouco conhecimento do comportamento do
usuário



Caracterizações anteriores tiveram foco para
poucos aspectos da carga e para poucos tipos
de carga (educacional)
Resultados podem ser muito específicos tanto
pelos aspectos caracterizados quanto pelo tipo
de carga caracterizada
Nenhum trabalho sobre conteúdo ao vivo
Introdução

Conteúdo ao vivo

complemento de programas de televisão.



Reality shows
Câmeras em jogos de futebol
Conteúdo sob demanda


Rádio e pequenos clips
Ensino a distância
Conteúdo ao vivo X Pré-armazenados

Qual a diferença da carga resultante de
clicar com um mouse para a carga
quando se usa um controle remoto?
Vídeo sob demanda


Artigo: Analyzing Client Interactivity in
Streaming Media
Conteúdo pré-armazenado

Foco no comportamento do cliente
(interatividade)
Fonte de dados

Fonte de dados:




eTeach: Universidade of Wisconsin-Madison
Universo Online (UOL): Rádio Uol e TV Uol
ISP: Provedor de áudio
Três classes de carga de trabalho:



Educacional: eTeach
Entretenimento (vídeo): TV/UOL
Entretenimento (áudio): Radio/UOL e ISP/Audio
Modelo Hierárquico
Variação da carga nos dias
•Educacional: acesso concentrado nos dias da semana
•Entretenimento: acesso mais distribuído.
Características de acesso aos
arquivos






Frequência de acesso aos arquivos
Processo de chegada das sessões
Posição inicial
Tempos ON e OFF
Número e tipo de interação em uma
mesma sessão
Jump distance
Processo de chegada das sessões
 eTeach: Weibull e Lognormal
Posição inicial
Áudio: sessões começam no início do arquivo
Vídeo: boa parte das sessões para arquivos grandes não começam do início
Cumulative Percentage
Número e tipo de interação em
uma mesma sessão
Audio: uma requisição/sessão
# Interactive Requests
Video:
 Mais interações com o aumento do tamanho do arquivo
 Maior # interações para conteúdo educacional (Pausa mais frequente)
 Vídeos grandes: jumps backwards e forwards igualmente prováveis
Interação do cliente com vídeo


A probabilidade de uma certa interação é maior se a
interação anterior, dentro da mesma seção, for
pause/jump forwards, jump backwards?
Esta probabilidade muda quando o cliente dispara mais
requisições dentro de uma mesma seção?
Interações consecutivas
- Prob. de uma interação (ou par) não depende do # de
interações desde o início da sessão.
- Facilita a geração de carga
- Uma interação é mais freqüentemente seguida por uma
interação do mesmo tipo
Jump distance
Vídeos curtos: distância média de jump backwards é maior
Vídeos longos: - dist. média em ambas as direções é a mesma
- Distância média aumenta com tamanho mas é sempre <= 45 s
- Forte localidade espacial -> prefetching
Padrões de comportamento interativo
Files  1.5 min
Audio
Videos  5 mins
Videos  5 mins
Conclusões

Variações de carga



Educacional: acesso concentrado nos dias de semana
Entretenimento: acesso mais distribuído no tempo
Interação do cliente

Sessões dos clientes de áudio: interatividade baixa


Uma requisição por prefixo do arquivo ou arquivo inteiro
Sessões dos clientes de vídeo: interatividade alta





Grande número de requisições para arquivos educacionais
Pausa é a interação mais freqüente
Cada tipo de interação é mais freqüente seguida de uma
interação do mesmo tipo
Porcentagem significante de sessões começa de posições
arbitrárias
Forte localidade espacial entre as interações
Conteúdo ao vivo


Artigo: A hierarchical characterization of
Live Streaming Media Workload
Conteúdo ao vivo

Comportamento do usuário definido pelo
valor do conteúdo
Conteúdo ao vivo X Pré-armazenados

Valor do conteúdo



Assistir a final da Copa do mundo ao vivo x
assistir em uma fita de vídeo.
Internet surge como um mecanismo para
distribuição de conteúdo ao vivo.
Permite ao usuário o controle do que ele vê.
(ex. Visão do goleiro)
Conteúdo ao vivo X Pré-armazenados



Operações VCR só estão disponíveis
para objetos pré-armazenados
Correlação entre diversas variáveis pode
ser fundamentalmente diferente
Padrões de acesso:


objetos pré-armazenados: user driven
objetos ao vivo: object driven
Hierarquia para Caracterização
de Live Streaming Media
Transferências
Iniciar
Terminar
Stream#1
Stream#2
Camada de ON OFF ON
Sessão
Camada de
Cliente
ON
ON OFF ON
OFF
> TOFF
ON
Estudo de caso: reality show
Período do log analisado
# total de objetos distintos
28 dias, 2002
2
# total de IPs distintos
# total de clientes distintos
# total de transferências
# total de sessões
364184
690650
> 3 milhões
> 1,5 milhão
Quantidade total de conteúdo servido
> 4,65 TBytes
Camada de Cliente

Características relacionadas à população
de clientes e ao seu comportamento.
Distribuição Topológica e
Geográfica dos Clientes

Acessos se originaram de 1010 AS’s diferentes,
espalhados por 65 países distintos.
Número de Clientes Ativos
- O número de clientes simultâneos se concentra antes do 1000
- Mas temos situações em que temos quase 2000
Comportamento temporal
Perfil de Interesse dos Clientes
- Rank dos clientes em termos de número de transferência.
- Grau de interesse dos usuários.
Camada de Sessão

Características relevantes observadas
dentro de cada sessão
Número de Sessões

Threshold escolhido para identificar
diferentes sessões (TOFF): 1500
segundos.
Distribuição do Período OFF Ativo
- Picos mostram a variabilidade do comportamento dos usuários
(diariamente, semanalmente, etc)
Número de Transferências por
Sessão
- Maior parte das sessões com poucas transferências.
Camada de Transferência

Granularidade: transferências unicast
individuais
Número de Transferências
Concorrentes
- Maior parte do tempo tem poucas transferências.
- Períodos com cerca de 2000 transferências simultâneas.
Comportamento temporal
Distribuição da Duração de
Transferências
Distribuição do quanto o conteúdo é capaz de prender
a atenção dos usuários.
Largura de Banda Utilizada
pelas Transferências
Picos: largura de banda limitada pela velocidade de conexão do cliente
(modem, DSL).
Restante: momentos de congestionamento. Ocorrem limitações na rede ou no
servidor.
Conclusões



Padrão de acesso de vídeo ao vivo é bem diferente
de vídeo pré-armazenado
Características das cargas de trabalho de live
streaming media são dependentes da natureza do
conteúdo ao vivo
Nível de concorrência no servidor exibe padrões
que se repetem com o tempo
Download

Por que caracterizar?