Dados, dados por todos os lados
A informação passou da escassez à superabundância. Isso traz novos benefícios gigantescos, diz Kenneth Cukier (entrevistado
aqui) – mas também grades dores de cabeça
25 de Fevereiro de 2010
Tradução e grifos: Lucas Reis de Souza
(Fonte: “The Economist” / Link: www.economist.com/node/15557443)
Quando a Pesquisa Sloan Digital Sky começou em 2000, seu telescópio no estado do Novo México (EUA), coletou mais dados em
suas primeiras semanas do que o que já havia sido compilado em toda a história da astronomia. Agora, uma década depois, seu
arquivo contém impressionantes 140 terabytes de informação. Um sucessor, o Telescópio Large Synoptic Survey, que deve ser
inaugurado no Chile em 2016, irá obter essa quantidade de dados a cada cinco dias.
Tais quantidades astronômicas de informação também podem ser encontradas próximas à Terra. O Walmart, um gigante do varejo,
lida com mais de 1 milhão de transações de clientes a cada hora, alimentando bancos de dados estimados em mais de 2.5 petabytes
– o equivalente a 167 vezes os livros na Biblioteca do Congresso Americano. O Facebook hospeda mais de 40 bilhões de fotos. E a
decodificação do genoma humano envolve a análise de 3 bilhões de pares-base – o que levou dez anos na primeira vez em que foi
realizado, em 2003, mas agora pode ser feito em uma semana.
Todos esses exemplos contam a mesma estória: que o mundo contém uma quantidade de informação digital inimaginavelmente
vasta que está crescendo rapidamente a cada dia. Isso torna possível fazer muitas coisas que não se podia fazer anteriormente:
identificar tendências de mercado, prevenir doenças, combater o crime e assim por diante. Bem gerenciados, dados podem ser
utilizados para atingir novas fontes de valor econômico, prover insights novos para questões científicas e responsabilizar os
governos pelas atitudes que tomam.
Mas eles também estão criando uma gama de novos problemas. Apesar da
abundância de ferramentas para capturar, processar e compartilhar toda
essa informação – sensores, computadores, telefones celulares, e outros – a
informação existente já excede a capacidade de armazenamento disponível
(ver gráfico ao lado.) Além disso, está cada vez mais difícil assegurar a
segurança da informação e a proteção da privacidade dos indivíduos, uma
vez que as informações se multiplicam e são compartilhadas cada vez mais
amplamente ao redor do mundo.
Alex Szalay, astrofísico na Universidade Johns Hopkins (EUA), nota que a
proliferação de dados está fazendo com que eles se tornem crescentemente
inacessíveis. “Como se garante que tantos dados façam sentido? As pessoas
têm que estar preocupadas em treinar a próxima geração, não apenas os
cientistas, mas pessoas no governo e nas indústrias,” diz.
“Estamos em uma época diferente por causa de tanta informação,” diz James Cortada da IBM, que já escrevem duas dúzias de livros
sobre a história da informação na sociedade. Joe Hellerstein, um cientista da computação na Universidade da Califórnia em Berkeley,
chama isso de “a revolução industrial dos dados”. O efeito está sendo sentido em todos os lugares, dos negócios à ciência, do
governo às artes. Cientistas e engenheiros da computação cunharam um novo termo para esse fenômeno “big data” (grandes
dados).
Em termos epistemológicos, a informação é composta de uma coleção de dados enquanto o conhecimento é composto de
diferentes vertentes de informação. Mas esta reportagem especial utiliza “dados” e “informação” sinonimamente porque, como vai
argumentar, está cada vez mais difícil diferenciá-los. Caso haja dados primários suficientes, os poderosos algoritmos e computadores
de hoje podem revelar novos insights que não poderiam ser obtidos no passado.
O negócio de gerenciamento de informação – ajudar organizações a entender sua quantidade crescente de dados – está crescendo
rapidamente. Nos últimos anos, Oracle, IBM, Microsoft e SAP já gastaram mais de $15 bilhões de dólares na compra de empresas de
software especializadas em análise e gerenciamento de dados. Essa indústria tem um valor estimado de mais de $100 bilhoes de
dólares e está crescendo a quase 10% ao ano, quase duas vezes mais rápido que a indústria de software como um todo.
Chief Informations Officers (CIOs) – os “diretores de informação” das empresas – se tornaram mais proeminentes no mundo
executivo, de alguma forma, e um novo tipo de profissional emergiu, o cientista de dados, que combina as habilidades de
programador, estatístico e contador de histórias/artista para extrair as pepitas de ouro escondidas sob montanhas de dados. Hal
Varian, Economista-chefe do Google, prevê que o Estatístico se tornará o profissional mais desejado de todos. Dados, ele explica,
estão amplamente disponíveis; o que está escassa é a habilidade de extrair conhecimento deles.
Mais de tudo
Há muitas razões para a explosão de informações. A mais óbvia é a tecnologia. À medida em que as capacidades de aparelhos
digitais aumentam e os preços caem, sensores e bugigangas estão digitalizando muito mais informação que o que estava disponível
anteriormente. E muito mais pessoas têm acesso a ferramentas muito mais poderosas. Por exemplo, há 4,6 bilhões de linhas
telefônicas móveis no mundo (apesar de que muitas pessoas têm mais de uma, então os 6.8 bilhões de pessoas no mundo não são
tão bem supridos como esses valores sugerem), e entre 1 e 2 bilhões de pessoas usam a internet.
Além disso, há muito mais pessoas interagindo com informação. Entre 1990 e 2005 mais de 1 bilhão de pessoas no mundo inteiro
entraram na classe média. À medida em que essas pessoas enriquecem também se tornam mais educadas, o que abastece o
crescimento da informação, aponta o Sr. Cortada. Os resultados estão aparecendo na política, na economia e também no direito.
“Revoluções na ciência frequentemente foram precedidas por revoluções na medição” diz Sinan Aral, um professor de negócios na
Universidade de Nova York. Da mesma forma que o microscópio transformou a biologia ao expor os germes, e o microscópio
eletrônico mudou a física, todos esses dados estão virando as ciências sociais de cabeça pra baixo, ele explica. Atualmente,
pesquisadores podem entender o comportamento humano no nível da população e não apenas no nível do indivíduo.
A quantidade de informação digital aumenta em dez vezes a cada cinco anos. A Lei de Moore, à qual a indústria da informática hoje
já não dá tanta importância, diz que a capacidade de processamento e armazenamento de chips de computador dobre ou seus
preços caem pela metade a cada 18 meses, aproximadamente. Os softwares estão melhorando também. Edward Felten, um
cientista da computação na Universidade de Princeton, considera que as melhorias nos algoritmos que estão por trás dos aplicativos
de computadores tiveram um papel tão importante quanto a Lei de Moore por várias décadas.
Uma vasta quantidade dessa informação é compartilhada. Até 2013 a quantidade de tráfego na internet anualmente vai alcançar
667 exabytes, de acordo com a Cisco, uma empresa de aparelhos de comunicação. E a quantidade de dados continua a crescer mais
rapidamente que a habilidade da rede em transportar com tudo isso.
Há muito tempo as pessoas já reclamam que estão sobrecarregadas de informação. Em 1917 um gerente de uma firma
manufatureira do estado de Connecticut (EUA) reclamou sobre os efeitos do telefone: “Perde-se tempo, há muitas confusões e
gasta-se dinheiro.” No entanto o que está acontecendo agora vai muito além de um crescimento incremental. A mudança
quantitativa já começou a fazer uma diferença qualitativa.
Essa mudança da escassez à abastança de informação tem efeitos amplos. “O que estamos vendo é a possibilidade de que
economias se formem baseadas em dados – e isso para mim é a grande mudança ao nível social e até mesmo ao nível
macroeconômico,” diz Craig Mundie, chefe de pesquisa e estratégia na Microsoft. Dados estão se tornando a nova matéria-prima
dos negócios: um insumo econômico quase tão importante quanto Capital e Trabalho. “Todos os dias eu acordo e me pergunto,
‘como posso organizar, gerenciar e analisar dados de uma forma melhor?” diz Rollin Ford, o CIO do Wal-Mart.
A análise quantitativa sofisticada está sendo aplicada a muitos aspectos da vida, não apenas trajetórias de mísseis ou estratégias de
hedging financeiro, como ocorria no passado. Por exemplo, Farecast, uma parte da ferramenta de busca da Microsoft Bing, pode
sugerir se um consumidor deve comprar uma passagem aérea agora ou esperar o preço baixar com base na análise de 225 bilhões
de registros de voos e preços. A mesma ideia se estende a quartos de hotel, carros e itens similares. Sites de finanças pessoais e
bancos estão agregando os dados de seus consumidores para encontrar tendências macroeconômicas, que podem se desenvolver e
tornar-se outros negócios, independentes dessas empresas. Especialistas em números já foram capazes até mesmo de desvendar
resultados combinados no sumô Japonês.
Transformando Impurezas em Ouro
“Exaustão de dados” – a trilha de cliques que os usuários de internet deixam para trás e da qual valor pode ser extraído – está se
tornando uma mola mestra na economia da internet. Um exemplo é a ferramenta de busca do Google, que é parcialmente guiada
pelo número de cliques em um item para ajudar a determinar sua relevância para um pedido de busca. Se o oitavo item do resultado
de uma busca é o mais clicado pelos usuários, os algoritmos o fazem subir na lista.
À medida em que o mundo se torna crescentemente digital, é provável que a agregação e análise de dados também sejam capazes
de trazer benefícios gigantescos para outras áreas. Por exemplo, o Sr. Mundie da Microsoft e Eric Schimdt, o chefe do Google, fazem
parte de uma força-tarefa presidencial para reformar o sistema de saúde norte-americano. “No início desse processo o Eric e eu
ambos dissemos: ‘Veja, se você realmente quer transformar o sistema de saúde, você tem que basicamente criar um tipo de
economia do sistema de saúde baseado nos dados que representam as pessoas’,” explica o Sr. Mundie. “Você não pode apenas
pensar nos dados como ‘subprodutos’ da prestação de serviços de saúde, eles têm, na verdade, que se tornar o ativo principal na
tentativa de definir como podemos melhorar cada aspecto do sistema de saúde. É uma inversão, de alguma forma.”
Para se certificar, registros digitais devem facilitar as vidas de médicos, reduzir custos de fornecedores e pacientes e melhorar a
qualidade do serviço. Mas no agregado os dados podem também ser minados para identificar interações medicamentosas
indesejadas, identificar os tratamentos mais eficazes e prever o começo de doenças antes que surjam seus sintomas. Os
computadores já tentam fazer essas coisas, mas precisam ser programados para tal. Em um mundo de big data as correlações
emergem praticamente sozinhas.
Algumas vezes esses dados revelam mais do que se esperava inicialmente. Por exemplo, a cidade de Oakland, na Califórnia, publica
informações sobre onde e quando foram feitas prisões, o que é posto em um site privado, o Oakland Crimespotting. Em
determinado momento alguns cliques revelaram que a polícia coibiu a prostituição em toda uma avenida movimentada da cidade
todas as noites exceto às quartas-feiras, uma tática que eles provavelmente não tinham a intenção de divulgar.
Mas os “grandes dados” podem ter consequências muito mais sérias que essa. Durante a recente crise financeira ficou claro que
bancos e agências de rating vinham se baseando até então em modelos que, apesar de exigir uma vasta quantidade de informações
para funcionarem, falharam em identificar o risco financeiro no mundo real. Essa foi a primeira crise deflagrada por grandes dados –
e haverá outras.
A forma como a informação é gerenciada tange todas as áreas da vida. Na virada do século 20 novos fluxos de informação através de
meios como telefone e telégrafo apoiaram a produção em massa. Hoje a disponibilidade de dados abundantes permite que
empresas consigam atender a pequenos mercados de nicho em qualquer lugar do mundo. A produção econômica era baseada na
fábrica, onde os gerentes se debruçavam sobre cada processo e máquina para torna-los mais eficientes. Agora os estatísticos minam
as informações geradas pelo negócio para ter novas ideias.
“A economia centrada em dados está apenas nascendo,” admite o Sr. Mundie da Microsoft. “Você pode ver sua forma, mas as
implicações técnicas, infraestruturais e até mesmo de modelagem de negócios não foram muito bem entendidas até agora.” 
Download

Dados, dados por todos os lados