Dados, dados por todos os lados A informação passou da escassez à superabundância. Isso traz novos benefícios gigantescos, diz Kenneth Cukier (entrevistado aqui) – mas também grades dores de cabeça 25 de Fevereiro de 2010 Tradução e grifos: Lucas Reis de Souza (Fonte: “The Economist” / Link: www.economist.com/node/15557443) Quando a Pesquisa Sloan Digital Sky começou em 2000, seu telescópio no estado do Novo México (EUA), coletou mais dados em suas primeiras semanas do que o que já havia sido compilado em toda a história da astronomia. Agora, uma década depois, seu arquivo contém impressionantes 140 terabytes de informação. Um sucessor, o Telescópio Large Synoptic Survey, que deve ser inaugurado no Chile em 2016, irá obter essa quantidade de dados a cada cinco dias. Tais quantidades astronômicas de informação também podem ser encontradas próximas à Terra. O Walmart, um gigante do varejo, lida com mais de 1 milhão de transações de clientes a cada hora, alimentando bancos de dados estimados em mais de 2.5 petabytes – o equivalente a 167 vezes os livros na Biblioteca do Congresso Americano. O Facebook hospeda mais de 40 bilhões de fotos. E a decodificação do genoma humano envolve a análise de 3 bilhões de pares-base – o que levou dez anos na primeira vez em que foi realizado, em 2003, mas agora pode ser feito em uma semana. Todos esses exemplos contam a mesma estória: que o mundo contém uma quantidade de informação digital inimaginavelmente vasta que está crescendo rapidamente a cada dia. Isso torna possível fazer muitas coisas que não se podia fazer anteriormente: identificar tendências de mercado, prevenir doenças, combater o crime e assim por diante. Bem gerenciados, dados podem ser utilizados para atingir novas fontes de valor econômico, prover insights novos para questões científicas e responsabilizar os governos pelas atitudes que tomam. Mas eles também estão criando uma gama de novos problemas. Apesar da abundância de ferramentas para capturar, processar e compartilhar toda essa informação – sensores, computadores, telefones celulares, e outros – a informação existente já excede a capacidade de armazenamento disponível (ver gráfico ao lado.) Além disso, está cada vez mais difícil assegurar a segurança da informação e a proteção da privacidade dos indivíduos, uma vez que as informações se multiplicam e são compartilhadas cada vez mais amplamente ao redor do mundo. Alex Szalay, astrofísico na Universidade Johns Hopkins (EUA), nota que a proliferação de dados está fazendo com que eles se tornem crescentemente inacessíveis. “Como se garante que tantos dados façam sentido? As pessoas têm que estar preocupadas em treinar a próxima geração, não apenas os cientistas, mas pessoas no governo e nas indústrias,” diz. “Estamos em uma época diferente por causa de tanta informação,” diz James Cortada da IBM, que já escrevem duas dúzias de livros sobre a história da informação na sociedade. Joe Hellerstein, um cientista da computação na Universidade da Califórnia em Berkeley, chama isso de “a revolução industrial dos dados”. O efeito está sendo sentido em todos os lugares, dos negócios à ciência, do governo às artes. Cientistas e engenheiros da computação cunharam um novo termo para esse fenômeno “big data” (grandes dados). Em termos epistemológicos, a informação é composta de uma coleção de dados enquanto o conhecimento é composto de diferentes vertentes de informação. Mas esta reportagem especial utiliza “dados” e “informação” sinonimamente porque, como vai argumentar, está cada vez mais difícil diferenciá-los. Caso haja dados primários suficientes, os poderosos algoritmos e computadores de hoje podem revelar novos insights que não poderiam ser obtidos no passado. O negócio de gerenciamento de informação – ajudar organizações a entender sua quantidade crescente de dados – está crescendo rapidamente. Nos últimos anos, Oracle, IBM, Microsoft e SAP já gastaram mais de $15 bilhões de dólares na compra de empresas de software especializadas em análise e gerenciamento de dados. Essa indústria tem um valor estimado de mais de $100 bilhoes de dólares e está crescendo a quase 10% ao ano, quase duas vezes mais rápido que a indústria de software como um todo. Chief Informations Officers (CIOs) – os “diretores de informação” das empresas – se tornaram mais proeminentes no mundo executivo, de alguma forma, e um novo tipo de profissional emergiu, o cientista de dados, que combina as habilidades de programador, estatístico e contador de histórias/artista para extrair as pepitas de ouro escondidas sob montanhas de dados. Hal Varian, Economista-chefe do Google, prevê que o Estatístico se tornará o profissional mais desejado de todos. Dados, ele explica, estão amplamente disponíveis; o que está escassa é a habilidade de extrair conhecimento deles. Mais de tudo Há muitas razões para a explosão de informações. A mais óbvia é a tecnologia. À medida em que as capacidades de aparelhos digitais aumentam e os preços caem, sensores e bugigangas estão digitalizando muito mais informação que o que estava disponível anteriormente. E muito mais pessoas têm acesso a ferramentas muito mais poderosas. Por exemplo, há 4,6 bilhões de linhas telefônicas móveis no mundo (apesar de que muitas pessoas têm mais de uma, então os 6.8 bilhões de pessoas no mundo não são tão bem supridos como esses valores sugerem), e entre 1 e 2 bilhões de pessoas usam a internet. Além disso, há muito mais pessoas interagindo com informação. Entre 1990 e 2005 mais de 1 bilhão de pessoas no mundo inteiro entraram na classe média. À medida em que essas pessoas enriquecem também se tornam mais educadas, o que abastece o crescimento da informação, aponta o Sr. Cortada. Os resultados estão aparecendo na política, na economia e também no direito. “Revoluções na ciência frequentemente foram precedidas por revoluções na medição” diz Sinan Aral, um professor de negócios na Universidade de Nova York. Da mesma forma que o microscópio transformou a biologia ao expor os germes, e o microscópio eletrônico mudou a física, todos esses dados estão virando as ciências sociais de cabeça pra baixo, ele explica. Atualmente, pesquisadores podem entender o comportamento humano no nível da população e não apenas no nível do indivíduo. A quantidade de informação digital aumenta em dez vezes a cada cinco anos. A Lei de Moore, à qual a indústria da informática hoje já não dá tanta importância, diz que a capacidade de processamento e armazenamento de chips de computador dobre ou seus preços caem pela metade a cada 18 meses, aproximadamente. Os softwares estão melhorando também. Edward Felten, um cientista da computação na Universidade de Princeton, considera que as melhorias nos algoritmos que estão por trás dos aplicativos de computadores tiveram um papel tão importante quanto a Lei de Moore por várias décadas. Uma vasta quantidade dessa informação é compartilhada. Até 2013 a quantidade de tráfego na internet anualmente vai alcançar 667 exabytes, de acordo com a Cisco, uma empresa de aparelhos de comunicação. E a quantidade de dados continua a crescer mais rapidamente que a habilidade da rede em transportar com tudo isso. Há muito tempo as pessoas já reclamam que estão sobrecarregadas de informação. Em 1917 um gerente de uma firma manufatureira do estado de Connecticut (EUA) reclamou sobre os efeitos do telefone: “Perde-se tempo, há muitas confusões e gasta-se dinheiro.” No entanto o que está acontecendo agora vai muito além de um crescimento incremental. A mudança quantitativa já começou a fazer uma diferença qualitativa. Essa mudança da escassez à abastança de informação tem efeitos amplos. “O que estamos vendo é a possibilidade de que economias se formem baseadas em dados – e isso para mim é a grande mudança ao nível social e até mesmo ao nível macroeconômico,” diz Craig Mundie, chefe de pesquisa e estratégia na Microsoft. Dados estão se tornando a nova matéria-prima dos negócios: um insumo econômico quase tão importante quanto Capital e Trabalho. “Todos os dias eu acordo e me pergunto, ‘como posso organizar, gerenciar e analisar dados de uma forma melhor?” diz Rollin Ford, o CIO do Wal-Mart. A análise quantitativa sofisticada está sendo aplicada a muitos aspectos da vida, não apenas trajetórias de mísseis ou estratégias de hedging financeiro, como ocorria no passado. Por exemplo, Farecast, uma parte da ferramenta de busca da Microsoft Bing, pode sugerir se um consumidor deve comprar uma passagem aérea agora ou esperar o preço baixar com base na análise de 225 bilhões de registros de voos e preços. A mesma ideia se estende a quartos de hotel, carros e itens similares. Sites de finanças pessoais e bancos estão agregando os dados de seus consumidores para encontrar tendências macroeconômicas, que podem se desenvolver e tornar-se outros negócios, independentes dessas empresas. Especialistas em números já foram capazes até mesmo de desvendar resultados combinados no sumô Japonês. Transformando Impurezas em Ouro “Exaustão de dados” – a trilha de cliques que os usuários de internet deixam para trás e da qual valor pode ser extraído – está se tornando uma mola mestra na economia da internet. Um exemplo é a ferramenta de busca do Google, que é parcialmente guiada pelo número de cliques em um item para ajudar a determinar sua relevância para um pedido de busca. Se o oitavo item do resultado de uma busca é o mais clicado pelos usuários, os algoritmos o fazem subir na lista. À medida em que o mundo se torna crescentemente digital, é provável que a agregação e análise de dados também sejam capazes de trazer benefícios gigantescos para outras áreas. Por exemplo, o Sr. Mundie da Microsoft e Eric Schimdt, o chefe do Google, fazem parte de uma força-tarefa presidencial para reformar o sistema de saúde norte-americano. “No início desse processo o Eric e eu ambos dissemos: ‘Veja, se você realmente quer transformar o sistema de saúde, você tem que basicamente criar um tipo de economia do sistema de saúde baseado nos dados que representam as pessoas’,” explica o Sr. Mundie. “Você não pode apenas pensar nos dados como ‘subprodutos’ da prestação de serviços de saúde, eles têm, na verdade, que se tornar o ativo principal na tentativa de definir como podemos melhorar cada aspecto do sistema de saúde. É uma inversão, de alguma forma.” Para se certificar, registros digitais devem facilitar as vidas de médicos, reduzir custos de fornecedores e pacientes e melhorar a qualidade do serviço. Mas no agregado os dados podem também ser minados para identificar interações medicamentosas indesejadas, identificar os tratamentos mais eficazes e prever o começo de doenças antes que surjam seus sintomas. Os computadores já tentam fazer essas coisas, mas precisam ser programados para tal. Em um mundo de big data as correlações emergem praticamente sozinhas. Algumas vezes esses dados revelam mais do que se esperava inicialmente. Por exemplo, a cidade de Oakland, na Califórnia, publica informações sobre onde e quando foram feitas prisões, o que é posto em um site privado, o Oakland Crimespotting. Em determinado momento alguns cliques revelaram que a polícia coibiu a prostituição em toda uma avenida movimentada da cidade todas as noites exceto às quartas-feiras, uma tática que eles provavelmente não tinham a intenção de divulgar. Mas os “grandes dados” podem ter consequências muito mais sérias que essa. Durante a recente crise financeira ficou claro que bancos e agências de rating vinham se baseando até então em modelos que, apesar de exigir uma vasta quantidade de informações para funcionarem, falharam em identificar o risco financeiro no mundo real. Essa foi a primeira crise deflagrada por grandes dados – e haverá outras. A forma como a informação é gerenciada tange todas as áreas da vida. Na virada do século 20 novos fluxos de informação através de meios como telefone e telégrafo apoiaram a produção em massa. Hoje a disponibilidade de dados abundantes permite que empresas consigam atender a pequenos mercados de nicho em qualquer lugar do mundo. A produção econômica era baseada na fábrica, onde os gerentes se debruçavam sobre cada processo e máquina para torna-los mais eficientes. Agora os estatísticos minam as informações geradas pelo negócio para ter novas ideias. “A economia centrada em dados está apenas nascendo,” admite o Sr. Mundie da Microsoft. “Você pode ver sua forma, mas as implicações técnicas, infraestruturais e até mesmo de modelagem de negócios não foram muito bem entendidas até agora.”