Cap 5. Fundamentos da inteligência de negócios Seção Interativa: A Receita Federal descobre fraudes nos impostos com data warehouse A Receita Federal norte-americana é a agência responsável por coletar os impostos e definir as leis a eles relacionadas. Desde sua criação, na década de 1860, a Receita cresceu em ordens de magnitude equivalentes à da população dos Estados Unidos. Em 2008, a agência processou aproximadamente 140 milhões de declarações de impostos individuais que totalizaram uma receita de aproximadamente 2 trilhões de dólares. Não é surpresa alguma que uma falha em seus sistemas de informação poderia resultar em volumosa perda ao governo federal norte-americano. Felizmente para a Receita Federal – e, talvez, infelizmente para alguns inescrupulosos – a agência uniu-se à Sybase para implementar um data warehouse, conhecido como data warehouse de compliance (CDW – compliance data warehouse), que melhorou a eficiência e aumentou drasticamente o montante de dinheiro coletado pela Receita de seus contribuintes delinqüentes. A Receita precisava de um data warehouse para organizar suas informações acumuladas, com informações pessoais de contribuintes e suas declarações de rendimento. Os dados estavam armazenados em sistemas legados projetados para o processamento eficiente de formulários de declarações e organizados em muitos formatos diferentes, inclusive em banco de dados hierárquicos de mainframes, bancos de dados relacionais em Oracle e arquivos sequenciais que não estavam em formato de banco de dados. Era quase impossível consultar e analisar os dados armazenados em banco de dados hierárquicos e nos arquivos unidimensionais e não podiam ser facilmente combinados com os dados relacionais. O CDW permite consultas altamente flexíveis em um dos maiores bancos de dados do mundo, com sete anos de informações de declarações de impostos individuais e empresariais. A cada ano, quatro terabytes de dados são inseridos no sistema. O banco de dados do data warehouse é relacional, com bilhões de linhas e mais de 200 colunas, todas com complexas ligações a agendas importantes e outros anexos. Quando chegam, os dados são reorganizados na estrutura relacional com base em definições e formatos padrão. Os pesquisadores da Receita agora conseguem pesquisar e analisar centenas de milhões, ou mesmo bilhões, de registros de uma vez utilizando fonte centralizada de dados precisos e consistentes, em vez de terem de agrupar informações de fontes inconsistentes. A implantação do CDW aprimorou muitíssimo a capacidade de a Receita gerenciar e utilizar os dados coletados. Como resultado, o data warehouse permitiu que a agência recuperasse muitos bilhões de dólares em declarações de rendimento que ficavam perdidas no antigo sistema. Em 2006, por exemplo, a Receita coletou 59,2 bilhões de dólares em receita adicional através de 1,4 milhão de auditorias de contribuintes investigados por declarações que não relatavam todos os rendimentos recebidos. A capacidade do CDW aumentou de três terabytes desde sua criação, no final da década de 1990, para 150 terabytes de dados atualmente. Ele permite que os usuários consultem os dados através de uma série de ferramentas. Inicialmente, o CDW contava com Sybase Adaptative Server IQ (software de dados relacional para data warehouse atualmente denominado Sybase IQ), Sybase PowerBuilder (ferramenta para desenvolvimento de aplicações para que usuários listassem e acessassem o conteúdo do banco de dados), Sybase Open Client (interface entre os sistemas do cliente e os servidores Sybase), Open Database Connectivity (interface de programação da aplicação), servidores Dual Sun Enterprise 6000 rodando Solaris 2.6 (versão da Sun para o UNIX), e disc array EMC. Esperava-se que o recurso mais importante do data warehouse fosse suficientemente grande para acomodar múltiplos terabytes de dados, mas também acessível de modo a permitir consultas a seus dados a partir de diferentes ferramentas. Os componentes selecionados pela Receita permitiram que o CDW funcionasse exatamente dessa forma. A implantação do CDW não se deu sem desafios. Um dos maiores deles foi descobrir que a conversão dos dados legados para o novo sistema não era um processo uniforme. Como as leis fiscais mudaram muitas vezes ao longo dos anos, a estrutura dos dados da Receita não era consistente de ano para ano; o que tornou a integração dos dados um processo complicado. Além disso, o montante de dados que o CDW estava disposto a gerenciar era muito maior do que qualquer outro que a Receita já houvesse gerenciado. Convencer a realizar uma atualização tão abrangente quanto a implantação de um data warehouse também não era fácil, já que as agências governamentais costumam ser avessas aos riscos e resistem a mudanças desse tipo. Os data warehouse também tendem a demandar esforço extensivo e dinheiro para se manterem atualizados. Apesar dos obstáculos, a implantação foi um grande sucesso. A receita relata que alcançou retorno de 200 para 1 na taxa de investimento pouco depois da implantação do CDW, que custou somente 2 milhões de dólares para ser concluído. A maior parte das economias do CDW veio da velocidade e da facilidade com as quais o sistema detectava erros nas declarações de rendimento. Utilizando o data warehouse, os analistas conseguem determinar padrões em grupos de pessoas propensas a mentir em suas declarações, tais como casais divorciados em que ambos declaram os filhos em seus formulários do mesmo ano, pessoas que abusam das deduções ou dos paraísos fiscais para pequenas empresas, ou recém-graduados sobrecarregados com empréstimos estudantis que podem acabar pagando menos impostos. Houve redução de seis a oito meses para somente algumas horas do tempo necessário à identificação de erros nas reclamações e para a análise de dados. Mais recentemente, a Receita atualizou a maneira de transportar as informações para o data warehouse central. Nos estágios iniciais, de desenvolvimento, a agência transportava os dados utilizando fitas magnéticas que comportavam somente dois gigabytes cada. Em 2006, a Receita substituiu as fitas por dispositivos de armazenamento de dois terabytes conectados à rede, com tamanho semelhante ao das fitas, mas que armazenam o volume de dados equivalente a 1.500 fitas. Além disso, os dispositivos de armazenamento são criptografados, garantindo que os dados fiquem seguros durante o transporte; anteriormente as fitas não RAM seguras e deixavam as informações dos contribuintes desprotegidas durante o trânsito. Estima-se que essa modificação represente uma economia de milhões de dólares para a agência ao longo do período de cinco anos. O número de auditorias realizadas pela Receita sugere que o CDW está funcionando bem, resultando em mais auditorias dos fraudadores e menos auditorias dos contribuintes honestos. As chances de sofrer auditoria aumentaram em uma em 140 em 2006 para uma em 377 em 2009. Em 2006, os contribuintes que receberam 1 milhão de dólares ou mais anualmente tiveram uma chance em 11 de ser auditados. Em 2003, as chances eram de uma em 20 para a mesma faixa de rendimentos. Contudo, a Receita conseguiu reduzir o número de auditorias realizadas nos dados de contribuintes inocentes e, portanto, o crescente número de auditorias afetou primeiramente aqueles que estão em dívida. Perguntas sobre o estudo de caso: 1. Por que era tão difícil para a Receita Federal analisar os dados coletados dos contribuintes? 2. Quais desafios a Receita Federal encontrou durante a implementação de seu data warehouse de compliance? Quais questões gerenciais, organizacionais e tecnológicas precisaram ser consideradas? 3. De que maneira o CDW aprimorou a tomada de decisão e as operações na Receita Federal? Existem benefícios aos contribuintes? 4. Você acha que os data warehouse poderiam ser úteis em outras áreas do setor Federal? Quais? Explique. 5. Faça uma analogia desse case com a empresa em que você trabalha. Essa tecnologia pode trazer contribuições para ela? Quais? 6. Quais argumentos você usaria para justificar o uso (ou não) dessa tecnologia em sua empresa? Fonte: Laudon, Kenneth. Sistemas de Informação gerenciais /Kenneth Laudon, Jane Laudon; tradução Luciana do Amaral Teixeira; revisão técnica João Belmiro Nascimento. – 9. ed. – São Paulo: Pearson Prentice Hall, 2010.