12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI BIG DATA /ANALYTICS : EDUCATION AND MANAGEMENT OF DATA SCIENTISTS Vivaldo José Breternitz (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – [email protected] Fábio Silva Lopes (Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – [email protected] Leandro Augusto da Silva ((Universidade Presbiteriana Mackenzie, São Paulo, Brasil) – [email protected] ABSTRACT Proper analysis of the large volume of data that has been generated by conventional computer systems, social networks, sensors etc., tends to become critical for organizations, for this analysis can generate key information for their success. There is, however , a great lack of qualified professionals to do this analysis . This paper presents an overview of Big Data and Analytics , which make up the environment in which these professionals will work. It also discusses issues pertaining the necessary skills to these professionals and their training and management. The main objective of this work is to provide information to those who deal with the subject. KEYWORDS Analytics, Big Data , Data Scientists , Education , Management BIG DATA/ANALYTICS: FORMAÇÃO E GESTÃO DE CIENTISTAS DE DADOS RESUMO A análise adequada do grande volume de dados que vem sendo gerado por sistemas convencionais de computador, redes sociais, sensores etc., tende a se tornar fator crítico para as organizações, pois essa análise pode gerar informações fundamentais para o sucesso das mesmas. Há, no entanto, uma grande carência de profissionais habilitados a fazer essa análise. Este trabalho discute aspectos ligados às habilidades necessárias a esses profissionais e à sua formação e gestão, após apresentar uma visão geral de Big Data e Analytics, que compõem o ambiente onde esses profissionais atuarão. O principal objetivo do trabalho é fornecer subsídios àqueles envolvidos com o assunto. PALAVRAS-CHAVE Analytics, Big Data, Cientistas de Dados, Formação, Gestão. 0525 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI 1. INTRODUÇÃO A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A velocidade e o volume com que estes vêm sendo criados são alucinantes: Smolan e Erwitt (2012) afirmam que até 2003 a humanidade havia gerado 5 Exabytes, e que em 2012, bastavam dois dias para que esse volume fosse criado. Este cenário tem levado as empresas a coletar, processar e analisar os dados, tornando estes um recurso valioso, fundamental para a tomada de decisão e para melhorar ou viabilizar novos produtos, serviços e processos – tudo isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso intensivo dos dados. O periódico The Economist entrevistou executivos de grandes organizações em sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram que a disponibilidade de dados havia alterado completamente a forma como suas organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com alguns aspectos básicos relacionados ao uso dos dados, dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o mercado vem chamando Cientistas de Dados (CD). 2. OBJETIVO, ASPECTOS METODOLÓGICOS E ESTRUTURA Dado o cenário apresentado, elaborou-se este ensaio que tem como objetivo discutir aspectos relativos à formação e gestão dos Cientistas de Dados (Data Scientists), profissionais que talvez sejam os mais importantes no processo de transformação de dados em informação, pretendendo fornecer subsídios àqueles envolvidos com o assunto. O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e acadêmica dos autores, que no meio universitário vem se dedicando à pesquisa do assunto e à formação de pessoal que atuará na área; do ponto de vista estrutural inicia-se com a apresentação de visões gerais de Big Data e Analytics, seguida pela discussão de temas ligados aos Cientistas de Dados (CD), em especial as características pessoais desejadas, sua formação e gestão (contratação, ambiente de trabalho e retenção). 3. BIG DATA – UMA VISÃO GERAL Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro aspectos: volume, velocidade, variedade e veracidade. O aspecto “volume” refere-se ao fato de que a quantidade de dados cresce de maneira exponencial, provenientes não só de sistemas convencionais, mas também de fontes como Facebook, Tweeter, You Tube, eletrônica embarcada, telefones celulares e assemelhados, sensores de diversos tipos, etc. McAfee e Brynjolfsson (2012) apresentam outro aspecto relevante de Big Data: a velocidade em que dados podem ser capturados e processados, praticamente em tempo real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab: o grupo capturou dados relativos à localização de celulares de forma a descobrir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas 0526 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros similares são relatados também por Clifford (2012). No que se refere a “variedade”, cabe registrar que além de fontes diferentes, os dados coletados têm frequentemente, características diferentes das dos processados pelos sistemas convencionais, não sendo estruturados e referindo-se a coisas como som, imagem, movimento, temperatura, umidade etc. (Lohr, 2012). Davenport (2014) chama a atenção para este aspecto, ao dizer que apesar de o volume de dados ser o que mais chama a atenção, a falta de estrutura é o aspecto mais difícil para o trabalho na área. O aspecto “veracidade” está relacionado ao fato de que os dados não são “perfeitos”, no sentido de que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e também os custos para torná-los bons. As ferramentas computacionais vêm acompanhando o crescimento dessa velocidade e do volume de dados, em termos de capacidade de armazenamento e processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing) e em técnicas de inteligência artificial. No modelo convencional de armazenamento de dados e tomada de decisão, a organização filtra dados dos seus vários sistemas e após criar um data warehouse, constrói consultas (queries) a fim de subsidiar a tomada de decisões. Na prática faz-se garimpagem (mining) em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI). Com stream computing, esse mining ocorre em tempo praticamente real, com uma corrente contínua de dados (streaming data) submetida a um conjunto de queries ou algoritmos analíticos. Essa dinâmica pode ser considerada um novo paradigma. Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de linguagem natural (natural language processing), reconhecimento de padrões (pattern recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos grandes volumes de dados conhecimento para auxiliar a gestão (Lohr, 2012). De forma a complementar as ferramentas computacionais, novos paradigmas de gerenciadores de bancos de dados NoSQL (Not Only SQL), representados por ferramentas como o Cassandra e Mongo-DB vem sendo apresentados como soluções que tratam imensos volumes de dados com muita velocidade. Essas ferramentas, geralmente são inseridas em frameworks como o Hadoop, que orquestram o gerenciamento distribuído de arquivos, bem como o processamento paralelo, de modo a garantir a performance das aplicações implementadas. Soluções conjugando hardware e software na modalidade in memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA respectivamente, já estão disponíveis, permitindo ainda maior aceleração do processamento dessas operações. 4. ANALYTICS – UMA VISÃO GERAL Na atualidade, as organizações estão explorando os grandes volumes de dados na tentativa de obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência artificial e outras - a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics). As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde, segurança, manufatura etc. McAfee e Brynjolfsson (2012) conduziram estudos que 0527 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI levaram à conclusão de que as empresas que efetivamente utilizam BDA são 5% mais produtivas e 6% mais lucrativas que seus competidores – esses números são um poderoso argumento em prol da utilização dessa abordagem. Davis (2014) reitera a importância do tema ao dizer que BDA não é apenas marketing hype ou apenas uma nova versão ou novo nome para os métodos de análise estatística e manipulação de dados já existentes; BDA é algo realmente novo, que dá vida à antiga ideia de que a computação vai mudar definitivamente o mundo dos negócios. Russom (2011) relaciona alguns dos motivos pelos quais as organizações vêm utilizando BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar oportunidades de negócios, automatizar decisões em processos em tempo real, identificar previamente clientes que possam deixar de sê-lo (churn), detectar fraudes etc. Apesar de o ferramental necessário estar sendo desenvolvido, é preciso lembrar que a utilização de BDA impõe às organizações a aplicação de novas habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de BDA. Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de profissional; já se pode identificar distintas funções ligadas ao tema, como os Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas; Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando adequadamente e outros; note-se que para diversas funções não há ainda sequer um nome em português. Reitera-se que este ensaio trata apenas de aspectos relacionados ao Cientista de Dados, profissional de extrema importância, talvez o mais importante, quando se utiliza BDA. 5. O CIENTISTA DE DADOS Ainda não há uma definição precisa do que seja um Cientista de Dados, de seu papel nas organizações e dos conhecimentos e habilidades necessárias à função (Chatfield, Shlemoon, Redublado & Rahman, 2014); estes autores identificaram 24 definições do que seja um CD. No âmbito deste trabalho, poderíamos citar as definições de Davenport e Patil (2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto trabalhava para o LinkedIn). Já Granville (2014), diz que um CD é um generalista que conhece negócios, estatística, ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e outras. Harris, Shetterley, Alter & Schnell (2013:3), são contundentes ao afirmarem que CD é “the most common term for the often PhD-level experts who operate at the frontier of analytics, where data sets are so large and the data so messy that lessskilled analysts using traditional tools cannot make sense of them. But they are more precisely described as data engineer-scientist-managerteachers.” 0528 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI Passa-se agora a discutir os temas apontados no objetivo deste trabalho, em especial as características pessoais desejadas em um CD, sua formação e gestão (contratação, ambiente de trabalho e retenção). 5.1. Características pessoais desejadas Diversos autores vêm discutindo as características pessoais que são desejáveis em CDs, destacando-se entre elas curiosidade e criatividade (Van Der Aalst, 2014; Davenport & Patil, 2012). Iniciativa e capacidade de enfrentar dificuldades são outras qualidades importantes, conforme Davenport e Patil (2012), que relatam como Jonathan Goldman, a despeito do desinteresse e até oposição de superiores e colegas, conseguiu implementar no LinkedIn a funcionalidade “People You May Know“, que trouxe à empresa milhões de novas page views. Os mesmos autores realçam a importância da capacidade de comunicação com os demais envolvidos no processo, quer os técnicos, quer os usuários. Loukides (2010) menciona também a paciência, a capacidade de desenvolver soluções de forma incremental, gerando produtos inicialmente pequenos, mas que podem evoluir para soluções mais amplas. Cita também a capacidade de “pensar fora da caixa”, partindo de situações do tipo “temos uma grande quantidade de dados, o que podemos fazer com eles?”. 5.2. A formação dos CD As pessoas que atualmente estão atuando como CD tem formação acadêmica muito diversificada, embora possuam, quase sempre, cursos de pós-graduação stricto sensu nas chamadas hard sciences (física, matemática e similares). Mamonov, Misra & Jain (2014), no entanto, sugerem que graduados em Sistemas de Informação podem receber com relativa facilidade a formação complementar para atuarem como CD, por ser esse curso composto por disciplinas desse tipo complementadas por disciplinas voltadas à área de negócios. Miller (2014) recomenda que as empresas e a academia devam trabalhar conjuntamente de forma a que se possa formar pessoal adequadamente. Estão surgindo no exterior alguns cursos de pós-graduação voltados especificamente para a formação de profissionais para BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu, envolvendo a Universidade Presbiteriana Mackenzie, a Escola Superior de Propaganda e Marketing e a Fundação Getúlio Vargas, entre poucas outras. Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA em cursos de graduação, inclusive criando laboratórios onde estudantes possam analisar dados de interesse de suas áreas específicas – laboratórios como esses são importantes para que os alunos desenvolvam um conhecimento prático acerca domo aplicar BDA no ambiente empresarial. Miller (2014) lembra que manter o foco apenas em funções específicas não atenderá as necessidades do futuro próximo, propondo que o conhecimento desses temas deve ser dado em todos os currículos, independentemente da formação pretendida, pois sem conhecimentos, mesmo que elementares, acerca de BDA, os alunos não estarão preparados para os desafios do atual ambiente empresarial – esses conhecimentos elementares devem ser, no mínimo, os necessários à comunicação eficaz com os CD. Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos, movimento que também começa a se observar em suas subsidiárias no Brasil; como exemplo, podem-se citar iniciativas da IBM em parceria com a Universidade Presbiteriana Mackenzie, envolvendo treinamento de professores e alunos, criação de cursos etc. 0529 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI Brooks (2012) diz que um grande desafio para as universidades está no fato de que o tema exige T-shaped professionals, ou profissionais com o perfil “T”, ou ainda, o “especialista generalista”. No caso, a barra horizontal do “T” é a formação básica, que deve ser suficientemente ampla para que o profissional desenvolva as habilidades para influenciar pessoas, atuar em equipes multidisciplinares, vislumbrar oportunidades e encontrar soluções para problemas complexos. Já a barra vertical, caracteriza o aprofundamento nos temas ligados a BDA propriamente dito. Tudo isso, implica na necessidade de criar novos currículos e adaptar os já existentes; o pessoal envolvido deverá conhecer de maneira profunda matemática, estatística, aprendizado de máquina (machine learning), análise preditiva, ciência da computação, programação, ética, legislação, privacidade, comunicação (visualização), segurança de dados, banco de dados, mineração de dados etc. (Miller, 2014). Além de criação e adaptação de currículos, outras medidas podem ser tomadas, como a criação de descrições formalizadas dos diversos cargos envolvidos, certificações, comunidades de profissionais, parcerias empresas/universidades/governos, grupos de trabalho para tratar de pontos críticos como segurança da informação e privacidade, por exemplo, e grupos de pesquisa vinculados a universidades. Miller (2014) reitera que o desafio não envolve apenas Tecnologia da Informação. Funções tão díspares como marketing, finanças, desenvolvimento de produtos, manufatura e operações serão afetadas pelo fenômeno BDA – e que as empresas devem estar preparadas para isso também em termos de recursos humanos. 5.3. A gestão dos CD Davenport e Patil (2012), afirmam que a falta de pessoal, especialmente CD, está se tornando uma séria restrição em alguns setores, a ponto de algumas empresas estarem criando times especializados no recrutamento desses profissionais. Dizem também que, dada a escassez desses profissionais, o desafio é aprender a identificar talentos, atrai-los e torna-los produtivos. Nenhuma dessas tarefas pode ser executada de forma similar à que é executada para as funções convencionais, pois além de praticamente não existirem cursos que formem CD, ainda há pouco consenso sobre onde seu trabalho “se encaixa” na organização e como seu desempenho pode ser medido. Há a percepção de que a disputa por talentos deve ser intensa e que como os profissionais da área tendem a se interessar muito por desafios, os responsáveis pelo recrutamento e seleção devem estar preparados para “vender” suas oportunidades aos candidatos enfatizando este aspecto. Evidentemente, salários e outros benefícios tem seu peso, e na medida em que os profissionais são raros, estes tendem a serem maiores. Em situações como essas, as organizações podem ser levadas a considerar a hipótese de contratar os serviços desses profissionais através de grandes empresas de consultoria, como ocorre com frequência quando se trata do uso de novas tecnologias. Davenport e Patil (2012) são céticos quanto aos resultados dessa abordagem, mencionando que profissionais com esse perfil não desejam simplesmente dizer a executivos o que suas análises recomendam que estes devam fazer, mas sim pretendem “construir coisas”, deixando suas marcas no ambiente em que atuam; quanto mais se espera deles, mais eles tendem a se motivar, e é importante desafia-los, cobra-los. Pelas suas características pessoais, CD não se dão bem trabalhando em estruturas onde o controle é muito rígido – cronogramas, fronteiras departamentais, job descriptions, horários, dress code e outras regras tendem a incomodar esses profissionais; eles precisam 0530 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI de liberdade para experimentar e explorar, para adicionar valor, inovar, para o que é necessário um relacionamento mais próximo com executivos responsáveis por produtos e serviços que podem ser impactados pelos resultados de BDA do que com aqueles responsáveis pelas “caixas” do organograma. Dadas essas dificuldades para as empresas, pode-se perguntar se não seria interessante para estas simplesmente aguardar até que o número de CD no mercado se torne maior, o que deve ocorrer pelo interesse das universidades em formar pessoal, e ai contratar pessoal mais facilmente e a menor custo – cabe lembrar que esse fenômeno já ocorreu com diversas especialidades, como por exemplo, desenvolvedores na área de sistemas. Esse raciocínio não parece válido, na medida em que a demanda por CD não parece estar diminuindo, e provavelmente um equilíbrio oferta/demanda acontecerá apenas em prazo longo; esperar pode dar aos concorrentes vantagens que não poderão ser tiradas. Nesse sentido, Mamonov et al (2014) reportam que em junho de 2014, apenas na cidade de Nova Iorque, existiam cerca 5.800 ofertas de emprego na área, pagando salários anuais entre US$ 60 mil e US$ 140 mil, além de cerca de 1.100 ofertas com salários acima de US$ 140 mil anuais 6. CONSIDERAÇÕES FINAIS Na medida em que o volume de dados disponíveis e a capacidade para armazena-los e analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são administradas: novas formas de planejar e tomar decisões estão surgindo, a competição deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em maior número; dentre esses, os Cientistas de Dados são os mais importantes e de formação mais difícil. Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para atender às novas demandas e cursos destinados a preparar os recursos humanos necessários, quer no sentido negativo, quando empresas e instituições de ensino menos comprometidos com a qualidade lançam produtos e serviços de qualidade questionável, proliferando serviços de consultoria, educação e treinamento, literatura e também software quase sempre inadequados para uma abordagem adequada do assunto. Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o joio do trigo, o que em alguns lugares, como no Brasil, infelizmente não acontece com a desejável frequência. REFERÊNCIAS Brooks, K. (2012). Career success starts with a “T”. Psychology Today, Recuperado de http://www.psychologytoday.com/blog/career-transitions/201204/career-success-starts-t em 19.12.2014. Chatfield, A. T., Shlemoon, V. N., Redublado, W. & Rahman, F. (2014). Data Scientists as a Game Changers in Big Data Environments. Proceedings of the 25th Australasian Conference on Information Systems (ACIS), Auckland, New Zealand. Clifford, S. (2012) Retail Frenzy: Prices on the Web Change Hourly. The New York Times, edição de 30.11.2012. Recuperado de 0531 12th INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS & TECHNOLOGY MANAGEMENT - CONTECSI http://www.nytimes.com/2012/12/01/business/online-retailers-rush-to-adjust-prices-inreal-time.html?pagewanted=all&_r=0 em 19.12.2014. Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Boston: Harvard Business School Publishing. Davenport, T. H. & Patil, D. J. (2012). Data Scientist: the Sexiest Job of the 21st Century. Harvard Business Review, edição de outubro de 2012, pp. 70-76. Davis, C. K. (2014) Beyond Data and Analysis. Communications of the ACM, 57 (6), pp. 39-41. EIU – Economist Intelligence Unit (2011). Big data - Harnessing a Game-Changing Asset. Londres: The Economist, author. Recuperado de http://www.sas.com/resources/asset/SAS_BigData_final.pdf em 19.12.2014. Granville, V. (2014). Developing Analytic Talent. Becoming a Data Scientist. Indianapolis: John Wiley. Harris, J.G., Shetterley, N., Alter, A.E. & Schnell, K. (2013) The Team Solution to the Data Scientist Shortage. Accenture Institute for High Performance. Recuperado de http://www.accenture.com/SiteCollectionDocuments/PDF/Accenture-Team-Solution-DataScientist-Shortage.pdf, acessado em 12.12.2014. Lohr, S. (2012). The Age of Big Data. The New York Times, edição de 11.02.2012. Recuperado de www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-theworld.html?_r=1&scp=1&sq=Big%20Data&st=cse em 09.05.2014. Loukides, M. (2010) What Is Data Science? O’Reilly, edição digital (Kindle) disponível em http://www.amazon.com/What-Data-Science-Mike-Loukidesebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=11&keywords=data+scientist, baixado em 12.05.2014. Mamonov, S., Misra, R. & Jain, R. (2014). Business Analytics in Practice and in Education: A Competency-based Perspective. Proceedings of the Information Systems Educators Conference, 31, Baltimore, USA. McAfee, A., Brynjolfsson, E. (2012). Big Data: The Management Revolution”. Harvard Business Review , edição de outubro de 2012, pp. 60–68. Miller, S. (2014). Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design, 3 (1), 26-30. Russom, P. (2011). Big Data Analytics. Renton: TDWI. Smolan, R. & Erwitt, J. (2012). The human face of Big Data. Sausalito: Against All Odds Productions. Van Der Aalst, W. M. P. 2014. Data Scientist: The Engineer of the Future. Proceedings of the I-ESA Conferences, 7, 13-26. Zikopoulos, P., De Roos, D., Parasuraman, K., Deutsch, T., Giles, J. & Corrigan, D. (2012). Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media. 0532