LISTA 3 BIGDATA - CAPITULO 2 Fábio Magalhães RA015998 QUESTÃO 1 Como são os identificadores da Eduroam e da Federação CAFe - RNP ? Do Site da CAFe - RPN temos: “A Comunidade Acadêmica Federada (CAFe) é uma federação de identidade que reúne instituições de ensino e pesquisa brasileiras. Através da CAFe, um usuário mantém todas as suas informações na instituição de origem e pode acessar serviços oferecidos pelas instituições que participam da federação.” "A CAFe possibilita que cada usuário tenha uma conta única em sua instituição de origem, válida para todos os serviços oferecidos à federação, eliminando a necessidade de múltiplas senhas de acesso e processos de cadastramento.” No que consiste à parte técnica dos identificadores, temos os seguintes atributos: Em relação ao identificador da Eduroam Temos que os principais atributos do identificador está na forma: identificador@domínio chave de identificação Nos dois casos (Eduroam e CAFe-RPN) temos que o domínio o identificador é o domínio da instituição em que o usuário se encontra (por exemplo, os alunos da Unicamp podem usar o domínio “unicamp.br”). QUESTÃO 2 Considere os exemplos de identificadores listados às fls. 19 do livro texto. Escolha uma das organizações e explique como são obtidos os identificadores e dê um exemplo de um identificador gerado. Um Número de Seguridade Social (SSN) consiste de 9 dígitos comumente escritos em três blocos separados por hífens: AAA-GG-SSSS. O primeiro bloco de 3 dígitos é chamado de “número de área”. O bloco central de dois dígitos é chamado de “número de grupo”. O bloco final é chamado de “número serial”. O processo de geração dos números mudou, no mínimo, duas vezes. Até 1965, apenas metade dos “números de grupos” foram usados. Antes de 1972, os números eram emitidos pelos escritórios locais. Desde 1972, isso mudou e os números começaram a ser emitidos pelo escritório central. A ordem em que os números foram disponibilizados mudou na transição de 1972. Pode ter tido outras mudanças mas é difícil saber como as coisas eram feitas. NÚMEROS DE ÁREA Os números de área são atribuídos à localizações geográficas. Eles foram atribuídos originalmente da mesma maneira que os CEPs foram atribuídos mais tarde (de forma particular, os números de áreas aumentam do leste para o oeste ao longo do território dos EUA da mesma forma que os CEPs). A maior parte dos números de área foram atribuídos de acordo com as fronteiras territoriais ou de estados apesar de a série 700-729 ter sido atribuída a trabalhadores ferroviários independentemente de suas localizações (esta série de de números de área foi descontinuada em 1964 e não é mais usada nos novos SSNs). Número de áreas antes de 1972 foram atribuídos pelos escritórios regionais da Administração de Seguridade Social. Desde 1972 o número de área dos SSNs corresponde ao endereço de residência dado pelo requerente. Em várias regiões o escopo total de número de área foi, eventualmente, ao limite máximo devido ao crescimento populacional. Os números originais foram aumentados de acordo com a necessidade. Todas as atribuições originais são menores que 585 (com a exceção do intervalo 700-729 relativo aos trabalhadores de linhas ferroviárias mencionados acima). Os números de área “000" nunca foram atribuídos à região alguma. NÚMEROS DE GRUPO Os números de grupos não estão relacionados à geografia mas sim à ordem na qual os SSNs são designados para uma particular região. Antes de 1965, apenas metade do número de grupos foram usados: eram usados números ímpares menores que 10 e números pares acima de 9. Em 1965, o sistema foi alterado usando, dessa forma, baixos números pares e altos números ímpares. Então, os números para cada número de área são atribuídos da seguinte forma: 1 Números ímpares, 01 a 09 2 Números pares, 10 a 98 3 Números pares, 02 a 08 4 Números ímpares, 11 a 99 Os números de grupo “00" não são atribuídos. Em cada região, todos os possíveis números de áreas são atribuídos a cada número de grupo antes de usar-se o próximo número de grupo. Isto significa que os números de grupos podem ser usados para estabelecer-se uma ordem cronológica dos SSNs dentro de uma região. Quando novos números de grupos são designados para determinado estado, os números mais antigos foram usados primeiramente. Números seriais são designados em ordem cronológica dentro de cada área e número de grupo a medida em que as requisições são processadas. O número serial “0000" nunca é usado. Antes de 1965, quando a atribuição de números foi transferida dos escritórios locais para o escritório central, os números seriais podem ter sido atribuídos fora de ordem. (Algumas fontes dizem que entre 2000 e 7000 números de série foram atribuídos fora de ordem. Isso não mais parece ser o caso). Atualmente, os números seriais são atribuídos em uma ordem estritamente crescente em cada combinação de área e grupo. Um exemplo de Número de Seguridade Social: QUESTÃO 3 Comente possíveis métodos de “limpeza” de dados (data scrubbing). Há vários métodos para o processo de “limpeza" de dados. A maioria destes métodos requer que o responsável pelos dados desenvolva uma lista de exceções de itens que não devem ser inclusos em registros compartilhados (por exemplo, cidades, estados, códigos postais, nomes de pessoas etc). A aplicação de limpeza varre os registros extraindo as informações desnecessárias ao longo do caminho. O produto final está limpo mas não esterilizado. Apesar de que vários itens não desejados podem ser removidos com sucesso, esta abordagem nunca produz um conjunto perfeito de dados limpos. Em um conjunto de Big Data, é simplesmente impossível para o responsável pelos dados antecipar todo item em objeção em incluir isso em uma lista de exceções. Há, porém, um método onde registros de dados podem ser limpos sem erros derivados do processo de limpeza. Este método envolve em criar uma lista de data (frequentemente na forma de palavras ou frases) que são aceitáveis para a inclusão em um conjunto de dados limpos e deidentificados. Qualquer outro dado que não esteja na lista de dados aceitáveis é automaticamente apagado. O que sobrar é o conjunto de dados final após do processo de “data scrubbing”. Tudo no conjunto de dados é automaticamente removido a não ser que este seja uma “exceção" já aprovada. QUESTÃO 4 Comente cada um dos itens da sessão “Lessons Learned” (fls. 32 do livro texto) e dê exemplo/s que contextualize/m sua resposta. 1. All Big Data resources can be imagined as an identifier system for data objects and data-related events (i.e., timed transactions). The data in a big data resource can be imagined as character sequences that are attached to identifiers. Todo registro em um banco de dados (também no caso de BigData) possui um identificador (uma chave primária) para o mesmo. Além disso cada registro possui atributos relativos ao mesmo. No caso de um cidadão brasileiro teríamos vários dados de uma pessoa (nome, idade, filiação, endereço) associados a um único CPF. 2. Without an adequate identification system, a Big Data resource has no value. The data within the resource cannot be trusted. Um sistema rigoroso e eficaz de identificação é necessário para que um conjunto de BigData tenha em si um sentido coerente ao ser analisado. Cada registro deve ser, adequadamente, provido de um identificador único para que as identificações sejam feitas de maneira correta. Caso contrário será impossível analisar os dados de uma forma confiável e coerente. Um exemplo disso é o cadastro de pacientes e seus respectivos exames realizados em um hospital: se não houver um sistema em que os pacientes e os exames não forem identificados e corretamente relacionados entre si toda a base de dados ficaria comprometida. 3. An identifier is a unique alphanumeric sequence assigned to a data object. É uma maneira de identificarmos um objeto de dados: com uma sequência de números e letras. Um exemplo disso é o CPF de alguém : um conjunto numérico que identifica alguém. 4. A data object is a collection of data that contains self-describing information, and one or more data values. Data objects should be associated with a unique identifier. Um identificador é associado de maneira unívoca a um objeto de dados que , por sua vez, é composto de atributos que o descrevem e valores relativos a esses mesmos atributos. Exemplo: Cada CPF está associado a uma única pessoa. Cada pessoa possui diversos atributos como idade, sexo, estado civil etc. E cada atributo possui um valor: tantos anos, masculino ou feminino, casado etc. 5. Deidentification is the process of stripping information from a data record that might link the record to the public name of the record’s subject. Por exemplo, em um processo de identificação de uma conta bancária o nome do dono da conta é associado a um identificador único e em todo processo de transação é utilizado somente este número. Não há como identificar o usuário. Em suma, todos os dados que possuam algum potencial de identificar o explicitamente o usuário são excluídos dos respectivos registros em uma base de dados deidentificada 6. Deidentification should not be confused with the act of stripping a record of an identifier. A deidentified record must have an associated identifier, just as an identified data record must have an identifier. Deidentificação não é somente excluir um identificador. Todo registro deidentificado deve possuir um identificador. Tal identificador, porém, é um outro identificador o qual identifica o registro reidentificado mas sem revelar dado público e explicitar abertamente a quem se refere o registro. Por exemplo: O diagnóstico de João Pedro é tal. (registro original). Em um registro deidentificado atribuímos um outro identificador para o nome como, por exemplo, 324967. O Registro deidentificado seria: O diagnóstico de 324967 é tal. (registro deidentificado). 7. Where there is no identification, there can be no deidentification and no reidentification. Onde não se possui um identificador não se pode, claramente, fazer um processo de deidentificação visto não haver um identificador principal a ser substituído. Dessa forma, também não poderemos fazer o processo de reidentificação associando o registro em questão ao identificador original. 8. Reidentification is the assignment of the public name associated with a data record to the deidentified record. Reidentification is sometimes necessary to verify the contents of a record or to provide information that is necessary for the well-being of the subject of a deidentified data record. Reidentification always requires approval and oversight. O processo de reidentificação que é a identificação de um respectivo registro com um nome público associado requer aprovação ou da pessoa a que se refere ao registro ou de uma autorização judicial ou da organização em questão visto ser uma informação confidencial e particular. 9. When a deidentified data set contains no unique records (i.e., every record has one or more additional records from which it cannot be distinguished, aside from its assigned identifier sequence), then it becomes impossible to maliciously uncover a deidentified record’s public name. Visto que não há como distinguir um registro do outro não podemos fazer comparações entre os mesmos e extrair dados que, talvez, possa levar a alguma comparação que revele possíveis métodos de descobrir informações importantes sobre a identidade da pessoa em questão. O único dado diferente entre os registros similares é o numero de sequencia de seu identificador. Como os dados estão deidentificados não podemos ligá-los aos nomes de registros públicos. 10. Data scrubbers remove unwanted information from a data record, including information of a personal nature, and any information that is not directly related to the purpose of the data record. Data deidentification is a process whereby links to the public name of the subject of the record are removed (see Glossary items, Data cleaning, Data scrubbing). Um processo de deidentificação apenas exclui elementos que possam promover explicitamente a identificação pública do sujeito a que o registro se refere enquanto o processo de “data scrubbing” retira os elelementos que não são necessários para uma base de dados dirigida a um propósito. Por exemplo, uma base dados deidentificada de um cadastro médico substituiria os nomes dos pacientes por uma sequencia alfa numérica. Já uma base de dados médica cujo propósito é calcular a média de idade pos pacientes possuiria somente em seus registros a idade dos pacientes retirando qualquer outra informação não relevante para o propósito para a qual foi criada. 11. The fastest known method of data scrubbing involves preparing a list of approved words and phrases that can be retained in data records and removing every word or phrase that is not found in the approved list. De acordo com o texto o melhor método de “data scrubbing” é a compilação de palavras e frases que podem ser mantidas nos registros e todas as outras podem ser remover com segurança. Dessa forma, garantimos que todos os termos os quais são necessários para determinada análise estarão presentes excluindo-se todos os outros.