LISTA 3
BIGDATA - CAPITULO 2
Fábio Magalhães RA015998
QUESTÃO 1
Como são os identificadores da Eduroam e da Federação CAFe - RNP ?
Do Site da CAFe - RPN temos:
“A Comunidade Acadêmica Federada (CAFe) é uma federação de identidade que reúne
instituições de ensino e pesquisa brasileiras. Através da CAFe, um usuário mantém todas
as suas informações na instituição de origem e pode acessar serviços oferecidos pelas
instituições que participam da federação.”
"A CAFe possibilita que cada usuário tenha uma conta única em sua instituição de
origem, válida para todos os serviços oferecidos à federação, eliminando a necessidade de
múltiplas senhas de acesso e processos de cadastramento.”
No que consiste à parte técnica dos identificadores, temos os seguintes atributos:
Em relação ao identificador da Eduroam
Temos que os principais atributos do identificador está na forma:
[email protected]ínio
chave de identificação
Nos dois casos (Eduroam e CAFe-RPN) temos que o domínio o identificador é o domínio
da instituição em que o usuário se encontra (por exemplo, os alunos da Unicamp podem
usar o domínio “unicamp.br”).
QUESTÃO 2
Considere os exemplos de identificadores listados às fls. 19 do livro texto. Escolha uma
das organizações e explique como são obtidos os identificadores e dê um exemplo de um
identificador gerado.
Um Número de Seguridade Social (SSN) consiste de 9 dígitos comumente escritos em
três blocos separados por hífens: AAA-GG-SSSS. O primeiro bloco de 3 dígitos é
chamado de “número de área”. O bloco central de dois dígitos é chamado de “número de
grupo”. O bloco final é chamado de “número serial”. O processo de geração dos números
mudou, no mínimo, duas vezes. Até 1965, apenas metade dos “números de grupos” foram
usados. Antes de 1972, os números eram emitidos pelos escritórios locais. Desde 1972,
isso mudou e os números começaram a ser emitidos pelo escritório central. A ordem em
que os números foram disponibilizados mudou na transição de 1972. Pode ter tido outras
mudanças mas é difícil saber como as coisas eram feitas.
NÚMEROS DE ÁREA
Os números de área são atribuídos à localizações geográficas. Eles foram atribuídos
originalmente da mesma maneira que os CEPs foram atribuídos mais tarde (de forma
particular, os números de áreas aumentam do leste para o oeste ao longo do território dos
EUA da mesma forma que os CEPs). A maior parte dos números de área foram atribuídos
de acordo com as fronteiras territoriais ou de estados apesar de a série 700-729 ter sido
atribuída a trabalhadores ferroviários independentemente de suas localizações (esta série
de de números de área foi descontinuada em 1964 e não é mais usada nos novos SSNs).
Número de áreas antes de 1972 foram atribuídos pelos escritórios regionais da
Administração de Seguridade Social. Desde 1972 o número de área dos SSNs
corresponde ao endereço de residência dado pelo requerente.
Em várias regiões o escopo total de número de área foi, eventualmente, ao limite máximo
devido ao crescimento populacional. Os números originais foram aumentados de acordo
com a necessidade. Todas as atribuições originais são menores que 585 (com a exceção
do intervalo 700-729 relativo aos trabalhadores de linhas ferroviárias mencionados
acima). Os números de área “000" nunca foram atribuídos à região alguma.
NÚMEROS DE GRUPO
Os números de grupos não estão relacionados à geografia mas sim à ordem na qual os
SSNs são designados para uma particular região. Antes de 1965, apenas metade do
número de grupos foram usados: eram usados números ímpares menores que 10 e
números pares acima de 9. Em 1965, o sistema foi alterado usando, dessa forma, baixos
números pares e altos números ímpares. Então, os números para cada número de área são
atribuídos da seguinte forma:
1 Números ímpares, 01 a 09
2 Números pares, 10 a 98
3 Números pares, 02 a 08
4 Números ímpares, 11 a 99
Os números de grupo “00" não são atribuídos.
Em cada região, todos os possíveis números de áreas são atribuídos a cada número de
grupo antes de usar-se o próximo número de grupo. Isto significa que os números de
grupos podem ser usados para estabelecer-se uma ordem cronológica dos SSNs dentro de
uma região. Quando novos números de grupos são designados para determinado estado,
os números mais antigos foram usados primeiramente.
Números seriais são designados em ordem cronológica dentro de cada área e número de
grupo a medida em que as requisições são processadas. O número serial “0000" nunca é
usado. Antes de 1965, quando a atribuição de números foi transferida dos escritórios
locais para o escritório central, os números seriais podem ter sido atribuídos fora de
ordem. (Algumas fontes dizem que entre 2000 e 7000 números de série foram atribuídos
fora de ordem. Isso não mais parece ser o caso). Atualmente, os números seriais são
atribuídos em uma ordem estritamente crescente em cada combinação de área e grupo.
Um exemplo de Número de Seguridade Social:
QUESTÃO 3
Comente possíveis métodos de “limpeza” de dados (data scrubbing).
Há vários métodos para o processo de “limpeza" de dados. A maioria destes métodos
requer que o responsável pelos dados desenvolva uma lista de exceções de itens que não
devem ser inclusos em registros compartilhados (por exemplo, cidades, estados, códigos
postais, nomes de pessoas etc). A aplicação de limpeza varre os registros extraindo as
informações desnecessárias ao longo do caminho. O produto final está limpo mas não
esterilizado. Apesar de que vários itens não desejados podem ser removidos com sucesso,
esta abordagem nunca produz um conjunto perfeito de dados limpos. Em um conjunto de
Big Data, é simplesmente impossível para o responsável pelos dados antecipar todo item
em objeção em incluir isso em uma lista de exceções.
Há, porém, um método onde registros de dados podem ser limpos sem erros derivados do
processo de limpeza. Este método envolve em criar uma lista de data (frequentemente na
forma de palavras ou frases) que são aceitáveis para a inclusão em um conjunto de dados
limpos e deidentificados. Qualquer outro dado que não esteja na lista de dados aceitáveis
é automaticamente apagado. O que sobrar é o conjunto de dados final após do processo
de “data scrubbing”. Tudo no conjunto de dados é automaticamente removido a não ser
que este seja uma “exceção" já aprovada.
QUESTÃO 4
Comente cada um dos itens da sessão “Lessons Learned” (fls. 32 do livro texto) e dê
exemplo/s que contextualize/m sua resposta.
1.
All Big Data resources can be imagined as an identifier system for data objects
and data-related events (i.e., timed transactions). The data in a big data resource
can be imagined as character sequences that are attached to identifiers.
Todo registro em um banco de dados (também no caso de BigData) possui um
identificador (uma chave primária) para o mesmo. Além disso cada registro possui
atributos relativos ao mesmo. No caso de um cidadão brasileiro teríamos vários
dados de uma pessoa (nome, idade, filiação, endereço) associados a um único CPF.
2.
Without an adequate identification system, a Big Data resource has no value. The
data within the resource cannot be trusted.
Um sistema rigoroso e eficaz de identificação é necessário para que um conjunto
de BigData tenha em si um sentido coerente ao ser analisado. Cada registro deve
ser, adequadamente, provido de um identificador único para que as identificações
sejam feitas de maneira correta. Caso contrário será impossível analisar os dados
de uma forma confiável e coerente. Um exemplo disso é o cadastro de pacientes e
seus respectivos exames realizados em um hospital: se não houver um sistema em
que os pacientes e os exames não forem identificados e corretamente relacionados
entre si toda a base de dados ficaria comprometida.
3.
An identifier is a unique alphanumeric sequence assigned to a data object.
É uma maneira de identificarmos um objeto de dados: com uma sequência de
números e letras. Um exemplo disso é o CPF de alguém : um conjunto numérico
que identifica alguém.
4.
A data object is a collection of data that contains self-describing information, and
one or more data values. Data objects should be associated with a unique
identifier.
Um identificador é associado de maneira unívoca a um objeto de dados que , por
sua vez, é composto de atributos que o descrevem e valores relativos a esses
mesmos atributos. Exemplo: Cada CPF está associado a uma única pessoa. Cada
pessoa possui diversos atributos como idade, sexo, estado civil etc. E cada atributo
possui um valor: tantos anos, masculino ou feminino, casado etc.
5.
Deidentification is the process of stripping information from a data record that
might link the record to the public name of the record’s subject.
Por exemplo, em um processo de identificação de uma conta bancária o nome do
dono da conta é associado a um identificador único e em todo processo de
transação é utilizado somente este número. Não há como identificar o usuário. Em
suma, todos os dados que possuam algum potencial de identificar o explicitamente
o usuário são excluídos dos respectivos registros em uma base de dados
deidentificada
6.
Deidentification should not be confused with the act of stripping a record of an
identifier. A deidentified record must have an associated identifier, just as an
identified data record must have an identifier.
Deidentificação não é somente excluir um identificador. Todo registro
deidentificado deve possuir um identificador. Tal identificador, porém, é um outro
identificador o qual identifica o registro reidentificado mas sem revelar dado
público e explicitar abertamente a quem se refere o registro. Por exemplo: O
diagnóstico de João Pedro é tal. (registro original). Em um registro deidentificado
atribuímos um outro identificador para o nome como, por exemplo, 324967. O
Registro deidentificado seria: O diagnóstico de 324967 é tal. (registro
deidentificado).
7.
Where there is no identification, there can be no deidentification and no
reidentification. Onde não se possui um identificador não se pode, claramente, fazer um processo
de deidentificação visto não haver um identificador principal a ser substituído.
Dessa forma, também não poderemos fazer o processo de reidentificação
associando o registro em questão ao identificador original.
8.
Reidentification is the assignment of the public name associated with a data record
to the deidentified record. Reidentification is sometimes necessary to verify the
contents of a record or to provide information that is necessary for the well-being
of the subject of a deidentified data record. Reidentification always requires
approval and oversight.
O processo de reidentificação que é a identificação de um respectivo registro com
um nome público associado requer aprovação ou da pessoa a que se refere ao
registro ou de uma autorização judicial ou da organização em questão visto ser
uma informação confidencial e particular.
9.
When a deidentified data set contains no unique records (i.e., every record has one
or more additional records from which it cannot be distinguished, aside from its
assigned identifier sequence), then it becomes impossible to maliciously uncover a
deidentified record’s public name.
Visto que não há como distinguir um registro do outro não podemos fazer
comparações entre os mesmos e extrair dados que, talvez, possa levar a alguma
comparação que revele possíveis métodos de descobrir informações importantes
sobre a identidade da pessoa em questão. O único dado diferente entre os registros
similares é o numero de sequencia de seu identificador. Como os dados estão
deidentificados não podemos ligá-los aos nomes de registros públicos.
10. Data scrubbers remove unwanted information from a data record, including
information of a personal nature, and any information that is not directly related
to the purpose of the data record. Data deidentification is a process whereby links
to the public name of the subject of the record are removed (see Glossary items,
Data cleaning, Data scrubbing).
Um processo de deidentificação apenas exclui elementos que possam promover
explicitamente a identificação pública do sujeito a que o registro se refere
enquanto o processo de “data scrubbing” retira os elelementos que não são
necessários para uma base de dados dirigida a um propósito. Por exemplo, uma
base dados deidentificada de um cadastro médico substituiria os nomes dos
pacientes por uma sequencia alfa numérica. Já uma base de dados médica cujo
propósito é calcular a média de idade pos pacientes possuiria somente em seus
registros a idade dos pacientes retirando qualquer outra informação não relevante
para o propósito para a qual foi criada.
11. The fastest known method of data scrubbing involves preparing a list of approved
words and phrases that can be retained in data records and removing every word
or phrase that is not found in the approved list.
De acordo com o texto o melhor método de “data scrubbing” é a compilação de
palavras e frases que podem ser mantidas nos registros e todas as outras podem ser
remover com segurança. Dessa forma, garantimos que todos os termos os quais
são necessários para determinada análise estarão presentes excluindo-se todos os
outros.
Download

3 - BigData - DCA