Sistemas de Apoio à Decisão
2004/2005
Observações a ter em conta na resolução do Projecto
1. Após identificar as transformações de dados que considere apropriadas, gere o cubo
ou cubos necessário(s) para responder às seguintes questões:
Nem todas as questões necessitam de um cubo (chama-se a atenção para as alíneas d) e
e), nomeadamente, em que dá jeito a utilização de um cubo). Mesmo naquelas em que é
escolhido um cubo, as dimensões não têm necessariamente hierarquias. Aliás, não é
obrigatório que as tabelas de dimensões no modelo multidimensional tenham hierarquias
definidas. Neste caso particular, os dados não são suficientemente ricos para se poderem
definir hierarquias de conceitos.
a. Qual o nível de habilitações escolares dos fumadores com mais probabilidade
de falecer de arteriosclerose ?
Dado que o número de mortes por arteriosclerose não é estatisticamente muito
significativo (22 em 389 mortes), podem modificar a pergunta para “.... de falecer
de enfarte do miocárdio”, se assim o entenderem.
b. Existem diferenças estatisticamente significativas entre a pressão arterial dos
homens casados e a dos homens não casados ?
c. Calcule o histograma dos anos de nascimento dos pacientes que faleceram de
enfarte de miocardio.
d. Existem diferenças estatisticamente significativas na pressão arterial entre:
i. Os indivíduos que fumam ?
ii. Os indivíduos que bebem café ?
iii. Os indivíduos que praticam exercício ?
iv. Diversas combinações das características anteriores ?
Aqui, a interpretação mais natural é que a pergunta pretende identificar se
existem diferenças estatisticamente significativas entre as pessoas que fuma vs.
população em geral (detalhada ou não por intensidade de consumo do tabaco),
entre os indiíviduos que bebem café vs. população em geral, etc. Para a
significância estatística, serão aceites diversas possibilidades, desde testes de chiquadrado (após discretização da variável em análise) até aproximações por
distribuições normais da variável em análise. A opção tomada deverá ser
justificada e posteriormente defendida na discussão.
e. Existem diferenças estatisticamente significativas na relação entre a
probabilidade de falecimento por enfarte de miocárdio e:
i. Número de visitas ao médico
ii. Nível de educação
iii. Nível de responsabilidade no emprego
iv. Prática de exercício físico
2. Desenvolva modelos que permitam prever:
a. O risco de falecimento em indivíduos deste conjunto, após 1987, com base
nos dados disponíveis entre 1980 e 1986. Considere, pelo menos, as 3
seguintes técnicas de modelação:
i. Árvores de decisão
ii. Redes neuronais
iii. Vizinho mais próximo
b. O nível de colesterol, com base nas características socio-demográficas dos
indivíduos
Podem considerar o problema numa versão discretizada tomando em
consideração as seguintes definições:
•
•
•
The patient has increased level of total cholesterol if the value of CHLST is ≥ 5.2
mmol ⁄ l
The patient has lower level of HDL cholesterol if the value of HDL is ≤ 1.1
mmol ⁄ l.
The patient has increased level of LDL cholesterol if the value of LDL is ≥ 3.5
mmol ⁄ l.
No seu relatório, que não deverá exceder 10 páginas, descreva as opções que tomou em
termos de criação e parameterização das estruturas de dados e algoritmos, e os resultados que
obteve em cada uma das alíneas.
Na produção do relatório, os alunos devem ter em conta as seguintes directivas:
1. Numa primeira parte, devem apresentar uma interpretação com discurso não
técnico dos resultados encontrados, incluindo a análise crítica e limitações dos
mesmos
2. Numa segunda parte, devem explicar e justificar as opções técnicas (que
métodos usaram, como os parameterizaram, etc), especialmente no que diz
respeito aos dados usados e respectivo pré-processamento.
Download

Sistemas de Apoio à Decisão