Sistemas de Apoio à Decisão 2004/2005 Observações a ter em conta na resolução do Projecto 1. Após identificar as transformações de dados que considere apropriadas, gere o cubo ou cubos necessário(s) para responder às seguintes questões: Nem todas as questões necessitam de um cubo (chama-se a atenção para as alíneas d) e e), nomeadamente, em que dá jeito a utilização de um cubo). Mesmo naquelas em que é escolhido um cubo, as dimensões não têm necessariamente hierarquias. Aliás, não é obrigatório que as tabelas de dimensões no modelo multidimensional tenham hierarquias definidas. Neste caso particular, os dados não são suficientemente ricos para se poderem definir hierarquias de conceitos. a. Qual o nível de habilitações escolares dos fumadores com mais probabilidade de falecer de arteriosclerose ? Dado que o número de mortes por arteriosclerose não é estatisticamente muito significativo (22 em 389 mortes), podem modificar a pergunta para “.... de falecer de enfarte do miocárdio”, se assim o entenderem. b. Existem diferenças estatisticamente significativas entre a pressão arterial dos homens casados e a dos homens não casados ? c. Calcule o histograma dos anos de nascimento dos pacientes que faleceram de enfarte de miocardio. d. Existem diferenças estatisticamente significativas na pressão arterial entre: i. Os indivíduos que fumam ? ii. Os indivíduos que bebem café ? iii. Os indivíduos que praticam exercício ? iv. Diversas combinações das características anteriores ? Aqui, a interpretação mais natural é que a pergunta pretende identificar se existem diferenças estatisticamente significativas entre as pessoas que fuma vs. população em geral (detalhada ou não por intensidade de consumo do tabaco), entre os indiíviduos que bebem café vs. população em geral, etc. Para a significância estatística, serão aceites diversas possibilidades, desde testes de chiquadrado (após discretização da variável em análise) até aproximações por distribuições normais da variável em análise. A opção tomada deverá ser justificada e posteriormente defendida na discussão. e. Existem diferenças estatisticamente significativas na relação entre a probabilidade de falecimento por enfarte de miocárdio e: i. Número de visitas ao médico ii. Nível de educação iii. Nível de responsabilidade no emprego iv. Prática de exercício físico 2. Desenvolva modelos que permitam prever: a. O risco de falecimento em indivíduos deste conjunto, após 1987, com base nos dados disponíveis entre 1980 e 1986. Considere, pelo menos, as 3 seguintes técnicas de modelação: i. Árvores de decisão ii. Redes neuronais iii. Vizinho mais próximo b. O nível de colesterol, com base nas características socio-demográficas dos indivíduos Podem considerar o problema numa versão discretizada tomando em consideração as seguintes definições: • • • The patient has increased level of total cholesterol if the value of CHLST is ≥ 5.2 mmol ⁄ l The patient has lower level of HDL cholesterol if the value of HDL is ≤ 1.1 mmol ⁄ l. The patient has increased level of LDL cholesterol if the value of LDL is ≥ 3.5 mmol ⁄ l. No seu relatório, que não deverá exceder 10 páginas, descreva as opções que tomou em termos de criação e parameterização das estruturas de dados e algoritmos, e os resultados que obteve em cada uma das alíneas. Na produção do relatório, os alunos devem ter em conta as seguintes directivas: 1. Numa primeira parte, devem apresentar uma interpretação com discurso não técnico dos resultados encontrados, incluindo a análise crítica e limitações dos mesmos 2. Numa segunda parte, devem explicar e justificar as opções técnicas (que métodos usaram, como os parameterizaram, etc), especialmente no que diz respeito aos dados usados e respectivo pré-processamento.