Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Mini-manual do SAS Este mini-manual do SAS tem a finalidade de apenas ensinar alguns comandos de estatísticas comuns e dar possibilidade de se iniciar a manusear dados. Abrindo o SAS A inteface do SAS tem 3 grandes janelas que não devem ser fechadas pois são necessárias durante todo o trabalho. O editor é área onde vamos escrever nosso programa. O log é onde o SAS nos mostra se estamos fazendo a estatística corretamente ou onde está o erro. Já o output é onde o SAS coloca os resultados das estatísticas. 1 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Ao escrever no editor do SAS pedindo para que ele faça alguma coisa, vamos notar que as letras vão ter cores diferentes. Estas cores nos facilitam reconhecer os comandos. No log file o SAS utiliza marcação de comunicados em letras coloridas para ressaltar coisas erradas ou comandos. No log file que nos informa se estamos fazendo corretamente as estatísticas, em geral, o SAS utiliza letras azuis para comunicar que tudo está bem, e verde e marrom para ressaltar problemas e erros. Para começar uma estatística precisamos entender que o SAS precisa ler o banco de dados. Precisamos então mostrar o banco para o SAS para que ele possa ler este banco e trabalhar com ele. O banco de dados pode ser feito diretamente no SAS ou digitado em excel e posteriormente importado para dentro do SAS. Na minha opnião é mais fácil montar o banco no Excel e importar para o Sas. Para montar corretamente o banco de dados no Excel consulte a apostila de estatística do semestre passado. Importando arquivos Para importar um banco de dados do Excel mantenha o arquivo do Excel fechado pois se estiver aberto o SAS não conseguirá importá-lo. Antes de importar o arquivo, crie uma pasta para guardar seu arquivo dentro do SAS. Note que a terceira janela aberta no SAS (a janela verticar no canto esquerdo da tela) tem um pequeno arquivo amarelo e se voce clicar neste arquivo, você verá que existe cerca de quadro gavetinhas, sendo uma delas chamada work. Nesta nesta gavetinha o SAS irá guardar seu banco de dados apenas temporáriamente, isto é, quando fechar o SAS seu arquivo desaparecerá. Para que o SAS não apague seu arquivo, você precisa criar uma gavetinha sua, específica para você guardar seus arquivos. Esta gavetinha estara ligada a uma pasta no seu computador (no seu desktop por exemplo). Portanto, o primeiro passo é colocar o seu arquivo de excel numa pasta em seu computador. 2 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Primeiro passo: abra uma pasta com um nome no seu desktop , por exemplo podemos utilizar o nome altura já que o exemplo que vimos em sala de aula era sobre a altura dos alunos. Salve o excel nesta pasta. A figura acima mostra que criei uma pasta chamada altura dentro do meu desktop. Agora preciso pedir ao SAS que importe este arquivo “altura-2008.xls”. Para tanto, começo criando minha gavetinha dentro do SAS por meio do comando “libname” que será escrito no SAS editor. Abra o SAS, e digite no editor. libname altura "C:\Documents and Settings\Maria Saraiva\Desktop\Odonto- 2008\altura";run; Obvio que voce deve digitar apenas as palavras <libname altura >, a localização da pasta no desktop voce pode copiar-e-colar, para evitar erros. Lembre-se de digitar todos as aspas e fecha-las. 3 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] com este comando libname estamos dizendo ao SAS “ Querido SAS por gentileza, crie um arquivo chamado altura que será localizado no seguinte lugar de meu computador "C:\Documents and Settings\Maria Saraiva\Desktop\Odonto-2008\altura". Note que a indicação do local deve estar entre aspas. Após fechar as aspas você deve colocar o sinal de ponto e vírgula e escrever “run” seguido de outro ponto e vírgula. O ponto e virgula para o SAS significa final de cada etapa que ele deve executar. Uma vez escrito a frase acima você deve selecionar a linha e clicar com o mouse no comando run situado na barra superior do programa. O comando run é identificado por um homenzinho correndo. Ao invés de clicar no run você também pode usar a tecla F3 depois de selecionar o comando. Voce irá notar que a mesma linha aparece no log file , e embaixo uma monte de escrita em azul. Quando o SAS dá apenas resultados azuis tudo está bem, se houver algum erro, ele responderá com mensagens em marron ou outras cores. Sempre leia o que sai no log file. 4 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Selecionando o libname e “rodando” o programa. Na tela acima, ainda não selecionei o libname. Você pode notar que existem apenas 5 gavetinhas. Depois de selecionar e correr o programa, vai aparecer mais um arquivo (gavetinha) com o nome Altura. Além do mais você ira ver na parte superior correspondente ao log file, que a operação foi um sucesso. Se o log file acusar algum problema (em geral em letra de cor marrom) você deverá rever o que você escreveu. Alguns problemas comuns são: esquecer de colocar algum ponto e vírgula, ou esquecer de fechar aspas, ou nome do libname muito longo. Por vezes eu mesmo não entendo e tenho que abrir e fechar o SAS. 5 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Neste momento, você acabou de criar um arquivo com o nome Altura, onde você poderá guardar seus arquivos para que o SAS possa trabalhar com eles. Agora vamos importar o arquivo do EXCEL. É bem simples, você pode usar o comando importar, indo ao FILE, e escolhendo “Import data”. 6 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Uma janela vai se abrir que o guiara a importação. A primeira janela permite que você escolha o tipo de arquivo que vai importar. No nosso caso, importaremos o arquivo altura-2008 que está no formato de excel. Após clicar no import data , o SAS vai mostrar uma janela escrito browse quando você então deverá selecionar o arquivo no seu computador que tem o documento excel a ser importado. A próxima janela será para você escolher a “gavetinha” onde você colocará o seu arquivo, que no caso será na biblioteca “ Altura”. O SAS em seguida pedirá que você dê um nome ao seu arquivo. Neste caso dei o nome também de altura para o arquivo. Portanto, tanto a biblioteca como os dados (planilha/arquivo) terão nome de altura. 7 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] 8 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Uma vez terminada a importação do arquivo, se você clicar na biblioteca Altura verá que lá dentro existe um arquivo SAS, que tem como característica uma bolinha vermelha. Apartir de agora você pode começar a trabalhar com seus arquivos. Porém embora o SAS já esteja com o seu arquivo dentro dele, o SAS ainda não leu todas as variáveis de seu arquivo e não sabe qual o conteúdo do mesmo. Assim, a maneira mais fácil é criar um segundo arquivo chamado “altura2” apartir do arquivo original (altura). Para tanto precisamos utilizar os seguintes comandos: data altura.altura2; set altura.altura; run; O comando data pede ao SAS para criar um novo banco de dados cujo nome será altura2 que deverá estar dentro da biblioteca chamada altura. A maneira de dizer isso é utilizando o nome da biblioteca seguida de “ponto” e do nome do novo arquivo. Uma vez dito isso, devemos fechar o comando com ponto e vírgula. Em seguida devemos dizer ao SAS que este novo arquivo é baseado no arquivo ja existente e para isso utiliza- 9 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] se o comando set. Terminado o comando, fecha-se com ponto e vírgula e coloca-se o comando de rodar o programa run; Apartir de agora, você pode começar a pedir ao SAS para fazer suas estatísticas porque ao fazer um novo banco de dados, o SAS lê todos os dados e mantem os mesmos em sua memória virtual. Se não tivessemos feito um novo arquivo, teríamos que a cada comando lembrar o SAS que ele deveria ir até o arquivo desejado. Por exemplo se pedissimos uma análise descritiva da variável altura teríamos que adicionar os comandos data = altura.altura. Abaixo alguns comandos importantes no SAS. Comando proc freq; Tables variável; run; Objetivo Para se obter frequência de qualquer tipo de variável. proc univeriate; Var variável; run; Análise descritiva de variáveis contínuas e discretas proc ttest; Class variável categorical; Var variável continua; run; proc glm; model variável contínua = variável categórica; run; proc reg; class variável categorical; var variável continua; run; Teste t Frequência simples Frequência acumulada Porcentagem simples Porcentagem acumulada Média, percentis, erro padrão, desvio padrão, números mínimos e máximos etc Teste t Análise de igualdade das variâncias Analise de variância Tabela ANOVA Análise de regressão ANOVA e estimadores da reta de regressão Além de comandos digitados no editor do SAS, podemos também utilizar o SAS interactive data analysis. Para tanto, vá a Solutions > Analysis > Interactive Data Analysis como exemplificado a seguir: 10 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Ao clicar em interactive Data Analysis, vai aparecer uma tela onde você deverá escolher a biblioteca (library) e em seguida o arquivo que quer analísar, no caso escolheremos altura como biblioteca, e altura2 como arquivo para ser analisado. 11 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Ao clicar em open, abrirá uma planilha com os dados de altura e o cabeçalho terá opções diferentes. 12 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Note que ao clicar em Analyze você tem várias opções, na parte superior você tem acesso a funções descritivas tais como histograma, box-plot, gráfico de dispersão (scatter plot), gráficos de contorno (que não cabe a este curso) e rotating plot (gráfico tridimensional). Além destas opções temos a opção de analisar a distribuição (Distribution) de uma variável contínua, semelhante ao que se obten com o proc univariate no editor do SAS. È com este comando que conseguimos fazer análise descritiva das variáveis contínuas resultando em histogramas e box-plots e medidas de dispersão e tendências. Fit serve para fazer análise de regressão entre duas variáveis contínuas, e multivariate serve para se fazer análise de regressão de mais de duas variáveis. Vamos ao exemplo de distribuição da variável altaluno. 13 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] O resultado será : 14 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Note que o SAS fornece um histograma, um box-plot e toda as informações descritivas. Um gráfico bastante útil, é fazer o box-plot para dois ou mais grupos, por exemplo, se quizermos num mesmo gráfico o box-plot para meninos e meninas. Neste caso vá ao box-plot/mosaic plot e selecione a variável altaluno como Y e sexo para o eixo X. 15 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] Isso resultará em um gráfico único com dois box-plots na mesma escala. 16 Maria da Conceição P. Saraiva Bioestatística 2008 [email protected] 17