INTRODUÇÃO AO SAS Euclides Braga MALHEIROS FCAV/UNESP Campus de Jaboticabal ii ÍNDICE I. APRESENTAÇÃO ........................................................................................................1 I.1. Módulos do SAS ......................................................................................................1 I.2. Janelas do SAS ........................................................................................................1 I.3. Barra de ferramentas .............................................................................................4 I.4. Help do SAS ............................................................................................................5 II. PROGRAMAÇÃO SAS ...............................................................................................6 II.1. Alguns comandos do SAS .....................................................................................6 OPTIONS ...................................................................................................................6 TITLE .........................................................................................................................7 FOOTNOTE ...............................................................................................................7 COMENTÁRIOS .......................................................................................................7 DATA .........................................................................................................................7 LIBNAME ..................................................................................................................8 FILENAME ................................................................................................................8 RUN............................................................................................................................8 COMANDOS ARITMÉTICOS .................................................................................8 Constantes ..............................................................................................................8 Variáveis ................................................................................................................8 Operadores .............................................................................................................8 Aritméticos .......................................................................................................9 Lógicos ..............................................................................................................9 De comparação ..................................................................................................9 Funções ..................................................................................................................9 II.2. Algumas estruturas usadas na programação ...................................................10 IF ... THEN ... ELSE ................................................................................................10 DO ... END ..............................................................................................................10 II.3. Algumas formas para criar um SAS-DATA-SET ............................................11 Quando os dados são colocados no próprio programa .............................................11 Quando os dados estão gravados como um arquivo ASCII......................................11 Comando INPUT ...............................................................................................11 Listado .............................................................................................................11 Colunado .........................................................................................................11 Formatado .......................................................................................................11 iii II.4. Procedimentos do SAS ........................................................................................12 Estrutura básica dos procedimentos .........................................................................12 Comandos que podem ser usados nos procedimentos ..............................................13 VAR .....................................................................................................................13 BY ........................................................................................................................13 CLASS .................................................................................................................13 ID .........................................................................................................................13 TITLE ..................................................................................................................13 FOOTNOTE ........................................................................................................13 WHERE ...............................................................................................................13 OUTPUT OUT ....................................................................................................13 III. Tutorial do SAS .........................................................................................................14 IV. Programas Exemplos .................................................................................................14 V. INFORMAÇÕES (Procedimentos e comandos) separadas por aula .....................15 V.1. Informações necessárias para a aula 1.............................................................15 Comandos .................................................................................................................15 DROP...................................................................................................................15 KEEP ...................................................................................................................15 LABEL.................................................................................................................15 Procedimentos ..........................................................................................................15 PROC PRINT ......................................................................................................15 PROC SORT........................................................................................................15 PROC MEANS ....................................................................................................16 Como criar um arquivo ASCII a partir do Excel ......................................................16 Lista de Exercícios – Aula 1 ...................................................................................17 V.2. Informações necessárias para a aula 2.............................................................19 Comandos .................................................................................................................19 SET ......................................................................................................................19 MERGE ...............................................................................................................19 INFILE .................................................................................................................20 Lista de Exercícios – Aula 2 ...................................................................................21 V.3. Informações necessárias para a aula 3.............................................................22 Procedimentos ..........................................................................................................22 FREQ ...................................................................................................................22 TTEST .................................................................................................................22 Lista de Exercícios – Aula 3 ...................................................................................23 V.4. Informações necessárias para a aula 4.............................................................24 iv Procedimentos ..........................................................................................................24 UNIVARIATE .....................................................................................................24 INSIGHT..............................................................................................................24 Lista de Exercícios – Aula 4 ...................................................................................25 V.5. Informações necessárias para a aula 5.............................................................26 Gráficos de dispersão ...............................................................................................26 PROC PLOT ........................................................................................................26 PROC GPLOT .....................................................................................................27 Outros gráficos .........................................................................................................27 Histogramas (PROC GCHART)..........................................................................27 Gráficos de 3 dimensões (PROC G3D) ...............................................................28 Lista de Exercícios – Aula 5 ...................................................................................29 V.6. Informações necessárias para a aula 6.............................................................30 Regressão Linear .....................................................................................................30 PROC REG ..........................................................................................................30 Lista de Exercícios – Aula 6 ...................................................................................31 V.7. Informações necessárias para as aulas 7 e 8 ....................................................32 PROC ANOVA .......................................................................................................32 CLASS .................................................................................................................32 MODEL ...............................................................................................................32 MEANS ...............................................................................................................33 TEST H=... E=... ...............................................................................................33 PROC GLM .............................................................................................................33 LSMEANS ...........................................................................................................33 CONTRAST ........................................................................................................34 RANDOM............................................................................................................34 Lista de Exercícios – Aula 7 ...................................................................................35 V.8. Informações necessárias para a aula 8 .............................................................37 Considerações estatísticas .......................................................................................37 Esperanças dos quadrados médios .......................................................................37 Regras práticas para obtenção das esperanças dos quadrados médios E(QM) dados balanceados................................................................................................38 Procedimentos para estimativas de componentes da variância ................................39 PPROC VARCOMP ............................................................................................39 Lista de Exercícios – Aula 8 ...................................................................................40 v V.9. Informações necessárias para a aula 9 .............................................................41 Procedimentos para estimar componentes da variância ..........................................41 PROC NPAR1WAY............................................................................................41 Lista de Exercícios – Aula 9 ...................................................................................42 V.10. Informações necessárias para a aula 10 .........................................................43 Procedimento para Regressão Não Linear ...............................................................43 PROC NLIN ........................................................................................................43 Lista de Exercícios – Aula 10 .................................................................................44 VI. RESOLUÇÃO DAS LISTAS DE EXERCÍCIOS...................................................45 VI.1. Resolução da Lista de Exercícios – Aula 1 ......................................................45 VI.2. Resolução da Lista de Exercícios – Aula 2 ......................................................47 VI.3. Resolução da Lista de Exercícios – Aula 3 ......................................................49 VI.4. Resolução da Lista de Exercícios – Aula 4 ......................................................51 VI.5. Resolução da Lista de Exercícios – Aula 5 ......................................................52 VI.6. Resolução da Lista de Exercícios – Aula 6 ......................................................53 VI.7. Resolução da Lista de Exercícios – Aula 7 ......................................................55 VI.8. Resolução da Lista de Exercícios – Aula 8 ......................................................58 VI.9. Resolução da Lista de Exercícios – Aula 9 ......................................................59 VI.10. Resolução da Lista de Exercícios – Aula 10 ..................................................60 INTRODUÇÃO AO SAS Euclides Braga MALHEIROS1 I. Apresentação O SAS é um sistema composto por vários módulos, com aplicações diversas. Além do módulo para análises estatísticas, o SAS/STAT, vários outros módulos fazem parte do sistema. I.1. Módulos do SAS ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ SAS/BASE - Procedimentos básicos SAS/ACCESS - Banco de Dados SAS/AF - Gerador de Aplicativos SAS/CALC - Análise e modelagem financeira/Planilha tridimensional SAS/CONNECT - Conectividade do SAS com diferentes ambientes SAS/ETS – Análises econômicas e de séries temporais SAS/FSP - Processador de textos SAS/GIS - Geoprocessamento SAS/GRAPH - Gráfico SAS/IML - Linguagem matricial interativa SAS/INSIGHT – Módulo interativo do tipo “point and click” SAS/OR - Pesquisa Operacional SAS/QC - Controle de qualidade SAS/STAT - Estatística SAS/SHARE – Sistema multiusuário I.2. Janelas do SAS O SAS tem a característica de trabalhar simultaneamente com 3 janelas, com finalidades específicas, que são: ♦ EDITOR DE PROGRAMAS “PGM” → Janela onde o usuário edita os programas. Quando o programa é processado (RUN), o SAS gera o conteúdo das janelas LOG e OUTPUT. 1 Departamento de Ciências Exatas - FCAV/UNESP - Campus de Jaboticabal. 2 ♦ LOG → Janela onde é apresentada uma depuração do programa, ou seja, informações sobre o processamento como: tempo gasto; listagem de erros, se houver; etc. (gerada pelo SAS). ♦ OUTPUT → Janela para a saída dos resultados (gerada pelo SAS). A tela de abertura do SAS, quando as janelas são apresentadas em colunas, é mostrada na Figura 1. Figura 1. Tela de abertura do SAS. A opção WINDOW, na barra de menus, permite minimizar as janelas ou apresentá-las de diferentes formas, ou seja: em cascata (Cascade), em forma de ladrilhos em colunas (Tile) ou reorganiza no formato padrão do SAS (Resize). Permite também acessar cada uma das janelas. Ver a Figura 2. Figura 2. Opção WINDOW da Barra de Menus. 3 Acessos às janelas, bem como outras operações, podem ser feitos utilizando-se as Teclas de Atalhos, como: CTRL + E → Limpa a Janela. F1 → HELP. F4 → Recarrega o último programa rodado (Janela PGM). F9 → Janela com as definições das funções do teclado (KEYS). Pode ser usado para redefinir essas funções. F12 → Limpa a janela (não é padrão do SAS, precisa ser definido na janela KEYS). Essas e outras Teclas de Atalho podem ser vistas na Janela KEYS. Ver a Figura 3: Figura 3. Teclas de Atalho do SAS. Toda vez que o Programa existente na janela PGM é rodado (“RUN”), são geradas linhas nas janelas LOG e OUTPUT, conforme apresentado na Figura 4. LOG PGM RUN OUTPUT Figura 4. Esquema usado pelo SAS para gerar as Janelas LOG e OUTPUT. 4 É interessante destacar que: 1. Ao rodar um programa, a) caso as janelas LOG e OUTPUT não estejam limpas, os resultados serão acumulados nos conteúdos dessas janelas. b) A janela PGM é limpa automaticamente. Assim sendo, toda vez que um programa for rodado e precisar ser editado, para a correção de algum erro ou para a inclusão de outros comandos, deve-se: Acessar a janela OUTPUT e apagá-la ............................................. (F7 / F12), Acessar a janela LOG e apagá-la ..................................................... (F6 / F12), Acessar a janela PGM e recarregar o último programa rodado .......... (F5 / F4). 2. O conteúdo de cada janela é salvo individualmente. O SAS usa as extensões: .SAS para os programas (janela PGM), .LOG para o conteúdo da janela LOG, .LST para o conteúdo do OUTPUT . I.3. Barra de ferramentas A maioria das ferramentas disponíveis na Barra de Ferramentas do SAS (Figura 5) são conhecidas pelos usuários do Microsoft Word. HELP SAS/ASSISTENTE PASTAS PROMPT DO DOS DESFAZER COLAR COPIAR RECORTAR IMPRIMIR ARQUIVO NOVO ABRIR ARQUIVO RODAR (RUN) COMANDOS DE OPERAÇÃO Figura 5. Barra de Ferramentas do SAS. 5 Na ferramenta “Comandos de Operação” são permitidos comandos de operações nas janelas como: ♦ CLEAR: Limpa a janela , ♦ TOP: Vai para o início da janela, ♦ BOTTOM: Vai para o fim da janela, ♦ LEFT: Rola a janela à esquerda, ♦ RIGHT: Rola a janela à direita, ♦ RUN: Roda o programa (só na janela PGM), ♦ BYE ou ENDSAS: Sai do SAS, ♦ Nomes de Janelas, para acessá-las, como: LOG, OUT, PGM, KEYS, HELP (a janela KEYS é a que contem as teclas de atalho), ♦ etc. À medida que vão sendo usados comandos na ferramenta “Comandos de Operação”, o SAS vai criando uma lista que, ao repetir um comando já usado basta selecioná-lo. A lista é obtida clicando na seta à direita da ferramenta. Veja o exemplo na Figura 6. Figura 6. Lista de comandos SAS. I.4. Help do SAS O SAS possui um Auxílio completo e interativo. Para utilizá-lo, basta acessar a janela HELP pela tecla F1, ou pela Barra de Ferramentas. 6 II. Programação SAS Os programas SAS são escritos na janela PGM, em linhas de 256 caracteres. Os comandos de programação terminam com ponto e vírgula (;), podendo ter tantos comandos por linha quantos se desejar, desde que respeitado o tamanho da linha. Os programas SAS possuem duas fases: a Fase 1, que constitui na criação do arquivo SAS (SAS-DATA-SET) e a Fase 2, que inclui os Procedimentos do SAS (PROC) para trabalhar com os dados (impressão, representações gráficas, análises, etc). Veja o esquema da Figura 7. Janelas como Fase 1 Fase 2 SAS-DATA-SET OUTPUT, GRAPHICS, etc Ou ARQUIVOS DE DADOS Figura 7. Fases de um programa SAS. O SAS-DATA-SET é o arquivo de dados a ser usado pelo SAS. Ele é formado por linhas e colunas, sendo nas colunas as variáveis e nas linhas os registros. Exemplo: Nome Maria José Rosa João Endereço Rua 8, 567 Rua Tiradentes, 123 Av. Marajás, 750 Rua Poty, 1250 Cidade Itu Matão Jaboticabal Maringá Estado SP SP SP PR Peso 59.50 85.00 . 79.00 Observação perdida Ponto para separar as casas decimais II.1. Alguns comandos do SAS OPTIONS: Define, dentre muitas opções, parâmetros para configurar a página do OUTPUT. Ex: OPTIONS LS=80 PS=66 PAGENUMBER=1 NOCENTER NODATE; LS (Line Size) define o tamanho da linha; PS (Page Size) define o tamanho da página – número de linhas; PAGENUMBER define o número inicial para a numeração das páginas. 7 Obs: a) Os parâmetros não definidos assumem os valores “Default”. b) Os valores dos parâmetros definidos com o comando OPTIONS, só são válidos para o programa em questão. c) Para mudar o “Default” use: GLOBAL / OPTIONS / GLOBAL OPTIONS. TITLE: Define a n-ésima (1 ≤ n ≤ 10) linha do cabeçalho para o OUTPUT. sintaxe: TITLE[n] < título >; Ex: TITLE1 Análise do Experimento de Fertilidade; TITLE3 Coleta do Ano 1998; Obs: a) Se for omitido o “n” o 1o TITLE define a 1ª linha do Cabeçalho, o 2o a 2ª linha, e assim por diante. b) Se o cabeçalho não for definido, o SAS usa o definido como “Default”. c) Para mudar o “Default” use: GLOBAL / OPTIONS / TITLE. FOOTNOTE: Define a n-ésima (1 ≤ n ≤ 10) linha do rodapé para o OUTPUT. Uso equivalente ao uso do TITLE. COMENTÁRIOS: Usados na documentação dos programas. sintaxe: * <comentário> ; ou: /* <comentário> */ Obs: a) Os comentários não são executados. b) Os comentários podem ser colocados em qualquer parte do programa. c) Pode-se usar tantos comentários quantos se desejar. DATA: Atribui nome ao SAS_DATA_SET. sintaxe: DATA [< nome do SAS_DATA_SET >]; Obs: a) O nome do SAS_DATA_SET pode ser: simples – quando apenas o nome do arquivo é especificado (Ex: NNNN). Neste caso será criado um arquivo temporário (até fechar o SAS), de nome NNNN, na pasta SASWORK, também temporária. composto – quando o nome tem duas partes, separadas por “ponto” (Ex: CCCC.NNNN). Neste caso será criado um arquivo permanente, de nome NNNN, no caminho nomeado por CCCC. b) O nome do SDS deve ter de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o primeiro deve ser alfabético. c) Se o nome for omitido, o SAS usa DATA1 para o 1o, DATA2 para o 2o, e assim por diante. 8 LIBNAME: Atribui nome a um caminho. Ex: LIBNAME CAM “C:\SAS”; Com este comando, o caminho C:\SAS é nomeado por CAM. FILENAME: Atribui nome a um arquivo. Ex: FILENAME ARQ “C:\SAS\DADOS.ASC”; Com este comando, o arquivo C:\SAS\DADOS.ASC é nomeado por ARQ. RUN: Determina ao SAS para Rodar (Executar) o programa até este ponto. COMANDOS ARITMÉTICOS: Usados para criar novas variáveis. Sintaxe: <NOME DA VARIÁVEL>=<EXPRESSÃO>; Ex: PORCG=PGORD/PLEITE*100; As expressões podem conter: Constantes, Variáveis, Operadores e Funções. Constantes: Podem ser: Numéricas, Caracter, Data e Hora. Numéricas: Sistema decimal no modo padrão (Ex: -125.45) ou em notação científica (Ex: -1.456E-03); sistema octal (Ex: 0B123X). Caracter: Até 200 caracteres entre aspas (Ex: “Femea”). Data: Data seguida por D, e entre aspas (Ex: “25/10/98D”). Hora: Hora seguida por T, e entre aspas (Ex: “10:15:45T”). Para maiores detalhes consultar o HELP. Variáveis: As variáveis podem ser numéricas ou caracter. Os nomes das variáveis devem ter de 1 a 8 caracteres alfanuméricos (alfabéticos ou numéricos) e o primeiro deve ser alfabético. Operadores: Os mais usuais são os operadores aritméticos, lógicos e de comparação. Operadores aritméticos: Operador + * / ** Operação Adição Subtração ou Negação Multiplicação Divisão Potenciação Exemplos Usual SAS A+B A+B A-B ou -B A-B ou -B A.B A*B A:B A/B B A A**B 9 Operadores lógicos: Operador & ou AND | ou OR ^ ou NOT Operação Negação Exemplos SAS A&B ou A AND B A|B ou A OR B ^A ou NOT A Usual AeB AouB Não A Operadores de comparação: Operador = ou EQ > ou GT < ou LT >= ou GE <= ou LE ^= ou NE Operação Igual a Maior que Menor que Maior ou igual que Menor ou igual que Diferente de Usual A=B A>B A<B A≥B A≤B A≠B Exemplos SAS A=B ou A EQ B A>B ou A GT B A<B ou A LT B A>=B ou A GE B A<=B ou A LE B A^=B ou A NE B Para maiores detalhes consultar o HELP. Funções: As funções SAS são escritas na forma: Função(lista de argumentos separados por vírgulas) Existe no SAS um número muito grande de funções disponíveis, como exemplos: SQRT(X) – calcula a raiz quadrada de X, MDY(MES,DIA,ANO) – resulta uma data correspondente ao Dia, Mês e Ano especificados como argumentos. Obs: Para armazenar datas o SAS armazena um número que corresponde ao total de dias entre a data e o 1º dia do século. Para maiores detalhes consultar o HELP, usando a seqüência: 6.11: HELP / Extended help / SAS Language / SAS Functions. 6.12: HELP / Extended help / SAS System help: Main Menu / SAS Language / SAS Functions. II.2. Algumas estruturas usadas na programação IF ... THEN ... ELSE: Usado para testar se uma condição é verdadeira ou falsa. Sintaxe: IF <condição> THEN <comando>; [ELSE < comando>;] 10 Ex: IF MES<7 THEN SEMESTRE=”PRIMEIRO”; ELSE SEMESTRE=”SEGUNDO”; Obs: Se o ELSE for omitido, o SAS executa o próximo comando na seqüência. DO ... END: Usado para controle de “loops”, ou seja, para executar a mesma seqüência de comandos um número finito de vezes. Sintaxe: DO x=a TO b [BY c]; Comando 1; Comando 2; .... END; Ex: DATA EXDO; DO X=5 TO 30 BY 5; X2=X**2; X3=X**3; OUTPUT; END; Com esse “looping”, teremos no SAS-DATA-SET Obs . 1 2 3 4 5 6 X 5 10 15 20 25 30 X2 25 100 225 400 625 900 X3 125 1.000 3.375 8.000 15.625 27.000 II.3 Algumas formas para criar o SAS-DATA-SET Quando os dados são colocados no próprio programa. Seqüência: DATA <sds>; INPUT <lista de variáveis>; CARDS; <dados> ; Define o nome do SAS-DATA-SET. Informa as variáveis a serem lidas. Informa que iniciarão os dados. Informa que terminaram os dados. 11 Importar arquivo do Excel Seqüência: ROC IMPORT OUT=SDS REPLACE; SHEET="PLANILHA$"; GETNAMES=YES; RUN; DATAFILE="ARQ.XLS" DBMS=EXCEL2000 Onde: SDS – é o nome do SAS DATA SET a ser criado ARQ. XLS – é o arquivo Excel a ser importado (especificando o caminho onde ele se encontra). PALNIHA – É o nome da planilha. Importar arquivo ASCII (American Standard Code – Interchange Information). Seqüência: DATA <sds>; INFILE “<arquivo ASC>”; INPUT <lista de variáveis>; Define o nome do SAS-DATA-SET. Arquivo ASC a ser importado. Lista de variáveis importadas. Comando INPUT O comando INPUT relaciona os nomes das variáveis a serem criadas no SAS-DATA-SET. Ele pode ser de uma das formas: listado, colunado ou formatado. Listado: quando se especifica no INPUT apenas a lista de variáveis (nomes separados por pelo menos um espaço em branco). Usado quando os dados a serem lidos estão separados por, pelo menos, um espaço em branco. Ex: INPUT NOME$ PESO ALTURA; Colunado: quando se especifica a variável e a coluna inicial e final onde se encontram os dados a serem lidos. Ex: INPUT NOME$ 1-20 PESO 20-25 ALTURA 25-30; Formatado: quando se especifica a variável e formato que o dado a ser lido deve ser considerado. Ex: INPUT NOME$ 1-20 DATANAS DDMMYY6. PESONAS 8.2 ♦ DDMMYY6. especifica que a data a ser lida contém 2 caracteres para o dia, 2 para o mês e 2 para o ano, num total de 6. ♦ 8.2 especifica que o peso a ser lido tem 8 casas, sendo 2 decimais. 12 Obs.: Quando se usa o INPUT, o número de valores por linha de dados deve coincidir com o número de variáveis do INPUT, a menos que a lista de variáveis seja seguida por @@. Exemplo: DATA EXEMPLO; INPUT X Y; CARDS; 10 20 12 22 15 35 ; DATA EXEMPLO; INPUT X Y@@; CARDS; 10 20 12 22 15 35 ; II.4. Procedimentos do SAS Existem vários Procedimentos, dentro de cada módulo, disponíveis a usuários de uma grande diversidade de áreas de aplicações. Estrutura básica dos procedimentos A 1ª linha de cada procedimento tem a seguinte estrutura: PROC NOME < opções >; Lista de Opções. Nome do Procedimento. Prefixo de todo Procedimento (PROCEDURE). Os procedimentos podem incluir outras linhas para especificações especiais. A estrutura geral de um procedimento é: PROC NOME < opções >; ... VAR < lista de variáveis >; BY < lista de variáveis >; CLASS < lista de variáveis>; ID < lista de variáveis >; TITLE < “título” >; FOOTNOTE < “rodapé”>; WHERE < condição >; OUTPUT OUT= <SDS> <VS> = <VU>; ... RUN; Uma das opções é: DATA = < Arquivo SAS >; Especifica o arquivo SAS que será usado. Se for omitido, o SAS usa o último criado Opcionais e, no geral, independem da ordem. 13 Comandos que podem ser usados nos procedimentos VAR < lista de variáveis >; Especifica as variáveis para as quais será executado o procedimento. BY < lista de variáveis >; Especifica que o procedimento deve ser executado para cada valor da(s) variável(is) especificada(s). Este comando exige que o SAS-DATA-SET esteja classificado por essa(s) variavel(is). CLASS < lista de variáveis >; Especifica que o procedimento deve ser executado para cada valor da(s) variável(is) especificada(s). ID < lista de variáveis >; Especifica a variável de identificação dos registros. Se não for especificado, o SAS usa o número do Registro. TITLE < “título” >; Especifica o título para todas as páginas geradas por este procedimento. FOOTNOTE < “rodapé >; Especifica o rodapé para todas as páginas geradas por este procedimento. WHERE < condição >; Especifica que o procedimento deve ser executado somente para os registros para os quais a condição for satisfeita. OUTPUT OUT= <SDS> <VS> = <VU>; Coloca no SAS-DATA-SET “SDS”, além das variáveis do SAS-DATA-SET em uso, variáveis criadas pelo SAS “VS” (cujos nomes são criados pelo SAS e devem ser especificados corretamente), com os nomes das variáveis do usuário “VU”. III. Tutorial do SAS O SAS possui um tutorial bastante interessante para os principiantes. São algumas aulas que permitem aos usuários uma familiarização com a terminologia, alguns conceitos básicos e a estrutura do Sistema. O Tutorial é um módulo à parte, que precisa ser selecionado durante a instalação do SAS. Para entrar no Tutorial siga os passos: 1) Selecione a opção de menu: Help / Online training. Com esta opção, será apresentada uma lista dos cursos disponíveis. 2) Selecione o curso e a opção “Start Course”. 14 Com esta opção, será apresentada uma lista de lições do curso selecionado, e as possíveis seções (Instructions - que corresponde às instruções da lição, Summary - que corresponde a um resumo da lição e Quiz - que é um teste de avaliação da lição). 3) Selecione a lição e a seção, e siga em frente. IV. Programas Exemplos O SAS possui uma lista de programas prontos (programas exemplos) que contribuem em muito para o aprendizado. Para acessar esta lista de programas, siga os passos: 1) 2) 3) 4) 5) 6) 7) Selecione a opção de menu: Help / Sample Programs. Selecione a opção: Conteúdo / SAS Sample Library. Selecione o módulo do qual deseja o exemplo. Selecione o programa. Marque o programa como um bloco e copie (jogue para a área de transferência). Acesse a janela “Program Editor”, e nela cole o conteúdo da área de transferência. Rode o Programa (Run). 15 V. INFORMAÇÕES (Procedimentos e Comandos) separadas por aula V.1. INFORMAÇÕES NECESSÁRIAS PARA A AULA 1 COMANDOS DROP: especifica a lista de variáveis a serem eliminadas do SAS-DATA-SET. As variáveis não incluídas na lista serão mantidas. Sintaxe: DROP <lista de variáveis>; KEEP: especifica a lista de variáveis a serem mantidas do SAS-DATA-SET. As variáveis não incluídas na lista serão eliminadas. Sintaxe: KEEP <lista de variáveis>; LABEL: atribui label’s a variáveis. Sintaxe: LABEL <var1>=”label1” <var2>=”label2” ... ; Ex.: LABEL X=”DOSES DE N” Y=”PRODUÇÃO”; PROCEDIMENTOS PROC CONTENTS Finalidade: Apresenta uma descrição do SAS-DATA-SET. Sintaxe: PROC CONTENTS < opções >; PROC PRINT Finalidade: Imprimir o SAS-DATA-SET no OUTPUT. Sintaxe: PROC PRINT < opções >; Algumas opções são: NOOBS – Não imprime o número da observação (Registro). DOUBLE – Imprime com espaçamento duplo. ROUND – Imprime os números reais arredondados para 2 casas decimais. LABEL – Imprime tendo como cabeçalho das colunas os label’s no lugar dos nomes das variáveis. PROC SORT Finalidade: Classificar o SAS-DATA-SET. 16 Sintaxe: PROC SORT < opções >; BY [DESCENDING] Var1 [DESCENDING] Var2 ...; Obs:. As variáveis precedidas por DESCENDING são classificadas em ordem decrescente, caso contrário, em ordem crescente. Algumas opções: NODUP – Elimina os registros para os quais o(s) valor(es) da(s) chave(s) de classificação forem iguais. PROC MEANS Finalidade: Calcular estatísticas descritivas de variáveis numéricas. Sintaxe: PROC MEANS < opções > < lista de estatísticas >; Algumas opções: ALPHA=valor – Especifica o nível de significância para o intervalo de confianca. Algumas estatísticas: N – Número de observações. NMISS – Número de observações perdidas. MEAN - Média aritmética. VAR – Variância. STD - Desvio padrão. STDERR - Erro padrão da média. MIN - Valor mínimo. MAX - Valor máximo. CLM - Intervalo de confiança para a média. RANGE - Amplitude (Máximo-Mínimo). T - Teste t para a hipótese H0:média=0 vs H1:média≠0. PRT - Nível Mínimo de significância para o teste t. COMO CRIAR UM ARQUIVO ASCII, A PARTIR DO EXCEL a) b) c) d) e) Digite o arquivo, uma variável em cada coluna, sem títulos das colunas. Preencha as caselas vazias com vírgulas “ ,”. Salve o arquivo especificando o tipo: Texto (OS/2 ou MS-DOS)(*.txt). Feche o EXCEL. Entre no EDIT do DOS. INICIAR / PROGRAMAS / PROMPT MS-DOS / EDIT: Abrir o Arquivo. Trocar as vírgulas por pontos. Salvar o arquivo. Sair do Edit. f) Sair do DOS (EXIT). 17 LISTA DE EXERCÍCIOS - AULA 1 1. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista, do exercício, a data e o nome do programador. b) Definir as opções para o OUTPUT: tamanho da linha=78, tamanho da página=64. c) Definir o Cabeçalho: CURSO SAS - ANÁLISE DE DADOS. d) Definir o Rodapé: FCAV/UNESP. d) Criar um arquivo SAS (SAS-DATA-SET) temporário, a partir dos dados da Tabela a seguir, usando a opção CARDS e digitando todas as variáveis. TRAT. T1 T2 T3 1 35 40 39 2 19 35 27 REPETIÇÕES 3 31 46 20 4 15 41 29 5 30 33 45 f) Imprimir o arquivo. g) Mostrar uma descrição do conteúdo do arquivo. 2. Fazer um programa SAS para: a) Colocar comentários informando: o número da lista, do exercício e a data. b) Definir as opções para o OUTPUT: tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS, a partir do arquivo L1E2.DAT, que é um arquivo ASCII, e está codificado como segue: COLUNAS CAMPO 1-4 vaca 5-8 paiv 9-12 maev 13-14 diap 15-16 mesp 17-18 anop 19-20 orparto 21 sexo 22-23 anod 24-25 mesd 26-27 diad 28-33 pesonasc 34-39 pesodesm Obs: Sexo = M ou F e Pesos com duas casas decimais d) Imprimir o arquivo. 18 e) Criar 4 novas variáveis: Idade à desmama, Ganho de peso total até a desmama, Ganho de peso diário até a desmama, Período do Nascimento (ÁGUAS out-mar, SECA abr-set). f) Eliminar do arquivo SAS as variáveis utilizadas apenas como valores intermediários. g) Classificar o arquivo pela variável sexo. h) Classificar o arquivo pelas variáveis: sexo e período do nascimento. 3. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista, do exercício, a data e o nome do programador. b) Definir as opções para o OUTPUT: tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS, permanente, na pasta C:\SAS, a partir do arquivo L1E3.DAT, no drive A, que é um arquivo ASCII, e contém 5 variáveis: Raças, Origem, Repetições, Peso ao nascer (PN) e Ganho de peso em 30 dias (GP30). d) Estabelecer “label’s” associados às variáveis. e) Imprimir o arquivo. f) Salvar o Programa. 4. Fazer um programa no SAS para, usando o arquivo SAS criado anteriormente, a) Calcular a média, variância e desvio padrão para as variáveis PN e GP30. b) Calcular as médias para PN e GP30, por raça. c) Calcular as médias para PN e GP30, por raça e origem. 5. Fazer um programa SAS para tabular a função y=10 + 0.5 x + 2 x2, -5 ≤ x ≤ 5, para x variando de 0.5 em 0.5 (Usar comandos DO ... END). 6. Fazer um programa no SAS para criar um Arquivo SAS, a partir dos dados do Exercício 1, considerando-se que a segunda repetição do tratamento 1 tenha sido perdida, e digitando apenas os valores observados (Usar comandos DO ... END). 7. Fazer um programa no SAS para criar um Arquivo SAS, a partir dos dados do Exercício 1, importando os dados do EXCEL. 8. Fazer um programa no SAS para criar um Arquivo SAS, a partir dos dados do Exercício 1, importando o arquivo ASC. 19 V.2. INFORMAÇÕES NECESSÁRIAS PARA A AULA 2 Comandos SET: Carrega os registros (linhas) no SAS-DAT-SET. Sintaxe: SET < lista de Arquivo SAS >; Esse comando é normalmente utilizado para reabrir um SAS-DATA-SET ou para concatenar linhas. Ex. 1. Reabrir o Sas-Data-Set de nome SDS DATA SDS; SET SDS; ... Ex. 2. Criar um Sas-Data-Set de nome SDT contendo as linhas do Sas-Data-Set SDS1 seguida das linhas do SDS2 DATA SDT; SET SDS1 SDS2; ... Obs.: Neste caso SDS1 e SDS2 devem conter as mesmas variáveis. MERGE: Carrega variáveis (colunas) no SAS-DAT-SET. Sintaxe: MERGE < lista de Arquivo SAS >; BY < variável >; Ex. Sejam os arquivos SAS: SDS1 Nome Antônio Maria Pedro Rosa Sexo M F M F SDS2 Função Aux. Escritório Secretária Servente Cozinheira Com os comandos: PROC SORT DATA=SDS1; BY NOME; RUN; PROC SORT DATA=SDS2; BY NOME; RUN; DATA SDS; MERGE SDS1 SDS2; BY NOME; Nome Antônio Maria Rosa Salário 600.00 800.00 300.00 20 Resulta o arquivo SAS : SDS Nome Antônio Maria Pedro Rosa Sexo M F M F Função Aux. Escritório Secretária Servente Cozinheira Salário 600.00 800.00 . 300.00 Obs.: Os arquivos SDS1 e SDS2 devem estar classificados pela variável NOME. INFILE “< arquivo ASC >” < opções >; Uma opção é a LRECL, que define o Tamanho Lógico do Registro – “LOGICAL RECORD LENGTH”. Se o tamanho não for definido, o SAS usa o tamanho 256. Criar um arquivo ASC, a partir de um SDS. Os passos para criar um arquivo ASC a partir de um SDS são: a) Abrir o SDS. b) Fefinir o comando FILE, com a sintaxe: FILE <nome do arquivo ASC a ser criado, incluindo o caminho completo>. c) Usar o comando PUT, para especificar as variáveis que serão incluídas no arquivo ASC, com a sintaxe: PUT <lista de variáveis>. Exemplo: Suponha um SDS, de nome TESTE contendo as variáveis: Touro, PN (peso ao nascer) e PD (peso a desmama). Comandos: DATA TEST; SET TEST; FILE “C:\Arq_ASC.txt”; PUT TOURO $10. (PN PD) (2*F8.2); RUN; 21 LISTA DE EXERCÍCIOS - AULA 2 1. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista, do exercício e a data. b) Definir as opções para o OUTPUT: tamanho da linha=78, tamanho da página=64. e) Criar um arquivo SAS (SAS-DATA-SET), a partir do Arquivo L2E1.DAT, que é um arquivo ASCII e contém as variáveis: A B C D E Y1-Y32. Nota: registro muito grande - usar a opção “lrecl=nº” no INFILE. 2. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista, do exercício, a data e o nome do programador. b) Definir as opções para o OUTPUT: tamanho da linha=78, tamanho da página=64, numeração das páginas a partir do número 1. c) Criar um arquivo SAS (com nome T1), com os dados da Turma 1 disponíveis no arquivo L2E2.XLS, Planilha Turma1 (importar o arquivo direto do Excel). d) Criar um arquivo SAS (com nome T2), com os dados da Turma 2 disponíveis no arquivo L2E2.XLS, Planilha Turma2 (importar o arquivo direto do Excel). e) Criar um arquivo SAS (com nome EXAME), com os dados do Exame disponíveis no arquivo L2E2.XLS, Planilha Exame (importar o arquivo direto do Excel). f) Criar um arquivo SAS, permanente, com todos os alunos (Turma 1 e Turma 2). g) Incluir no arquivo as notas do Exame. h) Renomear as variáveis: Nome, Prova, Pratica e Exame para Aluno, Prov, Prat e Ex, respectivamente; i) Calcular MEDIA FINAL (MF), sendo que MF=MÉDIA se o aluno não fez exame e MF=(MEDIA+EXAME)/2, caso tenha feito. j) Criar uma variável AVALIACÃO (AV) sendo AV=Aprovado se MF≥7, AV=Recuperação se 5 ≤ MF < 7 e AV=Reprovado se MF<5. k) Criar um arquivo ASC II, de nome A_ASC.txt, com as variáveis: Aluno, Prov, Ex, MF e AV. l) Salvar o Programa SAS. 22 V.3. INFORMAÇÕES NECESSÁRIAS PARA A AULA 3 Procedimentos PROC FREQ Finalidade: Criar tabelas de freqüência. A Tabela conterá a freqüência, as porcentagens em relação ao total geral, as porcentagens em relação ao total das linhas e as porcentagens em relação ao total de colunas. Sintaxe: PROC FREQ < opções1 >; TABLE < variável A > [* < variável B >] / < opções2 >; Algumas das <opções1> são: DATA= <SDS> - especifica O Sas-Data-Set a ser usado PAGE – especifica para imprimir, no OUTPUT, uma tabela por página. Algumas das <opções2> são: NOFREQ – Não apresenta as freqüências NOPERCENT – Não apresenta as porcentagens em relação ao total geral NOROW – Não apresenta as porcentagens em relação ao total de linhas NOCOL – Não apresenta as porcentagens em relação ao total de linhas EXPECTED – Apresenta os valores esperados CHISQ – Realiza o teste Qui-Quadrado para a independência das variáveis EXACT - Realiza o teste Exato de Fischer para a independência das variáveis PROC TTEST Finalidade: Teste t de Student para comparação das médias de 2 grupos. Sintaxe: PROC TTEST < opções >; CLASS < variável >; Variável que classifica os grupos Uma das <opções> : DATA= <SDS> - especifica O Sas-Data-Set a ser usado 23 LISTA DE EXERCÍCIOS - AULA 3 1. Fazer um programa no SAS para: a) Ler os dados L3E1.DAT (Diâmetro do folículo 1 a 3; Qualidade do folículo 1 a 3 e qualidade do oócito 1 a 2). Observe que os dados não estão separados por espaços. b) Fazer o Teste Qui-quadrado. 2. Fazer um programa no SAS para fazer o teste Qui-quadrado e o teste Exato de Fisher para a tabela de contingência: RESULTADO DO ACASALAMENTO fecundo infecundo 52 128 77 83 RAÇA Charolesa Zebu 3. Digitar os Dados a seguir no Excel e criar um arquivo ASC (L3E3.TXT) Y1 Y2 72,5 72 69 75 69,1 75 70,8 71,2 73 70 67,1 71 72 73 70,9 71 72,9 69,9 37 71,1 71,9 73 68 69 69,9 70,1 71 74 68,2 68,9 70 70 71,1 74 4. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista e do exercício, a data e o nome do programador. b) Definir as opções para o OUTPUT: Tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS, a partir do arquivo L3E3.TXT. d) Imprimir o arquivo. e) Obter o intervalo de confiança para a média de Y1 (Y1 ). f) Testar a Hipótese: H0: Y1 = 70 . 5. Fazer um programa no SAS para: a) Colocar comentários informando: o número da lista e do exercício e a data. b) Definir as opções para o OUTPUT: Tamanho da linha=78, tamanho da página=64. c) Criar um arquivo SAS a partir dos dados: T1 T2 760 758 755 748 758 757 761 753 755 755 d) Imprimir o arquivo. e) Aplicar o test t para testar a hipótese: H0: T1 = T2 . c) Substituir as 2 primeiras repetições de T2 por 708 e 798, respectivamente, e ver o que acontece. 72 72 24 V.4. INFORMAÇÕES NECESSÁRIAS PARA A AULA 4 Procedimentos PROC UNIVARIATE Finalidade: Apresenta as estatísticas descritivas necessárias para um diagnóstico da distribuição dos dados. Sintaxe: PROC UNIVARIATE < opções >; Algumas opções: NORMAL – Faz o teste de normalidade. Teste de Shapiro-Wilk (W) se o número de observações for <2000, caso contrário o teste de Kolmogorov (D). PLOT – Gera um gráfico de ramos e folhas que permite interpretar certas características da distribuição e um gráfico contendo os valores esperados, caso a distribuição for normal (+), e os valores observados (*). PROC INSIGHT Finalidade: Entra no modo interativo do SAS. 1. Sintaxe via programa: PROC INSIGHT DATA=<SDS>; DIST Var ; RUN; 2. Sintaxe via menu: Seleciona as opções: Globals / Analyze / Interactive data analysis a) Seleção do arquivo: Selecione o caminho. Campo LIBRARY. Selecione o arquivo. Campo DATA SET. Selecione Open b) Selecione na planilha a variável que vai estudar Um clique no cabeçalho da Coluna c) Selecione as opções: Analyze / Distribution(Y) Até este ponto, em qualquer uma das opções chegarão no mesmo local Aqui pode-se pedir, entre muitas coisas: Teste de Normalidade: Curves / Test for Distribution Gráfico da normal: Curves / Parametric density Tabela de Freqüências: Tables / Frequence table Intervalo de confiança para a média: Tables / C. L. for means 25 LISTA DE EXERCÍCIOS - AULA 4 1. Fazer um programa no SAS para: A partir dos dados: Y1 72,5 69 Y2 72 69,1 75 75 70,8 71,2 73 70 67,1 71 72 70,9 71 72,9 69,9 37 71,1 71,9 73 73 68 69 69,9 70,1 71 68,2 68,9 70 70 71,1 74 74 72 72 a) Digitar os dados no Exel (L4E1.xls). b) Fazer um diagnóstico da normalidade (análise exploratória) utilizando os gráficos apropriados. c) Fazer o teste de normalidade dessas variáveis. d) Refazer os itens b) e c) usando o módulo SAS INSIGHT. 2. Fazer um programa no SAS para: a) Gerar 1000 dados com distribuição Normal com média 0 e Variância 1. e) Fazer uma análise exploratória da distribuição e o teste de normalidade dessas variáveis (Usando o PROC UNIVARIATE e usando o SAS INSIGHT). 3. Fazer um programa no SAS para: b) Gerar 500 dados com distribuição Normal com média 10 e Variância 25. f) Fazer uma análise exploratória o teste de normalidade dessas variáveis da distribuição (Usando o PROC UNIVARIATE e usando o SAS INSIGHT). 26 V.5. INFORMAÇÕES NECESSÁRIAS PARA A AULA 5 Os gráficos no SAS podem ser feitos no OUTPUT ou numa janela apropriada GRAPHICS. Na janela GRAPHICS os gráficos são apresentados individualmente e com maior precisão que no OUTPUT. Gráficos de dispersão Os procedimentos utilizados para gráficos de dispersão são: PROC PLOT – para gráficos no OUTPUT e PROC GPLOT – para gráficos na janela GRAPHICS. PROC PLOT Finalidade: Editar gráficos de dispersão no OUTPUT. Sintaxe: PROC PLOT < opções1 >; PLOT < Vertical >* < Horizontal > [=”caracter”] / < opções2 >; Algumas das opções1 são: caracter a ser usado NOLEGEND – Não apresenta as legendas do gráfico na representação dos HPERCENT – Especifica a porcentagem da página, pontos na horizontal, deve ser usada pelo gráfico VPERCENT – Especifica a porcentagem da página, na vertical, deve ser usada pelo gráfico Algumas das opções2 são: VPOS=Nº – especifica o número de linhas que serão usadas HPOS=Nº – especifica o número de colunas que serão usadas HAXIS = <li> TO <ls> BY <inc> - especifica a escala do eixo horizontal (X), sendo “li” o limite inferior, “ls” o limite superior e “inc” o incremento VAXIS = <li> TO <ls> BY <inc> - especifica a escala do eixo vertical (Y), sendo “li” o limite inferior, “ls” o limite superior e “inc” o incremento HREF = n1 n2 ... – coloca linhas de referências verticais, nas posições n1, n2, etc, do eixo horizontal VREF = n1 n2 ... – coloca linhas de referências horizontais, nas posições n1, n2, etc, do eixo vertical OVERLAY – usado para sobrepor 2 ou mais gráficos VZERO – Faz com que a origem do eixo vertical seja no ponto zero HZERO – Faz com que a origem do eixo horizontal seja no ponto zero 27 PROC GPLOT Finalidade: Editar gráficos de dispersão na janela GRAPHICS. Sintaxe: PROC GPLOT < opções1 >; PLOT < Vertical >* < Horizontal > / < opções2 >; SYMBOL[n] <opções3>; 1 – primeira sequência de pontos 2 – Segunda etc...... Uma das opções1 é: UNIFORM – Especifica que todos os gráficos feitos por este procedimento devem ter a mesma escala Algumas das opções2 são: Além das opções: VPOS; HPOS; HAXIS; VAXIS; HREF; VREF; OVERLAY; HZERO e VZERO, descritas no PROC PLOT, pode-se usar: GRID – Coloca linhas de grade (horizontais e verticais) FRAME – Coloca um contorno na área do gráfico LEGEND – Inclui a legenda no gráfico Algumas das opções3 são: COLOR = <red | blue | green | ...> – Especifica a cor dos símbolos INPERPOL = <none | join | R | spline | ... > - Especifica a forma de ligação dos pontos, que pode ser, respectivamente, nenhum, linha segmentada, equação de regressão, curva suavizada, etc. VALUE = <plus | dot | star | ... > - Especifica a forma do símbolo, que pode ser, respectivamente, +, , etc. WIDTH = < 1, 2, 3, ... > - Especifica a espessura da linha HEIGHT = < 1, 2, 3, ... > - Especifica o tamanho dos símbolos Outros gráficos Os procedimentos utilizados são: PROC CHART ou GCHART– para gráficos no output ou na janela GRAPHICS, respectivamente. VBAR ou HBAR ou PIE, etc – define o tipo do gráfico, que pode ser: Barras verticais, Barras Horizontais, tipo Pizza, etc. Histograma (PROC GCHART) Exemplo 1 – Fazer um histograma, com 10 classes de freqüências, por sexo. DATA EX1; INPUT SEX$ PESO @@; CARDS; M 18.3 F 22 M 19 F 26 M 20 F 15.5 M 25.5 F 12 M 18 F 21.7 M 13.5 M 16 M 24 28 M 22 F 23.2 M 20 F 21 M 31 F 28 F 20 M 13.5 F 23 M 19 M 18 M 16 F 17 ; RUN; GOPTIONS DEVICE=WIN; PATTERN V=SOLID COLOR=BLUE; PROC GCHART; VBAR PESO/GROUP=SEX LEVELS=10 ; RUN; Gráficos de 3 dimensões (PROC G3D) O procedimento utilizado é: PROC G3D – para gráficos na janela GRAPHICS Exemplo 2. Fazer o gráfico da equação Z=X2 + Y2 , -5<X<5 E –5<Y<5. DATA EX2; DO X=-5 TO 5 BY 0.2; DO Y=-5 TO 5 BY 0.2; Z=X**2+Y**2; OUTPUT; END; END; PROC G3D; PLOT X*Y=Z/GRID CAXIS=RED CBOTTOM=BLUE; RUN; 29 LISTA DE EXERCÍCIOS - AULA 5 1. Fazer um programa SAS para ler os dados da Tabela abaixo e representar graficamente o perfil dos 3 tratamentos ao longo do tempo. Usar as opções que julgar serem interessantes. Semanas Tratamento 1 2 3 4 5 6 7 8 9 10 TR1 10 11 11 11.5 12 11 12.3 12.5 12.3 12.5 TR2 12 12.1 12.5 12.3 12.4 13 13.1 12.9 13.1 13.4 TR3 13.1 13 12.9 12.5 11.7 12.5 11.5 11 10.5 10 2. Fazer um programa SAS para gerar 100 dados com distribuição normal e fazer um histograma (gráfico de barras verticais). Usar as opções que você julgar serem interessantes. 3. Fazer um programa no sãs para representar graficamente a função: Y=X2 – 2X – 8, -5≤X5 4. Fazer um programa SAS para fazer o gráfico da equação: Z = 1 / (X2 + Y2 + 0.5), 10<X<10 e –10<Y<10. Usar as opções que você julgar serem interessantes. - 30 V.6. INFORMAÇÕES NECESSÁRIAS PARA A AULA 6 Regressão Linear O procedimento utilizado para regressão linear e o PROC REG: PROC REG Finalidade: Ajuste da equação de regressão linear. Sintaxe: PROC REG < opções1 >; MODEL < Var. Dep > = < Lista Var. Indep. > / < opções2 >; RUN; A < Lista Var. Indep. > é tal que: Se conter apenas 1 variável – Reg Linear simples Se conter 2 ou mais variáveis – Reg. linear Múltipla Algumas das <opções2> são: P – apresenta os valores estimados (preditos) CLI – apresenta os intervalos de confiança dos valores preditos CLM – apresenta os intervalos de confiança das médias SELECTION= BACKWARD (B) | FORWARD (F) | STEPWISE | SLSTAY= n1 | SLENTRY=n2 As opções BACKWARD (B) | FORWARD (F) | STEPWISE são usadas para definir o método para seleção do modelo de regressão As opções SLSTAY= n1 | SLENTRY=n2 são usadas para definir os Níveis de significância para ficar ou entrar, respectivamente, uma variável no modelo 31 LISTA DE EXERCÍCIOS - AULA 6 1. REGRESSÃO LINEAR SIMPLES. Fazer um programa no SAS para: a) Ler os dados no SAS usando a opção CARDS: Valores Valores de Y de X R1 R2 R3 1 8.2 6.6 9.8 2 19.7 15.7 16.0 3 28.6 25.0 31.9 4 30.8 37.8 40.2 5 40.3 42.9 32.6 b) Representar (no OUTPUT) os pontos graficamente. c) Fazer a análise de regressão linear y=f(x)=a+bx. d) Fazer a análise de regressão linear com opções para obter: valores estimados (preditos) de Y ( y i ), Intervalos de confiança para y i , e representar graficamente (na janela GRAPHICS) pontos observados e os estimados com respectivos intervalos. 2. REGRESSÃO LINEAR MÚLTIPLA. Fazer um programa no SAS para: a) Ler o arquivo L6E2.DAT, que é um arquivo ASC, e contém as variáveis: X1 = N, X2 = P, X3 = K, X4 = CA, X5 = MG, X6 = S e Y = % terra retida na peneira 18. b) Fazer a análise de regressão linear múltipla: Y=f(X1,X2, X3,X4, X5,X6). Obter os valores preditos com respectivos intervalos de confiança. c) Testar se o intercepto difere de 50 e se o coeficiente de N difere de 1. d) Representar graficamente os valores observados vs estimados. e) Fazer a análise de regressão linear múltipla e selecionar o modelo usando os métodos: BACKWARD, FORWARD, STEPWISE e R-MÁXIMO. Definir o Nível de Significância para a seleção dos modelos. 3. REGRESSÃO POLINOMIAL. Fazer um programa no SAS para: a) Ler os dados no SAS usando a opção CARDS: quantidade Tempo para Gelar (Y) de pó (X) Rep.1 Rep.2 2.50 7.39 7.30 2.55 7.00 7.03 2.60 6.90 6.95 2.65 6.85 6.80 2.70 6.70 6.30 2.75 6.33 6.20 2.80 5.97 5.90 2.85 5.90 5.82 2.90 5.80 5.80 2.95 6.15 6.00 3.00 6.30 6.15 b) Representar graficamente Y=f(X). c) Fazer a análise de regressão polinomial, até 3º grau; de Y em função de X. 32 V.7. INFORMAÇÕES NECESSÁRIAS PARA AS AULAS 7 E 8 As análises de variância no SAS podem ser realizadas pelos procedimentos: PROC ANOVA e PROC GLM. O PROC ANOVA (ANalyze Of VAriance) é específico para dados balanceados e o PROC GLM (General Linear Model) pode ser utilizado em qualquer caso (dados balanceados ou não). PROC ANOVA A sintaxe do PROC ANOVA é: PROC ANOVA <opções>; CLASS <var, de classif,>; MODEL <lista de var, dep,>=efeitos / <opções>; MEANS <efeitos> / <opções>; TEST H= <lista de efeitos> E= <efeito>; RUN; Os comandos em negrito são obrigatórios, Nos Comandos: CLASS <var, de classif,>; <var, de classif,> corresponde às variáveis de classificação que serão utilizadas na análise MODEL <lista de var, dep,>=<efeitos> / <opções>; <lista de var, dep,> - corresponde às variáveis a serem analisadas <efeitos> - corresponde aos efeitos envolvidos no modelo, eqüivale às fontes de variação do esquema da análise da variância, exceto o resíduo - Efeitos cruzados (interações) são representados incluindo-se um * entre as variáveis da interação, para a interação de A com B, usa-se: A*B - Efeitos aninhados são representados colocando-se a variável aninhada entre parênteses, para representar A aninhado em B usa-se A(B) Obs.: Efeitos incluídos no modelo, que não constam da lista de variáveis de classificação são consideradas como Covariáveis. <opções> - Algumas da opções são: - SS1 | SS2 | SS3 | SS4 - Para escolher o tipo das Somas de Quadrados a ser usado 33 MEANS <efeitos> / <opções>; Apresenta as médias para os níveis dos efeitos especificados, sendo: <efeitos> - lista de efeitos para os quais deseja as médias <opções> - Algumas da opções são: - Teste para Comparações de médias (TUKEY | DUNCAN | T | BON | DUNNETT | SCHEFFE | etc.) - Teste para Homogeneidade de Variância (HOVTEST = BARTLETT | BF (Brown Forsythe) LEVENE | OBRIEN ) TEST H= <lista de efeitos> E= <efeito>; H= <lista de efeitos> - especifica os efeitos que devem ser testados (teste F), usando como termo do erro o efeito especificado em E= <efeito> PROC GLM A sintaxe do PROC GLM é: PROC GLM <opções>; CLASS <var, de classif,>; MODEL <lista de var, dep,>=<efeitos> / <opções>; MEANS <efeitos> / <opções>; LSMEANS efeitos / <opções>; CONTRAST 'label' <efeito> <coeficientes do contraste> / <opções>; RANDOM <efeitos> / <opções>; TEST H= <lista de efeitos> E= <efeito>; RUN; Os comandos em Negrito são Obrigatórios, Apenas os comandos não descritos no PROC ANOVA (em azul) serão descritos aqui, uma vez que para os outros a descrição seria igual, LSMEANS efeitos / <opções>; Apresenta as médias ajustadas para os níveis dos efeitos especificados, sendo: <efeitos> - lista de efeitos para os quais deseja as médias <opções> - Algumas da opções são: - PDIFF | TDIFF – requer a apresentação do valor da probabilidade “p-value” ou do valor da estatística T, respectivamente, para as comparações de médias duas a duas, 34 - ADJUST = (TUKEY | BON | SCHEFFE | etc) – requer o ajuste do “pvalue” para o teste especificado CONTRAST “label” <efeito> <coeficientes do contraste> / <opções>; Faz o teste F para o contraste especificado: label – qualquer comentário (até 20 caracteres) que caracterize o contraste <efeito> - efeito ao qual corresponde o contraste coeficientes do contraste – coeficientes do contraste, um para cada nível do efeito, separados por pelo menos um espaço <opções> - Algumas da opções são: - E – requer a impressão dos coeficientes do contraste - E=efeito – especifica efeito que será usado como termo do erro, para o teste F RANDOM <efeitos> / <opções>; Especifica os efeitos aleatórios do modelo, Sempre que este comando for incluído, o SAS apresenta as Esperanças dos Quadrados Médios do Modelo. <efeitos> - lista de efeitos aleatórios <opções> - Algumas da opções são: - Q – requer que todas as formas quadráticas dos efeitos fixos sejam apresentadas no OUTPUT - TEST – requer que os testes F para a análise da variância sejam feitos não com o resíduo geral, e sim com os resíduos apropriados 35 LISTA DE EXERCÍCIOS - AULA 7 1.A. Fazer um programa no SAS para: a) Criar um arquivo SAS, a partir dos dados a seguir (Arquivo ASC- L7E1.TXT): REPETIÇÕES 1 2 3 4 5 1 2370,0 1687,0 2592,0 2283,0 2910,0 2 1282,0 1527,0 871,0 1025,0 825,0 3 562,0 321,0 636,0 317,0 485,0 4 173,0 127,0 132,0 150,0 129,0 5 193,0 71,0 82,0 62,0 96,0 Fonte: BANZATTO, D.A., KRONKA, S.N. Experimentação Agrícola. Jaboticabal: Funep, 1992. TRATAM. 6 3020,0 920,0 842,0 227,0 44,0 b) Verificar as condições de Normalidade do Erro c) Verificar se há homogeneidade da variância d) Com a finalidade de estudar se a heterocedasticidade da variância é regular, verificar se a regressão linear Log(Var)=a + b Log(Med) é significativa. 1.B. Com os dados do exercício anterior, fazer um programa no SAS para: a) Transformar os dados em Z=Ln(Y) - logarítmo neperiano b) Verificar as condições de Normalidade do Erro dos dados transformados c) Verificar se há homogeneidade da variância d) Fazer a Análise da Variância (DIC) e) Comparar as médias pelo teste de Duncan 2.A. Fazer um programa no SAS para: a) Criar um arquivo SAS, a partir dos dados a seguir (Arquivo ASC- L7E2.TXT): REPETIÇÕES 1 2 3 4 1 142,36 144,78 145,19 138,88 2 139,28 137,77 144,44 130,61 3 140,73 134,06 136,07 144,11 4 150,88 135,83 136,97 136,36 5 153,49 165,02 151,75 150,22 Fonte: BANZATTO, D.A., KRONKA, S.N. Experimentação Agrícola. Jaboticabal:Funep, 1992. TRATAM, b) Fazer a Análise da Variância (DBC) c) Comparar as médias pelo teste de Tukey d) Fazer um desdobramento dos graus de liberdade, por contraste, considerando que T1, T2 e T3 possuem uma característica não observada em T4 e T5 2.B. Fazer um programa no SAS para a Análise de Variância dos dados do exercício 2.A., supondo que a observação (Trat. 5 e Bloco 2) tenha sido perdida. 36 3) Fazer um programa no SAS para: a) Criar um arquivo SAS, a partir dos dados a seguir (Arquivo ASC – L7E3TXT) TRATAMENTOS TRAT1 TRAT2 TRAT3 TRAT4 TRAT5 Y X Y X Y X Y X Y X 1 74 9 58 7 118 9 41 6 95 8 2 51 9 67 8 48 9 38 9 41 8 3 95 8 40 5 49 9 77 8 39 9 4 62 9 58 8 64 9 92 9 114 9 5 60 9 29 6 67 8 57 7 35 6 6 47 9 64 8 51 8 77 7 49 8 7 14 6 55 9 15 8 59 8 39 9 8 19 8 47 8 29 9 32 8 100 9 Fonte: PIMENTELGOMES, F. Estatística Experimental. Piracicaba:ESALQ/USP, 12. Ed., 1987. BLOCOS b) Fazer análise de Covariância 4.A. Fazer um programa SAS para: a) Criar um arquivo SAS com os dados a seguir (Arquivo ASC – L7E4.TXT): REPETIÇÕES 1 2 3 4 1-R1E1 26,2 26,0 25,0 25,4 2-R1E2 24,8 24,6 26,7 25,2 3-R2E1 25,7 26,3 25,1 26,4 4-R2E2 19,6 21,1 19,0 18,6 5-R3E1 22,8 19,4 18,8 19,2 6-R3E2 19,8 21,4 22,8 21,3 Fonte: BANZATTO, D.A., KRONKA, S.N. Experimentação Agrícola. Jaboticabal:Funep, 1992, TRATAM. b) Fazer a Análise da variância considerando um delineamento DBC e um esquema fatorial 3x2. c) Fazer o desdobramento dos graus de liberdade da interação. 4.B. Fazer um programa no SAS para a Análise de Variância dos dados do exercício 4.A., supondo que B esta aninhado em A. 5) Fazer um programa no SAS para: a) Criar um arquivo SAS, a partir dos dados (Arquivo ASC – L7E5.TXT):: TRATAM, A1B1 A1B2 A1B3 A2B1 A2B2 A2B3 BLOCOS 1 42,9 53,8 49,5 53,3 57,6 59,8 2 41,6 58,5 53,8 69,6 69,6 65,8 3 28,9 43,9 40,7 45,4 42,4 41,4 b) Fazer a análise de variância considerando um Delineamento em Parcelas Subdivididas 4 30,8 46,3 39,4 35,1 51,9 45,4 37 V.8. INFORMAÇÕES NECESSÁRIAS PARA A AULA 8 Considerações estatísticas Esperanças dos quadrados médios A esperança do quadrado médio é utilizada para verificar as hipóteses que estão sendo testadas e os denominadores apropriados para os testes F da análise da variância e para obter as estimativas dos componentes da variância. Num Delineamento Interiamente Casualizado, com nt tratamentos e nr repetições, as esperanças dos quadrados médios são dadas por: F. V. Trat, Resíduo Total G.L. S.Q. nt – 1 nt(nr – 1) nt nr – 1 SQ(Trat,) SQ(Res,) SQ(Total) Onde φt = E(QM) Ef. Aleatório Ef. Fixo 2 2 σ + nt σt σ2+ nt φt σ2 σ2 F QM(Trat)/QM(Res) 1 nt (µ − µ i ) 2 ∑ nt − 1 i =1 hipóteses que estão sendo testadas Observe que o Teste F esta testando a hipótese: a) Efeito aleatório: H0: σt2=0 vs H1: σt2 ≠ 0, b) Efeito fixoo: H0: µ1= µ2 = µ3 = ... = µnt = µ vs H1: µi ≠ µj, i ≠ j. estimativas dos componentes da variância Uma forma de obter as estimativas dos componentes da variância é igualar os Quadrados Médios observados às suas respectivas esperanças, assim: σˆ 2 = QM (Re s) σˆ 2 + nt σˆ t2 = QM (Trat ) logo: σˆ 2 = QM (Re s ) σˆ t2 = 1 [QM (Trat ) − QM (Re s )] nt 38 Regras práticas para obtenção das esperanças dos quadrados médios E(QM) dados balanceados 1. Determine as Fontes de Variação que comporão a Análise de Variância. Os efeitos principais e todas as possíveis interações. Se a letra ocorre em ambos os lados, a interação não existe. Se a letra se repete do lado direito, coloque a letra apenas uma vez. Ex: Fatores Interação ----------------------------------------AeB AB A e C:B AC:B A:B e C:B AC:BB = AC:B A:B e B:DE AB:BDE (não existe) ----------------------------------------2. A análise de Variância terá uma linha para cada Causa de Variação, inclusive para o resíduo. 3. O nº de graus de liberdade de uma linha genérica é obtida pelo produto dos (ni-1) associados aos fatores à esquerda dos dois pontos (:) com os nj aos à direita. Ex: Para AB:XY ------> (na-1)(nb-1)nxny graus de liberdade. 4. Denote os Componentes da Variância por s2 com respectivos índices Ex: Para A:B use s2a:b. 5. Os coeficientes dos Componentes da Variância é o produto de todos os ni cujos índices não aparecem em s2. 6. Cada E(QM) conterá aqueles s2 (com respectivos coeficientes) que possuem como índices, no mínimo, todas as letras presentes naquela linha. 7. Para os modelos mistos, sem restrições nos parâmetros, tratá-los como aleatórios, substituindo os s2 dos efeitos fixos pelas funções quadráticas correspondentes. 8. Para modelos mistos, com restrições nos parâmetros, eliminar da E(QM) aqueles Componentes da Variância que têm entre suas letras, qualquer letra de efeito fixo, exceto as da linha. 39 Procedimentos para estimar componentes da variância PROC VARCOMP Finalidade: Estimar componentes da variância Sintaxe: PROC VARCOMP <opções1>; CLASS <var, de classif,>; MODEL <lista de var, dep,>=<efeitos> / <opções2>; RUN; CLASS e MODEL – como definidas no PROC ANOVA e PROC GLM <opções1> - Algumas da opções são: - SAS-data-set – especifica o SAS-DATA-SET - EPSILON = n – para especificar o valor de ε (epsilon) utilizado no teste de convergência para os métodos ML e REML, Default: 1*E-8 - MAXITER = n - para especificar o número máximo de iterações para os métodos ML e REML, Default: 50 - METHOD = TYPE1|MIVQUE0|ML|REML - para especificar o método de estimação dos componentes da variância, Default: MIVQUE0 <opções2> - Uma opção é: - FIXED = n - para especificar que os n primeiros efeitos são fixos e, automaticamente, os demais são considerados aleatórios, Default: Todos os efeitos aleatórios. 40 LISTA DE EXERCÍCIOS - AULA 8 1. Fazer um programa em SAS para : a) Ler o arquivo L8E1,TXT, que é um arquivo ASC, O arquivo contém as variáveis A, B, Rep, Y. FATORES REPETIÇÕES 1 2 3 A B 1 1 86,8 90,20 76,80 1 2 94,00 88,60 83,00 1 3 44,00 83,80 56,50 2 1 72,20 52,40 55,00 2 2 72,40 120,20 90,80 2 3 104,60 92,00 101,00 3 1 68,40 91,00 55,20 3 2 78,80 49,00 56,00 34,00 57,20 32,40 3 3 4 1 54,00 24,40 35,00 4 2 33,00 33,60 34,80 4 3 33,20 32,00 33,60 b) Fazer análise de variância considerando que B está aninhado em A, sendo A fixo e B(A) aleatório. Comparar as médias para o efeito fixo. Estimar os componentes da variância para o efeito aleatório. 2. Fazer a análise da variância de um experimento contendo os fatores: A, B e C(A), todos aleatórios. a) Obter as EQM e montar a análise. b) Pedir ao SAS as EQM, e então montar a análise. c) Pedir ao SAS as EQM e a montagem da análise. Dados: A B C ----- Y ----1 1 1 5 6 9 6 7 1 1 2 6 8 9 8 7 1 1 3 4 5 8 6 6 1 2 1 8 6 9 7 5 1 2 2 7 8 9 6 8 1 2 3 10 8 7 9 6 2 1 1 5 7 6 8 6 2 1 2 9 7 6 9 7 2 1 3 6 8 7 9 5 2 2 1 6 5 6 7 8 2 2 2 7 8 7 9 6 2 2 3 6 5 7 9 8 41 V.9. INFORMAÇÕES NECESSÁRIAS PARA A AULA 9 Procedimentos para estimar componentes da variância PROC NPAR1WAY Finalidade: Análise não paramétrica para experimentos com 1 fator, Sintaxe: PROC NPAR1WAY <opções1>; CLASS <var, de classif,>; VAR <var, dep,>; RUN; CLASS e MODEL – como definidas no PROC ANOVA e PROC GLM <opções1> - Algumas das opções são: - SAS-data-set – especifica o SAS-DATA-SET - ANOVA – requer uma análise de variância padrão, além da análise não paramétrica - VW – requer que os escores de Van der Waerden sejam analisados - WILCOXON – requer uma análise dos números de ordem dos dados, ou escores de Wilcoxon, para 2 níveis, eqüivale ao teste da soma das ordens de Wilcoxon, para qualquer número de níveis, é o teste de Kruskal-Wallis 42 LISTA DE EXERCÍCIOS - AULA 9 1. Fazer um programa no SAS para: a) Criar um arquivo SAS, a partir dos dados a seguir: TRATAM, 1 2 3 REPETIÇÕES 1 2212,8 2195,2 1770,3 2 2025,3 2031,5 1800,0 3 1989,0 1876,5 1852,8 4 2232,8 1750,3 1769,0 5 2027,8 1060,3 Fonte: CAMPOS, H. Estatística Experimental não paramétrica. Piracicaba:ESALQ/USP. 3. Ed., 1979. b) Verificar as condições de Homogeneidade da Variância (Teste de Bartlett). c) Fazer o teste não paramétrico de Wilcoxon para comparação dos tratamentos. 43 V.10. INFORMAÇÕES NECESSÁRIAS PARA A AULA 10 Procedimentos para regressão não linear PROC NLIN (Non LINear regression) Finalidade: Sintaxe: Estimativa de parâmetros de equações de regressão não-lineares. PROC NLIN <opções1>; PARAMETERS <param>= <valor inicial> ... ; MODEL <var.dep.>= expressão; BOUNDS expressões ... ; DER<.param> = expression; <opções1> - Algumas da opções são: - METHOD= GAUSS | MARQUARDT | NEWTON | GRADIENT | DUD – Especifica o método a ser usado. . Se o METHOD não for especificado e as derivadas “DER” forem, o SAS usa o método : GAUSS . Se o METHOD=DUD for selecionado, as derivadas “DER” não precisam ser especificadas. - OUTTEST=SAS-data-set – cria um SAS-DATA-SET com os parâmetros prodizidos em cada iteração - MAXITER = n - para especificar o número máximo de iterações, Default: 50 PARAMETERS param,= <valor inicial> - identifica os parâmetros a serem estimados e atribui valores iniciais aos mesmos MODEL <var,dep,>= expressão – identifica a relação funcional entre a variável dependente e a independente BOUNDS expressões – define limites para as estimativas dos parâmetros DER<.param> = expressão – define as derivadas da equação de regressão, em relação a cada um dos parâmetros 44 LISTA DE EXERCÍCIOS - AULA 10 1. Fazer um programa no SAS para: a) Os dados a seguir referem-se à digestibilidade da matéria seca de capim coast-cross, em função do tempo de Incubação. Criar um arquivo SAS, a partir desses dados (Arquivo ASC – L10E1.TXT). Repetições Tempo de Incub. 1 2 3 4 5 6 0 18,85 14,80 15,07 17,27 20,46 20,07 3 17,39 18,11 18,50 16,03 22,83 21,75 6 22,32 21,04 23,43 19,53 27,94 23,98 12 29,21 30,20 29,78 32,52 36,27 31,78 24 40,73 40,96 41,36 43,88 46,00 39,13 48 47,34 51,34 51,61 53,35 57,07 49,49 72 50,41 54,62 55,72 56,21 59,93 55,12 b) Representar graficamente Y=f(X), onde Y=Degradabilidade e X=Tempo de Incubação. c) Estimar os parâmetros do modelo de ORSKOV & McDONALD (1979): Deg(t)=a+b(1-e-ct). d) Representar graficamente os valores observados e o modelo estimado. 2. Fazer um programa no SAS para: e) Os dados a seguir referem-se a um experimento dose-resposta (X-Dose e Y=Resposta). Criar um arquivo SAS, a partir desses dados (Arquivo ASC – L10E2.TXT). ----------------X Y ----------------50 4184.0 50 4711.0 50 3683.0 100 4690.0 100 5086.0 100 5382.0 200 6944.0 200 6312.0 200 5689.0 400 5912.0 400 5777.0 400 6725.0 ----------------f) Representar graficamente Y=f(X). g) Estimar os parâmetros do modelo Linear-Platô; Quadrático-Platô e Quadrático. h) Representar graficamente os valores observados e os modelos estimados, como apresentados no grafico a seguir: 45 Pontos Pontos e Linear-Platô Pontos e Quadrática-Platô Pontos, Linar-Platô, Quadrática-Platô e Quadrática