MINISTÉRIO DE EDUCAÇÃO E DESPORTOS UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CIÊNCIAS NATURAIS E EXATAS DEPARTAMENTO DE ESTATÍSTICA LABORATÓRIO - S.A.S. TREINAMENTO SISTEMA - S.A.S. Prof. Dr. Luis Felipe Lopes SANTA MARIA – RS 2006 SUMÁRIO 1 INTRODUÇÃO 1 2 LIMITAÇÕES 1 3 O QUE É O SISTEMA SAS? 3.1 O SAS/BASE 3.2 Tópicos gerais 1 2 3 4 ARQUIVOS SAS 3 5 COMANDOS DE PROGRAMAÇÃO 5.1 Comandos de controle de arquivos 5.2 Comandos que lêem e gravam arquivos de dados 5.3 Comandos que lêem e gravam arquivos SAS 5.4 Comandos que atuam sobre valores de dados 5.5 Comandos de informação 5.6 Comandos que controlam o fluxo lógico de programação 3 4 6 10 13 15 17 6 PRINCIPAIS “PROCEDURES” – PROCs 6.1 PROC SORT 6.2 PROC PRINT 6.3 PROC FORMAT 6.4 PROC FREQ 6.5 PROC MEANS 20 20 21 22 23 24 7 ESTATÍSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 7.1 Introdução 7.2 Testes de Normalidade (PROC UNIVARIATE) 27 27 27 8 ANÁLISE DE CORRELAÇÃO E REGRESSÃO 8.1 Introdução 8.2 Correlação de Pearson (PROC CORR) 8.3 Regressão (PROC REG) 8.4 Inferência na regressão 8.5 Resíduos 32 32 33 39 41 41 9 INFERÊNCIA ESTATÍSTICA 9.1 Testes para igualdade de duas medias (PROC TTEST) 9.2 Teste para dados pareados 55 54 59 10 MÉTODOS NÃO PARAMÉTRICOS 10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 64 64 Treinamento Sistema – SAS i Prof. Luis Felipe Lopes 11 ANÁLISE DE VARIÂNCIA 11.1 Dados balanceados (PROC ANOVA) 11.1.1 Experimento Completamente Casualizado 11.1.2 Experimento com Blocos Aleatorizados 11.1.3 Experimento com Quadrado Latino 68 68 73 75 77 12 EXERCÍCIOS RESOLVIDOS E COMENTADOS 79 13 EXEMPLO PRÁTICO 13.1 Banco de dados 13.2 Análise dos dados 127 127 128 REFERÊNCIAS BIBLIOGRÁFICAS 139 ANEXOS 140 ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis 141 Treinamento Sistema – SAS ii Prof. Luis Felipe Lopes TREINAMENTO SISTEMA - S.A.S. – Statistical Analisys System 1 INTRODUÇÃO O Objetivo deste Curso é ajudar o usuário a conhecer os comandos básicos do Sistema SAS de modo que possa obter as respostas a problemas práticos de uma maneira rápida e objetiva. 2 LIMITAÇÕES Este curso é apenas uma introdução ao SAS, contendo uma pequena fração de informação que você encontrará no SAS USER’S GUIDE: BASIC e SAS USER’S GUIDE STATISTICS. 3 O QUE É O SISTEMA SAS ? É um sistema de aplicação integrada, que consiste em vários produtos que tem por função: acesso, gerenciamento, análise estatística e apresentação de dados, somada a uma linguagem poderosa de programação e geração de relatórios. Acesso Gerenciamento DADOS Apresentação Análise Acesso aos dados - o sistema SAS possui ferramentas para acessar os bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS. Gerenciamento de dados - com o SAS é possível editar, selecionar, ordenar, concatenar e margear os arquivos. Treinamento Sistema – SAS 1 Prof. Luis Felipe Lopes Análise de dados - o SAS possui rotinas estatísticas para análises de regressão, análise de variância, de componentes principais, discriminante, modelos lineares, análise fatorial, previsões, controle de qualidade, cálculos matriciais, etc. . Apresentação de informações - a geração de relatórios é fácil e flexível. Eles podem ser listados, tabulados e gráficos. O SAS por ser um sistema integrado, ele é composto por módulos para comercialização. Principais módulos: SAS/BASE → contém uma linguagem de Quarta geração, com procedimentos para estatística básica e gráficos de baixa resolução. SAS/STAT → este módulo é composto de procedimentos para estatística avançada, como análise de variância, análise de regressão, multivariada, fatorial, discriminante, outras. SAS/GRAPH → gera gráficos de alta resolução: barras verticais ou horizontais, setoriais, cartesianos, mapas e superfícies tridimensionais. SAS/ETS → ferramenta de previsão e análise de séries temporais. SAS/OR → Procedimentos para Pesquisa Operacional, programação linear, gerenciamento de projetos e apoio à tomada de decisões. SAS/IML → linguagem para operação com matrizes. SAS/QC → ferramenta para controle estatístico de qualidade e delineamentos experimentais. Existem outros módulos, mas que não são de interesse para a estatística. 3.1 O SAS/BASE É o instrumento principal do Sistema SAS. Ele permite ao usuários: - Criar, montar e acessar qualquer tipo de dado; - Produzir relatórios e gráficos simples; - Atualizar estatisticamente os dados; - Utilizar a linguagem de programação SAS. Treinamento Sistema – SAS 2 Prof. Luis Felipe Lopes 3.2 Tópicos gerais - Todo os comandos do SAS terminam em (;). - Os comandos iniciam e terminam em qualquer posição. - Vários comandos poderá estar numa mesma linha. - Um comando poderá ser escrito em várias linhas. - Palavras serão separadas por um mais espaços. - O comando INPUT é obrigatório não interessando onde os dados estão armazenados. - Arquivos SAS são armazenados em tabelas retangulares. - Referenciam-se arquivos e variáveis pelos nomes. - Nomes de arquivos ou variáveis poderá ter no máximo 8 caracteres, iniciando obrigatoriamente por letras (A-Z), podendo ter associado número e/ou caracteres especiais com ( - ‘quebra’). 4 ARQUIVO SAS Um arquivo SAS é uma coleção de valores de dados arrumados em uma tabela retangular. Ex.: Variáveis → OBSERVAÇÕES . . CULTURA ALTURA1 ALTURA2 arroz feijão soja 0.35 0.25 0.15 0.39 0.30 0.17 • As colunas da tabela são chamadas de VARIÁVEIS - Variáveis corresponde a campos de dados. - Cada variável tem um nome. - Há três tipos de variáveis: caracter, numérica e data. • As linhas são chamadas de OBSERVAÇÕES - Não há limite para o número de observações. 5 COMANDOS DE PROGRAMAÇÃO Os seguintes comandos são básicos para a programação em SAS: - Comandos de controle de arquivos. - DATA - CARDS Treinamento Sistema – SAS - INFILE - FILE 3 Prof. Luis Felipe Lopes - Comandos que lêem e gravam arquivos de dados. - INPUT - PUT - LIST - Comandos que lêem e gravam arquivos SAS. - SET - MERGE - UPDATE - OUTPUT - Comandos que atuam sobre valores de dados. - FUNÇÕES e EXPRESSÕES - Comandos de informação. - DROP - RENAME - LABEL - FORMAT - TITLE - Comandos que controlam o fluxo lógico de programação. - IF (THEN / ELSE) - DELETE 5.1 Comando de controle de arquivos - DATA O primeiro comando em um programa SAS, geralmente é um DATA. O comando DATA diz ao SAS que se quer criar um arquivo SAS. Você poderá escolher qualquer nome para esse arquivo, desde que tenha até 8 caracteres ou menos e comece por uma letra (A-Z). Ex.: DATA TESTE; INPUT . . . . . Treinamento Sistema – SAS 4 Prof. Luis Felipe Lopes • A palavra TESTE é o nome do arquivo SAS. • Se o nome for omitido pelo usuário, o SAS se encarrega de nomeá-lo. Dando o nome de DATAn (n → número de DATAS criados). • O comando DATA pode aparecer em outros lugares dentro do arquivo SAS quando se quer fazer referências a outros arquivos. - CARDS É um comando dado logo após o comando DATA. O comando CARDS indica ao SAS que os registros de dados seguem imediatamente abaixo no texto até o ponto e virgula ‘; ‘ do último dado. Ex.: DATA A1; INPUT IDADE 1–2 ALTURA 5-8 1 PESO 10–14 1; CARDS; 21 180 75.2 18 170 65.3 25 175 80.3 : : : : : : ; - INFILE Também vem a ser um comando logo após o comando DATA, só que os valores de dados estão em disco (na forma de arquivo), logo deve-se incluir o comando INFILE. Ele deve conter um nome com no máximo 8 caracteres e deverá ser lido com o código ASCII. Características do INFILE: • Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados estão armazenados. • Os dados estão armazenados em disco no arquivo chamado ARQUIVO. Ex.: DATA A1; INFILE ‘ARQUIVO DADOS’; INPUT NOME $10. @30 NOTA1 30 – 32 1 NOTA2 33 – 35 1 MEDIA 37 – 39 1; PROC PRINT; Treinamento Sistema – SAS 5 Prof. Luis Felipe Lopes Obs.: Este dois comandos CARDS e INFILE especificam de onde serão lidos os dados. O INFILE indica que serão lidos de um arquivo externo (banco de dados – ASCII) e o CARDS indica que os dados estão no programa logo abaixo deste comando. 5.2 Comandos que lêem e gravam arquivos de dados - INPUT A função do comando INPUT é descrever para o sistema SAS como são, quais os nomes, e em que posição se encontra as VARIÁVEIS no arquivo de dados. O comando INPUT geralmente segue o comando DATA. Ex.: DATA TESTE; INPUT A 1-3 Y 5-6; Obs.: Lembre-se das regras para nomes (no máximo 8 caracteres). a) Tipos de INPUT a.1) INPUT COLUNADO Especifica onde encontrar os valores pela posição da coluna. Ex.: INPUT NOME $ 1–8 SEXO $ 10 IDADE 12-13 ALTURA 15–19 PESO 21–26; Restrições: • As posições dos campos são fixas. • O ‘$’ é usado para indicar variável alfanumérica. Características do INPUT COLUNADO: • Os campos (variáveis) podem ser lidos em qualquer ordem. Ex.: INPUT SEXO $ 10 IDADE 12–13 NOME $ 1–8 PESO 21–26 ALTURA 15–19; Treinamento Sistema – SAS 6 Prof. Luis Felipe Lopes • Campos em brancos são considerados não informados. (posições 9, 11, 14, 20). • Caracteres em branco só serão permitidos em variáveis alfanuméricas. Ex.: ‘JOSE CARLOS’ • Campos ou partes de campos podem ser relidos como uma nova variável; Ex.: INPUT NOME $ 1-8 ININOME $ 1; • Valores numéricos podem aparecer em qualquer posição do campo, podendo ser especificado sinais decimais ou ponto decimais. Ex.: INPUT PESO $ 1–6; 1 1 2 3 4 5 2 2 C A M P O S 3 4 2 5 2 5 5 5 2 . 6 5 . . 5 Obs.: 1 - Não se usa ‘ , ’ (virgula) para separar a parte decimal e sim ‘ . ‘ (ponto). Ex.: linhas 2 e 4 2 - Um campo em branco deverá ser representado por um ‘ . ‘ ponto (missing). Ex.: linha 5 a.2) INPUT LISTADO O SAS procura pelos campos brancos até encontrar um caracter, então lê o campo até o próximo branco. Forma geral → INPUT lista de variáveis; Ex.: INPUT SEXO $ IDADE NOME $ PESO ALTURA; Restrições: • Todo o campo (var.) deve ser especificado em ordem. • Campos devem ser separados por brancos. • Não é permitido campos em branco e sim ‘ . ‘ . Treinamento Sistema – SAS 7 Prof. Luis Felipe Lopes Ex.: 04 DATA CLASSE; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; 01 02 03 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 C J A P A O N A R L O S M 2 0 1 8 0 . 5 7 8 . 5 S E M 1 8 1 7 5 7 0 . 8 A F 1 7 1 6 5 . 6 6 2 . 5 U L A F 2 1 1 6 8 5 5 a.3) INPUT FORMATADO Especifica a posição e o tamanho do campo. Formato de Entrada: W W.d → Largura do campo numérico → Numérica com decimal Controle de posição: → Vai para a coluna ‘n’. → Move a posição ‘n’ posições. @n +n 01 02 03 04 J J A A O O N N S E S E L U I S A A P A U L A Ex.: 05 06 07 08 09 10 11 M M F F 12 13 14 2 1 1 2 0 8 7 1 15 16 17 18 19 1 1 1 1 8 7 6 6 0 . 5 5 . 8 20 5 6 21 22 23 24 7 7 6 5 8 . 0 . 2 . 5 25 5 8 5 INFILE ‘BANCO DADOS’; INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1 ALTURA 5. +1 PESO 4.; Características do INPUT FORMATADO: • Variáveis e formatos de entrada podem ser agrupados separadamente com parênteses. Ex.: INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.); ou INPUT (JAN FEV MAR ABR MAI) (3.); • Variáveis numeradas podem ser usadas para abreviar diversas variáveis relacionadas. Treinamento Sistema – SAS 8 Prof. Luis Felipe Lopes Ex.: INPUT (MES1 MES2 MES3 MES4 MES5) (3.); ou INPUT (MES1-MES5) (3.); a.4) MISTURANDO TIPOS DE INPUT Os três tipos de INPUT vistos podem ser combinados (LISTADO, COLUNADO e FORMATADO) em um único comando INPUT. Ex.: DATA CLASSE; INPUT NOME $ @11 SEXO $ 1. IDADE 13-14 ALTURA 16–19 @21 PESO 5.; a.5) OUTROS CONTROLADORES DE POSIÇÃO ‘/‘e‘#‘ 1 2 3 4 Ex.: 01 02 03 04 J 1 J 1 A 1 A 1 O 8 O 7 N 6 N 6 S 0 S 5 A 5 A 8 E . E . 05 06 5 L 6 P A 07 08 09 7 U 7 8 I 0 . S . 6 U 5 2 L 5 . A 10 11 13 14 M 12 2 0 M 1 8 F 1 7 F 2 1 15 5 8 5 DATA CLASSE; INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. / ALTURA 5. PESO 7-10; ou DATA CLASSE; INPUT NOME $ 1–9 SEXO $ 11 @13 IDADE 2. #2 ALTURA 1-5. PESO 7-10; Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicação ‘#‘ sempre precederá o nome da variável, logo dispensa-se informar a próxima linha, ou seja, a partir da variável altura as demais variáveis o SAS entende que pertencem ao segundo cartão do registro. 2 - Quando estivermos nos referindo a uma data devemos após a variável colocar sua formatação (DT_NASC DDMMYY8. ). Treinamento Sistema – SAS 9 Prof. Luis Felipe Lopes 5.3 Comandos que lêem e gravam arquivos SAS - SET O comando SET é usado para transferir dados de um arquivo SAS existente para um novo arquivo SAS. Todas as variáveis do arquivo SAS são passadas automaticamente para o novo arquivo SAS (a não ser que sejam direcionadas de outra maneira com comandos de programação). • Novas variáveis que se queira criar devem ser adicionadas com comandos de atribuição. Ex.: DATA NOVACLAS; SET CLASSES; ANO_NASC=91-IDADE; PROC PRINT DATA=NOVACLAS; Obs.: No arquivo criado pelo comando SET possui uma variável nova ANO_NASC. • Como criamos uma variável nova ao gerar o arquivo NOVACLAS, podemos também excluir variáveis, com o comando DROP associado ao comando SET; Ex.: DATA NOVACLAS; SET CLASSES; DROP NOME SEXO; PROC PRINT DATA=NOVACLAS; • O campo (variável) NOME é através dessa variável referenciada com o BY que fará a junção dos dois arquivos num só. Obviamente que os dois arquivos deverão estar em ordem por NOME. Ex.: DATA AMBOS; SET HOMENS MULHERES; BY NOME; PROC PRINT; TITLE ´RESULTADO DA CONCATENACAO´; Treinamento Sistema – SAS 10 Prof. Luis Felipe Lopes HOMENS OBS 1 2 3 4 DEPT 213 917 916 914 NOME Alvaro Otto Ricardo Vitor MULHERES SEXO m m m m OBS 1 2 3 DEPT 914 918 917 NOME Eliane Lorena Sonia SEXO f f f Resultado da Concatenação (SET) HOMENS+MULHERES OBS 1 2 3 4 5 6 7 DEPT 213 914 918 917 916 917 914 NOME Alvaro Eliane Lorena Otto Ricardo Sonia Vitor SEXO m f f m m f m ⇒ Outra observação que se faz necessária para usar este comando com a finalidade de juntar (concatenando) dois ou mais arquivos, é que a estrutura dos arquivos sejam idênticas, ou seja, com mesmas variáveis. Podemos também selecionar observações na criação de um novo arquivo com o comando IF - MERGE O comando MERGE é usado para juntar observações de dois ou mais arquivos, colocando os mesmos um ao lado do outro. Algumas considerações: - Até 50 arquivos pode ser “mergeados” em um procedimento. - Os arquivos de entrada devem estar ordenados pela variável(eis) chaves se um comando BY é utilizado. - O arquivo resultante (saída) conterá todas as variáveis presentes nos arquivos de entrada a menos que o comando DROP ou qualquer outro de seleção tenha sido utilizado. - Treinamento Sistema – SAS 11 Prof. Luis Felipe Lopes Ex.: DATA JUNTA; MERGE GERAL SALARIO; PROC PRINT; TITLE ´ARQUIVO MERGEADO´; GERAL OBS 1 2 3 4 5 DEPT 917 918 917 914 916 SALÁRIO NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f OBS 1 2 3 4 5 NOME Sonia Alvaro Otto Eliane Lorena SAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30 “MERGEADO” OBS 1 2 3 4 5 DEPT 917 918 917 914 916 NOME Sonia Alvaro Otto Eliane Lorena SEXO f m m f f SAL_LIQ 169.10 223.00 329.05 650.70 380.95 SAL_BRU 279.10 310.05 410.75 715.12 470.30 Obs.: O comando BY não foi necessário ao “mergear” os arquivos porque a chave principal NOME nos dois arquivos estão na mesma ordem. Se não estivessem o comando BY seria necessário, assim como teríamos que classificar os arquivos através do comando SORT. - OUTPUT O comando OUTPUT pode ser usado para: → Criar duas ou mais observações para cada linha de entrada. → Combinar diversas observações a partir de uma única observação. → Criar um arquivo SAS sem nenhum dado de entrada. Treinamento Sistema – SAS 12 Prof. Luis Felipe Lopes Ex.: Criando quatro observações SAS de cada linha de entrada DATA RECEITA; INPUT ANO TRIM1 TRIM2 TRIMESTRE=1; VENDAS=TRIM1; TRIMESTRE=2; VENDAS=TRIM2; TRIMESTRE=3; VENDAS=TRIM3; TRIMESTRE=4; VENDAS=TRIM4; CARDS; 1996 1.2 0.9 1.1 1.5 1997 1.7 1.9 2.4 2.5; PROC PRINT; TITLE ´RESULTADO DA EXECUCAO RUN; TRIM3 TRIM4; OUTPUT; OUTPUT; OUTPUT; OUTPUT; DO ARQUIVO RECEITA´; SAÍDA ANO 1996 1996 1996 1996 1997 1997 1997 1997 TRIM1 1.2 1.2 1.2 1.2 1.7 1.7 1.7 1.7 TRIM2 0.9 0.9 0.9 0.9 1.9 1.9 1.9 1.9 TRIM3 1.1 1.1 1.1 1.1 2.4 2.4 2.4 2.4 TRIM4 1.5 1.5 1.5 1.5 2.5 2.5 2.5 2.5 TRIMESTRE 1 2 3 4 1 2 3 4 VENDAS 1.2 0.9 1.1 1.5 1.7 1.9 2.4 2.5 5.4 Comandos que atuam sobre valores de dados - Criando variáveis Quando se cria nova variável, se está adicionando um novo grupo de valores de dados ao arquivo. Por exemplo, supondo que temos um arquivo com as seguintes variáveis: ALUNO NOTA1 NOTA2 NOTA3 se quisermos criar uma nova variável chamada MEDIA devemos: MEDIA = (NOTA1 + NOTA2 + NOTA3)/3; Este comando informa para o SAS: • O sinal ‘ = ‘ significa atribua ao valor da esquerda o que se refere à esquerda. • Para cada observação (linha) do arquivo, some as três notas (variáveis) e divida por 3; 13 Treinamento Sistema – SAS Prof. Luis Felipe Lopes • De o nome ao resultado obtido de MEDIA (nova variável). Obs.: As demais variáveis continuam disponíveis para posteriores cálculos. - Funções e expressões Operações aritméticas mais conhecidas: SÍMBOLO ]] ] / + - OPERAÇÃO exponenciação multiplicação divisão adição subtração EXEMPLO Y = X2 A=BxC A=H/I R=S+T X=Z-W NO SAS Y = X ** 2 A=B*C A=H/I R=S+T X=Z-W Outras funções numéricas: FUNÇÃO ABS SQRT COS SIN ARCOS LOG LOG10 SUM MEAN VAR MIN MAX STD ROUD Ex.: O que faz Valor absoluto Raiz quadrada Cosseno Seno Arcosseno Logaritmo neperiano (base e) Logaritmo base 10 Soma Média aritmética Variância Valor mínimo Valor máximo Desvio padrão Valor arredondado X = 326.25; Y = ROUND (X); RESULTADO ⇒ Y = 327 (não está nas normas brasileiras) Z = MIN (Y); Z = MIN (of L – Y); W = SQRT (A + B/C); K = MEAN (IDADE); K = MEAN (of V1 – V7); SOMA= SUM (of V1 – V10); 5.5 Comandos de Informação Treinamento Sistema – SAS 14 Prof. Luis Felipe Lopes - DROP O comando DROP exclui a variável ou variáveis indicadas, da análise em questão; O comando DROP é válido no DATA e nas PROCs. Não é um comando executável, fornece a informação ao SAS quando o comando é compilado. O comando DROP poderá ser escrito em qualquer posição. Ex.: DROP IDADE SEXO; ⇒ O comando DROP retira a variável, portanto, todos os valores de IDADE e SEXO são desconsiderados (coluna). - TITLE O comando TITLE define cabeçalhos a serem impressos no topo das páginas de saída. Até dez títulos poderão ser especificados. Forma Geral → TITLEn ´t i t u l o´; n = número da linhas do título. Ex.: TITLE1 ´ Levantamento Sócio-econômico; TITLE2 ´ da´; TITLE3 ´Populacao Periferica de Santa Maria´; - FOOTNOTE Define o texto a ser impresso no rodapé das páginas de saída. A sintaxe é a mesma do comando TITLE. Ex.: FOOTNOTE ´Departamento de Estatística - UFSM´; - LABEL O comando LABEL é usado para atribuir rótulos (nomes) descritivos de até 40 caracteres. Rótulos podem ser atribuídos temporariamente para a duração de apenas um processamento, ou permanente definido no primeiro DATA. Treinamento Sistema – SAS 15 Prof. Luis Felipe Lopes Ex1.: DATA CLASSES; INPUT NOME $ 8. SEXO $ 11 IDADE 13-14 ALT 13-19 PESO 21-25; CARDS; Linha de Dados; PROC MEANS; VAR ALT PESO; LABEL ALT=’ALTURA EM POLEGADAS’ PESO=’PESO EM LIBRAS’; TITLE ‘ESTATISTICAS DAS ALTURAS E DOS PESOS’; RUN; Ex2.: DATA CLASSES; INPUT V1 – V3; LABEL V1=’NÚMERO DE ALUNOS’ V2=’CURSO’ V3=’SEXO’; CARDS; - COMMENT O comando COMMENT serve para documentar. Pode ser usado em qualquer parte do programa. Início (/*) Fim (*/) Ex.: DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; /* CALCULO DO INSS */ INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=´VENDA´; COM=VENDA*.10; /* CALCULO DO SALARIO BRUTO*/ SAL_BRUTO=COM+SAL; /* CALCULO DO DESCONTO */ DESC=INPS + SEG; /* CALCULO DO SALARIO LIQUIDO */ SAL_LIQ=SAL_BRUTO - DESC; END; CARDS; Obs.: Este comando também poderá cancelar uma determinada operação temporariamente; Treinamento Sistema – SAS 16 Prof. Luis Felipe Lopes - FORMAT O comando FORMAT é usado para especificar os formatos para valores dos dados. Os formatos podem ser definidos apenas para a apuração de uma “procedure – PROC”. Ex.: DATA CLASSE; INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO; CARDS; ... ... ; PROC FORMAT; VALUE SEX 1 = ‘MASCULINO’; 2 = ‘FEMININO’; PROC PRINT; FORMAT SEXO SEX.; TITLE ’USANDO O COMANDO FORMAT’; RUN; 5.6 Comandos que controlam o fluxo lógico de programação - IF (THEN / ELSE) Algumas vezes necessita-se trabalhar com parte dos dados, não todos. Por exemplo suponhamos que se queira analisar somente o sexo masculino. O comando IF pode ser usado para esta seleção. Ex.: DATA A1; INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO; IF SEXO=M; CARDS; Linha de Dados; O SAS lê cada observação e verifica se o SEXO é “M” (masculino), caso contrário nova observação será lida. ⇒ A condição IF poderá ser Verdadeira (THEN) ou Falsa (ELSE). ⇒ A condição IF também pode ser uma simples comparação de uma variável ou valor. Treinamento Sistema – SAS 17 Prof. Luis Felipe Lopes Ex.: IF ALTURA < 172 THEN DELETE; IF PRETEST < TESTE ELSE RESULT=´NÃO´; THEN RESULT=´SIM´; Principais operadores de comparação: Símbolo < ≤ > ≥ = ≠ Abreviatura LT LE GT GE EQ NE Comparação Menor que Menor que ou igual a Maior que Maior que ou igual a Igual Diferente Principais operadores lógicos: Símbolo OR AND NOT Comparação Um ou outro E, ambos Não, negação ⇒ A condição IF pode envolver comparações de ANDs e de ORs. Ex.: IF ESTADO=´RS´ AND CIDADE=´SANTA_MARIA’ THEN REGIAO=´SUL´; IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50 THEN LIST; IF RESULT=68 THEN RESP=´CERTO´; ELSE RESP=´ERRADO´; • Usando o comando IF com melhor aproveitamento: IF CODIGO=1 THEN RESPOSTA=´BOM´; ELSE IF CODIGO=2 THEN RESPOSTA=´REGULAR´; ELSE IF CODIGO=3 THEN RESPOSTA=´RUIM´; • Uso do comando DO e END associado ao comando IF: Treinamento Sistema – SAS 18 Prof. Luis Felipe Lopes O comando DO especifica que todos os comandos entre ele e o comando END devem ser executados; Ex.: DATA EMPREGO; INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29; INPS = SAL * .12; IF DEPTO=201 THEN DO; DEPTO=´VENDA´; COM=VENDA*.10; SAL_BRUTO=COM+SAL; SEG=SAL_BRUTO*.001; DESC=INPS + SEG; SAL_LIQ=SAL_BRUTO - DESC; END; ELSE DO; DPTO=´ADMIN´; SAL_LIQ=SAL - INPS; CARDS; Linha de Dados; - DELETE Quando se quer descartar uma observação., por ela conter um valor não válido para a análise que se esta tratando usa-se o comando DELETE; Quando este comando é carregado o SAS para de trabalhar na observação corrente, não adicionando ao arquivo SAS que esta sendo criado, e começa imediatamente na observação seguinte. O comando DELETE normalmente aparece com parte de um comando IF. Ex.: IF SEXO=´F´ THEN DELETE; IF SEXO=´F´ THEN IDADE LE 14 THEN DELETE; ⇒ O comando DELETE retira toda a observação do arquivo, logo aconselha-se colocá-lo dentro de uma rotina “DATA SET”; Ex.: DATA A1; SET A; Treinamento Sistema – SAS 19 Prof. Luis Felipe Lopes 6 PRINCIPAIS “PROCEDURES” - PROCs 6.1 PROC SORT Função: Quando se precisa ordenar os dados. A ordem das observações não importa muito para o processamento estatístico, por exemplo para calcular a média da ALTURA dos alunos por SEXO, a ordem como estão as observações não importa. Porém necessita-se LISTAR as observações por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por SET, as observações terão que estar ordenadas (SORT). Por exemplo se quisermos combinar as informações do estudo de ALTURA e PESO deste ano com as dos anos anteriores ambos os arquivos deverão ser ordenados. • A ordenação é a arrumação das observações de um arquivo em ordem determinada pelos valores de uma ou mais variáveis indicados no comando BY (POR). • Para ordenar-se um arquivo usa-se a “procedure” PROC SORT seguida do comando BY que indicará a variável pela qual o arquivo será ordenado. Ex.: PROC SORT DATA=TESTE; BY NOME; Suponha que temos um arquivo chamado PESQUISA e que queremos ordená-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente por NOME de cada cidade. Ex.: PROC SORT; BY PESQUISA; BY ESTADO CIDADE NOME; Obs.: A ordenação vista até aqui foi feita em cima do próprio arquivo (PESQUISA). Se não desejar que isso aconteça use o comando OUT. Ex.: PROC SORT; BY PESQUISA; OUT = NOVO; BY ESTADO CIDADE NOME; Treinamento Sistema – SAS 20 Prof. Luis Felipe Lopes • Os registros após a ordenação estarão gravados no arquivo chamado NOVO e no arquivo PESQUISA continuam desordenados. Obs.: Existem outros tipos de rotinas de programação usando o PROC SORT, onde poderemos incluir outras PROCs dentro dela. Ex.: PROC SORT; BY SEXO; PROC FREQ; TABLES V1 V2 V3 /LIST; PROC UNIVARIATE; VAR V1 V2 V3; PROC COR; VAR V1; WITH V2 V3; 6.2 PROC PRINT Este “procedure” serve para imprimir (listar) seus dados no relatório. Ex.: Listar ALTURA e PESO dos homens separado das mulheres INPUT SEXO $ ALTURA PESO; CARDS; Linha de Dados; PROC PRINT; BY SEXO; Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar o DATA, a impressão será do último DATA referenciado. 2 - O PROC PRINT imprime todos os dados, se for seguido do comando VAR imprimirá somente as variáveis selecionadas no comando VAR. Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA; 3 – O comando PROC PRINT poderá listar em função de um valor de uma determinada variável Ex.: PROC PRINT DATA=TESTE; VAR NOME IDADE ALTURA; WHERE SEXO=M; Treinamento Sistema – SAS 21 Prof. Luis Felipe Lopes 6.3 PROC FORMAT O procedimento FORMAT é usado para criar formatos definidos pelos usuários. Comando usado no PROC FORMAT → VALUE VALUE NOME VALOR = ´DESCRIÇÃO´; O NOME obedece as mesmas regras usadas para variáveis (8 caracteres), pois não deixa de ser uma nova variável selecionada. A DESCRIÇÃO terá tamanho máximo de 40 caracteres e deverá ser incluída entre aspas (´ ´). Ex.: PROC FORMAT; VALUE FAIXAS VALUE $SEX Obs.: LOW-12 = ´CRIANCA´ 13-19 = ´JOVEM´ 20-HIGH = ´ADULTO´; F = ‘FEMININO’ M = ‘MASCULINO’; LOW = Lowest → (do menor valor) HIGH = Highest → (ao maior valor) Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... ... PROC FORMAT; VALUE FAIXAS LOW-12 = ´CRIANCA´ 13-19 = ´JOVEM´ 20-HIGH = ´ADULTO´; VALUE $SEX F = ‘FEMININO’ M = ‘MASCULINO’; PROC PRINT; FORMAT IDADE FAIXAS. SEXO $SEX.; RUN; Treinamento Sistema – SAS 22 Prof. Luis Felipe Lopes 6.4 PROC FREQ O procedimento FREQ será útil para variáveis discretas e qualitativas. Para as variáveis contínuas aconselha-se usar o PROC UNIVARIATE ou PROC MEANS, pois este tipo de variável possui muitos valores diferentes. Outro benefício que a tabela de freqüência ou tabulação cruzada oferece é poder sumarizar variáveis caracteres, porque somente variáveis numéricas podem ser sumarizadas por estatísticas como média e desvio padrão. - Tabelas de Freqüência Simples Este tipo de tabela poderá ajudar a sumarização dos dados. Mostrar as distribuição dos valores das variáveis, podendo-se verificar quantas observações tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19 anos e assim por diante. Para obter as Tabelas de Freqüências Simples das variáveis que interessam usa-se o comando TABLES com a relação das mesmas. Ex.: PROC FREQ; TABLES IDADE PESO ALTURA; ou PROC FREQ; TABLES IDADE PESO ALTURA /LIST; Podemos utilizar o comando FORMAT: Ex.: PROC FREQ; TABLES FORMAT TABLES FORMAT IDADE /LIST; IDADE FAIXAS.; SEXO /LIST; SEXO SEXOV.; Com o uso do comando FORMAT na tabela de freqüência para as variáveis IDADE e SEXO teremos no relatório a DESCRIÇÃO para cada valor. - Tabelas de Freqüência Cruzada A tabela de freqüência cruzada mostra a união da distribuição de valores de duas ou mais variáveis. Por exemplo, queremos saber quantas mulheres com 19 anos temos no arquivo estudado. Treinamento Sistema – SAS 23 Prof. Luis Felipe Lopes Para obter-mos a resposta devemos cruzar as duas variáveis: IDADE e SEXO. Ex.: PROC ou PROC FREQ; TABLES FREQ; TABLES FORMAT IDADE*SEXO /LIST; IDADE*SEXO /LIST; IDADE FAIXAS. SEXO SEXOV.; Aconselha-se usar o comando /LIST para facilitar a visualização da tabela cruzada. Este comando também será aconselhado quando quisermos cruzar mais de duas variáveis. Ex.: PROC FREQ; TABLES SEXO*IDADE*PESO /LIST; Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; ... PROC FREQ; TABLES SEXO*(IDADE--PESO) /LIST /*(I até P)*/ TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/ RUN; 6.5 PROC MEANS Suponhamos que no arquivo que se está estudando possua valores para a variável PESO. Pode-se obter um quadro completo desses pesos pela simples listagem dos mesmos (PROC FREQ). Mas isso significa que teríamos que olhar e analisar todos os valores. O PROC MEANS sumariza todos os valores para computar a média. Então teremos como resultado um único valor representativo para todo o grupo. O PROC MEANS fornece outras estatísticas como: - Número de Observações - Média - Desvio Padrão - Valor Mínimo e Máximo Treinamento Sistema – SAS - Erro padrão - Variância - Coeficiente de variação 24 Prof. Luis Felipe Lopes Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC MEANS; VAR IDADE ALTURA PESO; RUN; Usando o comando BY Podemos obter estatísticas sumarizadas por grupos de dados associados ao comando BY. Por exemplo queremos calcular as estatísticas para as mesmas variáveis do exemplo acima só que por SEXO. Obs.: Antes de usar o comando BY para qualquer “procedure” SAS, o arquivo deverá ser ordenado pelas variáveis a serem usadas pelo comando BY. Ex.: DATA A1; INPUT NOME $ SEXO $ IDADE ALTURA PESO; CARDS; Lista de Dados; PROC SORT; BY SEXO; PROC MEANS; BY SEXO; VAR IDADE ALTURA PESO; RUN; Obs.: Valores não informados (representados por um ponto ‘ . ‘) não serão incluídos no cálculo da PROC MEANS. Treinamento Sistema – SAS 25 Prof. Luis Felipe Lopes SAS/STAT Pré requisito: Ter conhecimento de Estatística Básica. Ter conhecimento do SAS/BASIC; Objetivo: Este curso tem por objetivo expor alguns conceitos estatísticos e interpretá-los através da utilização de procedimentos do Sistema SAS. Os exemplos apresentados ilustram características da “release” 6.08 do SAS/STAT e orientam o usuário na sua programação quando seu interesse for: Obter estatísticas descritivas elementares; 9 Desempenhar testes estatísticos de significância para verificar a normalidade da distribuição de seus dados; 9 Testar a igualdade de médias entre grupos de observações; 9 Encontrar um modelo que explique o comportamento de seus dados e, através deste modelo, fazer previsões e calcular intervalos de confiança para parâmetros da população em estudo. 9 Analisar a variabilidade de uma série de dados através do Método de Análise de Variância (ANOVA), critério de tomada de decisões estatisticamente formulado para detectar qualquer diferença no desempenho médio de um ensaio experimental. Os conceitos básicos serão abordados a medida que os procedimentos forem sendo utilizados, assim como a interpretação das principais saídas. Treinamento Sistema – SAS 26 Prof. Luis Felipe Lopes 7 ESTATÍSTICA DESCRITIVA E TESTE DE NORMALIDADE 7.1 Introdução Depois que o usuário cria seu arquivo de dados ele pode desejar sumarizar estes dados através de medidas que descrevam seu comportamento. Estas medidas incluem parâmetros de posição como médias, modas, medianas, quartis e percentis, parâmetros de dispersão, como variâncias, desvios padrões, amplitude (range), e parâmetros que auxiliam na descrição da forma dos dados, como assimetria e curtose (ver anexo 2). Nos problemas que envolvem a Estatística Indutiva, os conjuntos de dados analisados são representados por amostras retiradas das populações de interesse. Sendo as amostras aleatórias, todos os seus elementos fornecerão valores aleatórios da variável em análise. Para caracterizar a distribuição dos diversos valores assumidos por uma variável aleatória, o conceito de distribuição de probabilidades deve ser utilizado e estendido às populações, ou seja, cada valor da amostra deve ser considerado como valor de uma variável aleatória cuja distribuição de probabilidade é a mesma da população no instante da retirada desse elemento da amostra. Os valores calculados em função dos elementos da amostra, denominam-se estatísticas. Se estas estatísticas forem utilizadas para inferir informações a respeito de uma população, elas são consideradas como variáveis aleatórias, e terão, portanto uma distribuição de probabilidades, com uma média, uma variância, etc. Muitos métodos da análise estatística assumem que os dados da amostra provém de uma população com distribuição normal. A distribuição normal tem uma definição matemática precisa, com as seguintes características: - ser completamente definida por sua média e seu desvio padrão. - ser uma distribuição simétrica, ou seja, sua média coincide com sua moda, que por sua vez coincide com sua mediana. - ser uma distribuição regular. Do seu ponto central mais alto até suas extremidades não existe padrões irregulares. - ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuição). 7.2 Teste de normalidade Nos testes de normalidade é estabelecida a idéia de que uma amostra provém de uma distribuição normal. Através da amostra uma estatística é calculada e testada para checar essa idéia. Uma comparação é feita entre a forma da distribuição da amostra, com a forma de uma distribuição normal. Se não for encontrada nenhuma evidência para rejeitar a hipótese de normalidade, prossegue-se as análises baseando-se na suposição de que os dados da amostra são normalmente distribuídos (análise paramétrica). Quando os dados não são gerados por uma distribuição normal, a análise deve ser baseada em métodos Treinamento Sistema – SAS 27 Prof. Luis Felipe Lopes não paramétricos. A distribuição normal é simétrica, com os valores distribuídos em forma de sino. Ao desempenhar um teste de hipótese tem-se sempre uma hipótese nula que descreve uma idéia sobre a população, e uma hipótese alternativa, que descreve uma idéia alternativa sobre a população. Nos testes para a normalidade, a hipótese nula é que os dados da amostra são gerados por uma distribuição normal. A hipótese alternativa é que eles são gerados por uma distribuição não normal. O método utilizado para testar hipóteses consiste num conteúdo de decisão onde a probabilidade de rejeitar a hipótese nula, sendo ela verdadeira (erro do tipo I), não excede um valor préfixado chamado de nível de significância α do teste. Ao menor nível de significância para o qual a hipótese nula é rejeitada denominamos probabilidade de significância (p-valor). Se p-valor > α há evidências de que a hipótese nula é verdadeira. A PROC UNIVARIATE é utilizada para a obtenção de estatísticas descritivas. Ela difere de outros procedimentos SAS por fornecer maiores detalhes das variáveis, tais como plots das distribuições, tabelas de freqüência e testes estatísticos para a normalidade. FORMA GERAL: PROC UNIVARIATE DATA = arquivo de dados opções; VAR variáveis; BY variáveis; FREQ variável; ID variáveis; OUTPUT OUT = arquivo de dados palavra-chave = nomes; OPÇÕES DISPONÍVEIS: FREQ gera uma tabela de freqüência com valores de freqüência, percentagens e percentagens acumuladas. NOPRINT suprime toda a informação do OUTPUT. Esta opção é utilizada geralmente na criação de um arquivo de dados de saída. NORMAL desempenha um teste para a hipótese nula de que os dados provém de uma distribuição normal. Dependendo do tamanho da amostra, o teste utilizado será baseado na estatística de Shapiro-Wilk (N<2000) ou na estatística de Kolmogorov’s D. (N>2000). Treinamento Sistema – SAS 28 Prof. Luis Felipe Lopes PLOT produz plotes de probabilidade da distribuição normal e plotes em “box” que auxiliam na determinação da forma da distribuição dos dados investigados. COMANDOS SELECIONADOS: VAR lista as variáveis a serem sumarizadas no arquivo de dados. BY especifica subgrupos onde as estatísticas devem ser obtidas. Para usar este comando o arquivo já deverá estar ordenado pela variável de subgrupo . FREQ especifica variáveis de freqüência. ID especifica as variáveis que irão identificar os valores extremos. OUTPUT OUT cria arquivo de saída que irá gravar as estatísticas geradas. Estatísticas reservadas utilizadas na criação de um arquivo de saída: N MEAN STDMEAN SUM STD NMISS VAR CV RANGE SKEWNESS Prob T KURTOSIS MEDIAN Ex1.: Resultados obtidos de uma distribuição aproximadamente Normal. Para ilustrar, suponha que estejamos analisando uma amostra. No programa SAS abaixo, a idade de cada pessoa está sendo representada pela variável IDADE, e sua identificação pela variável IDENT. OPTIONS FORMDLIM='*' LS=80; DATA NORM A; /* EXEMPL01 SAS */ INPUT IDENT IDADE @@; CARDS; 1 72 2 69 3 75 4 71 5 71 6 73 7 70 8 67 9 71 10 72 11 73 12 68 13 69 14 70 15 70 16 71 17 74 18 72 ; PROC UNIVARIATE NORMAL PLOT FREQ; VAR IDADE; ID IDENT; RUN; Treinamento Sistema – SAS 29 Prof. Luis Felipe Lopes ANÁLISE DOS RESULTADOS: Univariate Procedure Variable=IDADE Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 18 71 2.057983 0 90810 2.898568 146.3702 18 9 85.5 0.98356 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 18 1278 4.235294 -0.13576 72 0.485071 0.0001 18 0.0001 0.0001 0.9666 A tabela acima fornece estatísticas descritivas da variável IDADE, além do teste para normalidade. O valor zero de assimetria traduz a forma simétrica da distribuição. A estatística de curtose de -0.13576 significa que a distribuição de valores é relativamente achatada. O alto p-valor associado ao teste de normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se obtenha este mesmo resultado se os dados fossem oriundos de uma população Normal. Por esta razão são poucas as chances de rejeitar a hipótese nula. Em geral, rejeita-se a hipótese nula de normalidade dos dados somente quando o pvalor for menor que 0.05 . Os quartis, percentis, a moda da distribuição, e os valores extremos estão relacionados a seguir: Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 75 72 71 70 67 Range Q3-Q1 Mode 99% 95% 90% 10% 5% 1% 75 75 74 68 67 67 8 2 71 Extremes Lowest 67( 68( 69( 69( 70( ID 8) 12) 13) 2) 15) Highest 72( 73( 73( 74( 75( ID 18) 6) 11) 17) 3) O plote ‘stem leaf’ (tronco e folhas) mostra a distribuição dos valores observados. Entre estes plotes e o ‘boxplot’, há uma coluna que fornece a freqüência de observações em cada barra. O box plote indica o 25o e 75o percentil. A linha Treinamento Sistema – SAS 30 Prof. Luis Felipe Lopes central indica a mediana (50o percentil). O sinal de (+) indica a média da distribuição, que está coincidindo com a mediana. Stem 75 74 73 72 71 70 69 68 67 Leaf 0 0 00 000 0000 000 00 0 0 ----+----+----+----+ # 1 1 2 3 4 3 2 1 1 Boxplot | | | +-----+ *--+--* +-----+ | | | O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+) formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra é gerada por uma distribuição normal, os asteriscos devem formar uma linha reta e cobrir a maioria dos sinais positivos. A distribuição amostral aproxima-se da normalidade. Univariate Procedure Variable=IDADE Normal Probability Plot 75.5+ * +++++ | * +++++ | * +*+++ | **+*++ 71.5+ **+**++ | * **+++ | * +*+++ | +*+++ 67.5+ +*+++ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2 f(+) = 71 + 2.05 IDADE A opção FREQ da PROC UNIVARIATE permite a obtenção de uma tabela de distribuição de freqüência onde o número de ocorrências de cada valor da variável IDADE é contabilizado juntamente com os percentuais e percentuais acumulados de ocorrência em cada categoria. Frequency Table Value Count 67 1 68 1 69 2 70 3 71 4 Treinamento Sistema – SAS Percents Cell Cum 5.6 5.6 5.6 11.1 11.1 22.2 16.7 38.9 22.2 61.1 31 Value Count 72 3 73 2 74 1 75 1 Percents Cell Cum 16.7 77.8 11.1 88.9 5.6 94.4 5.6 100.0 Prof. Luis Felipe Lopes 8 - ANÁLISE DE CORRELAÇÃO E REGRESSÃO 8.1 Introdução Existem numerosos procedimentos estatísticos para investigar relacionamentos bivariados (entre somente duas variáveis). Estes procedimentos podem fornecer um teste estatístico de significância, uma medida de associação, ou ambos. O teste estatístico objetiva testar hipóteses sobre o grau de relacionamento entre variáveis na população. Por exemplo, o coeficiente de correlação de Pearson. Num estudo para se testar a hipótese nula de que a correlação entre duas variáveis é zero na população, uma amostra de 200 observações determinou um coeficiente de correlação entre duas variáveis de 0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade de significância de 0.001. Este p-valor sugere que existe menos que uma chance em 1000 de se obter um valor igual ou superior à 0.35, para correlação amostral, se a hipótese nula fosse verdadeira. Rejeita-se portanto a hipótese nula, concluindo-se que a correlação é significativamente diferente de zero na população. A escolha apropriada da estatística a ser usada no estudo do relacionamento entre duas variável irá depender da natureza delas. Atenção particular deve ser dada aos níveis de medidas usados para avaliar as duas variáveis. Uma breve discussão à este respeito é feita a seguir. Uma variável medida numa escala nominal representa classes que indicam o grupo ao qual pertence uma determinada observação. Por exemplo, SEXO é uma variável que está numa escala nominal. Uma observação pode ser classificada como sendo da classe "masculino" ou da classe "feminino". Uma variável medida numa escala ordinal representa valores num “rank” ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este “rank” de valores são ditos ordinais. Escalas ordinais de valores porém possuem uma limitação: iguais diferenças na escala de valores não tem necessariamente o mesmo significado quantitativo. Isto quer dizer que a diferença de habilidade verbal entre um aluno com grau 1 e um aluno com grau 2 não é necessariamente a mesma diferença existente entre as habilidades de um aluno com grau 2 e um com grau 3. Uma variável medida numa escala de intervalo significa que iguais diferenças entre valores da escala tem igual significado quantitativo. Um exemplo é a escala Fahrenheit de medição de temperatura. A diferença entre 70 e 75 graus é igual a diferença entre 75 e 80 graus. As unidades de medidas são iguais através de todo o range da escala. A limitação existente nesta escala é que não existe um ponto zero real, ou seja, o zero da distribuição de temperaturas não indica que não haja nenhum calor presente no ambiente. Treinamento Sistema – SAS 32 Prof. Luis Felipe Lopes Uma variável medida numa escala de razão é aquela que iguais diferenças entre valores da escala tem igual significado quantitativo. Neste caso, além deste fato, é possível interpretar a razão entre os valores da escala. Um valor para peso igual à zero indica nenhum peso corporal. Com isto, é possível estabelecer que o peso de uma criança com 20 Kg é o dobro de peso de uma criança com 10 kg . A tabela a seguir identifica as estatísticas apropriadas para avaliar o relacionamento de pares de variáveis nos seus respectivos níveis de medida. TABELA COM ESTATÍSTICAS APROPRIADAS R E S P O S T A Razão Intervalo Ordinal Nominal PREDITORA (INDEPENDENTE) – Xi Nominal Ordinal Intervalo ANOVA Spearman Pearson ou Spearman ANOVA Spearman Pearson ou Spearman Kruskal Spearman --------Wallis Chi-quadrado ----------------- Razão Pearson ou Spearman ---------------------- 8.2 Correlação de Pearson (PROC CORR) O estudo de medidas de associação reflete o grau da intensidade da relação entre variáveis. Se X e Y representam duas variáveis, ambas acessadas na escala de intervalo ou de razão, o diagrama de dispersão irá mostrar a localização dos pontos (x , y) em um sistema de coordenadas retangulares. Se os pontos desse diagrama se distribuírem nas proximidades de uma reta, como nas figuras (A) e (B) a seguir, a correlação é denominada linear. Se todos os pontos se distribuírem próximos de alguma curva, a correlação é denominada não linear, como pode ser visto na figura (C). Quando os pontos não apresentam nenhuma forma definida, figura (D), diz-se que as variáveis x e y são não correlacionadas. Quando o coeficiente de Pearson é utilizado para medir o grau de relacionamento entre duas variáveis com relacionamento não linear, ele normalmente subestima o verdadeiro valor. Por esta razão é sempre prudente avaliar primeiro o diagrama de dispersão para as variáveis, usando para isso a PROC PLOT, que tem a seguinte forma geral: PROC PLOT DATA= ARQSAS; PLOT Y*X; RUN; Treinamento Sistema – SAS 33 Prof. Luis Felipe Lopes Para o tratamento quantitativo do problema da dispersão dos dados amostrais é necessário estabelecer medidas de correlação. O coeficiente de correlação de Pearson, simbolizado por “r”, será utilizado para medir o relacionamento entre duas variáveis que estejam na escala de intervalo ou de razão. Outra consideração a ser feita ao usar esta medida de associação, é que ambas as amostras tenham sido retiradas de uma população Normal. Caso contrário, uma medida de associação não paramétrica deverá ser usada, tal como o coeficiente de correlação de Spearman. O range de “r” varia de -1 a 1. Se “r” for um valor próximo de 1 significa que as duas variáveis são correlacionadas positivamente, se for próximo de -1, significa que as variáveis são correlacionadas negativamente. Valores de “r” próximos de zero correspondem a uma dispersão de pontos que não mostra nem uma tendência crescente, nem decrescente, indicando uma baixa correlação entre as variáveis. PROC CORR A “procedure” CORR é utilizada para gerar coeficientes de correlação. Quando é utilizada sozinha, ela obtém coeficientes de Pearson para todas as variáveis numéricas do arquivo, além de estatísticas básicas como médias e desvios padrões da distribuição de dados. Treinamento Sistema – SAS 34 Prof. Luis Felipe Lopes Outros coeficientes de correlacão podem ser obtidos como opção da PROC CORR. São eles: Kendall, Hoeffding e Spearman, que são medidas não paramétricas de associação . FORMA GERAL: PROC CORR opções; VAR variáveis; WITH variáveis; FREQ variáveis; BY variáveis; RUN; OPÇÕES DISPONÍVEIS: DATA= arquivo.sas arquivo com os dados a serem analisados. OUTP= arquivo.sas arquivo de saída - Pearson OUTS= arquivo.sas arquivo de saída - Sperman OUTK= arquivo.sas arquivo de saída - Kendall OUTH = arquivo.sas arquivo de saída - Hoeffding NOSIMPLE suprime a impressão das estatísticas descritivas básicas. COMANDOS DISPONÍVEIS: VAR variáveis especifica as variáveis a serem correlacionadas WITH variáveis especifica as variáveis que devem aparecer na lateral da matriz de correlação. FREQ variável especifica variáveis de freqüência BY variáveis especifica subgrupos onde a correlação deve ser obtida. Para usar o comando BY, o arquivo já deve estar ordenado pela variável de subgrupo. Ex2.: O tempo necessário para um trem parar depois que percebe um perigo é composto de tempo de reação e tempo de freagem. A variável DIST representa a distância de parada de um trem que está a uma velocidade VELOC no instante que o perigo é avistado. Analise o diagrama de dispersão e determine o coeficiente de correlação entre as duas variáveis. Treinamento Sistema – SAS 35 Prof. Luis Felipe Lopes OPTIONS FORMDLIM='*' LS=80; DATA PERIGO A; /* EXEMPL02 SAS */ INPUT VELOC DIST @@; CARDS; 20 54 30 90 40 138 50 206 60 292 70 396 ; PROC PLOT; PLOT DIST*VELOC; PROC CORR; VAR VELOC DIST; TITLE 'CORRELAÇAO ENTRE VELOCIDADE E DISTANCIA DE PARADA'; RUN; ANÁLISE DOS RESULTADOS: Plot of DIST*VELOC. Legend: A = 1 obs, B = 2 obs, etc. DIST | | 400 + A | | | A | | 200 + A | | A | A | A | 0 + --+-------------+-------------+-------------+-------------+-------20 30 40 50 60 70 VELOC O diagrama de dispersão ostra claramente uma tendência crescente da distribuição dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a distância de parada. CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA Correlation Analysis 2 'VAR' Variables: VELOC DIST Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum VELOC 6 45.00000 18.70829 270.00000 20.00000 70.00000 DIST 6 196.00000 129.67652 1176 54.00000 396.00000 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6 VELOC Treinamento Sistema – SAS 36 DIST Prof. Luis Felipe Lopes VELOC 1.00000 0.0 0.98268 0.0004 DIST 0.98268 0.0004 1.00000 0.0 O valor de 0.98268 mede o coeficiente de correlação entre as variáveis VELOC e DIST. Um p-valor de 0.0004 indica uma forte evidência que a correlação é não nula. O p-valor é a probabilidade de significância para se testar a hipótese de que a verdadeira correlação da população em questão é zero. Ex3.: Determinar o coeficiente de correlação entre as alturas e os pesos de 300 homens nos EUA, constantes da seguinte tabela de freqüências: Altura (metros) P E S O (kg) 45 a 54.5 55 a 64.5 65 a 74.5 75 a 84.5 85 a 94.5 95 a 104.5 105 a 114.5 1.5 a 1.58 2 7 5 2 0 0 0 1.6 a 1.68 1 8 15 12 7 2 0 1.7 a 1.78 0 4 22 63 28 10 1 1.8 a 1.88 0 2 7 19 32 20 4 1.9 a 1.98 0 0 1 5 12 7 2 OPTIONS FORMDLIM='*' LS=80; DATA AGRUPA A; /* EXEMPL03 SAS */ DO MEDPES = 49.75 T0 109.75 BY 10; DO MEDALT = 1.54 TO 1.94 BY 0.10; INPUT N_OBS @@; OUTPUT; END; END; CARDS; 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2; ; PROC PRINT; PROC CORR; VAR MEDPES MEDALT; FREQ N_OBS; TITLE 'CORRELACAO PARA DADOS AGRUPADOS'; RUN; Treinamento Sistema – SAS 37 Prof. Luis Felipe Lopes ANÁLISE DOS RESULTADOS: OBS MEDPES 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 MEDALT 49.75 49.75 49.75 49.75 49.75 59.75 59.75 59.75 59.75 59.75 69.75 69.75 69.75 69.75 69.75 79.75 79.75 79.75 79.75 79.75 89.75 89.75 89.75 89.75 89.75 99.75 99.75 99.75 99.75 99.75 109.75 109.75 109.75 109.75 109.75 N_OBS 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 1.54 1.64 1.74 1.84 1.94 2 1 0 0 0 7 8 4 2 0 5 15 22 7 1 2 12 63 19 5 0 7 28 32 12 0 2 10 20 7 0 0 1 4 2 CORRELACAO PARA DADOS AGRUPADOS Correlation Analysis 2 'VAR' Variables: MEDPES MEDALT Simple Statistics Variable MEDPES MEDALT N Mean Std Dev Sum Minimum Maximum 300 300 82.31667 1.76033 12.12031 0.09824 24695 528.10000 49.75000 1.54000 109.75000 1.94000 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300 / FREQ Var = N_OBS MEDPES MEDALT MEDPES 1.00000 0.0 0.54023 0.0001 MEDALT 0.54023 0.0001 1.00000 0.0 Treinamento Sistema – SAS 38 Prof. Luis Felipe Lopes O coeficiente de correlação é de 0.54023. Um p-valor de 0.0001 reflete uma forte evidência de que a correlação entre altura e o peso difere de zero. 8.3 Regressão (PROC REG) Os coeficientes de correlação indicam somente a existência ou não de algum tipo de relacionamento entre variáveis. Para investigar a forma desse relacionamento, o método mais apropriado é a análise de regressão, onde a relação pode ser expressa sob forma matemática, por meio de uma equação que interligue as variáveis. Através do diagrama de dispersão é possível visualizar uma curva que se aproxime dos dados. Essa curva é denominada curva de ajustamento. Para fins de referência, a seguir encontram-se relacionados vários tipos comuns de curvas de ajustamento e suas equações. As variáveis independentes estão representadas pela letra X e as variáveis dependentes pela letra Y. As demais letras representam constantes. Função Linear → Y = a0 + a1 X Função Quadrática → Y = a0 + a1 X + a2 X2 Função Cúbica → Y = a0 +a1 x + a2 x2 + a3 x3 Função Exponencial → Y = a bx → log y = Ioga + (log b) x = a0 +a1 x Para evitar o critério individual na construção de funções que se adaptem ao conjunto de dados, é necessário instituir uma definição da "melhor função de ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados (aderência) é proporcionada a partir da distância dos pontos observados até a equação de regressão. De todas as equações que podem ser traçadas através do grupo de pontos no diagrama de dispersão, a função que melhor se ajusta é aquela com a menor soma dos quadrados das distâncias (Método dos Mínimos Quadrados). Estas distâncias são designadas como desvios, erros ou resíduos, e podem ser positivas, negativas ou nulas, como é apresentado na figura a seguir: Treinamento Sistema – SAS 39 Prof. Luis Felipe Lopes O modelo linear: Yj = β0 + β1 Xj + εj Suas suposições: - Xj são fixos; - β0 e β1 são parâmetros fixos desconhecidos; - εj ~ N id (0 , σ2) . Considere a regressão como um particionamento da Soma Total dos Quadrados: ∑ ( Yj − Y ) 2 ( $ −Y =∑ Y j ) + ∑ ( Y − Y$ ) 2 j 2 j SST = SSM + SSE onde: SST - é a soma total dos quadrados. SSM - é a soma dos quadrados devido ao modelo (soma dos quadrados devido à regressão ). SSE - é a soma dos quadrados devido ao erro , ou resíduo. Num modelo de regressão é preciso: • Estimar: - σ2, ou seja, o erro médio quadrático; - β0 e β1. Treinamento Sistema – SAS 40 Prof. Luis Felipe Lopes • Testaras Hipóteses : H0: β1 = 0 β0 = 0 • Obter valores preditos e limites de predição. • Estimar a média da variável resposta Y, dado um valor fixo X, determinando tanto as estimativas por ponto como por intervalo. 8.4 Inferência na regressão Estatísticas usadas na Análise de Regressão: - valor estimado de σ2 =MSE, Média quadrática para o erro = SSE/ df(erro) = Soma dos Quadrados devido ao erro / df(erro) - estimativas de mínimos quadrados de β0 e β1, que minimize SSE. min ∑ (Y j − Y ) 2 - teste de β0 = 0 e β1 = 0 com a estatística t de Student ou teste de β0 no modelo / β1 = 0 com a estatística F. 8.5 Resíduos Os resíduos representam o comportamento de Y (variável resposta), do qual as variáveis independentes não fazem a estimativa. Se for suposto que o modelo é correto, que não se tenha omitido nenhuma variável independente, e também que os resíduos são normais e independentemente distribuídos, com média zero e variância constante, pode-se provar hipóteses, assinalar limites de confiança, predizer valores da variável dependente a partir das variáveis independentes e computar probabilidades de significância . Um plote dos resíduos sobres as variáveis independentes ou sobre os valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo necessitar de algum outro termo, o plote dos resíduos sugere que tipo de termo pode ser adicionado ao modelo. Alguns modelos são mostrados a seguir: Treinamento Sistema – SAS 41 Prof. Luis Felipe Lopes PROC REG A “procedure” REG é o procedimento SAS mais comum para análise da regressão. É um procedimento interativo, ou seja, o usuário pode dispor de seus comandos básicos para ajustar uma função, verificar a saída das estatísticas, e posteriormente adicionar mais comandos dando continuidade à suas análises sem necessidade de reinicializar o comando da PROC. Quando usado interativamente, o comando RUN não finaliza o procedimento. Para finalizá-lo o usuário deve estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que nunca deve ser acessado quando o procedimento estiver em curso. FORMA GERAL: PROC REG DATA = arquivo SAS opções; MODEL dependente = independente / opções; VAR variável; ID variável; OUTPUT OUT = novo arquivo P = nova variável R = nova variável U95 = nova variável L95 = nova variável U95M = nova variável L95M = nova variável; PLOT variável Y * variável X = 'símbolo'; PRINT opções; RUN; OPÇÕES DISPONÍVEIS NA PROC REG: Treinamento Sistema – SAS 42 Prof. Luis Felipe Lopes SIMPLE Lista estatísticas descritiva para cada variável. OUTEST Cria um data set contendo as estimativas dos parâmetros do modelo de regressão. OPÇÕES DISPONÍVEIS NO COMANDO CLI Fornece limites de confiança superior e inferior a 95% para um valor particular predito da variável dependente. CLM Fornece limites de confiança superior e inferior a 95% para a média da variável dependente nos níveis da(s) variável(is) independentes para cada observação. P Fornece valores preditos a partir do modelo estimado para cada observação do arquivo a de entrada. R Fornece valores residuais (REAL-PREDITO) observação e uma análise dos resíduos. para cada SELECTION = método Especifica o método usado para seleção do modelo (Backward, Stepwise, MAXR, ADJRSQ, por exemplo). O default é NONE (usa o modelo completo). ADJRSQ Fornece o R-Square ajustado para o grau de liberdade, para cada modelo selecionado. AIC Fornece o Critério de Informação de Akaike's. BIC Fornece o Critério de Informação Bayesiano de Sawa . MSE Fornece o erro médio quadrático para cada modelo. COMANDOS DISPONÍVEIS: MODEL especifica as variáveis dependentes e independentes. VAR lista a variável (ou variáveis) que possam vir a ser adicionadas no modelo durante o processo de análise. Este comando deve aparecer antes do primeiro comando RUN. ID especifica a variável que identifica as observações na saída do relatório, quando são solicitadas estimativas de valores individuais de uma variável independente ( valores preditos ), valores residuais, etc. Treinamento Sistema – SAS 43 Prof. Luis Felipe Lopes OUTPUT especifica o arquivo de saída e os nomes das variáveis que irão conter os valores previstos, residuais , etc. PLOT gera plotes de dispersão com a variável y representando o eixo vertical e a variável x o eixo horizontal. Para plotar estatísticas utiliza-se as palavras chave (nomes reservados) disponíveis no comando OUTPUT. (Ex: plot y.*p;) PRINT Lista as opções disponíveis. Os seguintes nomes reservados são utilizados para especificar as estatísticas desejadas. Eles devem ser seguidos por um nome de variável: P (ou PREDICTED) representa os valores preditos. R (ou RESIDUAL) representa os valores residuais para cada observação. U95, L95 representam, respectivamente, os limites superior e inferior de predição para os valores observados. U95M, L95M representam, respectivamente os limites superior e inferior de confiança para a média da população. Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e gás, derivados de materiais destilados orgânicos. O valor da capacidade da máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por minuto (rpm X 100). Analisar o diagrama de dispersão e encontrar um modelo de regressão que se ajuste aos dados. OPTIONS FORMDLIM='*' LS=80; DATA MAQUINA1 A; /* EXEMPL04 INPUT VELOC CAPAC @@; CARDS; 22.0 64.03 20.0 62.47 18.0 12.0 37.48 15.0 46.85 17.0 22.0 64.03 20.0 62.63 18.0 12.0 36.63 10.5 32.05 13.0 19.0 56.65 21.0 62.61 23.0 ; PROC PLOT; PLOT CAPAC * VELOC = '0'; TITLE 'DIAGRAMA DE DISPERSAO'; RUN; Treinamento Sistema – SAS 44 SAS */ 54.94 51.17 52.90 39.68 65.31 16.0 19.0 16.0 15.0 24.0 48.84 58.00 48.84 45.79 63.89 14.0 21.0 14.0 17.0 43.73 63.21 42.74 51.17 Prof. Luis Felipe Lopes PROC REG; MODEL CAPAC = VELOC; OUTPUT OUT= RESIDl P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DA FUNCAO LINEAR'; RUN; PROC GPLOT; PLOT RESIDUAL* VELOC /VREF = 0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR'; RUN; PROC UNIVARIATE DATA= RESIDl NORMAL PLOT; VAR RESIDUAL; TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS'; RUN; ANÁLISE DOS RESULTADOS: DIAGRAMA DE DISPERSAO Plot of CAPAC*VELOC. Symbol used is '0'. CAPAC | | 65 + 0 | 0 0 | 0 | 0 0 60 + | | 0 | 0 55 + 0 | | 0 | 0 50 + | 0 | 0 | 0 45 + | 0 | 0 | 40 + 0 | | 0 | 0 35 + | | | 0 30 + | --+-------+--------+--------+---------+-------+--------+--------+10 12 14 16 18 20 22 24 VELOC NOTE: 4 obs hidden. Treinamento Sistema – SAS 45 Prof. Luis Felipe Lopes O diagrama de dispersão mostra uma tendência crescente da capacidade da máquina em função da velocidade utilizada. Os dados observados serão ajustados inicialmente por uma função linear. o relatório de saída consta de duas seções, Análise da Variância e Estimativas dos Parâmetros, apresentadas a seguir: AJUSTE DA FUNCAO LINEAR Model: MODEL1 Dependent Variable: CAPAC Analysis of Variance Source DF Sum of Squares Mean Square Model Error C Total 1 22 23 2294.80982 76.08652 2370.89633 2294.80982 3.45848 1.85970 52.31833 3.55458 R-square Adj R-sq Root MSE Dep Mean C.V. F Value Prob>F 663.532 0.0001 0.9679 0.9664 Parameter Estimates Variable INTERCEP VELOC DF 1 1 Parameter Estimate 6.100234 2.650500 Standard Error 1.83396047 0.10289565 T for H0: Parameter=0 Prob > |T| 3.326 25.759 0.0031 0.0001 A seção de Análise de Variância contém informações sobre a qualidade do ajuste. São elas: - DF Identifica as fontes de variações dos dados e os respectivos graus de liberdade. - SOMA DOS QUADRADOS (SS): Separam a variação dos dados em porções que podem ser tanto atribuídas ao modelo como ao erro. Parte da variação total da capacidade da máquina se deve à velocidade utilizada e outra parte se deve a erros aleatórios ou outros fatores independentes da velocidade. SS total = SS models + SS erro Observando os valores da variável Capacidade da Máquina quando o valor da velocidade é de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta variação se deve ao erro do experimento ou a fatores outros que não a velocidade. Treinamento Sistema – SAS 46 Prof. Luis Felipe Lopes - MÉDIA QUADRÁTICA (MS): SS/DF MS erro = 3.45848 estima a variância da população dos valores da capacidade da máquina para valores determinados da velocidade. - F, PROB > F: Fornece o valor da estatística teste e o p-valor associado ao teste de hipótese de que o modelo explica uma parte significante da variação dos dados. - R_SQUARE : SS modelo / SS Total R_Square é a fração da variação total devida às variáveis do modelo. Seu valor varia dentro do intervalo [0,1], sendo que quanto mais próximo de 1, melhor o modelo explica a variação dos dados. Neste caso o modelo proposto explica 96% da variabilidade total. implicando um alto grau de aderência dos valores observados à reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square não a explica sozinho. Recomenda-se também uma Análise dos Resíduos. - Adj R_SQUARE É uma estatística alternativa ao R-Square. É utilizada em REGRESSÃO MÚLTIPLA. A seção Estimativas dos Parâmetros provê coeficientes para a linha de regressão e testes para determinar se estes coeficientes são significativamente diferentes de zero. O modelo de ajuste, neste caso, é representado por: CAPAC = 6.10 + 2.65 VELOC O valor de INTERCEP = 6.10 não tem uma interpretação específica no modelo. Para VELOC = 0, a capacidade predita pelo modelo é de 6.10 HP. O coeficiente 2.65 pode ser interpretado como o acréscimo da capacidade esperada para cada unidade adicional da velocidade. Para verificar a suposição de que os coeficientes são não nulos, tem-se: - DF Fornece o grau de liberdade para os parâmetros estimados. Para cada parâmetro estimado DF= 1. - Erro Padrão: Mede o quanto cada parâmetro estimado poderia vaiar de um conjunto de dados para outro. Eles são utilizados na construção de intervalos de confiança. Treinamento Sistema – SAS 47 Prof. Luis Felipe Lopes - T para H0 : Parâmetro = 0: Estatística para testar a hipótese que o parâmetro é igual a zero. Seu valor é dado por: Valor Estimado do Parâmetro / Erro Padrão - PROB > T: Fornece o p-valor para a estatística teste T. Para o parâmetro VELOC, o p-valor é de 0.0001, evidenciando que o grau de inclinação da reta ajustada é diferente de zero. O intercepto também difere de zero. A análise dos resíduos ei= Yi - Ŷ i = Yi - 6.10 - 2.65 VELOC é importante para avaliar se a escolha do modelo é apropriada para o conjunto de dados apresentado. Pelo comportamento da distribuição dos resíduos (PROC GPLOT) sugere-se a utilização de um termo quadrático. A validade dos testes de significância dependem da suposição de que os resíduos são normalmente distribuídos. Para se verificar essa suposição basta utilizar a PROC UNIVARIATE com as opções NORMAL e PLOT, o que gera as seguintes saídas: Treinamento Sistema – SAS 48 Prof. Luis Felipe Lopes TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.818821 -0.95935 76.08652 . 0 24 1 4 0.896308 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 24 0 3.308109 4.145739 76.08652 0.371265 1.0000 13 0.8388 0.9119 0.0170 Quantiles(Def=5) 100% Max 75% Q3 50% Med 25% Q1 0% Min 3.51976 0.92076 0.011261 -0.67199 -5.82224 Range Q3-Q1 Mode 9.342001 1.592748 -0.38124 99% 95% 90% 10% 5% 1% 3.51976 3.35976 1.54026 -1.75174 -1.88049 -5.82224 Extremes Lowest -5.82224( -1.88049( -1.75174( -1.27624( -0.90924( Obs Highest 24) 1.13076( 17) 1.449259( 23) 1.54026( 16) 3.35976( 13) 3.51976( Obs 3) 10) 9) 2) 12) A estatística W de Shapiro – WIL indica que os dados não são normalmente distribuídos. O valor da assimetria é de –0.9593, encontrando-se fora do intervalo (-0.87 , 0.87), e o valor da curtoze é de 4.1457, que está fora do intervalo(1.20,2.30). Estes são os intervalos a 95% de confiança para a assimetria e curtoze, referentes a um tamanho de amostra n=24, retirada de uma população normalmente distribuída. (Ver ANEXO 2). Stem 3 2 1 0 -0 -1 -2 -3 -4 -5 Leaf 45 # 2 Boxplot 0 0145 0023358 9954441 983 4 7 7 3 | +--+--+ +-----+ | 8 ----+----+----+----+ 1 * TESTE DE NORMALIDADE DOS RESIDUOS Treinamento Sistema – SAS 49 Prof. Luis Felipe Lopes Univariate Procedure Variable=RESIDUAL Residual Normal Probability Plot 3.5+ * ++*++ | ++++++ | +++** * 0.5+ *+***+*** | * ****+*+ | * * *++++ -2.5+ ++++++ | +++++ |++++ -5.5+ * +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2 Observa-se pelo histograma dos resíduos que a distribuição é assimétrica a esquerda. Os asteriscos (*) no plote acima representam os resíduos observados, e os sinais de (+) são utilizados para prover uma linha de referência baseada na média e no desvio padrão amostral, que são indicadores do intercepto e do grau de inclinação da linha, respectivamente. Se os dados são normais, eles tendem a acompanhar a disposição da linha de referência indicada pelos sinais (+). Quando isto acontece somente os asteriscos (*) são amostrados. No caso em questão, a disposição dos resíduos não se ajusta a linha de referência, colocando em cheque a suposição de normalidade dos resíduos. Mais uma vez fica comprovada a necessidade de uma nova tentativa de ajuste dos dados analisados. FUNÇÃO QUADRÁTICA Os comandos a seguir ajustam uma função quadrática aos dados do arquivo MÁQUINA1. Além de gerar um plote para os resíduos do ajuste, intervalos de confiança para a média da capacidade da população e uma curva de previsão para os dados, com a opção “r” o programa também gera resíduos padronizados que permitem verificar se pontos fora do padrão ('outliers') se devem a causas aleatórias ou a causas especiais de variação. Um teste para a normalidade dos resíduos também é efetuado para o ajuste quadrático. OPTIONS FORMDLIM='*' LS=80; DATA MAQUINA2 SAS; /* EXEMPL05 SAS */ INPUT VELOC CAPAC @@; VELOC2 = VELOC*VELOC; CARDS; 22.0 64.03 20.0 62.47 18.0 54.94 16.0 48.84 14.0 43.73 12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21 22.0 64.03 20.0 62.63 18.0 52.90 16.0 48.84 14.0 42.74 12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17 19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89 ; PROC REG; MODEL CAPAC=VELOC VELOC2 / CLM R; ID VELOC; OUTPUT OUT=RESlD2 P=PREVISTO R=RESIDUAL; TITLE 'AJUSTE DE FUNCAO QUADRATICA'; PROC GPLOT; Treinamento Sistema – SAS 50 Prof. Luis Felipe Lopes PLOT RESIDUAL * VELOC / VREF=0; TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO'; RUN; PROC UNIVARIATE NORMAL; VAR RESIDUAL; TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS'; PROC GPLOT; PLOT PREVISTO*VELOC; TITLE 'CURVA DE PREVISAO'; RUN; ANÁLISE DOS RESULTADOS: AJUSTE DA FUNCAO QUADRATICA Model: MODEL1 Dependent Variable: CAPAC Analysis of Variance Source DF Sum of Squares Mean Square Model Error C Total 2 21 23 2329.52618 41.37016 2370.89633 1164.76309 1.97001 1.40357 52.31833 2.68275 R-square Adj R-sq Root MSE Dep Mean C.V. F Value Prob>F 591.248 0.0001 0.9826 0.9809 Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP VELOC VELOC2 1 1 1 -19.184839 5.710855 -0.088391 6.18024426 0.73314324 0.02105601 -3.104 7.790 -4.198 0.0054 0.0001 0.0004 O modelo do ajuste quadrático é dado por: CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2 O teste de significância dos coeficientes indica que para o coeficiente -0.08 de VELOC2 : t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81 A probabilidade de significância para esta estatística é 0.0004, ou seja, existe somente quatro chances em dez mil de se encontrar uma estatística t tão grande quanto a calculada acima. O desvio padrão da estimativa do coeficiente de VELOC2 é tão pequeno que pode-se afirmar que seu valor é estatisticamente diferente de zero. O modelo quadrático, portanto, está representando melhor o relacionamento entre a velocidade da máquina e sua capacidade de produção, quando comparado ao modelo linear. Treinamento Sistema – SAS 51 Prof. Luis Felipe Lopes Os valores preditos e os limites de confiança para a média da população obtidos com o ajuste quadrático estão relacionados a seguir: AJUSTE DA FUNCAO QUADRATICA Obs VELOC 1 22 2 20 3 18 4 16 5 14 6 12 7 15 8 17 9 19 10 21 11 22 12 20 13 18 14 16 15 14 16 12 17 10.5 18 13 continuação ... 19 20 21 22 23 24 15 17 19 21 23 24 Dep Var CAPAC Predict Value Std Err Predict Lower95% Mean Upper95% Mean Residual 64.0300 62.4700 54.9400 48.8400 43.7300 37.4800 46.8500 51.1700 58.0000 63.2100 64.0300 62.6300 52.9000 48.8400 42.7400 36.6300 32.0500 39.6800 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 46.5900 52.3546 57.4122 61.7626 63.6726 59.6758 54.9718 49.5607 43.4425 36.6171 31.0340 40.1182 0.488 0.374 0.401 0.397 0.396 0.596 0.385 0.405 0.385 0.398 0.488 0.374 0.401 0.397 0.396 0.596 0.921 0.460 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 45.7890 51.5114 56.6114 60.9343 62.6568 58.8981 54.1382 48.7356 42.6198 35.3785 29.1185 39.1612 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 47.3909 53.1978 58.2130 62.5909 64.6884 60.4534 55.8054 50.3858 44.2651 37.8556 32.9495 41.0751 0.3574 2.7942 -0.0318 -0.7207 0.2875 0.8629 0.2600 -1.1846 0.5878 1.4474 0.3574 2.9542 -2.0718 -0.7207 -0.7025 0.0129 1.0160 -0.4382 45.7900 51.1700 56.6500 62.6100 65.3100 63.8900 46.5900 52.3546 57.4122 61.7626 65.4059 66.9623 0.385 0.405 0.385 0.398 0.651 0.878 45.7890 51.5114 56.6114 60.9343 64.0513 65.1364 47.3909 53.1978 58.2130 62.5909 66.7605 68.7883 -0.8000 -1.1846 -0.7622 0.8474 -0.0959 -3.0723 O plote dos resíduos studentizados pode indicar a ocorrência de pontos discrepantes. Cada asterisco corresponde à metade de uma unidade. Observações com quatro ou cinco asteriscos tem resíduos studentizados entre 2.0 e 3.0, e estão num range suspeito. Observações com seis ou mais asteriscos provavelmente são “outliers”. No plote a seguir, as observações 2 e 12 (VELOC=20), e a 24 estão num range suspeito. O gráfico dos reíduos mostrado ao fim deste exemplo confirma estas suposições. O próximo passo seria reavaliar a fonte de dados e identificar alguma razão peculiar para a ocorrência destes valores. Obs 1 2 3 4 5 6 7 8 9 10 11 12 VELOC 22 20 18 16 14 12 15 17 19 21 22 20 Std Err Residual Student Residual 1.316 1.353 1.345 1.346 1.347 1.271 1.350 1.344 1.350 1.346 1.316 1.353 0.272 2.065 -0.024 -0.535 0.214 0.679 0.193 -0.882 0.436 1.075 0.272 2.184 Treinamento Sistema – SAS 52 Cook's D -2-1-0 1 2 | | | | | | | | | | | | | |**** | *| | |* | *| | |** | |**** | | | | | | | | | | | | 0.003 0.109 0.000 0.008 0.001 0.034 0.001 0.024 0.005 0.034 0.003 0.121 Prof. Luis Felipe Lopes 13 14 15 16 17 18 19 20 21 22 23 24 18 16 14 12 10.5 13 15 17 19 21 23 24 1.345 1.346 1.347 1.271 1.059 1.326 1.350 1.344 1.350 1.346 1.243 1.095 Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press) -1.540 -0.535 -0.522 0.010 0.959 -0.330 -0.593 -0.882 -0.565 0.630 -0.077 -2.806 | ***| | *| | *| | | | |* | | | *| | *| | *| | |* | | | *****| | | | | | | | | | | | | 0.070 0.008 0.008 0.000 0.232 0.004 0.010 0.024 0.009 0.012 0.001 1.687 0 41.3702 65.0917 Através do gráfico dos resíduos (PROC GPLOT) observa-se que nem toda as observações seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos próximos à VELOC=20 estão acima dos demais. Isto pode se dever à causas especiais ou simplesmente ao acaso, e precisa ser verificado. Os demais pontos estão bem distribuídos ao longo do gráfico, podendo ser admitida a suposição de variância da distribuição dos resíduos. Treinamento Sistema – SAS 53 Prof. Luis Felipe Lopes TESTE DE NORMALIDADE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 24 0 1.341157 0.194918 41.37016 . 0 24 0 -5 0.961296 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 24 0 1.798702 1.047599 41.37016 0.273763 1.0000 12 1.0000 0.8899 0.4711 Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 2.954224 0.717615 -0.00944 -0.74144 -3.07234 99% 95% 90% 10% 5% 1% 2.954224 2.794224 1.447409 -1.18464 -2.0718 -3.07234 6.026565 1.45905 -1.18464 Extremes Lowest Obs Highest Obs -3.07234( 24) 0.862912( 6) -2.0718( 13) 1.015991( 17) -1.18464( 20) 1.447409( 10) -1.18464( 8) 2.794224( 2) -0.79996( 19) 2.954224( 12) O p-valor associado ao teste de normalidade dos resíduos é de 0.47. A hipótese de normalidade dos resíduos do Ajuste Quadrático não pode ser rejeitada aos níveis usuais de significância. A curva de previsão baseada no modelo ajustado é mostrado no (PLOT GPLOT). Treinamento Sistema – SAS 54 Prof. Luis Felipe Lopes 9 INFERÊNCIA ESTATÍSTICA 9.1 Testes para igualdade de duas médias (PROC TTEST) Na prática freqüentemente nos vemos diante de situações onde uma decisão deva ser tomada acerca de populações, baseadas nas informações obtidas a partir das amostras. Este capítulo abordará testes de hipóteses, para o caso em que duas amostras são consideradas, em princípio de populações distintas, Com base nestas amostras, as médias equivalentes às populações envolvidas são comparadas. O teste t é apropriado quando a análise envolve uma única variável independente (preditora), medida na escala nominal e assumindo somente dois valores, e uma única variável resposta, medida na escala de razão ou de intervalo. O teste t é usualmente conhecido como teste de diferenças de grupos. Dois casos típicos serão considerados neste tipo de experimento. O primeiro é o teste para dados não pareados, ou seja, amostras independentes (populações não correlacionadas). O segundo, para dados pareados, (populações correlacionadas). O que diferencia os dois testes é a forma do cálculo da estatística t. Hipóteses adicionais devem ser atendidas para a validação destes testes. Treinamento Sistema – SAS 55 Prof. Luis Felipe Lopes - AMOSTRAS INDEPENDENTES: - Nível de Medida: A variável resposta deve ser acessada na escala de razão ou de intervalo. A variável independente deve estar na escala nominal e assumir somente dois níveis. - Observações Independentes: Uma dada observação não pode depender de qualquer outra entre os dois grupos. - Amostras Aleatórias: Os valores da variável resposta devem representar uma amostra aleatória oriunda de uma população normal. Se cada amostra contiver cerca de 30 observações, o teste é considerado robusto no que diz respeito à normalidade. - Homogeneidade de Variâncias: O teste t exato é utilizado quando o teste F para igualdade de variâncias leva a não rejeição da hipótese nula de igualdade de variâncias na população. PROC TTEST A PROC TTEST desempenha um teste de hipótese para checar se a média de duas populações são iguais. Uma estatística t para o teste é calculada, assumindo que as variâncias são iguais para os dois grupos. Uma estatística T aproximada é calculada, assumindo que as variâncias são diferentes. Para testar a igualdade das variâncias é calculada uma estatística F. Para cada uma das estatísticas T e F são associados os respectivos graus de liberdade e probabilidades de significância (p-valor). Se o p-valor é menor que o nível de significância associado ao teste, o resultado é estatisticamente significante, e a hipótese nula é rejeitada, ou seja, as médias para os dois grupos são significativamente diferentes. Treinamento Sistema – SAS 56 Prof. Luis Felipe Lopes Os testes paramétricos que envolvem observações pareadas serão abordados no item 9.2. Os testes não paramétricos serão assunto do próximo capítulo. FORMA GERAL: PROC TTEST DATA = arquivo de dados; CLASS variável; VAR variável; RUN; COMANDOS DISPONÍVEIS: CLASS VAR nomeia a variável que forma os grupos. Estes grupos podem assumir somente dois valores distintos, uma vez que o teste utilizado é para comparação de duas médias. nomeia a variável cuja média será comparada. Se o comando VAR for omitido, todas as variáveis numéricas contidas no arquivo de entrada (exceto as que aparecem no comando CLASS) serão incluídas na análise. Ex6.: Dados não pareados com variâncias desconhecidas e supostamente iguais. Sejam amostras obtidas de dois tipos de cabo de aço em relação à carga de ruptura. Ao nível de significância de 5% pode-se concluir que o cabo do tipo l seja mais resistente que o do tipo 2 ? Carga de Ruptura (Kgf) Tipo 1 760 755 758 761 755 Tipo 2 758 748 757 753 755 OPTIONS FORMDLIM='*' LS=80; DATA CABO A; /* EXEMPL06 SAS */ INPUT TIPO $ CARGA @@; CARDS; Tl 760 T2 758 Tl 755 T2 748 Tl 758 T2 757 Tl 761 T2 753 Tl 755 T2 755 ; PROC TTEST; CLASS TIPO; VAR CARGA; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN; Treinamento Sistema – SAS 57 Prof. Luis Felipe Lopes ANÁLISE DOS RESULTADOS: TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: CARGA TIPO N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------T1 5 757.8000000 2.77488739 1.24096736 755.0000000 761.0000000 T2 5 754.2000000 3.96232255 1.77200451 748.0000000 758.0000000 Variances T DF Prob>|T| --------------------------------------Unequal 1.6641 7.2 0.1392 Equal 1.6641 8.0 0.1347 For H0: Variances are equal, F' = 2.04 DF = (4,4) Prob>F' = 0.5072 Para comparar dois grupos independentes observa-se primeiramente a linha que testa a igualdade de variâncias. O p-valor para este teste é dado por PROB>F'=0.5072 que é maior que 0.10, indicando que as variâncias não são significantemente diferentes a um nível de 10% de significância. Utiliza-se então o t-test exato. Para o teste da igualdade de médias, a linha denominada UNEQUAL dá o resultado de um t-test aproximado, que é utilizado quando não se pode assumir a igualdade das variâncias os dois grupos de observações. O p-valor para o t-test é PROB > ITI = 0.1347 que é maior que 0.05, indicando que ambas as médias para o cabo do tipo 1 e tipo 2 não são significativamente diferentes ao nível de 5% de significância. Valores altos para estatística T indicam diferenças significativas entre as médias. Para o teste exato, o grau de liberdade DF é calculado como a soma dos tamanhos das amostras dos dois grupos menos dois (8 = 5 + 5 - 2). Ex7.: Dados não pareados com variâncias desconhecidas e supostamente diferentes. Deseja-se saber se duas máquinas de empacotar café estão fornecendo o mesmo peso médio por pacote, tanto como uma das máquinas é nova e a outra velha, é razoável supor-se que trabalhem com diferentes variabilidades dos pesos colocados nos pacotes. As amostras disponíveis constam de seis pacotes produzidos pela máquina nova e nove produzidos pela máquina velha. Os pesos em quilogramas desses pacotes são: máquina nova máquina velha 0,82 0,83 0,79 0,81 0,81 0,80 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78 Qual a conclusão, ao nível de 5% de significância ? OPTIONS FORMDLIM='*' LS=80; DATA CAFÉ A; /* EXEMPL07 Treinamento Sistema – SAS 58 SAS */ Prof. Luis Felipe Lopes INPUT MAQUINA $ PESO @@, CARDS; NOVA 0.82 NOVA 0.83 NOVA 0.79 NOVA 0.81 NOVA 0.81 NOVA 0.80 VELHA 0.79 VELHA 0.82 VELHA 0.73 VELHA 0.74 VELHA 0.80 VELHA 0.77 VELHA 0.75 VELHA 0.84 VELHA 0.78 ; PROC TTEST DATA=CAFE, CLASS MAQUINA; TITLE 'TESTE PARA IGUALDADE DE MEDIAS – DADOS NÃO PAREADOS'; RUN; ANÁLISE DOS RESULTADOS: TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS TTEST PROCEDURE Variable: PESO MAQUINA N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------NOVA 6 0.81000000 0.01414214 0.00577350 0.79000000 0.83000000 VELHA 9 0.78000000 0.03674235 0.01224745 0.73000000 0.84000000 Variances T DF Prob>|T| --------------------------------------Unequal 2.2156 11.1 0.0486 Equal 1.8893 13.0 0.0814 For H0: Variances are equal, F' = 6.75 DF = (8,5) Prob>F' = 0.0501 O p-valor para o teste de igualdade de variâncias é dado por PROB >F'=0.0501 que é menor que 0.10, indicando que as variâncias são significativamente diferentes a um nível de 10% de significância. Para o teste de igualdade de médias, a linha denominada UNEQUAL deve ser utilizada. A um nível de 5% de significância há diferença significativa entre as médias dos pesos dos pacotes, pois PROB > ITI = 0.0486 < 0.05. 9.2 Testes para dados pareados Os resultados de duas amostras constituem dados emparelhados (ou pareados) quando estão relacionados dois a dois segundo algum critério que introduz uma influência mercante entre os diversos pares. Esta influência incide igualmente sobre os valores de cada par. Treinamento Sistema – SAS 59 Prof. Luis Felipe Lopes Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante uma semana a uma dieta com certo tipo de ração. Os pesos das cobaias são medidos no início e no fim do tratamento, e deseja-se tirar conclusões sobre o aumento médio do peso verificado. Se os animais forem perfeitamente identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os dados serão pareados, pois cada valor da palmeira amostra estará perfeitamente associado ao respectivo valor da segunda amostra. O critério que garante o emparelhamento é a identidade de cada cobaia. É razoável esperar que a identidade de cada animal tenha influência nos valores observados de seu peso, porém essa influência deve exercer-se de forma aproximadamente igual dentro de cada para de valores 'antes e depois', logo, ao se tomarem as diferenças entre vários pares de valores, a influência individual de cada animal tende a desaparecer, restando apenas os efeitos produzidos pela ração. No mesmo exemplo, se os animais não fossem identificados, não haveria como associar os valores das duas amostras, e os dados seriam nãoemparelhados. Se os dados de duas amostras são emparelhados tem sentido calcular as diferenças “di” correspondentes a cada par de valores, reduzindo assim os dados a uma única amostra de n diferenças. Testa-se então a hipótese de que a diferença entre as médias das populações emparelhadas seja igual a um certo valor, reduzindo o problema ao teste de uma única média. As hipóteses a serem atendidas para validação deste teste são listadas baixo: - AMOSTRAS PAREADAS: Nível de medida: A variável resposta deve estar na escala de intervalo ou de razão. A variável independente deve estar na escala nominal e assumir somente duas categorias. Observações pareadas: Uma dada observação que aparece em uma condição tem que estar de algum moda associada à uma observação correspondente na outra condição. Observações Independentes: Um valor de dado em uma condição não pode ser afetado por qualquer outro valor de dado em ambas condições. Amostras Aleatórias: Os valores da variável resposta devem representar uma amostra aleatória oriunda de uma população de interesse. Distribuição Normal para a diferença de Scores: As diferenças de scores entre os pares de valores devem ser normalmente distribuídas. Não há necessidade que a variável resposta seja normalmente distribuída. Treinamento Sistema – SAS 60 Prof. Luis Felipe Lopes Homogeneidade de Variâncias: As populações representadas pelas duas condições devem ter iguais variâncias . PROC UNIVARIATE Para observações pareadas, o primeiro passo é encontrar as diferenças para cada observação na amostra. O segundo é sumarizar estas diferenças. Para calcular estas diferenças, pode-se criar uma nova variável no DATA STEP, cuja média será sumarizada através da PROC UNIVARIATE. Outro caminho para sumarizar os dados amostrais é produzir gráficos que mostrem a distribuição dos valores. Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa ração durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princípio e no fim da semana, são designados respectivamente por peso 1 e peso 2. Ao nível de 5% de significância pode-se concluir que o uso da ração contribuiu para o aumento do peso médio dos animais? O programa a seguir provê um teste de hipótese para checar se a diferença média de pesos é significativamente diferente de zero. OPTIONS FORMDLIM='*' LS=80; DATA TRAT A; /* EXEMPL08 SAS */ INPUT COBAIA PESO1 PESO2 @@; DIF= PESO2-PESO1; CARDS; 1 635 640 2 704 712 3 662 681 4 560 558 5 603 610 6 745 740 7 698 707 8 575 585 9 633 635 10 669 682 ; PROC PRINT; TITLE 'LISTA DAS DIFERENCAS PAREADAS'; RUN; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS'; PROC CHART; VBAR DIF; TITLE 'CARTA PARA DIFERENCAS PAREADAS'; RUN; Treinamento Sistema – SAS 61 Prof. Luis Felipe Lopes ANÁLISE DOS RESULTADOS: LISTA DAS DIFERENCAS PAREADAS OBS COBAIA PESO1 PESO2 DIF 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 635 704 662 560 603 745 698 575 633 669 640 712 681 558 610 740 707 585 635 682 5 8 19 -2 7 -5 9 10 2 13 TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 6.6 7.042727 -0.0293 882 106.708 2.963487 10 3 22.5 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 66 49.6 0.054015 446.4 2.227106 0.0159 8 0.1094 0.0215 Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 19 10 7.5 2 -5 99% 95% 90% 10% 5% 1% 19 19 16 -3.5 -5 -5 24 8 -5 Extremes Lowest -5( -2( 2( 5( 7( Treinamento Sistema – SAS Obs 6) 4) 9) 1) 5) 62 Highest 8( 9( 10( 13( 19( Obs 2) 7) 8) 10) 3) Prof. Luis Felipe Lopes O relatório parcial da PROC UNIVARIATE mostra na linha denominada T:MEAN=0 o valor da estatística de teste T (T=2.9635) e o p-valor associado ao teste PROB > |T| = 0,0159. O p-valor é menor que 0.05, donde se conclui que a diferença média dos pesos das cobaias com a utilização da ração é significativamente diferente de zero. A um nível de 5% de significância o uso da ração contribui para o aumento do peso médio dos animais. CARTA PARA DIFERENCAS PAREADAS Frequency 4 + ***** | ***** | ***** | ***** | ***** | ***** | ***** 3 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 2 + ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** | ***** ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------4 4 12 20 DIF Midpoint O gráfico com a distribuição dos valores das diferenças é obtido através da PROC CHART. As barras verticais mostram que a mais alta freqüência ocorre para valores entre 8 e 16, próximo a 12, indicando mais uma vez que a variação média das diferenças é estatisticamente significante. Treinamento Sistema – SAS 63 Prof. Luis Felipe Lopes 10 MÉTODOS NÃO PARAMÉTRICOS 10.1 Testes para igualdade de duas médias (PROC NPAR1WAY) Os testes não paramétricos utilizam-se de poucas suposições a respeito da distribuição de habilidade dos dados. Ele é indicado quando o tamanho das amostras analisadas é muito pequeno para validar a suposição de normalidade dos dados. PROC NPAR1WAY A PROC NPARLWAY é um procedimento não paramétrico para testar se a distribuição de uma variável tem o mesmo parâmetro de locação sobre diferentes grupos. Ela trabalha com grupos independentes, dados não pareados. Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o teste dos ranks de Wilcoxon. FORMA GERAL: PROC NPARLWAY DATA= arquivo de dados opções; VAR variáveis; CLASS variável; BY variáveis; COMANDOS DISPONÍVEIS: VAR nomeia variáveis a serem analisadas para a comparação dos dois grupos. (comando opcional). Uma vez omitido , as análises são feitas sobre todas as variáveis numéricas do arquivo de dados. CLASS nomeia somente uma variável de classificação de grupo. O comando CLASS é obrigatório. A variável que identifica os grupos podem ser caracteres ou numéricas. BY separa a análise em observações definidas pelas variáveis do comando BY. Os dados precisam estar ordenados antes de se utilizar este comando. OPÇÕES DISPONÍVEIS: WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma variável de dois níveis. Ele se baseia na soma dos ranks dos valores observados. Este rank irá indicar a posição de um determinado valor no conjunto ordenado (crescente ou decrescentemente), do primeiro ao último elemento Valores iguais são considerados com um rank médio de modo a não afetar os rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16, considerados numa ordem crescente, terão os seguintes ranks: 2, Treinamento Sistema – SAS 64 Prof. Luis Felipe Lopes 1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo válida a hipótese nula de identicidade entre as populações, a soma dos postos nas amostras deveriam fornecer valores intermediários compatíveis com cada amostra. Com base nessa idéia, determina-se quais os limites para a soma dos ranks nas amostras, além dos quais deve-se rejeitar a hipótese nula. Para uma variável de classificação que assuma mais que dois níveis, esta opção corresponde ao Teste de Kruskal- Wallis. MEDIAN requisita uma análise dos escores das medianas. Se as populações são idênticas, a mediana do conjunto formado pelas duas amostras fornece uma boa estimativa da mediana da distribuição comum. A proporção de valores abaixo da mediana geral deve tender a ser a mesma nas duas amostras. O escore da mediana é 1 para pontos abaixo da mediana geral, e 0 caso contrário. Para mais que duas amostras, esta opção produz o Teste de Brown- Mood. Ex9.: Cólica é um distúrbio comum em cavalos e freqüentemente é fatal. Em casos extremos uma cirurgia é o único recurso. Pesquisadores estudam novas técnicas de cirurgia para reduzir os períodos sob anestesia a que são submetidos os animais. Nove cavalos que se submeteram à cirurgia foram aleatoriamente assinalados para uma dentre as duas técnicas utilizadas. A técnica A envolve a suspensão da anestesia depois da sutura da incisão, e a técnica B envolve a suspensão da anestesia durante a sutura. O tempo de recuperação da anestesia foi medido em minutos a partir do final da cirurgia até o momento que o cavalo levanta. Determinar se os tempos de recuperação diferem para as duas técnicas cirúrgicas utilizadas. OPTIONS FORMDLIM='*' LS=80; DATA ANEST1 A; /* EXEMPL09 SAS */ INPUT CAVALO TECN $ TEMREC @@; CARDS; l A 47 2 A 34 3 A 44 4 A 16 5 A 53 6 B 79 7 B 42 8 B 14 9 B 11 ; PROC NPAR1WAY WILCOXON MEDIAN; VAR TEMREC; CLASS TECN; TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA'; RUN; Treinamento Sistema – SAS 65 Prof. Luis Felipe Lopes ANÁLISE DOS RESULTADOS: ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score A B 5 4 28.0 17.0 25.0 20.0 4.08248290 4.08248290 5.60000000 4.25000000 Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 17.0000 Z= -.612372 Prob > |Z| = T-Test approx. Significance = 0.5403 0.5573 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0.54000 DF= 1 Prob > CHISQ= 0.4624 ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA N P A R 1 W A Y P R O C E D U R E Median Scores (Number of Points above Median) for Variable TEMREC Classified by Variable TECN TECN A B N 5 4 Sum of Scores 3.0 1.0 Expected Under H0 2.22222222 1.77777778 Std Dev Under H0 0.785674201 0.785674201 Mean Score 0.600000000 0.250000000 Median 2-Sample Test (Normal Approximation) S= 1.00000 Z= -.989949 Prob > |Z| = 0.3222 Median 1-Way Analysis (Chi-Square Approximation) CHISQ= 0.98000 DF= 1 Prob > CHISQ= 0.3222 O p-valor para o teste de Wilcoxon é dado por Prob > |Z|= 0.5403 que é superior a 0.05. Conclui-se, portanto, que as médias dos tempos de recuperação não são significativamente diferentes ao nível de 5% de significância. O p-valor para o teste de medianas é dado por Prob > |Z| = O.3222 que é maior que 0.05, ou seja, a um nível de 5% de significância não há diferença significativa entre os tempos de recuperação referentes as duas técnicas utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximação de Chi-quadrado. Treinamento Sistema – SAS 66 Prof. Luis Felipe Lopes Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo, Por exemplo feita no sentido de verificar a existência de diferença entre os tempos de recuperação dentro de cada grupo. O programa a seguir mostra como desempenhar esta análise. OPTIONS FORMDLIM='*' LS=80; DATA ANEST2 A; /* EXEMP10 SAS */ INPUT CAVALO SEXO $ TECN $ TEMPREC; CARDS; l M A 47 2 M A 34 3 F A 44 4 F A 16 5 F A 53 6 M B 79 7 M B 42 8 M B 14 9 F B 11; PROC SORT; BY SEXO; PROC NPAR1WAY WILCOXON; VAR TEMPREC; CLASS TECN; BY SEXO; RUN; ANÁLISE DOS RESULTADOS: ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=F -------------------------------N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score A B 3 1 9.0 1.0 7.50000000 2.50000000 1.11803399 1.11803399 3.0 1.0 Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 1.00000 Z= -.894427 T-Test approx. Significance = Prob > |Z| = 0.4370 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 1.8000 DF= 1 Prob > CHISQ= Treinamento Sistema – SAS 67 0.3711 0.1797 Prof. Luis Felipe Lopes ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA --------------------------------- SEXO=M -------------------------------N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable TEMREC Classified by Variable TECN TECN N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score A B 2 3 6.0 9.0 6.0 9.0 1.73205081 1.73205081 3.0 3.0 Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S= 6.00000 Z= 0 T-Test approx. Significance = Prob > |Z| = 0.9999 0.9999 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ= 0 DF= 1 Prob > CHISQ= 0.9999 O p-valor de 0.3711 é superior a 0.05, ou seja, para o grupo de fêmeas não há diferença significativa os tempos de recuperação referentes as duas técnicas utilizadas Prob > |Z| = 0.3711, à um nível de 5% de significância. Para o grupo de machos, PROB>|Z|=0.9999 também é superior à 0.05, donde se conclui que não há diferença significativa entre os tempos de recuperação dentro deste subgrupo, a um nível de 5% de significância. 11 ANÁLISE DE VARIÂNCIA 11.1 Dados balanceados (PROC ANOVA) Quando se deseja fazer inferências sobre um conjunto de mais que duas médias, utiliza-se a Análise de Variância. A Análise da Variância se resume na aplicação de um teste de hipóteses sobre um experimento projetado estatisticamente. Esta análise permite saber se há efeitos significativos de determinadas variáveis agindo sobre os resultados além do erro experimental. Neste capítulo, o termo ANOVA refere-se especificamente a uma análise paramétrica da variância, que é utilizada se algumas suposições sobre os dados observados forem atendidas. As suposições que envolvem uma análise da variância são: - as observações devem ser independentes: a medida para determinada observação não afeta a medida de outra observação. Treinamento Sistema – SAS 68 Prof. Luis Felipe Lopes - as observações são geradas por uma distribuição normal. Se existe uma diferença entre os grupos, talvez exista uma distribuição normal específica para cada grupo. - as variâncias dos grupos são iguais. Quando o experimento consiste na análise de uma única variável (ou fator), com vários níveis, a análise é dita ANOVA a fator único. Para este tipo de análise, os procedimentos SAS não fazem distinção quanto ao tipo de dados utilizados: se balanceados ou não. Dados balanceados são aqueles cujos grupos experimentais tem o mesmo tamanho de amostra. Dados não balanceados, o tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e ANOVA, tratam estes dados na devida situação. PROC ANOVA A PROC ANOVA para análise da variância a fator único pode ser utilizada, como visto anteriormente, para ambos dados balanceados e não balanceados. Em geral, entretanto, não se utiliza a PROC ANOVA para dados não alanceados. Ela é utilizada para: - Blocos aleatorizados - Quadrados latinos Projetos com Blocos Aleatorizados assumem que uma população de unidades experimentais pode ser dividida em um número relativamente homogêneo de subpopulações ou blocos. Os tratamentos são aleatoriamente atribuídos às unidades experimentais dentro de cada bloco. Se todos os tratamentos são atribuídos em cada bloco, o projeto é denominado Projeto com Blocos Completamente Aleatorizados. Para exemplificar, suponha um experimento que, em função da duração do mesmo, sejam efetuadas edições pela manhã e outra à tarde. Se a temperatura influir na variável resposta, a variabilidade do experimento cresce, e a sensibilidade dos efeitos do fator em análise será prejudicada. Em outras palavras, entre ma medida feita pela manhã e a outra à tarde, tem-se as variabilidades devidas ao erro experimental da edição em si, ao efeito do fator (se houver) e à variação da temperatura. Como a temperatura não é um fator de interesse no experimento, pode-se dizer que ela aumentou o erro experimental. Uma maneira de quantificar e isolar esta influência consiste em efetuar um grupo completo de medições, que inclua todos os níveis do fator pela manhã e outro à tarde. Cada grupo será homogêneo em relação à temperatura e recebe a designação de bloco aleatorizado. Quando o projeto envolve a blocagem de mais de um fator no experimento, ele é denominado de quadrado latino, e é representado por uma forma quadrada (4 X 4) tendo o fator em estudo representado por letras latinas. Treinamento Sistema – SAS 69 Prof. Luis Felipe Lopes Os aspectos acima descritos dizem respeito ao controle do erro experimental. Outro aspecto a ser considerado na Análise de Variância seria a estrutura de tratamento fatorial, que pode ser aplicada à qualquer esquema de aleatorização. Um experimento fatorial balanceado consiste de todas as possíveis combinações dos níveis de duas ou mais variáveis. Estes níveis podem se referir à quantidades numéricas das variáveis, tais como graus de temperatura, quantidade de fertilizantes, ou à variáveis que definam categorias qualitativas, tais como tipos de fertilizantes, condições operacionais (Temperatura: baixa, média ou alta). Um exemplo de experimento fatorial é o estudo envolvendo o uso de nitrogênio, fósforo e potássio, cada um à três níveis. Este experimento possui 3 **3 = 27 combinações de tratamento. Experimentos fatoriais são utilizados para investigar não somente todas as diferenças entre os níveis de cada fator (efeitos principais), como também como os níveis de um fator afetam a variável resposta, em combinação com os níveis dos demais fatores (interações). A PROC ANOVA pode ser utilizada interativamente. Uma vez especificado um modelo com o comando MODEL, que será visto a seguir, e rodar o procedimento com o comando RUN, outra variedade de comandos poderá ser executada sem que o procedimento recalcule as estatísticas do modelo geradas inicialmente. FORMA GERAL: PROC ANOVA DATA = arquivo SAS; CLASS variáveis; /*tratamentos*/ MODEL dependente = efeitos / opções; MANOVA H = variável / opções; MEANS efeitos / opções; OUTPUT OUT = arquivo SAS P= nova variável R = nova variável L95 = nova variável U95 = nova variável L95M = nova variável U95M=nova variável; RUN; COMANDOS DISPONÍVEIS: CLASS nomeia as variáveis de classificação utilizadas para identificar os grupos para análise. Este comando tem que aparecer antes do comando MODEL. MODEL nomeia as variáveis dependentes e independentes do modelo. MANOVA se o comando MODEL inclui mais que uma variável dependente, este comando fornece estatísticas multivariadas. MEANS gera médias para cada nível das variáveis independentes e para a interação dos níveis, quando existir. Treinamento Sistema – SAS 70 Prof. Luis Felipe Lopes OUTPUT gera arquivo de saída com as variáveis que irão conter os valores previstos, residuais, intervalos de confiança para um valor individual da variável dependente, e intervalos de confiança para o valor esperado ( média ) da variável dependente. OPÇÕES DISPONIVEIS NO COMANDO MODEL: INT requisita teste associado ao intercepto como parâmetro do modelo. Por “default”, ele é incluído no modelo, mas o teste associado não é listado. Com esta opção o teste associado é listado. NOINT requisita que o intercepto não seja usado no modelo. NOUNI suprimi estatísticas univariadas. OPÇÕES DISPONÍVEIS NO COMANDO MANOVA: H especifica efeitos no modelo para usar como matriz de hipóteses. PRINTH lista a matriz de hipóteses SSCP e a matriz de erro. A opção PRINTE também lista uma matriz de coeficientes de correlação parcial e é derivada da matiz de erros SSCP. Esta matriz de correlação representa a correlação das variáveis dependentes corrigidas para todos os fatores independentes definidos no comando MODEL. OPÇÕES DISPONÍVEIS NO COMANDO MEANS: As opções especificam os testes utilizados para comparação múltipla e são aplicadas somente para os termos de efeitos principais . DUNCAN desempenha teste de múltiplos ranges para todas as médias dos efeitos principais especificados no comando MEANS. TUKEY desempenha teste de ranges de Student para todas as médias dos efeitos principais especificados no comando MEANS. ALPHA dá os níveis de significância para a comparação entre as médias. Por “default” Alpha=0.05. Para a opção DUNCAN, somente os valores 0.01, 0.05 ou 0.1 são válidos. Nas demais opções que desempenham testes de comparação múltipla, valores entre 0.0001 e 0.9999 são válidos. Treinamento Sistema – SAS 71 Prof. Luis Felipe Lopes Teste de Duncan O teste de Duncan é usado na análise de variância para comparar todo e qualquer contraste entre duas médias de tratamentos. É menos rigoroso que o Teste de Tukey, pois detecta diferença significativa entre duas médias quando o o teste de Tukey não o faz. É um teste bastante usado em trabalhos de laboratórios, pode ser usado tanto para tratamentos com o mesmo número de repetições, quanto tratamentos com parcelas perdidas. Teste de Tukey O teste de Tukey é usado na análise de variância para comparar todo e qualquer contraste entre duas médias de tratamentos. É o teste de comparação de médias mais usado em experimentação, por ser bastante rigoroso e de fácil aplicação. Ele é mais exato quando os números de repetições das médias dos tratamentos forem iguais. Quando o Teste Tukey não der diferença significativa e o teste F for significativo, o mesmo poderá ser substituído pelo Teste de Duncan, por ser menos rigoroso, ou trocar o nível de significância para 10%, ou simplesmente aceitar a análise encontrada. Teste de Scheffé O teste de Schfeé é usado na análise de variância numa forma mais abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer constraste, pode ser usado tanto para duas médias (contraste simples) como para mais de duas médias (contraste múltiplo), na qual ele é o mais indicado, por ser mais rigoroso que o Teste de Tukey. Análise dos Três Testes Quando o teste F da análise de variância não for significativo os três testes acima não terão efeito de aplicação (só se o teste F estiver próximo da significância). Para melhor visualizar a análise comparativa das médias, as médias dos tratamentos são colocadas em ordem crescente e para cada conjunto de médias que não diferem estatisticamente é atribuída uma mesma letra, ou seja, para letras iguais médias estatisticamente iguais, para letras diferentes médias estatisticamente diferentes. Para a análise usa-se um nível de significância de 5%. Treinamento Sistema – SAS 72 Prof. Luis Felipe Lopes ESTUDO DE CASO 11.1.1 Experimento Completamente Casualizado Suponha que os pesquisadores de uma linha de produção automobilística queiram comparar o desgaste de 4 tipos de pneus. Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm após 10.000 Km rodados pelos 4 carros em condições idênticas de direção. Considere as seguintes questões: 1 - As unidades experimentais deste experimento são os pneus. 2 - As suposições para análise consistem em tratamentos aleatoriamente atribuídos para as 16 posições nos 4 carros, com o desgaste por marca de pneu sendo normalmente distribuído, com variância comum. 3 - O modelo experimental é representado por: DESGASTE = CTE + efeito TIPO + erro A hipótese a ser testada é: Ho: As médias do desgaste para os 4 tipos de pneus são iguais Leia os dados em um arquivo SAS e análise com a PROC ANOVA a hipótese testada. Treinamento Sistema – SAS 73 Prof. Luis Felipe Lopes OPTIONS FORMDLIM='*' LS=80; DATA PNEU1 A; /* EXEMP11 SAS */ INPUT TIPOS $ DESGASTE @@; CARDS; 1 1.83 2 2.42 3 1.98 4 1.83 1 1.88 2 2.05 3 1,86 4 1.81 1 1.86 2 2.10 3 2.30 4 1.75 1 1.77 2 2.61 3 2.31 4 1.92 ; PROC ANOVA; CLASS TIPO; MODEL DESGASTE = TIPO; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN; ANÁLISE DOS RESULTADOS: EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class Levels TIPO 4 Values 1 2 3 4 Number of observations in data set = 16 EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: DESGASTE Source DF Sum of Squares Mean Square F Value Pr > F Model 3 0.62175000 0.20725000 6.37 0.0079 Error 12 0.39015000 0.03251250 Corrected Total 15 1.01190000 Source TIPO R-Square C.V. Root MSE DESGASTE Mean 0.614438 8.937409 0.1803122 2.0175000 DF 3 Anova SS 0.62175000 Mean Square F Value Pr > F 0.20725000 6.37 0.0079 A estimativa da variância do erro da população é dada por MSE (Error) = 0.032; O R_Square descreve a quantidade de variação nos dados que se deve a diferença existente entre os Grupos. Logo, 61% da variabilidade do modelo é explicada pela diferença entre os tipos dos pneus. Treinamento Sistema – SAS 74 Prof. Luis Felipe Lopes O p-valor dado por Pr > F = 0.0079 é inferior ao nível de significância de 0.10, donde se conclui que a média do desgaste é significativamente diferente para os diferentes tipos de pneus. A Soma dos Quadrados (SS) mede a quantidade de variação atribuída a uma dada fonte. Note que Model SS e Error SS somam a variação total do modelo. A média global do desgaste dos pneus é dada por DESGASTE Mean. O coeficiente de variação CV é calculado multiplicando o desvio padrão por 100 e dividindo pela média, ou seja. 100 (std/mean). 11.1.2 Experimento com Blocos Aleatorizados A fim de controlar a influência do fator tipo de carro no desgaste dos pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu aparecesse em cada carro, Logo, cada carro consiste num bloco de edições, o que permite: - O controle da variação que se deve aos diferentes tipos de carro. - A eliminação da variação de cada carro em relação aos tipos de pneus utilizados. - A obtenção de uma precisão maior do erro do experimento. O modelo experimental em questão é dado por: DESGASTE = CTE + efeito TIPO + efeito CARRO + erro Os efeitos dos blocos são aditivos, ou seja, não existe interação entre o tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout: Treinamento Sistema – SAS 75 Prof. Luis Felipe Lopes OPTIONS FORMDLIM='*' LS=80; DATA PNEU2 A; /* EXEMP12 SAS */ INPUT TIPO $ CARRO DESGASTE @@; CARDS; A l 1.51 A 2 1.71 A 3 1.78 A B l 2.36 B 2 2.45 B 3 2.24 B C l 2.20 C 2 2.05 C 3 2.01 C D l 1.51 D 2 2.22 D 3 1.73 D ; PROC ANOVA; CLASS TIPO CARRO; MODEL DESGASTE = TIPO CARRO; TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS'; RUN; 4 4 4 4 1.80 2.41 2.01 1.80 ANÁLISE DOS RESULTADOS: EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Class Level Information Class Levels Values TIPO 4 A B C D CARRO 4 1 2 3 4 Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM BLOCOS ALEATORIZADOS Analysis of Variance Procedure Dependent Variable: DESGASTE Source DF Sum of Squares Mean Square F Value Pr > F Model 6 1.14733750 0.19122292 6.51 0.0068 Error 9 0.26440625 0.02937847 15 1.41174375 R-Square C.V. Root MSE DESGASTE Mean 0.812709 8.626687 0.1714015 1.9868750 Source DF Anova SS Mean Square F Value Pr > F TIPO CARRO 3 3 1.04526875 0.10206875 0.34842292 0.03402292 11.86 1.16 0.0018 0.3780 Corrected Total Treinamento Sistema – SAS 76 Prof. Luis Felipe Lopes Pode-se notar que estimativa da variância do erro deste experimento é inferior a vista anteriormente. O fator de blocagem CARRO poderia ser retirado do experimento, uma vez que ele não é significativo. 11.1.3 Experimento com Quadrado Latino A localização do pneu no carro pode ter algum efeito sobre o resultado do desgaste. Se o interesse for controlar o efeito da localização do pneu a fim de se obter uma idéia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser posicionados da seguinte maneira: Nesse experimento cada tipo de pneu aparece em cada carro, todos os tipos em diferentes posições. O modelo experimental é dado por: DESGASTE = CTE + TIPO + CARRO + POS + ERRO Os efeitos dos blocos (carro e posição do pneu) são aditivos. Analise a variância do experimento apresentado. OPTIONS FORMDLIM='*' LS=80; DATA PNEU3 A; /* EXEMP13 SAS */ INPUT CARRO POS TIPO $ DESGASTE CARDS; 1 l B 2.23 2 l C 2.31 3 l D 2.07 l 2 C 2.04 2 2 D 1.97 3 2 A 1.69 1 3 D 1.78 2 3 A 1.73 3 3 B 2.20 1 4 A 1.64 2 4 B 2.22 3 4 C 1.80 ; PROC ANOVA; CLASS CARRO POS TIPO; MODEL DESGASTE = CARRO POS TIPO; TITLE 'EXPERIMENTO COM QUADRADO LATINO'; RUN; 4 4 4 4 1 2 3 4 A B C D 1.97 2.59 2.25 1.86 ANÁLISE DOS RESULTADOS: Treinamento Sistema – SAS 77 Prof. Luis Felipe Lopes EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Class Level Information Class Levels Values CARRO 4 1 2 3 4 POS 4 1 2 3 4 TIPO 4 A B C D Number of observations in data set = 16 ************************************************************************* EXPERIMENTO COM QUADRADO LATINO Analysis of Variance Procedure Dependent Variable: DESGASTE Source DF Sum of Squares Mean Square F Value Pr > F Model 9 0.98925625 0.10991736 9.99 0.0055 Error 6 0.06598750 0.01099792 15 1.05524375 Corrected Total R-Square C.V. Root MSE DESGASTE Mean 0.937467 5.186817 0.1048710 2.0218750 Source DF Anova SS Mean Square F Value Pr > F CARRO POS TIPO 3 3 3 0.15621875 0.15546875 0.67756875 0.05207292 0.05182292 0.22585625 4.73 4.71 20.54 0.0505 0.0510 0.0015 Observa-se uma redução na variância do erro experimental MS(ERROR) = 0.010. O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de pneu é um fator significativo para o modelo, pois Pr > F = 0.0055 é inferior ao nível de significância de 0.10. Treinamento Sistema – SAS 78 Prof. Luis Felipe Lopes 12 EXERCÍCIOS RESOLVIDOS E COMENTADOS 1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento entre o número de atendentes no balcão self-service e as vendas de café. Quatorze lanchonetes foram escolhidas para teste por serem similares em alguns aspectos tais como: volume total de negócios, tipo de clientela e localização. O número de atendentes que são colocados nas lanchonetes-teste varia de zero a sete (o café é servido numa linha de atendimento), e é distribuído aleatoriamente em cada lanchonete, como mostra os dados abaixo: No de Atendentes 5 1 0 7 5 2 0 6 4 1 6 7 2 4 Vendas 729,1 568,2 508,1 854,7 787,6 651,7 498,4 841,4 755,3 577,3 831,8 871,4 657,0 758,9 Crie um arquivo LANCHE.SAS para: A) Criar uma tabela das vendas de café X número de atendentes e plote o gráfico. B) Ajustar um modelo linear de regressão das vendas em função do número de atendentes. Verifique a existência de pontos fora do padrão, e, através da PROC UNIVARIATE, verifique a qualidade do ajuste. C) Idem para o modelo quadrático. D) Caso seja identificado algum “outlier”, elimine-o da análise e verifique novamente a qualidade dos resíduos. OPTIONS FORMDLIM='*' LS=80; DATA LANCHES A; INPUT NO_AT VENDAS @@; NUM2=NO_AT*NO_AT; CARDS; 5 729.1 1 568.2 0 508.1 7 854.7 5 787.6 2 651.7 0 498.4 6 841.4 4 755.3 1 577.3 6 831.8 7 871.4 2 657.0 4 758.9 ; /* #############( A )################## */ PROC FREQ; TABLES NO_AT*VENDAS /LIST; TITLE 'TABELA NO ATENDENTES * VENDAS'; Treinamento Sistema – SAS 79 Prof. Luis Felipe Lopes RUN; PROC PLOT; PLOT VENDAS*NO_AT='*'; TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES'; RUN; /* #############( B )################## */ PROC REG; MODEL VENDAS=NO_AT /R; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO1 R=RESID1; TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES'; PROC UNIVARIATE DATA=RESIDUO1 NORMAL; VAR RESID1; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR'; RUN; /* #############( C )################## */ PROC REG; MODEL VENDAS=NO_AT NUM2 /R; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO2 R=RESID2; TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES'; PROC UNIVARIATE DATA=RESIDUO2 NORMAL; VAR RESID2; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO'; RUN; /* #############( D )################## */ PROC REG; MODEL VENDAS=NO_AT NUM2 /R; WHERE NO_AT NE 5 OR VENDAS NE 729.1; PLOT R.*NO_AT='*'; OUTPUT OUT=RESIDUO3 R=RESID3; TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS'; PROC UNIVARIATE DATA=RESIDUO3 NORMAL; VAR RESID3; TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS'; RUN; A) TABELA NO ATENDENTES * VENDAS Cumulative Cumulative NO_AT VENDAS Frequency Percent Frequency Percent ---------------------------------------------------------0 498.4 1 7.1 1 7.1 0 508.1 1 7.1 2 14.3 1 568.2 1 7.1 3 21.4 1 577.3 1 7.1 4 28.6 2 651.7 1 7.1 5 35.7 2 657.0 1 7.1 6 42.9 4 755.3 1 7.1 7 50.0 4 758.9 1 7.1 8 57.1 5 729.1 1 7.1 9 64.3 5 787.6 1 7.1 10 71.4 6 831.8 1 7.1 11 78.6 6 841.4 1 7.1 12 85.7 7 854.7 1 7.1 13 92.9 7 871.4 1 7.1 14 100.0 Treinamento Sistema – SAS 80 Prof. Luis Felipe Lopes DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES Plot of VENDAS*NO_AT. Symbol used is '*'. 900 + | | * | * 850 + | * | * | 800 + V | * E | N | * D750 + A | S | | * 700 + | | | * 650 + * | | | 600 + | | * | * 550 + | | |* 500 +* -+--------+--------+--------+--------+--------+--------+--------+0 1 2 3 4 5 6 7 NO_AT NOTE: 1 obs hidden. B) REGRESSAO LINEAR DE VENDAS * NO ATENDENTES Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Source DF Model Error C Total 1 12 13 Root MSE Dep Mean C.V. Sum of Squares 211484.38607 7725.12322 219209.50929 25.37243 706.49286 3.59132 Mean Square 211484.38607 643.76027 R-square Adj R-sq F Value Prob>F 328.514 0.0001 0.9648 0.9618 Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP NO_AT 1 1 526.678767 50.347945 12.01686851 2.77782371 43.828 18.125 0.0001 0.0001 REGRESSAO LINEAR DE VENDAS * NO ATENDENTES Treinamento Sistema – SAS 81 Prof. Luis Felipe Lopes Obs Dep Var VENDAS Predict Value Std Err Predict Residual Std Err Residual Student Residual 1 2 3 4 5 6 7 8 9 10 11 12 13 14 729.1 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9 778.4 577.0 526.7 879.1 778.4 627.4 526.7 828.8 728.1 577.0 828.8 879.1 627.4 728.1 7.857 9.849 12.017 11.691 7.857 8.065 12.017 9.565 6.885 9.849 9.565 11.691 8.065 6.885 -49.3185 -8.8267 -18.5788 -24.4144 9.1815 24.3253 -28.2788 12.6336 27.2295 0.2733 3.0336 -7.7144 29.6253 30.8295 24.125 23.383 22.346 22.518 24.125 24.057 22.346 23.500 24.420 23.383 23.500 22.518 24.057 24.420 -2.044 -0.377 -0.831 -1.084 0.381 1.011 -1.265 0.538 1.115 0.012 0.129 -0.343 1.231 1.262 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Cook's D -2-1-0 1 2 | | | | | | | | | | | | | | ****| | *| **| | |** **| |* |** | | | |** |** | | | | | | | | | | | | | | Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press) Treinamento Sistema – SAS 0.222 0.013 0.100 0.158 0.008 0.057 0.232 0.024 0.049 0.000 0.001 0.016 0.085 0.063 0 7725.1232 10165.3789 82 Prof. Luis Felipe Lopes REGRESSAO LINEAR DE VENDAS * NO ATENDENTES RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----| | 40 + + | * | | * | | * | | * | 20 + + | * | | * | | | | * | 0 + * + | * | | * | | | | * | -20+ + | * | | | | * | | | -40+ + | | | | | * | | | -60+ + ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR Univariate Procedure Variable=RESID1 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 14 0 24.37704 -0.44594 7725.123 . 0 14 1 4.5 0.952408 Treinamento Sistema – SAS Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 83 14 0 594.2402 -0.49803 7725.123 6.515039 1.0000 8 0.7905 0.8077 0.5667 Prof. Luis Felipe Lopes Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 30.82945 24.32534 1.653425 -18.5788 -49.3185 99% 95% 90% 10% 5% 1% 80.14795 42.90411 -49.3185 30.82945 30.82945 29.62534 -28.2788 -49.3185 -49.3185 Extremes Lowest -49.3185( -28.2788( -24.4144( -18.5788( -8.82671( Obs 1) 7) 4) 3) 2) Highest 12.63356( 24.32534( 27.22945( 29.62534( 30.82945( Obs 8) 6) 9) 13) 14) COMENTÁRIO: O modelo de regressão linear explica 96.48% da variabilidade das vendas de café. Tanto o intercepto quanto o parâmetro relativo ao número de atendentes são significativos para o modelo (p-valor=0.0001).O plote dos resíduos de Student indica que a 1a observação do arquivo está num range suspeito. O plote dos resíduos sugere a necessidade de um termo quadrático. No teste de normalidade obtido com a PROC UNIVARIATE, há indicação de normalidade dos resíduos. Um termo quadrático deve ser considerado nas análises. C) REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Source DF Model Error C Total 2 11 13 Root MSE Dep Mean C.V. Sum of Squares Mean Square F Value Prob>F 214249.72406 4959.78522 219209.50929 107124.86203 450.88957 237.586 0.0001 21.23416 706.49286 3.00557 R-square Adj R-sq 0.9774 0.9733 Parameter Estimates Variable DF INTERCEP NO_AT NUM2 1 1 1 Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| 507.641529 12.65833646 40.103 0.0001 72.191126 9.12139574 7.914 0.0001 -3.151289 1.27247482 -2.477 0.0308 REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES Dep Var Predict Treinamento Sistema – SAS Std Err Std Err 84 Student Prof. Luis Felipe Lopes Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 VENDAS 729.1 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9 Value Predict Residual Residual Residual 789.8 576.7 507.6 858.6 789.8 639.4 507.6 827.3 746.0 576.7 827.3 858.6 639.4 746.0 8.026 8.244 12.658 12.829 8.026 8.319 12.658 8.026 9.248 8.244 8.026 12.829 8.319 9.248 -60.7149 -8.4814 0.4585 -3.8663 -2.2149 12.2814 -9.2415 14.0581 9.3146 0.6186 4.4581 12.8337 17.5814 12.9146 19.659 19.569 17.049 16.921 19.659 19.537 17.049 19.659 19.114 19.569 19.659 16.921 19.537 19.114 -3.088 -0.433 0.027 -0.228 -0.113 0.629 -0.542 0.715 0.487 0.032 0.227 0.758 0.900 0.676 Cook's D -2-1-0 1 2 |******| | | | | | | | | | |* | *| | |* | | | | | | | |* | |* | |* | | | | | | | | | | | | | | Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press) Treinamento Sistema – SAS 0.530 0.011 0.000 0.010 0.001 0.024 0.054 0.028 0.019 0.000 0.003 0.110 0.049 0.036 0 4959.7852 7100.0421 85 Prof. Luis Felipe Lopes REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----20 + + | * | | * * * | | * | 10 + * + | | | * | | | 0 + * * + | * | | * | | * | -10 + * + | | | | | | -20 + + | | | | | | -30 + + | | | | | | -40 + + | | | | | | -50 + + | | | | | | -60 + * + ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO Univariate Procedure Variable=RESID2 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 14 0 19.53259 -2.52959 4959.785 . 0 14 2 18.5 0.714683 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 14 0 381.5219 7.77964 4959.785 5.220303 1.0000 9 0.4240 0.2676 0.0004 Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 17.58138 12.83375 2.538376 -3.86625 -60.7149 99% 95% 90% 10% 5% 1% 17.58138 17.58138 14.05812 -9.24153 -60.7149 -60.7149 78.29631 16.7 Treinamento Sistema – SAS 86 Prof. Luis Felipe Lopes Mode -60.7149 Extremes Lowest -60.7149( -9.24153( -8.48137( -3.86625( -2.21494( Obs 1) 7) 2) 4) 5) Highest 12.28138( 12.83375( 12.91459( 14.05812( 17.58138( Obs 6) 12) 14) 8) 13) COMENTÁRIO: No ajuste quadrático observa-se que a soma dos quadrados devido ao erro da regressão diminuiu relativamente à regressão linear, e o R-square aumentou para 97.74%. Todos os parâmetros relativos ao ajuste quadrático são significativos para o modelo ao nível de 5%. Os resíduos indicam aleatoriedade (alternância homogênea de pontos positivos e negativos). Com o plote dos resíduos de Student, pode-se verificar a existência de um ponto fora do padrão. Para verificar a qualidade do ajuste, indica-se o teste para a normalidade dos resíduos. Ao nível de α = 5% de significância, Prob<W=0.0004<α, indicando a não normalidade dos resíduos. Considerando a 1a observação como um 'outlier', ela pode estar influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta observação. D) REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS Model: MODEL1 Dependent Variable: VENDAS Analysis of Variance Sum of Squares Source DF Model Error C Total 2 218000.01432 10 659.09799 12 218659.11231 Root MSE Dep Mean C.V. 8.11849 704.75385 1.15196 Treinamento Sistema – SAS Mean Square 109000.00716 65.90980 R-square Adj R-sq 87 F Value Prob>F 1653.775 0.0001 0.9970 0.9964 Prof. Luis Felipe Lopes Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP NO_AT NUM2 1 1 1 502.811932 79.780492 -4.071212 4.87646962 3.61173750 0.49965821 103.110 22.089 -8.148 0.0001 0.0001 0.0001 REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS Obs Dep Var VENDAS Predict Value Std Err Predict Residual Std Err Residual Student Residual 1 2 3 4 5 6 7 8 9 10 11 12 13 568.2 508.1 854.7 787.6 651.7 498.4 841.4 755.3 577.3 831.8 871.4 657.0 758.9 578.5 502.8 861.8 799.9 646.1 502.8 834.9 756.8 578.5 834.9 861.8 646.1 756.8 3.160 4.876 4.921 3.314 3.286 4.876 3.209 3.781 3.160 3.209 4.921 3.286 3.781 -10.3212 5.2881 -7.0860 -12.3341 5.6119 -4.4119 6.4688 -1.4945 -1.2212 -3.1312 9.6140 10.9119 2.1055 7.478 6.491 6.457 7.411 7.424 6.491 7.457 7.184 7.478 7.457 6.457 7.424 7.184 -1.380 0.815 -1.097 -1.664 0.756 -0.680 0.867 -0.208 -0.163 -0.420 1.489 1.470 0.293 Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 Cook's D -2-1-0 1 2 | | | | | | | | | | | | | **| |* **| ***| |* *| |* | | | |** |** | | | | | | | | | | | | | | Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press) Treinamento Sistema – SAS 0.113 0.125 0.233 0.185 0.037 0.087 0.046 0.004 0.002 0.011 0.429 0.141 0.008 0 659.0980 1140.4168 88 Prof. Luis Felipe Lopes REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS RESIDUAL ------+-------+-------+-------+-------+-------+-------+-------+-----| | 15 + + | | | | | * | 10 + + | * | | * | | * | 5 + * + | | | * | | | 0 + + | * * | | * | | * | -5 + + | | | * | | | -10 + * + | * | | | | | -15 + + | | ------+-------+-------+-------+-------+-------+-------+-------+-----0 1 2 3 4 5 6 7 NO_AT TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS Univariate Procedure Variable=RESID3 Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 13 0 7.411129 -0.1599 659.098 . 0 13 -0.5 0.5 0.965059 Treinamento Sistema – SAS Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr<W 89 13 0 54.92483 -1.01313 659.098 2.055477 1.0000 6 1.0000 1.0000 0.7796 Prof. Luis Felipe Lopes Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 10.91193 5.611932 -1.22121 -4.41193 -12.3341 99% 95% 90% 10% 5% 1% 23.24602 10.02386 -12.3341 10.91193 10.91193 9.614015 -10.3212 -12.3341 -12.3341 Extremes Lowest -12.3341( -10.3212( -7.08598( -4.41193( -3.13125( Obs 4) 1) 3) 6) 10) Highest 5.288068( 5.611932( 6.46875( 9.614015( 10.91193( Obs 2) 5) 7) 11) 12) COMENTÁRIO: O coeficiente de determinação para este ajuste é de 99,70%. A soma dos quadrados devido ao erro da regressão caiu de 4959,78 para 659,09, e no teste da normalidade de resíduos o p-valor associado é Pr<W=0.77>α, indicando a normalidade dos resíduos. 2) Três testes foram aplicados para a admissão de crianças em uma escola. São eles: Inteligência, Psicomotricidade e Motivação. Os coeficientes de rendimento são guardados em uma variável chamada CR. As notas e o CR obtidos por cada criança são mostrados a seguir. Criar um arquivo TESTE.SAS para resolver este problema. QI 80 75 71 71 71 65 60 60 59 57 65 PSICO 36 35 34 33 30 35 20 25 31 31 35 MOTIVA 10 10 9 9 10 9 7 7 9 9 9 CR 10 10 9 9 8 7 7 7 7 7 8 A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem importância significativa no processo de seleção da escola? Use a PROC CORR para verificar o grau de associação de cada teste com o coeficiente de rendimento dos alunos. Treinamento Sistema – SAS 90 Prof. Luis Felipe Lopes B) A variável CR depende das notas obtidas pelas crianças nos três testes. Supondo que o CR vai linearmente de acordo com as notas, testar pela análise da variância, a significância da equação de regressão. Primeiramente ajuste um modelo de regressão múltipla aos dados e, passo a passo, identifique as variáveis mais significativas para o modelo. OPTIONS FORMDLIM='*' LS=80; DATA TESTE A; INPUT QI PSICO MOTIVA CR @@; CARDS; 80 36 10 10 75 35 10 10 71 34 9 9 71 33 9 9 71 30 10 8 65 35 9 7 60 20 7 7 60 25 7 7 59 31 9 7 57 31 9 7 65 35 9 8 ; /* #############( A )################## */ PROC CORR; VAR QI PSICO MOTIVA; WITH CR; TITLE 'ANALISE DE CORRELACAO'; RUN; /* #############( B.1 )################ */ PROC REG; MODEL CR = QI PSICO MOTIVA; OUTPUT OUT=RESID1 R=RESIDUAL; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'ANALISE DE REGRESSAO MULTIPLA'; RUN; /* #############( B.2 )################ */ PROC REG; MODEL CR = QI /NOINT; OUTPUT OUT=RESID2 R=RESIDUAL; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'ANALISE DE REGRESSAO MULTIPLA'; PROC UNIVARIATE NORMAL PLOT; VAR RESIDUAL; TITLE 'ANALISE DOS RESIDUOS'; RUN; A) ANALISE DE CORRELACAO Correlation Analysis 3 'VAR' 1 'WITH' Variables: CR Variables: QI PSICO MOTIVA Simple Statistics Variable CR QI PSICO MOTIVA N Mean Std Dev Sum Minimum Maximum 11 8.09091 11 66.72727 11 31.36364 11 8.90909 1.22103 7.41742 4.92489 1.04447 89.00000 734.00000 345.00000 98.00000 7.00000 57.00000 20.00000 7.00000 10.00000 80.00000 36.00000 10.00000 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11 CR QI PSICO MOTIVA 0.93048 0.0001 0.59261 0.0547 0.63442 0.0360 COMENTÁRIO: Treinamento Sistema – SAS 91 Prof. Luis Felipe Lopes QI é um fator significativamente importante dentro do processo de seleção dos alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < α, para níveis de 1%, 5% e 10%. O p-valor associado ao teste de correlação nula para PSICO supera os níveis usuais de significância, evidenciando a hipótese nula, ou seja, a correlação é baixa entre a variável PSICO e o CR do aluno. Ao nível de 1% de significância há evidência de H0. Já aos níveis de 5% e 10% há indicações que a verdadeira correlação entre CR e MOTIVA difere de zero. B.1) ANALISE DE REGRESSAO MULTIPLA Model: MODEL1 Dependent Variable: CR Analysis of Variance Source DF Sum of Squares Mean Square F Value Prob>F Model Error C Total 3 7 10 12.97836 1.93073 14.90909 4.32612 0.27582 15.685 0.0017 Root MSE Dep Mean C.V. 0.52518 8.09091 6.49104 R-square Adj R-sq 0.8705 0.8150 Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP QI PSICO MOTIVA 1 1 1 1 -2.009199 0.151679 0.030064 -0.108196 1.61813951 0.03066149 0.05964986 0.30874764 -1.242 4.947 0.504 -0.350 0.2543 0.0017 0.6297 0.7363 Treinamento Sistema – SAS 92 Prof. Luis Felipe Lopes ANALISE DE REGRESSAO MULTIPLA RESIDUAL ------+------+------+------+------+------+------+------+------+-----0.8 + + | | | * | | | 0.6 + + | | | | 0.4 + * + | | | * | 0.2 + * + | * | | * * | | | 0.0 + + | * | | * | | | -0.2+ + | | | | | | -0.4+ + | | | | | * | -0.6+ + | | | | | | -0.8+ + | | | * | | | -1.0+ + ------+------+------+------+------+------+------+------+------+-----6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5 Predicted Value of CR PRED COMENTÁRIO: O modelo obtido para CR, com a Regressão Múltipla é dados por: CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA Pode-se notar que o erro padrão relativo à estimativa do parâmetro de QI é bem pequeno (Standard Error=0.03). Este modelo explica 87% da variação de CR. Como Prob>F=0.0017 é 'fechado' em zero, há evidências da hipótese nula, isto é, ao menos 1 parâmetro do modelo deve ser diferente de zero. O p-valor para o intercepto, PSICO e MOTIVA são altos, havendo grandes chances dos parâmetros relativos à estas variáveis serem iguais a zero. Já o parâmetro relativo à variável QI (pvalor = 0.0015), existe forte evidência que seja significativamente diferente de zero. Podemos testar portanto, um novo modelo de regressão, porém sem o intercepto e apenas com a variável QI. A rotina (B.2) desempenham esta tarefa. ANALISE DE REGRESSAO MULTIPLA Model: MODEL1 NOTE: No intercept in model. R-square is redefined. Treinamento Sistema – SAS 93 Prof. Luis Felipe Lopes Dependent Variable: CR Analysis of Variance Source DF Sum of Squares Mean Square F Value Prob>F Model Error U Total 1 10 11 732.44486 2.55514 735.00000 732.44486 0.25551 2866.554 0.0001 Root MSE Dep Mean C.V. 0.50548 8.09091 6.24755 R-square Adj R-sq 0.9965 0.9962 Parameter Estimates DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| 1 0.121608 0.00227134 53.540 0.0001 Treinamento Sistema – SAS 94 Variable QI Prof. Luis Felipe Lopes ANALISE DE REGRESSAO MULTIPLA RESIDUAL ----+----+----+----+----+----+----+----+----+----+----+----+----+---| | 1.0 + + | | | * | 0.8 + + | | | | 0.6 + + | | | | 0.4 + + | * | | * | 0.2 + + | * | | * | 0.0 + + | | | * | -0.2+ + | | | * | -0.4+ + | | | | -0.6+ + | * | | | -0.8+ + | | | * | -1.0+ + | | ----+----+----+----+----+----+----+----+----+----+----+----+----+---6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75 Predicted Value of CR PRED ANALISE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank W:Normal 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 11 Sum Wgts 11 0 Sum 0 0.4394 Variance 0.193073 -0.89363 Kurtosis 1.147284 1.930728 CSS 1.930728 . Std Mean 0.132484 0 Pr>|T| 1.0000 11 Num > 0 7 1.5 Pr>=|M| 0.5488 5 Pr>=|S| 0.7002 0.925844 Pr<W 0.3534 Quantiles(Def=5) 0.663001 0.221649 0.071596 -0.12546 -0.9284 99% 95% 90% 10% 5% 1% 1.591405 0.347107 -0.9284 0.663001 0.663001 0.405283 -0.57997 -0.9284 -0.9284 Extremes Lowest -0.9284( Treinamento Sistema – SAS Obs Highest 6) 0.101925( 95 Obs 9) Prof. Luis Felipe Lopes -0.57997( -0.12546( -0.08576( 0.064553( Stem 6 4 2 0 -0 -2 -4 -6 -8 5) 0.191585( 1) 0.221649( 8) 0.405283( 7) 0.663001( Leaf 6 1 2 6709 39 # 1 1 1 4 2 8 1 3) 4) 10) 2) Boxplot | | +-----+ *--+--* +-----+ | | 3 1 0 ----+----+----+----+ Multiply Stem.Leaf by 10**-1 ANALISE DOS RESIDUOS Univariate Procedure Variable=RESIDUAL Residual Normal Probability Plot 0.7+ ++*++ | +*++ | ++*++ | * *+*++* -0.1+ * *++++ | +++++ | ++*+ | +++++ -0.9+ ++++ * +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2 COMENTÁRIO: A regressão linear de CR em função unicamente do QI da criança é bem significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do CR. O gráfico do resíduos apresenta uma alternância de sinais positivos e negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste: A hipótese de normalidade não deve ser rejeitada, pois Prob<W=0.35 é alto. O valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [1.26, 1.26], confirmando a hipótese testada. 3) Um proprietário está interessado em analisar o efeito de seu ar condicionado na sua conta de luz. Para isto ele tem registrado o número de horas de utilização do ar nos últimos 21 dias. Ele tem monitorado o relógio de eletricidade para estes dias e computado a quantidade de eletricidade consumida, Killowat/Hora. Finalmente ele registrou o número de vezes que sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros abaixo, relativos ao consumo de eletricidade do proprietário. CONSUMO 35 63 66 17 94 Treinamento Sistema – SAS NO_HORA S 1,5 4,5 5,0 2,0 8,5 96 USO_SEC 1 2 2 0 3 Prof. Luis Felipe Lopes 79 93 66 94 82 78 65 77 75 62 85 43 57 33 65 33 6,0 13,5 8,0 12,5 7,5 6,5 8,0 7,5 9,0 7,5 12,0 6,0 2,5 5,0 7,5 6,0 3 1 1 1 2 3 1 2 2 1 1 0 3 0 1 0 Pede-se: A) Obter um plot do Consumo X Número de Horas ar para verificar o efeito que o ar condicionado tem no consumo de eletricidade. B) Use a PROC CORR para obter o coeficiente de correlação entre o consumo e o tempo de utilização do ar. C) Para verificar a forma de relacionamento entre as duas variáveis acima descritas utilize a análise de regressão fazendo o ajuste de uma reta através dos pontos obtidos no plot do item A. D) Suponha que o proprietário queira predizer o consumo em um dia que o ar seja usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo quando o Número de Horas ar = 8 Treinamento Sistema – SAS 97 Prof. Luis Felipe Lopes E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de utilização de ar varia num range de 45 a 85 KWH, dependendo de outros fatores que possam afetar o consumo naquele dia . O proprietário pode colocar limites de confiança para um determinado valor predito, como o encontrado no Item D. Estes limites fornecem um range provável para ocorrência do no. de KWH consumido em um determinado dia. Com a PROC REG riste os valores preditos do consumo e os respectivos limites de predição . F) Para melhor visualização gráfica do ajuste, obter um plot que contenha os valores do no. de horas de utilização do ar, os valores preditos e os limites de predição a 95% de confiança para o consumo. (Utilize a opção overlay com o comando plot da PROC REG para que os plotes saiam no mesmo gráfico). G) O proprietário também registrou o no. de vezes que sua secadora foi utilizada a cada dia . Esta variável pode ser utilizada em adição ao no. de horas de ar para predizer o valor do consumo de eletricidade ? Use a PROC REG para ajustar um modelo de regressão múltipla para os dados acima. OPTIONS FORMDLIM='*' LS=80; DATA ENERGIA A; INPUT CONSUMO NO_HORAS USO_SEC @@; CARDS; 35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0 94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1 94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1 77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1 43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1 33 6.0 0 ; /* #############( A )################## */ PROC PLOT; PLOT CONSUMO*NO_HORAS; TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS'; RUN; /* #############( B )################## */ PROC CORR; VAR CONSUMO; WITH NO_HORAS; TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS'; RUN; /* #############( C-E )############### */ PROC REG; MODEL CONSUMO=NO_HORAS; ID NO_HORAS; VAR USO_SEC; PLOT RESIDUAL.*PREDICTED.='*'; TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS'; PRINT CLI; TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO'; RUN; /* #############( F )################## */ PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_' L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY; TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA'; RUN; Treinamento Sistema – SAS 98 Prof. Luis Felipe Lopes /* #############( G )################## */ PROC REG; MODEL CONSUMO=NO_HORAS USO_SEC; TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA'; RUN; A) DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS Plot of CONSUMO*NO_HORAS. Legend: A = 1 obs, B = 2 obs, etc. CONSUMO | | 95 + A A 93 + A 91 + 89 + 87 + 85 + A 83 + A 81 + 79 + A A 77 + A 75 + A 73 + 71 + 69 + 67 + A A 65 + A A 63 + A A 61 + 59 + 57 + A 55 + 53 + 51 + 49 + 47 + 45 + 43 + A 41 + 39 + 37 + 35 + A 33 + A A 31 + 29 + 27 + 25 + 23 + 21 + 19 + 17 + A | -+--------+--------+--------+---------+---------+---------+---------+ 0 2 4 6 8 10 12 14 NO_HORAS Treinamento Sistema – SAS 99 Prof. Luis Felipe Lopes COMENTÁRIO: O plote mostra uma tendência crescente entre as variáveis. B) ANALISE DE CORRELACAO CONSUMO E NO HORAS Correlation Analysis 1 'WITH' Variables: NO_HORAS 1 'VAR' Variables: CONSUMO Simple Statistics Variable NO_HORAS CONSUMO N Mean Std Dev Sum Minimum Maximum 21 21 6.92857 64.85714 3.13562 21.88444 145.50000 1362 1.50000 17.00000 13.50000 94.00000 Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21 CONSUMO NO_HORAS 0.76528 0.0001 COMENTÁRIO: O valor do Coef. Corr. Pearson=0.765 reflete a tendência crescente mostrada no plote, ou seja, quando há um aumento do uso do ar, há aumento no consumo de energia. C) LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO Model: MODEL1 Dependent Variable: CONSUMO Analysis of Variance Source Model Error C Total Root MSE Dep Mean C.V. DF 1 19 20 Sum of Squares 5609.66260 3968.90883 9578.57143 14.45303 64.85714 22.28440 Treinamento Sistema – SAS Mean Square 5609.66260 208.88994 R-square Adj R-sq 100 F Value 26.855 Prob>F 0.0001 0.5856 0.5638 Prof. Luis Felipe Lopes Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP NO_HORAS 1 1 27.851072 5.341082 7.80653827 1.03067009 3.568 5.182 0.0021 0.0001 LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO RESIDUAL -+----+----+----+----+----+----+----+----+----+----+----+----+----+-| | 30 + + | | | | | | | * | 20 + + | * | | * * | | * | | * * | 10 + + | * | | | | * | | | 0 + * + | * * | | * | | * * | | * * | -10 + + | | | | | * | -20 + + | * * | | | | * | -30 + + | | -+----+----+----+----+----+----+----+----+----+----+----+----+----+-35 40 45 50 55 60 65 70 75 80 85 90 95 100 Predicted Value of CONSUMO PRED COMENTÁRIO: O modelo de regressão obtido é dado por: CONSUMO = 27.85 + 5.341 NO_HORAS E pode ser interpretado como: Quando NO_HORAS = 0, há um nível de consumo mínimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento estimado do consumo é de 5.341 kwh. Treinamento Sistema – SAS 101 Prof. Luis Felipe Lopes D) Os dados do arquivo contém 3 observações com N0_HORAS = 8, cujos valores correspondentes para CONSUMO são 66, 65 e 75. Isso mostra a existência de um faixa de possíveis valores de CONSUMO para um dado valor de NO_HORAS. No modelo de regressão estimado, para o valor de NO_HORAS = 8: CONSUMO = 27.85 - 5.34 * 8 = 70,57. E) LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO Obs NO_HORAS Dep Var CONSUMO Predict Value Std Err Predict Lower95% Predict Upper95% Predict Residual 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 1.5 4.5 5 2 8.5 6 13.5 8 12.5 7.5 6.5 8 7.5 8 7.5 12 6 2.5 5 7.5 6 35.0000 63.0000 66.0000 17.0000 94.0000 79.0000 93.0000 66.0000 94.0000 82.0000 78.0000 65.0000 77.0000 75.0000 62.0000 85.0000 43.0000 57.0000 33.0000 65.0000 33.0000 35.8627 51.8859 54.5565 38.5332 73.2503 59.8976 99.9557 70.5797 94.6146 67.9092 62.5681 70.5797 67.9092 70.5797 67.9092 91.9441 59.8976 41.2038 54.5565 67.9092 59.8976 6.423 4.026 3.728 5.979 3.545 3.296 7.471 3.342 6.551 3.208 3.185 3.342 3.208 3.342 3.208 6.105 3.296 5.548 3.728 3.208 3.296 2.7597 20.4834 23.3158 5.7963 42.1028 28.8704 65.9024 39.5312 61.4013 36.9223 31.5919 39.5312 36.9223 39.5312 36.9223 59.1057 28.8704 8.8010 23.3158 36.9223 28.8704 68.9657 83.2884 85.7971 71.2702 104.4 90.9247 134.0 101.6 127.8 98.8961 93.5443 101.6 98.8961 101.6 98.8961 124.8 90.9247 73.6065 85.7971 98.8961 90.9247 -0.8627 11.1141 11.4435 -21.5332 20.7497 19.1024 -6.9557 -4.5797 -0.6146 14.0908 15.4319 -5.5797 9.0908 4.4203 -5.9092 -6.9441 -16.8976 15.7962 -21.5565 -2.9092 -26.8976 Sum of Residuals Sum of Squared Residuals Predicted Resid SS (Press) 0 3968.9088 4728.5664 COMENTÁRIO: O intervalo de confiança para os valores preditos de AC é dado por: IC NO_HORAS = [ NO_HORAS ± ( ttab * S) ] Para α = 0.05 (α/2 = 0.025 ), o valor da estatística t consultado na Tabela de uma Distribuição T de Student é: t (1-α/2, 19) = t (0.975, 19) = 2.09 Treinamento Sistema – SAS 102 Prof. Luis Felipe Lopes Logo: IC NO_HORAS = [ NO_HORAS ± ( 2.09 * 1.03 ) ] F) LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA CONSUMO --+----+---+---+----+----+----+----+----+----+----+----+----+----+--140 + + | U | | | | U | | U | | | 20 + + | | | | | | | U | | U | 100 + U _ + | | | U O ? O | | U _ | | | | U O | | U O | 80 + O + | O O | | U O _ | | U _ | | U _ | | O O O L | | O _ O | 60 + _ L L + | O | | _ | | _ | | | | O L | 40 + _ L + | _ _ L | | O O O | | L | | L | | | | L | 20 + L + | O | | | | L | | L | | L | 0 + + --+----+---+---+----+----+----+----+----+----+----+----+----+----+--1 2 3 4 5 6 7 8 9 10 11 12 13 14 NO_HORAS COMENTÁRIO: Pode-se observar que todos os pontos reais e previstos estão dentro dos limites de predição. G) REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA Model: MODEL1 Treinamento Sistema – SAS 103 Prof. Luis Felipe Lopes Dependent Variable: CONSUMO Analysis of Variance Source DF Sum of Squares Mean Square F Value Prob>F Model Error C Total 2 18 20 9299.80154 278.76989 9578.57143 4649.90077 15.48722 300.241 0.0001 Root MSE Dep Mean C.V. 3.93538 64.85714 6.06777 R-square Adj R-sq 0.9709 0.9677 Parameter Estimates Variable DF Parameter Estimate Standard Error T for H0: Parameter=0 Prob > |T| INTERCEP NO_HORAS USO_SEC 1 1 1 8.105385 5.465903 13.216600 2.48085116 0.28075519 0.85621937 3.267 19.469 15.436 0.0043 0.0001 0.0001 COMENTÁRIO: Observa-se que: SS(Erro) múltipla = 278.76 < SS (Erro) simples O modelo: CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC representa 97% da variabilidade do consumo de energia. O valor de 8,10 representa o número de kwh consumido num dia onde nem o ar e nem a secadora são utilizados. O valor de 5,466 é a estimativa de energia consumida para cada hora de uso do ar, e 13,217 representa a estimativa de energia consumida a cada vez que a secadora é ligada. 4) Uma droga que mistura estimulante e relaxante é administrada em 15 animais. taxa de pulsação é medida antes e depois da administração da droga. O propósito do experimento é determinar se existe uma mudança na taxa de pulsação com o uso da droga. Os dados são apresentados abaixo: Treinamento Sistema – SAS 104 Prof. Luis Felipe Lopes ANTES 62 63 58 64 64 51 68 66 65 66 67 69 61 64 61 63 DEPOIS 61 62 51 61 63 58 61 64 64 62 68 65 60 65 63 62 OPTIONS FORMDLIM='*' LS=80; DATA APT A; INPUT ANIMAL ANTES DEPOIS @@; DIF=DEPOIS-ANTES; CARDS; 1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61 7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60 13 64 65 14 61 63 15 63 62 ; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA'; RUN; TESTE PARA DIFERENCAS DE OBS. PAREADA Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 15 -1.4 3.521363 0.508266 203 -251.526 -1.53979 15 -3.5 -29.5 Treinamento Sistema – SAS Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 105 15 -21 12.4 1.407817 173.6 0.909212 0.1459 4 0.1185 0.0984 Prof. Luis Felipe Lopes Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min 7 1 -1 -4 -7 Range Q3-Q1 Mode 14 5 -1 Lowest -7( -7( -4( -4( -3( Obs 6) 3) 11) 9) 4) 99% 95% 90% 10% 5% 1% 7 7 2 -7 -7 -7 Extremes Highest -1( 1( 1( 2( 7( Obs 15) 10) 13) 14) 5) Como Prob>|T|=0.0285<0.05. ao nível de 5% de significância há evidências que a diferença média da taxa de pulsação com a utilização de droga difere de zero. 5) Um aparelho é utilizado para testar a durabilidade de lâmpadas submetidas a diversas tensões. O aparelho consta de oito soquetes ligados em paralelo e de um reostato ligado em série com um gerador e oito soquetes. Oito lâmpadas da marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas condições , fornecendo as seguintes durações, em horas: SOQUETE Marca A Marca B 1 35 23 2 26 28 3 40 31 4 35 35 5 31 36 6 49 30 7 38 27 8 24 26 Pode-se concordar, a um nível de significância de 1%, com os fabricantes da marca A, que suas lâmpadas tem durabilidade diferente das apresentadas pela marca B ? OPTIONS FORMDLIM='*' LS=80; DATA LAMP A; INPUT MARCA $ TEMPO @@; CARDS; A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35 A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26 ; PROC TTEST; CLASS MARCA; VAR TEMPO; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN; Treinamento Sistema – SAS 106 Prof. Luis Felipe Lopes TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: TEMPO MARCA N Mean Std Dev Std Error Minimum Maximum ------------------------------------------------------------------------A 8 34.75000000 7.99553447 2.82684832 24.00000000 49.00000000 B 8 29.50000000 4.44007722 1.56980436 23.00000000 36.00000000 Variances T DF Prob>|T| --------------------------------------Unequal 1.6236 10.9 0.1329 Equal 1.6236 14.0 0.1267 For H0: Variances are equal, F' = 3.24 DF = (7,7) Prob>F' = 0.1434 COMENTÁRIO: As variâncias não são significativamente diferentes ao nível de 10% de significância, pois Prob>F’=0.1434>α. No teste de igualdade de médias, na linha (Variances=Equal), ao nível de 1%, como foi estipulado no enunciado, não há diferença significativa entre as médias, uma vez que Prob>|T|=0.1265>(α=0.01). 6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e fabricante, foram testados em iguais condições, quanto ao consumo de combustível em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Desejase saber se os carros produzidos nos anos I e II tem o mesmo consumo ao nível de 10% de significância. Consumo (km/l) Ano I Ano II 13.01 12.99 13.00 13.06 12.95 12.98 12.97 13.14 13.01 13.14 12.93 12.94 12.96 12.97 12.94 OPTIONS FORMDLIM='*' LS=80; DATA CONSUMO A; INPUT ANO $ CONSUMO @@; CARDS; I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96 I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14 ; PROC TTEST; CLASS ANO; VAR CONSUMO; TITLE 'TESTE PARA IGUALDADE DE MEDIAS'; RUN; Treinamento Sistema – SAS 107 Prof. Luis Felipe Lopes TESTE PARA IGUALDADE DE MEDIAS TTEST PROCEDURE Variable: CONSUMO ANO N Mean Std Dev Std Error Minimum Maximum -----------------------------------------------------------------------I 10 12.96800000 0.02973961 0.00940449 12.93000000 13.01000000 II 5 13.06200000 0.07758866 0.03469870 12.98000000 13.14000000 Variances T DF Prob>|T| --------------------------------------Unequal -2.6147 4.6 0.0521 Equal -3.4569 13.0 0.0043 For H0: Variances are equal, F' = 6.81 DF = (4,9) Prob>F' = 0.0166 COMENTÁRIO: As variâncias diferem significativamente ao nível de 10% de significância, pois Prob>F’=0.0166<α. No teste de igualdade de médias, na linha (Variances=Equal), há indicação que o nível médio de consumo dos carros produzidos nos anos I e II são diferentes ao nível de 10% de significância, Prob>|T|=0.052<(α= 0.10). 7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de crescimento devido à exposição de luz permanente. O crescimento em termos de diâmetro médio da cultura foi medido antes e após o período de exposição permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados obtidos nas 10 culturas durante o período. Ao nível de 2.5% pode-se afirmar que a luz permanente contribui para o crescimento das culturas de fungo? Obter um gráfico da distribuição dos valores da variável DIF=DEPOISANTES. DIAMETRO MÉDIO (CM) CULTURA 1 2 3 4 5 6 7 8 9 10 Treinamento Sistema – SAS ANTES 6,4 7.0 6.6 5.6 6.0 7.5 7.0 5.8 6.3 6.7 108 DEPOIS 6.4 7.1 6.8 5.6 6.1 7.4 7.1 5.9 6.4 6.8 Prof. Luis Felipe Lopes OPTIONS FORMDLIM='*' LS=80; DATA FUNGO A; INPUT CULTURA ANTES DEPOIS @@; DIF=DEPOIS-ANTES; CARDS; 1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1 6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8 ; PROC UNIVARIATE; VAR DIF; TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS'; RUN; PROC CHART; VBAR DIF; TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS'; RUN; TESTE PARA DIFERENCA DE OBS. PAREADAS Univariate Procedure Variable=DIF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ^= 0 M(Sign) Sgn Rank 10 0.07 0.082327 -0.80646 0.11 117.6104 2.688774 8 3 12 Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| 10 0.7 0.006778 1.236995 0.061 0.026034 0.0248 7 0.0703 0.1094 Quantiles(Def=5) 100% 75% 50% 25% 0% Max Q3 Med Q1 Min Range Q3-Q1 Mode 0.2 0.1 0.1 0 -0.1 99% 95% 90% 10% 5% 1% 0.2 0.2 0.15 -0.05 -0.1 -0.1 0.3 0.1 0.1 Extremes Lowest -0.1( 0( 0( 0.1( 0.1( Treinamento Sistema – SAS Obs 6) 4) 1) 10) 7) Highest 0.1( 0.1( 0.1( 0.1( 0.2( 109 Obs 7) 10) 8) 9) 3) Prof. Luis Felipe Lopes GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS Frequency 6 + ***** | ***** | ***** 5 + ***** | ***** | ***** 4 + ***** | ***** | ***** 3 + ***** | ***** | ***** 2 + ***** ***** | ***** ***** | ***** ***** | ***** ***** | ***** ***** 1 + ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** | ***** ***** ***** ***** --------------------------------------------------------0.1 0.0 0.1 0.2 DIF Midpoint COMANTÁRIO: Como o p-valor=0.0248<0.05, há evidências de que a diferença média do diâmetro da cultura com a exposição de luz é significativamente diferente de zero, ou seja, a luz contribui para o crescimento das culturas. No plote das diferenças, observa-se que a mais alta freqüência ocorre para valores superiores a 0.05. 8) INSTITUTO DE PESQUISAS E EXPERIMENTAÇÃO AGROPECUÁRIAS DO SUL MODELOS DE ANÁLISE ESTATÍSTICA DE EXPERIMENTOS EXPERIMENTOS EM QUADRADO LATINO Produção de Grãos Secos em Gramas por Parcela de 5m3 F 1 I 2 L 3 A 4 5 1 2 1400 (4) 1235 (2) 1545 (1) 1305 (3) 1293 (5) 1207 (3) 1515 (1) 1212 (5) 1295 (2) 1322 (4) C O L U N A 3 4 1125 (2) 1137 (5) 1100 (4) 1065 (1) 1118 (3) 1335 (1) 1163 (4) 885 (3) 1110 (5) 1012 (2) 5 1350 (5) 1090 (3) 1206 (2) 1000 (4) 1303 (1) Faça uma análise de variância com os dados acima: (PROC ANOVA) OPTIONS FORMDLIM='*' LS=80; DATA GRAO A; Treinamento Sistema – SAS 110 Prof. Luis Felipe Lopes INPUT FILA COL VARIED PROD @@; CARDS; 1 1 4 1400 1 2 3 1207 1 3 2 1125 2 1 2 1235 2 2 1 1515 2 3 5 1137 3 1 1 1545 3 2 5 1212 3 3 4 1100 4 1 3 1305 4 2 2 1295 4 3 1 1065 5 1 5 1293 5 2 4 1322 5 3 3 1118 ; PROC ANOVA; CLASS FILA COL VARIED; MODEL PROD=FILA COL VARIED; TITLE 'ANALISE DE VARIANCIA'; RUN; 1 2 3 4 5 4 4 4 4 4 1 4 3 5 2 1335 1163 885 1110 1012 1 2 3 4 5 5 5 5 5 5 5 3 2 4 1 1350 1090 1206 1000 1303 ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class Levels Values FILA 5 1 2 3 4 5 COL 5 1 2 3 4 5 VARIED 5 1 2 3 4 5 Number of observations in data set = 25 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: PROD Source DF Sum of Squares Mean Square F Value Pr > F Model 12 462611.92000 38550.99333 3.60 0.0175 Error 12 128386.72000 10698.89333 Corrected Total 24 590998.64000 R-Square C.V. Root MSE PROD Mean 0.782763 8.526399 103.43545 1213.1200 DF Anova SS Mean Square F Value Pr > F 4 4 4 45521.04000 268403.84000 148687.04000 11380.26000 67100.96000 37171.76000 1.06 6.27 3.47 0.4161 0.0058 0.0418 Source FILA COL VARIED COMENTÁRIO: Hipótese Testada: Não há diferença significativa no nivel médio de produção devido aos fatores fila (FILA), coluna (COL) e variedade (VARIED) do grão plantado Pr>F (FILA) = 0.4161 > (α=0.05) Pr>F (COL) = 0.0058 < (α=0.05) Pr>F (VARIED) = 0.0418 < (α=0.05) Ao nível de 5% o efeito coluna (COL) e variedade (VARIED) do grão são significativos no nível médio de produção. Treinamento Sistema – SAS 111 Prof. Luis Felipe Lopes 9) Deseja-se determinar se há diferença significativa no percurso por galão obtido com quatro tipos de gasolina A, B, C, D. O expediente é realizado com quatro carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes. C A R R O S 1 2 3 4 M O T O R I S T A S 1 2 3 4 B3 19 A2 16 D4 16 C1 14 A4 15 B1 18 C3 11 D2 15 D1 14 C4 11 B2 21 A3 16 C2 16 D3 16 A1 15 B4 23 TIPOS DE ESTRADA = 1 2 3 4 TIPOS DE GASOLINA = A B C D Faça uma análise de variância com os dados acima: (PROC ANOVA) OPTIONS FORMDLIM='*' LS=80; DATA GAS A; INPUT MOTOR CARRO GAS $ ESTR PERC @@; CARDS; 1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C 2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D 3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A 4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B ; PROC ANOVA; CLASS MOTOR CARRO GAS ESTR; MODEL PERC=MOTOR CARRO GAS ESTR; TITLE 'ANALISE DE VARIANCIA'; RUN; Treinamento Sistema – SAS 1 2 3 4 14 15 16 23 112 Prof. Luis Felipe Lopes ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class Levels Values MOTOR 4 1 2 3 4 CARRO 4 1 2 3 4 GAS 4 A B C D ESTR 4 1 2 3 4 Number of observations in data set = 16 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: PERC Source DF Sum of Squares Mean Square F Value Pr > F Model 12 142.00000000 11.83333333 5.92 0.0848 Error 3 6.00000000 2.00000000 Corrected Total 15 148.00000000 R-Square C.V. Root MSE PERC Mean 0.959459 8.838835 1.4142136 16.000000 Source DF Anova SS Mean Square F Value Pr > F MOTOR CARRO GAS ESTR 3 3 3 3 16.50000000 6.50000000 111.50000000 7.50000000 5.50000000 2.16666667 37.16666667 2.50000000 2.75 1.08 18.58 1.25 0.2141 0.4745 0.0193 0.4294 COMENTÁRIO: Hipótese Testada: Não há diferença significativa no percurso por galão devido aos diferentes tipos de gasolina. Pr>F (MOTOR) = 0.2141 > (α=0.05) Pr>F (CARRO) = 0.4745 > (α=0.05) Treinamento Sistema – SAS Pr>F (GAS) = 0.0193 < (α=0.05) Pr>F (ESTR) = 0.4294 > (α=0.05) 113 Prof. Luis Felipe Lopes Ao nível de 1% nenhum efeito é significativo no percurso de gasolina por galão. Já ao nível de 5% há diferença significativa no percurso médio por galão devido ao tipo de gasolina utilizada. 10) O exercício a seguir consiste na avaliação de três planos de vendas com cupons publicados nos jornais. Foi planejado um experimento com 3 tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1 as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os tratamentos são as vendas realizadas no dia imediato da publicação dos cupons nos jornais da cidade. Os resultados estão abaixo: TRATAMENTOS Tamanho Loja Plano Cupom 1 Plano Cupom 2 Plano Cupom 3 Total 1 2 3 4 Total 20 18 15 11 64 17 14 13 8 62 14 10 7 5 36 51 42 35 24 152 BLOCO = Tamanho da Loja TRATAMENTO = Plano Faça uma análise de variância com os dados acima: (PROC GLM) OPTIONS FORMDLIM='*' LS=80; DATA PLANO A; INPUT LOJA $ PLANO $ N_VENDAS @@; CARDS; T1 P1 20 T1 P2 17 T1 P3 14 T2 P1 18 T2 P2 14 T2 P3 10 T3 P1 15 T3 P2 13 T3 P3 7 T4 P1 11 T4 P2 8 T4 P3 5 ; PROC GLM; CLASS LOJA PLANO; MODEL N_VENDAS=LOJA PLANO; TITLE 'ANALISE DE VARIANCIA'; RUN; ANALISE DE VARIANCIA General Linear Models Procedure Class Level Information Class Levels Values LOJA 4 T1 T2 T3 T4 PLANO 3 P1 P2 P3 Number of observations in data set = 12 Treinamento Sistema – SAS 114 Prof. Luis Felipe Lopes ************************************************************************* ANALISE DE VARIANCIA General Linear Models Procedure Dependent Variable: N_VENDAS Sum of Source DF Squares Mean Square F Value Pr > F 68.60 0.0001 Model 5 228.66666667 45.73333333 Error 6 4.00000000 0.66666667 Corrected Total 11 232.66666667 R-Square C.V. Root MSE N_VENDAS Mean 0.982808 6.446026 0.8164966 12.666667 Source DF Type I SS Mean Square F Value Pr > F LOJA PLANO 3 2 130.00000000 98.66666667 43.33333333 49.33333333 65.00 74.00 0.0001 0.0001 Source DF Type III SS Mean Square F Value Pr > F LOJA PLANO 3 2 130.00000000 98.66666667 43.33333333 49.33333333 65.00 74.00 0.0001 0.0001 COMENTÁRIO: Hipótese Testada: Não há diferença significativa no volume de vendas nos diferentes tamanhos de loja. Pr>F (LOJA) = 0.0001 < (α=0.01) Pr>F (PLANO) = 0.0001 < (α=0.01) O baixo valor de Pr>F indica baixa probabilidade da hipótese testada ser verdadeira, ou seja, aos níveis usuais de significância (α=1%), tanto o fator tamanho da loja como o plano de vendas apresentam efeitos ponderáveis sobre o volume das vendas. ( Exercícios 11 e 12 - Ref. F. Pimentel Gomes ) 11) Experimento Completamente Casualizado. Considere um experimento de competição de cultivares de cana-de-açúcar, completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repetições, com os seguintes resultados, em t/ha. Treinamento Sistema – SAS 115 Prof. Luis Felipe Lopes CULTIVARES Repetições 1 2 3 4 5 6 A 54 40 51 36 50 48 B 60 55 66 61 54 61 C 59 47 44 49 62 60 D 45 33 34 48 42 44 Obtenha a tabela de Análise da Variância para estes dados e compare as médias dos tratamentos, duas à duas, utilizando para isso o Teste de Tukev no comando MEANS da PROC ANOVA. OPTIONS FORMDLIM='*' LS=80; DATA CANA A; INPUT CULTIV $ ALTURA @@; CARDS; A 54 B 60 C 59 D 45 A 40 B 55 C 47 D 33 A 51 B 66 C 44 D 34 A 36 B 61 C 49 D 48 A 50 B 54 C 62 D 42 A 48 B 61 C 60 D 44 ; PROC ANOVA; CLASS CULTIV; MODEL ALTURA=CULTIV; MEANS CULTIV /TUKEY; TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO'; RUN; EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Class Level Information Class CULTIV Levels 4 Values A B C D Number of observations in data set = 24 ************************************************************************* EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Dependent Variable: ALTURA Source DF Sum of Squares Mean Square F Value Pr > F Model 3 1174.1250000 391.3750000 9.47 0.0004 Error 20 826.5000000 41.3250000 Corrected Total 23 2000.6250000 R-Square C.V. Root MSE ALTURA Mean 0.586879 12.82484 6.4284524 50.125000 Source DF Anova SS Mean Square F Value Pr > F CULTIV 3 1174.1250000 391.3750000 9.47 0.0004 ************************************************************************* Treinamento Sistema – SAS 116 Prof. Luis Felipe Lopes EXPERIMENTO COMPLETAMENTE CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: ALTURA NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 20 MSE= 41.325 Critical Value of Studentized Range= 3.958 Minimum Significant Difference= 10.388 Means with the same letter are not significantly different. Tukey Grouping Mean N CULTIV A A A 59.500 6 B 53.500 6 C C C C 46.500 6 A 41.000 6 D B B B COMENTÁRIO: Analisando o R-Square observa-se que 58.69% da variação do modelo é explicado pela diferença entre os cultivares. O p-valor dado por Pr>F=0.0004 é bem menor que o nível de significância de 10%, donde se conclui que a média das alturas é significativamente diferente para os diferentes tipos de cultivares. Esta análise pode ser vista também pelo Teste de Tukey. A média global (ALTURA Mean) das alturas é 50.125. O coeficiente de variação (C V) das alturas é 12.825 Treinamento Sistema – SAS 117 Prof. Luis Felipe Lopes 12) Experimento com blocos casualizados. Num experimento de competição de n=7 cultivares de milho, em r=4 blocos casualizados, as produções, em km/ha, foram as da tabela abaixo: Cultivares 1 2 3 4 5 6 7 Bloco 1 1920 3110 3260 2540 2270 3000 3310 Bloco 2 2340 3700 3990 2190 2800 3110 3420 Bloco 3 2100 3640 3420 2010 2820 3000 3640 Bloco 4 1920 3570 3510 2230 2710 3800 230 A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Análise de Variância ao nível de 5% para testar se são iguais as médias dos 7 tratamentos. Compare estas médias par a par. B) Analise os dados considerando que tenha sido perdido o cultivar número 7 C) Analise os dados considerando apenas os 3 primeiros blocos OPTIONS FORMDLIM='*' LS=80; DATA MILHO A; INPUT BLOCO CULTIV PROD @@; CARDS; 1 1 1920 2 1 2340 3 1 2100 4 1 1920 1 2 3110 2 2 3700 3 2 3640 4 2 3570 1 3 3260 2 3 3990 3 3 3420 4 3 3510 1 4 2540 2 4 2190 3 4 2010 4 4 2230 1 5 2270 2 5 2800 3 5 2820 4 5 2710 1 6 3000 2 6 3110 3 6 3000 4 6 3800 1 7 3310 2 7 3420 3 7 3640 4 7 2630 ; /* ############( A )############### */; PROC ANOVA; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO'; RUN; /* ############( B )############### */; PROC ANOVA; WHERE CULTIV NE 7; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7'; RUN; /* ############( C )############### */; PROC ANOVA; WHERE BLOCO NE 4; CLASS CULTIV BLOCO; MODEL PROD=CULTIV BLOCO; MEANS CULTIV BLOCO /TUKEY; TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4'; RUN; A) EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Class Level Information Treinamento Sistema – SAS 118 Prof. Luis Felipe Lopes Class Levels Values CULTIV 7 1 2 3 4 5 6 7 BLOCO 4 1 2 3 4 Number of observations in data set = 28 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Dependent Variable: PROD Source DF Sum of Squares Mean Square F Value Pr > F Model 9 9093421.4286 1010380.1587 10.97 0.0001 Error 18 1658350.0000 92130.5556 Corrected Total 27 10751771.4286 R-Square C.V. Root MSE PROD Mean 0.845760 10.36950 303.53016 2927.1429 Source DF Anova SS Mean Square F Value Pr > F CULTIV BLOCO 6 3 8761421.4286 332000.0000 1460236.9048 110666.6667 15.85 1.20 0.0001 0.3377 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 18 MSE= 92130.56 Critical Value of Studentized Range= 4.673 Minimum Significant Difference= 709.22 Treinamento Sistema – SAS 119 Prof. Luis Felipe Lopes Means with the same letter are not significantly different. Tukey Grouping Mean N CULTIV A A A A A A A 3545.0 4 3 3505.0 4 2 3250.0 4 7 3227.5 4 6 C C C C C 2650.0 4 5 2242.5 4 4 2070.0 4 1 B B B B B ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 18 MSE= 92130.56 Critical Value of Studentized Range= 3.997 Minimum Significant Difference= 458.55 Means with the same letter are not significantly different. Tukey Grouping Mean N BLOCO A A A A A A A 3078.6 7 2 2947.1 7 3 2910.0 7 4 2772.9 7 1 COMENTÁRIO: Analisando o R-Square observa-se que 84.58% da variação do modelo é explicado pela diferença entre os cultivares. O p-valor para a variável CULTIV (Pr>F=0.0001) é bem menor que o nível de significância de 10%, donde se conclui que a média da produção (PROD) é significativamente diferente para os diferentes tipos de cultivares. Esta análise pode ser vista também pelo Teste de Tukey. O p-valor para a variável BLOCO (Pr>F=0.3377) é maior o nível de significância de 10%, donde se conclui que a média da produção (PROD) não é significativamente diferente para os diferentes tipos de blocos. Esta análise pode ser vista também pelo Teste de Tukey. A média global (ALTURA Mean) da produção é 2927.14. O coeficiente de variação (C V) da produção é 10.37%. B) EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Treinamento Sistema – SAS 120 Prof. Luis Felipe Lopes Analysis of Variance Procedure Class Level Information Class Levels Values CULTIV 6 1 2 3 4 5 6 BLOCO 4 1 2 3 4 Number of observations in data set = 24 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Analysis of Variance Procedure Dependent Variable: PROD Source DF Sum of Squares Mean Square F Value Pr > F Model 8 8675683.3333 1084460.4167 15.94 0.0001 Error 15 1020650.0000 68043.3333 Corrected Total 23 9696333.3333 R-Square C.V. Root MSE PROD Mean 0.894739 9.078347 260.85117 2873.3333 Source DF Anova SS Mean Square F Value Pr > F CULTIV BLOCO 5 3 8274983.3333 400700.0000 1654996.6667 133566.6667 24.32 1.96 0.0001 0.1629 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 15 MSE= 68043.33 Critical Value of Studentized Range= 4.595 Minimum Significant Difference= 599.27 Means with the same letter are not significantly different. Tukey Grouping Mean N CULTIV A A A A A 3545.0 4 3 3505.0 4 2 3227.5 4 6 C C C C C 2650.0 4 5 2242.5 4 4 2070.0 4 1 B B B ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7 Treinamento Sistema – SAS 121 Prof. Luis Felipe Lopes Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 15 MSE= 68043.33 Critical Value of Studentized Range= 4.076 Minimum Significant Difference= 434.06 Means with the same letter are not significantly different. Tukey Grouping Mean N BLOCO A A A A A A A 3021.7 6 2 2956.7 6 4 2831.7 6 3 2683.3 6 1 COMENTÁRIO: Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58% para 89.47%. O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a variável BLOCO (Pr>F=0.1629) diminuiu, mas não significativamente. A média global (ALTURA Mean) da produção diminuiu para 2873.33. O coeficiente de variação (C V) da produção diminuiu para 9.078%. C) EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Class Level Information Class Levels Values CULTIV 7 1 2 3 4 5 6 7 BLOCO 3 1 2 3 Number of observations in data set = 21 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Dependent Variable: PROD Source DF Sum of Squares Mean Square F Value Pr > F Model 8 6931152.3810 866394.0476 15.53 0.0001 Error 12 669276.1905 55773.0159 Corrected Total 20 7600428.5714 Treinamento Sistema – SAS 122 Prof. Luis Felipe Lopes R-Square C.V. Root MSE PROD Mean 0.911942 8.052322 236.16311 2932.8571 Source DF Anova SS Mean Square F Value Pr > F CULTIV BLOCO 6 2 6601895.2381 329257.1429 1100315.8730 164628.5714 19.73 2.95 0.0001 0.0907 ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 12 MSE= 55773.02 Critical Value of Studentized Range= 4.949 Minimum Significant Difference= 674.85 Means with the same letter are not significantly different. Tukey Grouping Mean N CULTIV A A A A A A A 3556.7 3 3 3483.3 3 2 3456.7 3 7 3036.7 3 6 C C C C C 2630.0 3 5 2246.7 3 4 2120.0 3 1 B B B ************************************************************************* EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4 Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PROD NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 12 MSE= 55773.02 Critical Value of Studentized Range= 3.773 Minimum Significant Difference= 336.76 Means with the same letter are not significantly different. Tukey Grouping Mean N BLOCO A A A A A 3078.6 7 2 2947.1 7 3 2772.9 7 1 COMENTÁRIO: Treinamento Sistema – SAS 123 Prof. Luis Felipe Lopes Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58% para 91.19%. O p-valor para a variável CULTIV (Pr>F=0.0001) continuou o mesmo e para a variável BLOCO (Pr>F=0.0907) diminuiu significativamente (α<10%), o que significa que a média da produção (PROD) é significativamente diferente para os diferentes tipos de BLOCOS. A média global (ALTURA Mean) da produção aumentou para 2932.85. O coeficiente de variação (C V) da produção diminuiu para 8.05%. 13) As variáveis BLOCO e TRAT representam os fatores. As variáveis CAMPO1 e CAMPO2 representam as respostas do experimento, Use o comando MODEL para obter uma análise de variância para cada uma das variáveis dependentes CAMPO1 e CAMPO2.Use α = 5 e 10%. B L O C O S 1 2 3 T R A T A M E N T O S A B C 32.6 36.4 29.5 112 130 106 42.7 47.1 32.9 139 143 112 35.3 40.1 33.6 124 134 116 OPTIONS FORMDLIM='*' LS=80; DATA CAMPO A; INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@; CARDS; 1 A 32.6 112 1 B 36.4 130 1 C 29.5 106 2 A 42.7 139 2 B 47.1 143 2 C 32.9 112 3 A 35.3 124 3 B 40.1 134 3 C 33.6 116 ; PROC ANOVA; CLASS BLOCO TRAT; MODEL CAMPO1 CAMPO2=BLOCO TRAT; TITLE 'ANALISE DE VARIANCIA'; RUN; ANALISE DE VARIANCIA Analysis of Variance Procedure Class Level Information Class Levels Values BLOCO 3 1 2 3 TRAT 3 A B C Number of observations in data set = 9 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: CAMPO1 Treinamento Sistema – SAS 124 Prof. Luis Felipe Lopes Source DF Sum of Squares Mean Square F Value Pr > F Model 4 225.27777778 56.31944444 8.94 0.0283 Error 4 25.19111111 6.29777778 Corrected Total 8 250.46888889 R-Square C.V. Root MSE CAMPO1 Mean 0.899424 6.840047 2.5095374 36.688889 Source DF Anova SS Mean Square F Value Pr > F BLOCO TRAT 2 2 98.17555556 127.10222222 49.08777778 63.55111111 7.79 10.09 0.0417 0.0274 ************************************************************************* ANALISE DE VARIANCIA Analysis of Variance Procedure Dependent Variable: CAMPO2 Source DF Sum of Squares Mean Square F Value Pr > F Model 4 1247.3333333 311.8333333 8.28 0.0323 Error 4 150.6666667 37.6666667 Corrected Total 8 1398.0000000 R-Square C.V. Root MSE CAMPO2 Mean 0.892227 4.949450 6.1373175 124.00000 Source DF Anova SS Mean Square F Value Pr > F BLOCO TRAT 2 2 354.66666667 892.66666667 177.33333333 446.33333333 4.71 11.85 0.0889 0.0209 COMENTÁRIO: CAMPO1 Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variação do modelo é explicado pela diferença entre os blocos e entre os tratamentos. O p-valor para a variável BLOCO (Pr>F=0.0417) é menor que os níveis de significância 5 e 10%, donde se conclui que a média do CAMPO1 é significativamente diferente para os diferentes tipos de blocos. O p-valor para a variável TRAT (Pr>F=0.0274) é menor que os níveis de significância 5 e 10%, donde se conclui que a média do CAMPO1 é significativamente diferente para os diferentes tipos de tratamentos. A média global (CAMPO1 Mean) do CAMPO1 é 124.0. O coeficiente de variação (C V) do CAMPO1 é 6.84%. CAMPO2 Treinamento Sistema – SAS 125 Prof. Luis Felipe Lopes Analisando o R-Square (CAMPO2) observa-se que 89.22% da variação do modelo é explicado pela diferença entre os blocos e entre os tratamentos. O p-valor para a variável BLOCO (Pr>F=0.0889) é maior que os nivel de significância 5%, donde se conclui que a média do CAMPO2 não é significativamente diferente para os diferentes tipos de blocos, mas isso acontece para α=10%. O p-valor para a variável TRAT (Pr>F=0.0209) é menor que os níveis de significância 5 e 10%, donde se conclui que a média do CAMPO2 é significativamente diferente para os diferentes tipos de tratamentos. A média global (CAMPO2 Mean) do CAMPO2 é 36.689. O coeficiente de variação (C V) do CAMPO2 é 4.95%. Treinamento Sistema – SAS 126 Prof. Luis Felipe Lopes 13 EXEMPLO PRÁTICO 13.1 Banco de Dados GRUPO IDADE A A A A A A A A A A A A A B B B B B B B B B B B B B B B B 11,9 11,1 12,5 11,8 11,8 11,8 11,9 11,9 11,1 11,1 11,1 12,2 12,4 12,2 12,1 11,1 11,9 11,8 11,8 11,7 11,6 11,6 11,8 11,9 11,9 11,1 11,1 12,1 12,2 PAS_INI PAD_INI PAS_FIM PAD_FIM PESO ESTAT 120 110 110 120 110 130 120 90 120 80 110 130 90 100 100 120 100 110 100 100 110 140 110 120 130 110 130 110 110 80 60 60 60 70 90 70 60 80 50 60 70 50 80 50 70 60 70 70 60 70 90 70 90 90 80 70 80 80 120 130 120 160 130 170 140 150 150 160 160 150 150 150 140 140 150 120 160 160 120 130 120 130 130 140 140 120 130 70 70 60 60 80 100 80 100 100 80 90 40 90 90 90 80 70 80 100 90 50 70 50 70 60 80 60 30 40 40,0 42,0 40,4 46,5 49,0 53,6 49,0 43,5 43,3 53,8 45,0 55,2 52,1 31,6 36,4 37,5 45,4 37,1 55,5 39,0 41,2 31,2 33,3 32,4 47,2 52,0 43,6 41,7 34,7 154,5 155,5 148,4 160,8 166,0 157,0 159,0 154,0 156,3 157,3 164,7 157,2 167,3 155,0 158,9 147,2 156,1 152,0 161,5 152,0 141,0 155,3 163,5 158,0 152,0 147,0 153,0 158,0 154,0 Treinamento Sistema – SAS 127 Prof. Luis Felipe Lopes 13.2 Análise dos dados TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK ---------------------------------- GRUPO=A -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.874563 Pr<W 0.0586 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Univariate Procedure Variable=PAS_IN W:Normal 0.888869 Pr<W 0.0920 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_IN W:Normal 0.918092 Pr<W 0.2279 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_FI W:Normal 0.920703 Pr<W 0.2466 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAS_FI W:Normal 0.930316 Pr<W 0.3279 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PESO W:Normal 0.932284 Pr<W 0.3471 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=ESTAT W:Normal 0.946241 Pr<W 0.5094 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Treinamento Sistema – SAS 128 Prof. Luis Felipe Lopes ---------------------------------- GRUPO=B -----------------------------------Univariate Procedure Variable=IDADE W:Normal 0.878959 Pr<W 0.0375 Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05) Teste de Shapiro-Wilk Variable=PAS_IN W:Normal Moments 0.859048 Pr<W 0.0181 Análise: Esta variável NÃO segue uma distribuição Normal (p < 0,05) Teste de Shapiro-Wilk Variable=PAD_IN W:Normal 0.92103 Pr<W 0.1767 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PAD_FI W:Normal 0.902441 Pr<W 0.0893 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk W:Normal 0.959803 Pr<W 0.6350 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=PESO W:Normal 0.935181 Pr<W 0.2925 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Variable=ESTAT W:Normal 0.966555 Pr<W 0.7506 Análise: Esta variável segue uma distribuição Normal (p > 0,05) Teste de Shapiro-Wilk Treinamento Sistema – SAS 129 Prof. Luis Felipe Lopes Conclusão do Teste de Normalidade As variáveis que deverão ser analisadas por uma Análise de variância (para os dois grupos as variáveis estão normalizadas) são: PAD_IN PAS_FI PAD_FI PESO ESTAT FCREP FLEX As demais deverão ser analisadas por Testes Não Paramétricos (Teste de Kruskal-Wallis) para variáveis independentes. IDADE PAS_IN ******************************************************************************* ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS Analysis of Variance Procedure Class Level Information Class Levels GRUPO 2 Values A B Number of observations in data set = 29 ANALISE DE VARIANCIA - DADOS Analysis of Variance Procedure Dependent Variable: PAD_IN Sum of Squares Source DF Model 1 413.85941645 Error 27 3682.69230769 Corrected Total 28 4096.55172414 GRUPO Mean Square 413.85941645 F Value Pr > F 3.03 0.0929 136.39601140 R-Square C.V. Root MSE PAD_IN Mean 0.101026 16.60232 11.678870 70.344828 1 413.85941645 413.85941645 3.03 0.0929 ******************************************************************************* Analysis of Variance Procedure Dependent Variable: PAS_FI Source DF Sum of Squares Mean Square F Value Pr > F Model 1 592.19164456 592.19164456 1.62 0.2138 Error 27 9862.98076923 365.29558405 Corrected Total 28 10455.17241379 R-Square C.V. Root MSE PAS_FI Mean 0.056641 26.02200 19.112707 73.448276 Treinamento Sistema – SAS 130 Prof. Luis Felipe Lopes Source DF Anova SS Mean Square F Value Pr > F GRUPO 1 592.19164456 592.19164456 1.62 0.2138 ******************************************************************************* Analysis of Variance Procedure Dependent Variable: PAD_FI Source DF Sum of Squares Mean Square F Value Pr > F Model 1 598.47480106 598.47480106 2.74 0.1095 Error 27 5898.07692308 218.44729345 Corrected Total 28 6496.55172414 R-Square C.V. Root MSE PAD_FI Mean 0.092122 10.53118 14.779963 140.34483 Source DF Anova SS Mean Square F Value Pr > F GRUPO 1 598.47480106 598.47480106 2.74 0.1095 ****************************************************************************** ANALISE DE VARIANCIA - DADOS PARAMÉTRICOS Analysis of Variance Procedure Dependent Variable: PESO Source DF Sum of Squares Mean Square F Value Pr > F Model 1 371.52005968 371.52005968 8.89 0.0060 Error 27 1128.25442308 41.78720085 Corrected Total 28 1499.77448276 R-Square C.V. Root MSE PESO Mean 0.247717 14.95889 6.4643020 43.213793 Source DF Anova SS Mean Square F Value Pr > F GRUPO 1 371.52005968 371.52005968 8.89 0.0060 ******************************************************************************* Analysis of Variance Procedure Dependent Variable: ESTAT Source DF Sum of Squares Mean Square F Value Pr > F Model 1 131.16880802 131.16880802 4.31 0.0475 Error 27 821.50360577 30.42605947 Corrected Total 28 952.67241379 R-Square C.V. Root MSE ESTAT Mean 0.137685 3.537059 5.5159822 155.94828 Treinamento Sistema – SAS 131 Prof. Luis Felipe Lopes Source DF Anova SS Mean Square F Value Pr > F GRUPO 1 131.16880802 131.16880802 4.31 0.0475 ******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAD_IN NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 136.396 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 8.948 Means with the same letter are not significantly different. Duncan Grouping Mean N GRUPO A A A 73.750 16 B 66.154 13 A ******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping Mean N GRUPO A A A 73.750 16 B 66.154 13 A ******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PAD_IN NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 136.396 Critical Value of F= 4.21001 Minimum Significant Difference= 8.9477 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Treinamento Sistema – SAS Mean 132 N GRUPO Prof. Luis Felipe Lopes A A A 73.750 16 B 66.154 13 A ******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAS_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 365.2956 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 14.64 Means with the same letter are not significantly different. Duncan Grouping Mean N GRUPO A A A 78.462 13 A 69.375 16 B ******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping Mean N GRUPO A A A 78.462 13 A 69.375 16 B ******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PAS_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 365.2956 Critical Value of F= 4.21001 Minimum Significant Difference= 14.643 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Treinamento Sistema – SAS Mean 133 N GRUPO Prof. Luis Felipe Lopes A A A 78.462 13 A 69.375 16 B ******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PAD_FI NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 218.4473 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 11.32 Means with the same letter are not significantly different. Duncan Grouping Mean N GRUPO A A A 145.385 13 A 136.250 16 B ******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping Mean N GRUPO A A A 145.385 13 A 136.250 16 B ******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PAD_FI NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 218.4473 Critical Value of F= 4.21001 Minimum Significant Difference= 11.324 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Treinamento Sistema – SAS 134 Prof. Luis Felipe Lopes Means with the same letter are not significantly different. Scheffe Grouping Mean N GRUPO A A A 145.385 13 A 136.250 16 B ******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: PESO NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 41.7872 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.953 Means with the same letter are not significantly different. Duncan Grouping Mean N GRUPO A 47.185 13 A B 39.988 16 B ******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: PESO NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping Mean N GRUPO A 47.185 13 A B 39.988 16 B ******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: PESO NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 27 MSE= 41.7872 Critical Value of F= 4.21001 Treinamento Sistema – SAS 135 Prof. Luis Felipe Lopes Minimum Significant Difference= 4.9526 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Mean N GRUPO A 47.185 13 A B 39.988 16 B ******************************************************************************* Analysis of Variance Procedure Duncan's Multiple Range Test for variable: ESTAT NOTE: This test controls the type I comparisonwise error rate, not the experimentwise error rate Alpha= 0.05 df= 27 MSE= 30.42606 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Number of Means 2 Critical Range 4.226 Means with the same letter are not significantly different. Duncan Grouping Mean N GRUPO A 158.308 13 A B 154.031 16 B ******************************************************************************* Analysis of Variance Procedure Tukey's Studentized Range (HSD) Test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate, but generally has a higher type II error rate than REGWQ. Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of Studentized Range= 2.902 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Tukey Grouping Mean N GRUPO A 158.308 13 A B 154.031 16 B ******************************************************************************* Analysis of Variance Procedure Scheffe's test for variable: ESTAT NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all Treinamento Sistema – SAS 136 Prof. Luis Felipe Lopes pairwise comparisons Alpha= 0.05 df= 27 MSE= 30.42606 Critical Value of F= 4.21001 Minimum Significant Difference= 4.226 WARNING: Cell sizes are not equal. Harmonic Mean of cell sizes= 14.34483 Means with the same letter are not significantly different. Scheffe Grouping Mean N GRUPO A 158.308 13 A B 154.031 16 B ******************************************************************************* N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable IDADE Classified by Variable GRUPO GRUPO Sum of Scores Std Dev Under H0 Mean Score 202.500000 195.0 22.5578621 232.500000 240.0 22.5578621 Average Scores Were Used for Ties 15.5769231 14.5312500 N A B 13 16 Expected Under H0 Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 202.500 Z = 0.310313 Prob > |Z| = 0.7563 T-Test Approx. Significance = 0.7586 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.11054 DF = 1 Prob > CHISQ = 0.7395 ******************************************************************************* TESTE NAO PARAMETRICO - WILCOXON N P A R 1 W A Y P R O C E D U R E Wilcoxon Scores (Rank Sums) for Variable PAS_IN Classified by Variable GRUPO GRUPO Sum of Scores Std Dev Under H0 Mean Score 199.0 195.0 22.1452883 236.0 240.0 22.1452883 Average Scores Were Used for Ties 15.3076923 14.7500000 N A B 13 16 Expected Under H0 Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = 199.000 Z = 0.158047 Prob > |Z| = 0.8744 T-Test Approx. Significance = 0.8756 Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 0.03263 DF = 1 Prob > CHISQ = 0.8567 ******************************************************************************* ANALISE DE CORRELAÇÃO - POR GRUPO Treinamento Sistema – SAS 137 Prof. Luis Felipe Lopes ---------------------------------- GRUPO=A -----------------------------------Correlation Analysis Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT IDADE 1.00000 0.0 0.11355 0.7119 -0.01829 0.9527 -0.29866 0.3216 -0.35359 0.2359 0.11772 0.7017 -0.09825 0.7495 PAS_IN 0.11355 0.7119 1.00000 0.0 0.78224 0.0016 -0.05119 0.8681 -0.32011 0.2863 -0.03421 0.9116 -0.14034 0.6475 PAD_IN -0.01829 0.9527 0.78224 0.0016 1.00000 0.0 -0.01332 0.9655 0.16250 0.5958 -0.03653 0.9057 -0.21510 0.4803 PAD_FI -0.29866 0.3216 -0.05119 0.8681 -0.01332 0.9655 1.00000 0.0 0.37142 0.2115 0.61683 0.0247 0.35160 0.2388 PAS_FI -0.35359 0.2359 -0.32011 0.2863 0.16250 0.5958 0.37142 0.2115 1.00000 0.0 -0.03737 0.9035 0.22572 0.4584 PESO 0.11772 0.7017 -0.03421 0.9116 -0.03653 0.9057 0.61683 0.0247 -0.03737 0.9035 1.00000 0.0 0.45355 0.1196 ESTAT -0.09825 0.7495 -0.14034 0.6475 -0.21510 0.4803 0.35160 0.2388 0.22572 0.4584 0.45355 0.1196 1.00000 0.0 ---------------------------------- GRUPO=B -----------------------------------Correlation Analysis 7 'VAR' Variables: IDADE ESTAT PAS_IN PAD_IN PAD_FI PAS_FI PESO Simple Statistics Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16 IDADE PAS_IN PAD_IN PAD_FI PAS_FI PESO ESTAT IDADE 1.00000 0.0 -0.41854 0.1066 0.02114 0.9381 -0.08451 0.7557 -0.15240 0.5731 -0.32680 0.2167 0.52205 0.0381 PAS_IN -0.41854 0.1066 1.00000 0.0 0.63341 0.0084 -0.41562 0.1094 -0.31914 0.2283 -0.16878 0.5320 -0.17507 0.5167 PAD_IN 0.02114 0.9381 0.63341 0.0084 1.00000 0.0 -0.37376 0.1538 -0.34073 0.1966 -0.12430 0.6465 -0.05596 0.8369 PAD_FI -0.08451 0.7557 -0.41562 0.1094 -0.37376 0.1538 1.00000 0.0 0.73254 0.0012 0.36355 0.1663 0.12034 0.6571 PAS_FI -0.15240 0.5731 -0.31914 0.2283 -0.34073 0.1966 0.73254 0.0012 1.00000 0.0 0.16864 0.5324 0.05036 0.8530 PESO -0.32680 0.2167 -0.16878 0.5320 -0.12430 0.6465 0.36355 0.1663 0.16864 0.5324 1.00000 0.0 -0.14503 0.5920 ESTAT 0.52205 0.0381 -0.17507 0.5167 -0.05596 0.8369 0.12034 0.6571 0.05036 0.8530 -0.14503 0.5920 1.00000 0.0 Treinamento Sistema – SAS 138 Prof. Luis Felipe Lopes REFERÊNCIAS BIBLIOGRÁFICAS BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatística Básica. São Paulo: Atual Editora. COSTA NETO, Pedro L. O. Estatística. São Paulo: Mc Graw-Hill do Brasil. FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatística. São Paulo: Ed. Atlas. FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatística Aplicada. São Paulo: Ed. Atlas. Manuais do SAS/BASIC. Vol. I e II. Manuais do SAS/STAT. STEVENSON, W.J. (1981) Estatística Aplicada à Administração. São Paulo: Ed. Harbra. VIEIRA, S.; HOFFMANN R. (1989) Estatística Experimental. São Paulo: Ed. Atlas. Treinamento Sistema – SAS 139 Prof. Luis Felipe Lopes ANEXOS Treinamento Sistema – SAS 140 Prof. Luis Felipe Lopes ANEXO 1 - ANÁLISE DE NORMALIDADE USANDO A TABELA DE ASSIMENTRIA E CURTOSE - Skewness and Kurtosis Intervalo de confiança de 95% n Skewness Kurtosis n Skewness Kurtosis 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 -1.81 -1.70 -1.57 -1.45 -1.37 -1.31 -1.26 -1.21 -1.17 -1.13 -1.09 -1.06 -1.03 -1.00 -0.98 -0.95 -0.93 -0.91 -0.89 -0.87 -0.85 -0.84 -0.82 -0.81 -0.79 -0.78 -0.77 -0.76 -0.74 -0.73 -0.72 -0.71 -0.70 . . -0.87 -0.89 -0.90 -0.92 . -0.93 . . -0.94 . . . . . -1.27 -1.25 -1.22 -1.20 -1.18 -1.16 -1.14 -1.12 -1.11 -1.09 -1.08 -1.06 -1.05 -1.04 -1.03 -1.01 -1.00 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 -0.69 -0.68 -0.67 -0.67 -0.66 -0.65 -0.64 -0.63 -0.63 -0.62 -0.61 -0.61 -0.60 -0.59 -0.59 -0.58 -0.58 -0.57 -0.57 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.53 -0.53 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 -0.99 -0.98 -0.97 -0.96 -0.95 -0.95 -0.94 -0.93 -0.92 -0.91 -0.91 -0.90 -0.89 -0.88 -0.88 -0.87 -0.87 -0.86 -0.85 -0.85 -0.84 -0.84 -0.83 -0.83 -0.82 -0.82 -0.81 -0.81 -0.80 -0.80 -0.79 -0.79 -0.78 1.81 1.70 1.57 1.45 1.37 1.31 1.26 1.21 1.17 1.13 1.09 1.06 1.03 1.00 0.98 0.95 0.93 0.91 0.89 0.87 0.85 0.84 0.82 0.81 0.79 0.78 0.77 0.76 0.74 0.73 0.72 0.71 0.70 Treinamento Sistema – SAS . . 1.54 1.68 1.79 1.85 . 1.93 . . 1.95 . . . . . 2.44 2.39 2.34 2.30 2.26 2.22 2.18 2.15 2.12 2.08 2.05 2.03 2.00 1.97 1.94 1.92 1.90 141 0.69 0.68 0.67 0.67 0.66 0.65 0.64 0.63 0.63 0.62 0.61 0.61 0.60 0.59 0.59 0.58 0.58 0.57 0.57 0.56 0.56 0.55 0.55 0.54 0.54 0.53 0.53 0.52 0.52 0.51 0.51 0.51 0.50 1.87 1.85 1.83 1.81 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.66 1.64 1.63 1.61 1.60 1.58 1.57 1.56 1.54 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.45 1.43 1.42 1.41 1.40 1.39 Prof. Luis Felipe Lopes n Skewness Kurtosis n Skewness Kurtosis 71 72 73 74 75 76 77 78 79 80 81 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 100 101 102 103 105 107 108 109 -0.50 -0.50 -0.49 -0.49 -0.48 -0.48 -0.48 -0.47 -0.47 -0.47 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.41 -0.40 -0.40 -0.40 -0.40 -0.78 -0.78 -0.77 -0.77 -0.76 -0.76 -0.76 -0.75 -0.75 -0.75 -0.74 -0.74 -0.73 -0.73 -0.73 -0.72 -0.72 -0.72 -0.71 -0.71 -0.71 -0.70 -0.70 -0.70 -0.70 -0.69 -0.69 -0.69 -0.68 -0.68 -0.68 -0.67 -0.67 -0.67 -0.66 110 111 112 113 114 115 117 118 119 121 123 125 127128 129 130 132 133 134 135 137 140 143 146 148 149 152 155 156 158 159 161 164 165 -0.39 -0.39 -0.39 -0.39 -0.39 -0.38 -0.38 -0.38 -0.38 -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.35 -0.35 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.33 -0.32 -0.32 -0.32 -0.32 -0.32 -0.31 -0.66 -0.66 -0.66 -0.65 -0.65 -0.65 -0.65 -0.64 -0.64 -0.64 -0.63 -0.63 -0.63 -0.62 -0.62 -0.62 -0.62 -0.62 -0.61 -0.61 -0.61 -0.60 -0.60 -0.59 -0.59 -0.59 -0.5 -0.58 -0.58 -0.58 -0.57 -0.57 -0.57 -0.57 0.50 0.50 0.49 0.49 0.48 0.48 0.48 0.47 0.47 0.47 0.46 0.46 0.46 0.45 0.45 0.45 0.44 0.44 0.44 0.44 0.43 0.43 0.43 0.43 0.42 0.42 0.42 0.41 0.41 0.41 0.41 0.40 0.40 0.40 0.40 Treinamento Sistema – SAS 1.38 1.37 1.36 1.35 1.35 1.34 1.33 1.32 1.31 1.30 1.29 1.28 1.27 1.26 1.26 1.25 1.24 1.23 1.23 1.22 1.21 1.21 1.20 1.19 1.19 1.18 1.17 1.16 1.16 1.15 1.14 1.13 1.12 1.12 1.11 142 0.39 0.39 0.39 0.39 0.39 0.38 0.38 0.38 0.38 0.37 0.37 0.37 0.36 0.36 0.36 0.36 0.36 0 35 0 35 0 35 0 35 0 34 0 34 0 34 0 33 0 33 0 33 0 33 0 32 0 32 0 32 0.32 0.32 0.31 1.11 1.10 1.09 1.09 1.08 1.08 1.07 1.07 1.06 1.05 1.04 1.03 1.02 1.02 1.01 1.01 1.00 1.00 1.00 0.99 0.98 0.97 0.96 0.95 0.95 0.94 0.93 0.92 0.92 0.91 0.91 0.90 0.89 0.89 Prof. Luis Felipe Lopes n Skewness Kurtosis n Skewness Kurtosis 167 168 171 175 179 183 186 187 191 192 196 198 200 201 205 210 211 212 215 220 222 225 231 234 237 241 243 246 249 255 258 260 262 -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 -0.27 -0.27 -0.26 -0.26 -0.26 -0.26 -0.25 -0.25 -0.25 -0.25 -0.25 -0.24 -0.24 -0.24 -0.56 -0.56 -0.56 -0.55 -0.55 -0.54 -0.54 -0.54 -0.54 -0.53 -0.53 -0.53 -0.53 -0.52 -0.52 -0.52 -0.52 -0.51 -0.51 -0.51 -0.50 -0.50 -0.50 -0.49 -0.49 -0.49 -0.49 -0.48 -0.48 -0.48 -0.48 -0.47 -0.47 269 274 277 278 284 289 292 300 301 306 309 318 323 325 328 338 342 348 354 359 363 371 383 385 386 396 409 410 423 436 438 454 464 -0.24 -0.24 -0.24 -0.23 -0.23 -0.23 -0.23 -0.22 -0.22 -0.22 -0.22 -0.22 -0.22 -0.21 -0.21 -0.21 -0.21 -0.21 -0.20 -0.20 -0.20 -0.20 -0.20 -0.20 -0.19 -0.19 -0.19 -0.19 -0.18 -0.18 -0.18 -0.18 -0.18 -0.47 -0.46 -0.46 -0.46 -0.46 -0.45 -0.45 -0.45 -0.45 -0.44 -0.44 -0.44 -0.43 -0.43 -0.43 -0.43 -0.42 -0.42 -0.42 -0.42 -0.41 -0.41 -0.41 -0.40 -0.43 -0.40 -0.40 -0.39 -0.39 -0.38 -0.38 -0.38 -0.37 0.31 0.31 0.31 0.30 0.30 0.30 0.29 0.29 0.29 0.29 0.29 0.28 0.28 0.28 0.28 0.28 0.27 0.27 0.27 0.27 0.27 0.26 0.26 0.26 0.26 0.25 0.25 0.25 0.25 0.25 0.24 0.24 0.24 Treinamento Sistema – SAS 0.89 0.88 0.87 0.86 0.85 0.84 0.84 0.83 0.82 0.82 0.81 0.81 0.80 0.80 0.79 G.78 0.78 0.78 0.77 0.76 0.76 0.75 0.74 0.74 0.73 0.73 0.72 0.72 0.71 0.70 0.70 0.70 0.69 143 0.24 0.24 0.24 0.23 0.23 0.23 0.23 0.22 0.22 0.22 0.22 0.22 0.22 0.21 0.21 0.21 0.21 0.21 0.20 0.20 0.20 0.20 0.20 0.20 0.19 0.19 0.19 0.19 0.18 0.18 0.18 0.18 0.18 0.68 0.68 0.67 0.67 0.66 0.66 0.65 0.65 0.64 0.64 0.63 0.62 0.62 0.62 0.61 0.60 0.60 0.59 0.59 0.58 0.58 0.57 0.56 0.56 0.56 0.55 0.54 0.54 0.53 0.53 0.52 0.51 0.51 Prof. Luis Felipe Lopes n 466 470 488 495 506 516 526 529 547 566 569 575 593 607 618 645 652 674 701 705 730 738 755 774 812 816 833 853 883 898 947 958 961 1000 Skewness Kurtosis -0.17 -0.17 -0.17 -0.17 -0.17 -0.16 -0.16 -0.16 -0.16 -0.16 -0.16 -0.15 -0.15 -0.15 -0.15 -0.14 -0.14 -0.14 -0.14 -0.14 -0.13 -0.13 -0.13 -0.13 -0.13 -0.13 -0.12 -0.12 -0.12 -0.12 -0.12 -0.12 -0.11 -0.11 -0.37 -0.37 -0.37 -0.36 -0.36 -0.36 -0.36 -0.35 -0.35 -0.34 -0.34 -0.34 -0.34 -0.33 -0.33 -0.33 -0.32 -0.32 -0.31 -0.31 -0.31 -0.31 -0.30 -0.30 -0.30 -0.29 -0.29 -0.29 -0.28 -0.28 -0.28 -0.27 -0.27 -0.27 0.17 0.17 0.17 0.17 0.17 0.16 0.16 0.16 0.16 0.16 0.16 0.15 0.15 0.15 0.15 0.14 0.14 0.14 0.14 0.14 0.13 0.13 0.13 0.13 0.13 0.13 0.12 0.12 0.12 0.12 0.12 0.12 0.11 0.11 Treinamento Sistema – SAS 0.51 0.50 0.49 0.49 0.48 0.48 0.47 0.47 0.46 0.46 0.45 0.45 0.44 0.44 0.43 0.42 0.42 0.41 0.41 0.40 0.40 0.39 0.39 0.38 0.37 0.37 0.37 0.36 0.36 0.35 0.34 0.34 0.34 0.33 144 Prof. Luis Felipe Lopes