Introduzir princípios teóricos e metodológicos sobre Avaliação de Programas ou Políticas Públicas. CAPÍTULO I – Apresentando o Cenário Avaliação pressupõe um julgamento de mérito. Em uma avaliação, um determinado fenômeno (uma pessoa, um objeto, uma ideia) é examinado e ponderado em relação a um padrão implícito ou explícito. Trataremos da avaliação de um tipo particular de fenômeno: programas e políticas elaborados com o propósito de produzir melhorias para muitas pessoas. Os avaliadores utilizam métodos de pesquisa em ciências sociais com o propósito de deixar o processo de julgamento mais sistemático e preciso. Avaliação é um julgamento sistemático das operações e/ou dos resultados de um programa ou política, comparado com um conjunto de padrões explícitos ou implícitos, como um meio de contribuir para o aperfeiçoamento desse programa ou política. Padrões: Metas, expectativas, contextos ou situações desejáveis. A avaliação proporciona-nos um rigor que é especialmente importante quando: a) os resultados a serem avaliados são complexos, difíceis de observar, constituídos de muitos elementos reagindo de diversas formas; b) as decisões a serem tomadas são importantes e caras; e c) é preciso ter evidências para convencer outras pessoas sobre a validade das conclusões. A avaliação não deve se deter somente em resultados de curto prazo; é necessário focalizar resultados de longo prazo. As questões sobre avaliação tratam não somente dos resultados, mas também dos processos dos programas – o que está acontecendo à medida que os programas vão se desenrolando. Os financiadores da avaliação desejam saber o que está se passando. Verificar a que se referem os resultados do programa. Associar resultados a elementos específicos do programa. A Diferença: destaca-se o atraso Na década de 1960, nos EUA, a “Guerra contra a Pobreza” inaugura o início das Avaliações em Larga Escala com patrocínio governamental; a avaliação se estendeu para outras áreas, como educação, meio ambiente, saúde, etc. Na década de 1990, no Brasil, inicia-se a avaliação educacional em larga escala com o Sistema de Avaliação da Educação Básica (SAEB). Semelhanças: Descrever, relacionar e identificar as causas de certas variáveis; Diferenças: Origem em programas ou políticas reais; Utilidade prática imediata; Estabelecimento de ações; Implica em Conflito de Papéis (julgar mérito, trabalho); Pouca ênfase em publicações; Compromissos com financiadores, com o aprimoramento das políticas, e com o desenvolvimento da profissão. CAPÍTULO II – As Finalidades da Avaliação Entidades filantrópicas; Assembléias legislativas estaduais; Campo do desenvolvimento internacional; Organizações diversas como escolas, ONGs, etc.; Gerentes de um projeto; Financiadores; Diretores; Funcionários e clientes de organizações avaliadas; CONFLITOS! Avaliações podem ser utilizadas subterfúgios para: Adiamento de decisões; Desvio de Responsabilidades; Legitimação de Decisões (“Vitrine”); Relações públicas: justificar a existência. como Passar em Pontos: seleção de apenas aspectos positivos; Passar em Branco: encobrir uma falha do programa, ignorando resultados ou evitando efetiva avaliação. Falta de recursos adequados à avaliação; Poucas rotinas e pouca estabilidade de um programa; Falta clareza ou consenso nos objetivos; Restrições de aspectos cruciais de avaliação (por parte do patrocinador ou agentes de projetos); Avaliação para Tomada de Decisões Aspectos a melhorar no processo de um programa; Decidindo se um programa continua ou termina (alcance de objetivos/eficiência); Testando novas ideias; Escolhendo entre várias alternativas; Continuação do Financiamento (interesse do financiador); Levantamento de um histórico: construir o Memorial de um Programa; Fiscalização: informações para os executores do programa; Avaliações para enfatizar os Objetivos de um programa; Relatar utilização das verbas: Prestação de Contas; Entender as Consequências das Intervenções Sociais; CAPÍTULO III – Entendendo o Programa Programas sociais compreendem diferentes componentes, estilos, pessoas e procedimentos, sendo assim, difícil descrevêlo de modo concreto e simples. Essa falta de clareza e especificação dos termos, na avaliação de resultados, vai exigir da avaliadora um maior esforço na descrição do Programa e também na análise do que é o Programa. Teorias de Programas são conjuntos de hipóteses que ajudam no planejamento de um programa; como supomos que as coisas irão acontecer para um programa funcionar (processo). Por exemplo: 1) Uma maior remuneração melhorará o moral do professor, o moral mais elevado levará os professores a se dedicarem com mais afinco ao ensino; 2) Uma maior remuneração permite que os professores desistam de seus empregos secundários, melhorando o rendimento no emprego principal. Teorias de Implementação refere-se à condução das atividades como foram planejadas, para a obtenção dos resultados esperados (estão cumprindo etapas? Como?). A Teoria de Mudanças (Programas + Implementação) permite à avaliadora coletar e analisar os dados da avaliação. Com esses dados, pode-se compreender se a teoria descreve o que aconteceu, como aconteceu e se aconteceu como esperado. Não necessariamente as mudanças de conhecimento sobre um programa vão resultar em mudanças de comportamento. De qualquer modo, a parte empírica da avaliação é de alta relevância: comparar as expectativas com os dados coletados e verificar se eles se ajustam. Estudo Dirigido CAPÍTULO VIII – O Desenho da Avaliação A avaliação de processo é muito semelhante ao monitoramento: procuramos verificar o funcionamento de etapas ou fases do programa ou política a fim de aprimorar suas operações. Porque a maioria das operações em programas educacionais não são facilmente compreensíveis, ou não têm relações claras de causa e efeito, a autora diz que na avaliação de processo utilizamos com mais frequência julgamentos intuitivos e métodos qualitativos. Quando souber pouco sobre a natureza do programa e suas atividades; b) Quando os serviços são inovadores ou de difícil controle / entendimento; c) Quando as teorias que fundamentam o programa forem questionáveis ou problemáticas. a) Quando existe relação mais clara entre procedimentos e resultados do programa; b) Quando as medidas sobre processo e resultado podem ser obtidas de facilmente, e se relacionam diretamente com eles (confiança e consistência); c) Quando queremos informações comparáveis (mais gerais); a) Como forma de avaliação, pode-se coletar medidas de resultado sobre o grupo do programa depois do início de seu funcionamento; No entanto, o melhor é coletar informações antes-e-depois, quando possível. Assim, podemos ver indícios possivelmente relacionados ao programa. Recolher informações várias vezes durante o programa (durante-durante-durante) também é uma forma de avaliar o processo e julgar se sua teoria se adequa à realidade dos eventos. Várias observações durante o programa podem ser combinadas a informações de séries de dados recolhidas por outras organizações ou pelo governo. Quanto maior a série de informações antes e depois do programa, melhor se pode avaliar as tendências do efeito do programa ao longo do tempo, de preferência quando podemos comparar grupos com e sem acesso a ele. Acrescentamos um grupo de comparação para fortalecer a análise dos resultados. Um grupo de comparação possui características muito semelhantes ao grupo que recebe o programa, a respeito dos aspectos importantes para os resultados. Pode-se selecionar o grupo de comparação por emparelhamento: buscar pessoas da mesma idade, cor/raça, sexo, estado civil, status socio-econômico. Em grupos de comparação, e também em análises estatísticas, um problema frequente é o viés de seleção: Influência de atributos não medidos capazes de alterar os resultados, fazendo pensar que o programa teve um efeito que ele de fato não teve. Por exemplo: motivação. Vontade de participar do programa leva a ações e intenções de receber benefícios e alterar condições de vida. Para evitar a tendência de seleção podemos utilizar métodos estatísticos que tentam igualar os participantes e fazer comparações; O problema é: depois que a seleção já ocorreu sem o cuidado da escolha aleatória, não é possível saber o tamanho do erro na análise; Os resultados do programa podem se subestimados ou superestimados. CAPÍTULO IX – O Experimento Aleatório A escolha aleatória assegura a comparabilidade entre diferentes grupos porque evita o viés de seleção; Nessa avaliação, os participantes do grupo programa e do grupo controle são sorteados; Monitoramos ambos os grupos, colhendo informações antes e depois do programa sobre todas as variáveis relevantes para a obtenção dos resultados esperado do programa; Após a exposição ao programa, a observação das diferenças entre grupo programa e grupo controle revela o efeito líquido do programa. Para que uma seleção aleatória tenha comparabilidade estatística é necessário atender a alguns requisitos: 1) 2) 3) Tamanho suficiente de grupos; Conhecer a probabilidade de seleção (garantir chances conhecidas de seleção); e Evitar as ameaças à validade. Conferir as características dos grupos antes de expor ao programa, para ter certeza de que são parecidos, também é uma precaução prudente. Seleção (tendências: motivação, por exemplo); Redução Gradual (tendências: motivação/mortalidade, por exemplo); Maturação (naturalmente); Aplicação de Testes (progresso); Instrumentação (interação); Eventos exteriores (tendências: várias). As unidades de um programa podem variar; não necessariamente os indivíduos são os casos; As leis da probabilidade não funcionam bem com populações inferiores a 30 ou 40 casos; Estratificações de amostra melhoram a comparabilidade e aumentam a precisão das estimativas; Estratificações são características conhecidas e relevantes de uma população para um determinado tipo de estudo; Por exemplo: dividir uma grande cidade por quantidade de habitantes das regiões; dividir as turmas amostradas por número de alunos e avaliar o desempenho para estimar o tamanho ideal, etc. Conhecendo a probabilidade de seleção, o tamanho entre os grupos amostrados pode variar. O importante é manter a mesma chance de seleção dentro dos grupos, e justificar porque é razoável que certos grupos sejam maiores ou menores do que outros na amostra. As razões podem ser teóricas ou práticas. Por exemplo: um estudo sobre as características do sistema federal de ensino básico. Uma amostra aleatória simples de todas as escolas do sistema poderia não apresentar nenhuma escola com as características desejadas (menos de 1% do sistema é de dependência administrativa federal). Por estratificação, aumentamos o número amostrado de escolas federais em relação às escolas particulares, por exemplo. Em uma Amostra Aleatória Simples, uma listagem de todos os potenciais participantes de um programa recebe um número para cada nome; Em seguida, consultamos uma tabela de números aleatórios, listamos os números gerados na ordem em que aparecem; Fazemos isso para o número de participantes desejados, dividindo-os por grupo programa e controle. Outra forma de amostragem muito comum é conhecida por Amostra Sistemática. A partir da primeira unidade amostrada é feita uma seleção a cada ‘n’ unidades. Por exemplo, sorteia-se um indivíduo a cada 17 em uma lista quando ‘n’ = 17. Disso resulta que a proporção total da amostra é 1/17 ou aproximadamente 6% do total de indivíduos. Se a lista tiver, por algum motivo desconhecido, algum critério de organização, a amostra poderá sofrer a tendência dessa organização, e os resultados podem não ser efetivos. “Uma capacidade única dos experimentos aleatórios é constatar que o programa causou determinados resultados. Para esse objetivo, nenhum outro projeto de avaliação se aproxima ao seu poder” (p. 137).