Documento apresentado para discussão II Encontro Nacional de Produtores e Usuários de Informações Sociais, Econômicas e Territoriais Rio de Janeiro, 21 a 25 de agosto de 2006 Metodologias demográficas, sintéticas e de composição para estimar população de pequenas áreas Moema Gonçalves Bueno Figoli CEDEPLAR/UFMG [email protected] O uso de amostragem para levantamento de dados tem ficado cada vez mais freqüente. Para muitos propósitos tem tomado o lugar da enumeração completa ou Censo, como um meio mais barato de obter informações detalhadas sobre uma maior variedade de tópicos, tanto combinada com os Censos, como em períodos intercensais. No entanto, os dados amostrais podem ser usados para obter estimativas confiáveis de totais e médias somente para grandes áreas. As estimativas diretas, a partir de dados amostrais, para pequenas áreas, normalmente produzem grandes erros padrão, decorrente do reduzido tamanho da amostra na área. Como o tamanho da amostra é determinado de forma a produzir estimativas confiáveis em níveis agregados, a fração da amostra relativa a pequenas áreas é normalmente pequena e as estimativas não são confiáveis. Para aumentar a efetividade do tamanho da amostra e a precisão dos estimadores é necessário “pegar emprestada força”, como dizem diversos autores, de áreas correlatas e, dessa forma, construir estimadores indiretos. Estes estimadores indiretos são baseados em modelos implícitos ou explícitos que fornecem a ligação que permite relacionar dados das pequenas áreas com dados suplementares os como de censos recentes, contagens e registros administrativos. Os estimadores indiretos baseados em modelos implícitos incluem os demográficos, sintéticos e de composição. Os de modelos explícitos que incorporam efeitos específicos da área compreendem: os estimadores Basiano empírico (EB), melhor preditor empírico linear Basiano hierárquico (HB). não tendencioso (EBLUP) e O propósito deste trabalho é revisar algumas metodologias demográficas, sintéticas e de composição, utilizadas para estimar parâmetros de pequenas áreas. I-Métodos demográficos Os demógrafos têm usado uma variedade de métodos para estimar a população de pequenas áreas e suas características em anos para os quais não existem censos disponíveis. Purcell and Kish (1980) as categorizam como “Symptomatic Accounting Techniques (SAT)”. Estas técnicas utilizam dados de registros administrativos juntamente com dados correlatos do último censo. Os dados administrativos usados (variáveis sintomáticas) podem ser: número de nascimentos, mortes, novas unidades de moradia, matrículas escolares etc.; cuja variação esta altamente correlacionada com o crescimento da população e de suas componentes. Entre os métodos SAT estudados e citados na literatura temos: O método das Taxas Vitais (VR) (Bogue, 1950), que usa somente nascimentos e mortes mas como variáveis sintomáticas, e não como componentes de mudança da população. Nesse método a taxa bruta de nascimento e morte do ano t, para a pequena área, é estimada em função da área maior. O Pressuposto implícito é que as mudanças nas taxas da área menor e maior são equivalentes. Pt = ½ (bt/rbt + dt/rdt) Onde: rbt = rbo ( Rbt / Rbo) rdt = rdo ( Rdt / Rdo) Onde: bt ,dt = número de nascimentos e mortes no ano t da pequena área. Rbt, Rdt = taxa bruta de nascimento e morte para a área maior para o ano corrente, t. Rbo, Rdo = taxa bruta de nascimento e morte para a área maior no último censo. rbo, rdo = taxa bruta de nascimento e morte para a área menor no último censo. O método de composição (Bogue and Duncan, 1959). Este método é uma extensão do anterior mas usa taxas específicas (idade, sexo, raça) calculada independentemente para nascimentos e mortes. O método das componentes do Censo II (CMII) (U.S. Bureau of the Census, 1966) Diferentemente dos anteriores, leva em conta a migração líquida da pequena área no ano t (mt) estimada a partir das matrículas escolares. Pt = Po + bt –dt + mt Onde: Po é a população da pequena área no último censo. O método de registros administrativos (AR). Similar ao anterior, estima a migração líquida a partir de registros individuais (Starsinic, 1974; Zidek, 1982) Método de unidades de Domicílio (HU) ( Smithe and Lewis, 1980) Neste método Pt é dado por Pt = Ht (PPHt) + CQt Onde Ht = número de unidade residenciais ocupadas no tempo t PPHt= Número médio de pessoas por residência em t CQt = número de pessoas em moradias coletivas no tempo t Regressão Sintomática (Ericksen,1974). Utiliza regressão linear múltipla para estimar a população da pequena área tendo como variáveis independentes as sintomáticas. Três procedimentos são usados comumente nesse método: Método de Correlação da Razão. Nesse os coeficientes de regressão estimados representam a ligação entre a variação da proporção da população entre os dois censos (variável dependente), como a variação da proporção das variáveis sintomáticas entre os censos. Método de correlação das diferenças. Nesse a diferença entre as proporções nos dois pontos do tempo, e não a proporção, é usada. Método de regressão e amostra (Ericksen, 1974). Os coeficientes de regressão nos dois procedimentos acima são encontrados utilizando o último período intercensal mas mudanças nas relações estatísticas podem levar a erros nas estimativas pós censitárias. O método de regressão e amostra pode evitar este problema usando estimativas amostrais da proporção da população (variável dependente) para estimar a equação de regressão corrente. II- Estimadores Sintéticos Os Estimadores Sintéticos ( Purcell and Linacre, 1976; Ghangurde and Singh, 1977) são usados em situações onde temos estimadores não tendenciosos para a área maior e os usamos para produzir estimativas para as pequenas áreas, localizadas dentro da grande área. Estas estimativas para as pequenas áreas são chamadas de estimativas sintéticas. O pressuposto deste método é que as pequenas áreas têm as mesmas características das grandes. A não observância desse pressuposto pode levar a viés nas estimativas. Nichol (1977) propôs adicionar a estimativa sintética como uma variável independente no método de regressão por amostra. Esse método, chamado método de regressão e sintético combinado, mostrou-se melhor que os dois anteriores, sintético e regressão por amostra. Chambers and Feeney (1977) and Purcell and Kish (1980) propuseram a metodologia de estimação preservando a estrutura (SPREE), como uma generalização da estimação sintética, no sentido de que faz uso de estimativas diretas confiáveis. SPREE usa o método de ajuste interativo proporcional (IPF) de margens para tabela de contingência, onde as margens são as estimativas diretas. Os valores iniciais para as células são dados pelo censo passado. III – Estimador por composição Estimador por composição ou combinado: É a média ponderada de uma estimativa sintética e uma direta. Usado para balancear o viés potencial da estimava sintética contra a instabilidade da estimativa direta. Vários autores propuseram metodologias diferentes para estabelelcer os pesos ( Schaible (1978); Purcell and Kish, 1979; Holt, Smith and Tomberlin 1979; Drew,Singh and Choudhry (1982)). Eles podem ser: Fixado com antecedência, como por exemplo, usando a média da pequena área. Dependente do tamanho da amostra. Neste caso os pesos são função da razão entre o tamanho da população da pequena área na amostra e seu tamanho real. Dependente dos dados. O ótimo peso para combinar dois estimadores geralmente depende do erro médio quadrado (MSE) dos estimadores e de sua covariância. Estas medidas são geralmente são desconhecidas mas podem ser estimadas pelos dados. Para os estimadores combinados isto comumente exige alguma modelagem do viés da parte sintética. Uma das mais conhecidas modelagens se deve a Fay and Herriot (1979). Eles modelaram o viés do estimador sintético para a pequena área como efeito aleatório independente com uma variância desconhecida mas fixa. Presad and Rao ( 1990) desenvolveram um estimador do erro médio quadrado do estimador de Fay and Herriot, que permite que seja estimado as componentes da variância. Uma última alternativa é calcular os pesos com base em uma série histórica mas neste caso estamos assumindo que os pesos são estáveis no tempo. Bibliografia Boguue, D. J. (1950). A technique for making extensive postcensal estimates. Journal of America Statistic Association. 45 149-163. Boguue, D. J. and Duncan, B. D. (1959). A composite method of estimating post censal population of small area by age, sex and colour. Vital Statistics-Special Report 47, No. 6, National Office of Vital Statistics, Washington, DC. Chambers, R. L. and Feeney, G. A. (1977). Log linear models for small area estimation. Unpublished manuscript, Australian Bureau of Statistics. Drew, D. Singh, M. P. and Choudhry, G.H. (1982). Evaluation of small area stimation techniques for the Canadian Labor force Survey. Survey Methodology 8 17-47. Ericksen, E. P. (1974). A regression method for estimating population of local areas. . Journal of America Statistic Association. 69 867-875. Fay, R. E. and Herriot, R. A. (1979). Estimates of income for small places: an application of James-Stein procedure to census data. Journal of American Statistics Association 74 269-277. Ghangurde, D.D. and Singh, M. P. (1977). Synthetic estimators in periodic household surveys. Survey Methodology 3 152-181 Ghosh, M. and Rao, J. N. K. (1994). Small area estimation: an appraisal. Statistics Science, 9, 55-93. Nichol, S. (1977). Aregression approach to small area estimation. Unpublished manuscript, Australian Bureau of Statistics, Canberra, Australia. Prasad, N. G. N. And Rao, J. N. K. (1980). The estimation of mean squared errors of small-area estimators. Journal of American Statistics Association 85 163-171. Purcell, N,J. and Kish, L.(1979). Estimation for small domain. Biometrics 35 365384. Purcell, N,J. and Kish, L.(1980). Postcensal estimates for local areas (or domains). Internat. Statist. Rev. 48 3-18. Schaible, W. L. (1978). Choosing weights for composite estimators for small area statiscs, In Proceeding of the Survey Research Methods Section 741-746. American Statistics Association. Washington, DC. Smith, S.K. and Lewis, B.B. (1980). Some new techniques for applying the housing unit method of local population estimation. Demography 17 323-340. Starsinic , D. E.(1974). Development of population estimates for revenue sharing areas. Census Tract Papers, Ser. GE40, No. 10 U. S. Government Printing Office, Washington, DC. U.S. Bureau of the Census (1966). Methods of population estimation: Part I, Illustrative procedure of the Bureau’s component method II. Current Population Report, Series P-25, No.339. U.S. Government Printing Office, Washington, DC. Zidek, J. V. (1982). A review of methods for estimating the population of local areas. Technical Report 82-4, University British Columbia, Vancouver.