Página 1 de 9
Fazendo o Censo Fazer Sentido, Parte II: Trabalhando com Dados de Censo
Thomas H. Grayson
24 de Janeiro de 2002
Objetivo
Extrair dados do Censo Poupulacional e Habitacional de 1990 dos E.U.A. e produzir um mapa para
mostra-los.
Recursos e Ferramentas
l
l
l
l
Documentação do STF 3A do U.S. Census Bureau
Dados do Censo dos E.U.A em formato DBF
Microsoft Access
ArcView
Revisão: Como os Dados do Censo de 1990 dos E.U.A estão Organizados
l
Nota: As notas da aula introdutória sobre o censo podem ser úteis.
l
O STF 3A (Summary Tape File 3A) contám o dados de Censo amostrados, em formulário longo
organizados utilizando limites geográficos definidos pelo Censo, por exemplo:
Estado (nível de resumo 040)
Condado (nível de resumo 050)
Zona (nível de resumo 140)
Grupo de Quarteirão (nível de resumo 150)
l
Pode-se acessar os dados sobre população e habitaçãog (unidades residenciais).
l
Os dados são fornecidos pelo Censo no formato dBASE (DBF) em CD-ROMs. Eles estão
disponíveis na Biblioteca Rotch.
l
Os dados são fornecidos em muitos níveis de agragação, representados pelos níveis de resumo,
alguns dos quais são mostrados acima.
l
A documentação relevante do Censo inclui:
¡ Notas da aula de "Introdução ao Censo Pobpulacional e Habitacional dos E.U.A.
¡ Lista de Tabelas (Matrizes)
¡ Localizador de Assuntos do STF 3A
¡ Definições de Tabelas do STF 3A
¡ Dicionário de Dados (Elementos de Tabela)
¡ Carta de Sequencia de níveis de Resumo
¡ "Como Usar Este Arquivo" (para localização de tabelas em arquivos DBF específicos)
¡ Lista textual dos códigos FIPS combinados estado/condado (Códigos de condado estão
disponíveis em uma forma mais conveniente na EPA)
Visão Geral
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 2 de 9
l
Identifique os items dos dados de censo necessários na documentação do STF3A
l
Se é necessário normalizar os dados, identique o universo e planeje extrair isto também
l
Ache as "tabelas" do censo onde os items de dados e o universo estão armazenados
l
Ache os items necessários dentro das "tabelas"
l
Identifoque e ache os arquivos dBase que contém as "tabelas" relevantes
l
Extraia os dados dos arquivos dBase do censo usando as ferramentas de consulta do Microsoft
Access
l
Crie um único identificador de registro do censo para os dados extraídos para que os registros
possam ser conectados à uma tabela de atributos de temas geográficos
l
Salve os resultados em um arquivo dBase file para que eles possam ser facilmente lidos no
ArcView
l
Use os resultados para gerar um mapa temático no ArcView
Tarefa Exemplo
Produza um mapa temático do:
Condado de Middlesex, Massachusetts
que mostre
Renda média das residências
para cada Censo dos E.U.A.
Grupo de Quarteirões.
Processo
Nota: Estas instruções foram escritas para uso em um PC com Windows 2000 onde o disco rígido
local é o drive C:, usando Rede Microsoft como configurado no CRL. O Windows 95, 98, ME, e
NT 4.0 devem ser semelhantes, mas estas plataformas não foram testadas.
Pegue a Estrutura do Problema.
l
Nossa tarefa possui um escopo geográfico definido.
Estamos interessados nos dados do Condado de Middlesex, MA. Não nos importamos com
outros estados ou condados em Massachusetts.
l
A tarefa possui um nível de análise definido.
Estamos interessados em dados no nível de grupo de quarteirões. Não estamos
preocumpados com outros níveis de agragação como condados ou zonas de censo.
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 3 de 9
l
Estamos procurando por um item de dados específico.
Embora o censo contenha um rico conjunto de dados, nesta tarefa estamos procurando apenas
pela renda média das residências.
Identifque a Tabela de Renda Média das Residências.
Examine o Localizador de Assuntos do STF 3A. Procure nesta página por "Median Household Income"
na margem esquerda. Ignore as entradas que contémentries that contain a palavra "imputation" ou onde o
texto não está na margem esquerda. Você deve ver "Households" imediatamente abaixo dela. Olhando
na coluna à direita de "Households," pode-se ver a informação que desejamos nesta tabela P80A.
Identifique na Tabela os Items de Dados Necessários.
Veja as Definições de Tabelas do STF 3A . Ache a tabela P80A procurando pela string
"P80A." (incluindo o ponto) no seu navegador web. Esta tabela possui apenas um item, "Median
Household Income in 1989," no item P080A001. Note que outras tabelas possuem muitos itens de
dados (por exemplo, a tabela "Household Income in 1989", P80).
Identique os Arquivos Onde as Tabelas Estão Armazenadas.
Olhe na sessão "Using the File" da documentaço do STF 3A. Aqui voc&ecird; vai ver listadas, sob o
título "Data Tables In Each Segment", quais tabelas estão em cada um dos 35 arquivos DBF no STF
3A. Uma olhada nesta lista indica que a tabela P80A está no segmento STF314. A sigla do estado está
ao lado do nome do segmento no nome do arquivo contendo os dados. Assim, este segmento
corresponde ao arquivo stf314ma.dbf no CD-ROM (e na copia do CD-ROM na Rede que irá acessar
em breve).
Localize os arquivos DBF na Rede ou no CD-ROM.
Os arquivos STF 3A de 1990 para Massachusetts e New Hampshire podem ser acessados diretamente
pela rede usando o diretório J:\stf3a1990\ma_nh. O conteúdo desta paste é idêntico ao que é
encontrado no CD-ROM do Censo para estes estados. states.
Note que esta cópia na rede dos arquivos STF 3A de 1990 para Massachusetts e New Hampshire está
disponível apenas aqui no MIT. Se quiser acessar estes arquivos em outro local ou acessar os dados
para outros estados, você terá que achar uma fonte alternativa. Outros CDs do Censo dos E.U.A. estã
disponíveis na Biblioteca Rotch e outros nas bibliotecas de depósito de documentos do Governo dos
E.U.A.. Adicionalmente, você pode encontrar os arquivos do STF 3A de 1990 online no U.S. Census
Bureau via HTTP e FTP.
Opcional: Como os arquivos DBF do Censo são meio grandes (normalmente 10-20 MB), acessa-los
a partir dos CD-ROMs pode ser lento, e utiliza-los a partir da rede pode ser tanto lento quanto pouco
confiável. Adicionalmente, você pode desejar armazena-los localmente de forma a ter estes arquivos
permanentemente disponíveis. Em um Pc, use o Windows Explorer para copiar os arquivos do disco do
Censo para a sua pasta pessoa no espaço público do PC. (por exemplo, C:\PUBLIC\username).
Abra o arquivo dBase do censo no Microsoft Access.
Cada segmento (isto é, arquivo DBF) contém muitas "tabelas" do censo. Desejamos extrair o mínimo de
itens necessários para a nossa análise: as colunas chave e os items de dados que identificados
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 4 de 9
anteriormente. Pode-se usar as capacidades de consuta do Access para realizar esta tarefa.
Primeiramente, necessitamos abrir o arquivo dBase para que possamos acessa-lo. Inclua o arquivo
dBase como a seguir:
¡
Execute o Access. Quando a caixa de diálogo inicial aparecer, escolha a opção "Create a
New Database Using Blank Database." Chame o arquivo census.mdb e salve-o na sua
pasta privada, H:\private. (Se você n&atidle;o tem uma pasta privada, use um disco Zip
ou o disco rígido local.)
¡
Na janela Database, certifique-se que a aba "Tables" está ativa; isto é o default após criar
um novo banco de dados vazio. Esta é a janela que é chamada 'census : Database'.
¡
Clique no botão "New" para abrir a caixa de diálogo "New Table". Selecione "Link Table"
e clique OK. Seja cuidadoso para não selecionar "Import Table" por engano. Como
os arquivos STF3A para Massachusetts são relativamente grandes, você não deseja fazer
o seu banco de dados Access desnecessariamente grande impotando-os, especialmente
porque estamos interessados apenas em um subconjunto dos dados.
¡
Na caixa de diálogo "Link", selecione "Files of type:" como dBASE IV (*.dbf). Navegue
para o diretório onde os arquivos são armazenados; para Massachusetts e New
Hampshire, é o diretório J:\stf3a1990\ma_nh. A seguir, selecione stf314ma.dbf e clique
no botão "Link".
¡
Agora a caixa de diálogo "Select Index Files" aparecerá. Clique no botão "Cancel" para
fazer esta caixa desaparecer.
¡
Se tudo der certo, você deve ver uma mensagem que diz "Successfully linked 'stf314ma'."
Clique "OK" para confirmar que leu a mensagem.
¡
Você estará de volta na caixa de diálogo "Link". Você poderia ligar mais tabelas no seu
banco de dados neste ponto, se desejasse. Como não necessitamos de mais para esta
tarefa, clique "Close" para fechar a caixa de diálogo.
¡
Você deve agora ver a tabela ligada á sua janela Database com um ícone "->dB" à
esquerda do nome.
Ache o Código do Condado.
Lembre que estamos apenas interessados em extrair dados para o condado de Middlesex. Isto
signifique que precisamos achar seu código FIPS (Federal Information Processing Standard). O disco
do censo contém um arquivo chamado cnamesma.dbf que lista todos os códigos dos condados de
Massachusetts. No entanto, é muito mais fácil procurar por isto usando as listas na web:
l
l
l
l
Uma lista textual dos códigos FIPS combinados estado/condado para todos os E.U.A. do U.S.
Census Bureau. Oficial, mas difícil de ler
Uma lista mais legível na California State University, Northridge
Outra lista, incluindo a contagem populacional de 1990, do CIESIN SEDAC
Mais outra lista, desta vêz da U.S. Environmental Protection Agency. Organizada por estado;
clique na sigla do estado para obter a tabela para um estado em particular. Esta é, provavelmente,
a mais fácil de usar.
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 5 de 9
Revisando uma destas fontes, pode-se rapidamente determinar que o có de condado para o condado de
Middlesex é 017.
Ache o Nível de Resumo Apropriado.
Os dados de censo são tabulados em muitos níveis de agragação: estados, condados, zonas de censo e
assim por diante. Este níveis aninham-se uns com os outros em uma hierarquia. Todos os níveis da
hieraquia geográfia -- o que o Censo chama um "nível de resumo" -- estão incluidos nas tabelas STF
3A. Todos os níveis serão visíveis se fizermos uma consulta sem restringir o nível de resumo. Para este
exercício, estamos interessados somente no nível de resumo de grupo de quarteirões. Para achar o
código numérico para este nível de resummo, examine as Cartas de Sequencia de Níveis de Resumo.
Na linha marcada "State--County--Census Tract/Block Numbering Area--Block Group" a tabela indica
que o códico correto é 150. Note que isto não deve ser confundido com o nível de resumo 090, que usa
a geografia de "local" acima do grupo de quarteirões na hierarquia. Em muitos estados (mas nao em
Massachusetts), usar o nível de resumo que usa a geografia de "local" eliminará todos os grupos de
quarteirõoes que não estão ou dentro de comunidades incorporadas ou outras densamente povoadas
mas desincorporadas "Locais classificados pelo censo." Além disso, grupos de quarteirõoes e portanto
zonas podem cruzar limites de locais, complicando a análise.
Selecione a Linha Desejada.
Crie uma nova consulta no Microsoft Access. Inclua a tabela stf314ma na consulta. Como notamos
antes, desejamos restingir o nível de resumo (SUMLEV) à "150" e o de condado (CNTY) à "025.
Inclua as seguintes colunas na grade de consuta e ajuste o critério como notado abaixo:
Coluna
Descrição
Critério
SUMLEV
Nível de Resumo
"150"
STATEFP
código de FIPS do estado
CNTY
Código de FIPS do condado
"025"
TRACTBNA ID da zona de Censo/Área de Numeração de Quarteirão
BLCKGR
ID do Grupo de quarteirõoes do Censo
LOGRECNU Número registro lógico
P080A001
Renda média das residências em 1989
Quando estiver pronto, execute a consuta. Se estiver acessando os arquivos atrvés da rede, este
processo pode levar diversos segundo, mas menos de um minuto.
Examine a Camada Geográfica do Grupo de Quarteirões no ArcView.
Execute o ArcView. Em uma nova janela de View, inclua no seu projeto o tema dos grupos de
quarteirões de Massachusetts no shapefile K:\11.208\arcviewfiles\stateplane\mablkgrp.shp Mostre
a tabela de atributos de tema Mablkgrp usando item do menu Theme > Table. Examine o formato do
identificador do grupo de quarteirõoes, Bkg_key. A coluna Bkg_key contém números como
"250173001001", "250173182009", "250173872026". Compare esta coluna com os dados
retornados pela consulta ao Access. A tabela stf314ma não possui colunas com Bkg_key. No
entanto, temos todas as suas partes em STATEFP, CNTY, TRACTBNA, e BLCKGR. Precisamos
usar estes componentes para montar um identificador de grupo de quarteirões que seja compatível com
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 6 de 9
Bkg_key. Observe que Bkg_key contém números da forma
SSCCCTTTTXXG
onde
SS é o código FIPS do estado (por exemplo, 25),
CCC é o código FIPS do condado (por exemplo, 017),
TTTTXX é o número de zona do censo (por exemplo, 300100), e
G é o número de grupo de quarteirões do censo (por exemplo, 1).
Vamos olhar mais de perto:
SSCCCTTTTXXG
250173001001
250173182009
250173872026
Note que todos estes códigos incluem zeros à esquerda; o Bkg_key possui sempre 12
caracteres. Precisamos construir equivalente à Bkg_key na tabela medhhinc.dbf. O que faz este
processo difícil é a representação do número de zona. O campo Tractbna nas tabelas STF usa o
formato TTTTXX,mas a parte XX é omida quando seria zero (por exemplo, "3001", "3182",
"387202"). Em outras palavras, o campo possui algumas vêzes 4 caracteres (quando os dois
zeros à esquerda sã omitidos), e algumas vêzes possui 6 caracteres.
Formulando uma Solução.
Então, neste ponto tem-se disponíveis a geografia do grupo de quarteirões e alguns dados interssantes
para serem ligados à ela, mas nenhuma forma fácil de ligar os dados extraídos das tabelas do censo ao
tema do grupo de querteirõoes. Para concertar isto, necessitamos criar um new field na consuta do
Access query que contenha a chave necessária.
Inclua uma coluna na Consuta do Access.
O número de zona cria algumas dificuldades. O campo TRACTBNA nas tabelas STF usa o formato
TTTTXX e a parte XX é omitida quando ela seria zero (por exemplo, "3001", "314398"). Em outras
palavras, o campo possui algumas vêzes 4 caracteres (os dois zeros à esquerda são omitidos), e algumas
vêzes possui 6 caracteres.
Para tratar isto, podemos usar duas das funções do Access:
Função
Propósito
Exemplos
Len(string)
Retorna o comprimento Len("ABCD") retorna 4
da string
Len("ABCDEF") retorna 6
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 7 de 9
Avalia test_expr. Se
text_expr for true,
IIf
retorna true_expr. Caso
(test_expr, true_expr, false_expr)
contrário, retorna
false_expr.
IIf
(numval > 1000, "High", "Low")
Para numval=2000, retorna "High"
Para numval=10, retorna "Low"
Pode-se usar estas funções para testar se um identificador de zona em particular (TRACTBNA) possui
mais do que 4 caracteres. Se sim, nada precisa ser feito. Caso contrário, precisamos "completar" o
campo TRACTBNA com dois zeros extra para preencher o comprimento. A seguinte expresssão fará
o serviço:
[STATEFP] + [CNTY] + [TRACTBNA] + IIf(Len([TRACTBNA]) > 4, "", "00") + [BLCKGR]
Como desejamos dar a esta nova coluna um nome significativo, ao invés do nome "Expr1" que o Access
dará por default, pode-se incluir o nome BKG_KEY como mostrado abaixo:
BKG_KEY: [STATEFP] + [CNTY] + [TRACTBNA] + IIf(Len([TRACTBNA]) > 4, "", "00")
+ [BLCKGR]
Desejamos que esta coluna seja a primeira na tabela resultante. Assim, clique em qualquer lugar na
primeira coluna da grade de consutas, e selecione Insert > Columns. Uma nova coluna em branco
aparecerá. Nesta coluna copie-e-cole (ou digite) a expressão acima na célula "Field:".
Execute a consulta novamente. Note que a coluna BKG_KEY possui 12 caracteres independentemente
se a coluna TRACTBNA tinha 4 ou 6 caracteres.
Note que teríamos que modificar este procedimento se houvesse algum número de zone com 5 dígitos,
alé de com 4 ou cm 5.(O que você faria?)
Desligue as Colunas Desnecessárias.
Par os nossos propósitos aqui, precisamos realmente trzer para o ArcView apenas as colunas
BKG_KEY, LOGRECNU, e P080A001. Portanto, deslique o "Show:" para as colunas SUMLEV,
STATEFP, CNTY, TRACTBNA, e BLCKGR.
Salve a Consulta.
Feche a consulta. Quando solicitado, dê o nome medhhinc.
Salve os Resultadoss como um arquivo dBASE DBF.
O formato de banco de dados preferencial do ArcView é o arquivo dBASE DBF. Assim, vamos salvar
uma copia da saída da nossa consulta como um arquivo dBASE DB. Na janela Database, certifique-se
de que a aba Query tab esteja ativa e que a consulta medhhinc esteja selecionada. Agora, escolha, File
> Save As/Export. Siga as caixas de diálogo para salvar um arquivo externo chamado medhhinc.dbf
na sua pasta H:\private. Certifique-se de especificar "dBASE IV (*.dbf)" no campo "Save As
Type:" do diálogo final.
Com isto acabamos com o Access e faremos o resto do trabalho com o ArcView.
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 8 de 9
Abra a Tabela 'medhhinc.dbf' no ArcView.
No ArcView, inclua a tabela medhhinc.dbf no projeto. Note que a tabela conteém apenas as linhas e
colunas selecionadas anteriormente.
Conecte a Tabela 'medhhinc.dbf' aos Atributos de Cobertura do Grupo de Quarteirões.
Use um campo comum em ambas as tabelas para conecta-las. Selecione o cabeçalho da coluna
Bkg_key em medhhinc.dbf, e a seguir na tabela de atributos de tema, "Attributes of Mablkgrp.shp."
Apó verificar que "Attributes of Mablkgrp.shp" é a janela ativa, use Table > Join para conectar as
tabelas. A tabela medhhinc.dbf deve desaparecer se você selecionou a tabela direita quando iniciando a
conexão. Você deve ter a tabela correta ativa quando selecionar Table > Join ou você não
poderá maper os novos atributos!
Crie um Mapa Temático.
Finalmente estamos prontos para fazer um mapa temático!
Use a coluna P080a001 para criar um mapa colorido graduado. Ajuste o valor nulo para zero e motre a
faixa "No Data". Você ver apenas os grupos de quarteirões do condado de Middlesex sombreados.
Note que apenas os grupos de quarteirõoes no condado de Middlesex estão sombreados; isto ocorre
porque apenas extraimos dados de censo para este condado. Se tivéssemos pegado os dados dos
outros condados mostrados, (por exemplo, Essex, Norfolk, Plymouth, and Suffolk), eles também
estariam sombreados.
Considere um Exemplo Diferente.
Suponha que quisséssemos visualizar algo um pouco diferente da renda média das residências-- a
proporção de rendas menores do que $15.000 em cada grupo de quarteirõoes. Para computar isto
necesstaríamos incluir jutas diversa colunas da tabela "Household Income in 1989" (P80).
Adicionalmente necessitaríamos normalizar os dados dividindo pelo universo apropriado, aqui
"Households". Podemos calcular o universo, o total de residências, somando todas as 25 colunas na
tabela P80. Alternativamente, pode-se obter o total de residências da tabela "Households" (P5) no item
P0050001. O valor obtido somando-se as 25 colunas da tabela P80 deve ser o mesmo da coluna única
P0050001; voc&ecire; pode verificar o Census Bureau comparando estes valores! A soma das
contagens de residências nas diversas categorias de renda precisariam ser divididas por este valor.
Olhando-se novamente em "Using the File", pode-se ver que as tabelas P5 e P80 estão aramazenadas
em arquivos DBF diferentes. Podemos usar o campo "Logrecnu," o número de registro lógico, para ligar
os dados extraídos dos dois arquivos.
Por que normalizar os dados? Comparar os números brutos de unidades residenciais por grupo de
quarteirões pode ser decepcionante pois o número total de residências irá variar de um grupo de
quarteirões para o próximo. Dividindo-se o número de residências com renda $15.000 pelo número
total de residências, obteém-se a fração do total de residências ocupadas com renda abaixo de
$15.000. Esta fração pode ser comparada justamente entre todos os grupos de quarteirões.
FIM!
A fonte inicial para estas notas foi uma aula apresentada por Laura Lebow em 24 de Janeiro de 1995, e gravada por Qing Shen. Aquelas notas foram
adaptadas para arquivos de dados online e MapInfo por Thomas H. Grayson no Outono de 1996. Modificadadas por Thomas H. Grayson para o
MapInfo 5.0®, Microsoft Excel 97®, e Microsoft Query® em Janeiro de 1999.
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Página 9 de 9
Uma versão destas notas foi preparada para a turma 11.521, Outono de 1998, por Thomas H. Grayson. Esta notas, por sua vêz, foram modifiadas para
11.520, Outono de 1999, por Anne Kinsella Thompson com pequenas alterações por Thomas H. Grayson. Este documento representa uma fusão das notas
de IAP 1999 11.208 notes (Excel®/MSQuery®/MapInfo®) com as notas de 11.520 Outono de 1999 (ArcView® apenas), e apresenta um procedimento
para Excel®/MSQuery®/ArcView®.
file://T:\Conteúdo\MIT_FINAL_TRAD\11\11.208\Traduzidos\lecture-notes\lecture7imp.htm
27/9/2003
Download

Trabalhando com Dados de Censo