Desafio3

================

Informações do aluno:

Nome: Lucas E. O. Silva
Programa: Mestrado em Ciência Política
Data de entrega: 16/05/2017

Descrição da atividade

O objetivo do trabalho é construir uma base de dados, a partir de diferentes fontes, desagregada por município. Para isso, foram selecionados quatro repositórios de informações públicas:

Com exceção dos dados do Atlas Brasil, que se referem ao censo de 2010, todos os demais são referentes ao ano de 2015.

Ao fim, pretendo criar uma base de dados que contenha informações dos municípios no que se refere à urbanização e governança municipal.

Variáveis selecionadas

IBGE

Do Perfil dos Municípios Brasileiros, foram selecionadas as variáveis refentes a cobrancas de Taxas Municipais:

Taxa de iluminacaoo publica (variável categórica);
Taxa de coleta de lixo (variável categórica);
Taxa de incendio ou combate a sinistros (variável categórica);
Taxa de limpeza urbana (variável categórica);
Taxa de poder de policia (variável categórica).

Tesouro Nacional:

Em relação aos dados financeiros e fiscais dos municípios, selecionei as Despesas Orçamentárias - Pagas (Anexo I-D) referentes ao ano de 2015. A base está desagregada por transação, contudo interessa-me apenas o total gasto por cada administração (variável contínua).

DATASUS:

No que se refere aos dados de óbitos, foram selecionados aqueles por residência e de acordo com o Capítulo CID-10 (variável discreta). Essa categoria médica trata de algumas doenças infecciosas e parasitárias.

PNUD:

Por fim, foram escolhidos cinco indicadores de habitação do Atlas Brasil, são eles:

% da população em domicílios com água encanada (variável contínua);
% da população em domicílios com banheiro e água encanada (variável contínua);
% da população em domicílios com coleta de lixo (variável contínua);
% da população em domicílios com energia elétrica (variável contínua);
% da população em domicílios com densidade > 2 (variável contínua).

Estratégia de operacionalização dos dados

Ao invés de realizar o procedimento de coleta das informações em um só arquivo, com o intuito de não poluir visualmente o Global Environment com diversos tipos de objetos, decidi por modularizar o processo.

Criei quatro arquivos, cada um com uma função referente à leitura e/ou download das informações em cada repositório. Todas elas possuem um parâmetro em comum, caminho, que trata do local onde as informações referentes aquela determinada fonte estão/ficarão armazenadas.Os procedimentos em cada função são similares, o que diferencia são os ajustes feitos em algumas variáveis em particular.

Basicamente, cada código:

Lê os arquivos com as informações de cada base por meio da função read.csv() do utils. No caso dos dados do IBGE, foi utilizada a função read_xls() do readxl pelo fato do arquivo não estar em .csv;
Seleciona e renomeia as variáveis de interesse por meio, respectivamente, das funções select() e rename() do dplyr;
Reestrutura o conteúdo de algumas variáveis, seja alterando sua classe ou atribuindo determinados fatores, seja removendo ou extraindo conteúdos de interesse por meio da função str_sub() do stringr.

A ideia é fazer com que cada função esteja disponível no Global Environment do usuário para que, a partir disso, ele possa concatenar os frames de cada repositório de uma maneira mais fácil e prática. O código abaixo exemplica:

# definindo o caminho dos arquivos
caminho <- "C://Users//user03//Desktop//desafio3"

# criando um objeto com cada base
base_ibge <- Ibge(caminho)
base_siconfi <- Siconfi(caminho)
base_data_sus <- DataSus(caminho)
base_atlas <- AtlasBrasil(caminho)

# estalecendo uma lista com o nome de todas as bases
L <- list(base_ibge, base_siconfi, base_data_sus, base_atlas)

# a função join_all, do pacote plyr, concatena todos os frames simultaneamente
# selecionei o left para nivelar a base geral de acordo com os dados do ibge, que possuem
# mais casos
geral <- join_all(L, type='left', by = "CodIbge6", match = "first")

A função join_all() do plyr permite com que possamos mergir vários dataframes de uma só vez. Para isso, é necessária a criação de uma lista contento todos os frames de interesse e, em seguida, informar o tipo da junção e nome da primary-key (campo presente em todos os frames).

Ao fim, o frame resultante tem 5570 observações e 21 variáveis, conforme mostra o código abaixo:

str(geral)

## 'data.frame':    5570 obs. of  21 variables:
##  $ CodIbge6  : int  110001 110002 110003 110004 110005 110006 110007 110008 110009 110010 ...
##  $ CodIbge7  : int  1100015 1100023 1100031 1100049 1100056 1100064 1100072 1100080 1100098 1100106 ...
##  $ CodUf     : int  11 11 11 11 11 11 11 11 11 11 ...
##  $ CodMun    : int  15 23 31 49 56 64 72 80 98 106 ...
##  $ NomeMun   : chr  "ALTA FLORESTA DOESTE" "ARIQUEMES" "CABIXI" "CACOAL" ...
##  $ Regiao    : Factor w/ 5 levels "Centro-Oeste",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ Pop       : num  25578 104401 6355 87226 17986 ...
##  $ ClassPop  : Factor w/ 7 levels "Até 5000","5001 até 10000",..: 4 6 2 5 3 3 2 3 4 4 ...
##  $ IlumPub   : Factor w/ 3 levels "Não","Recusa",..: 3 3 3 3 NA 3 3 3 3 3 ...
##  $ ColLixo   : Factor w/ 3 levels "Não","Recusa",..: 3 3 3 3 NA 3 3 1 3 3 ...
##  $ IncSis    : Factor w/ 3 levels "Não","Recusa",..: 1 1 1 3 NA 1 1 1 1 1 ...
##  $ LimpUrb   : Factor w/ 3 levels "Não","Recusa",..: 1 1 3 1 NA 3 3 1 3 3 ...
##  $ Police    : Factor w/ 3 levels "Não","Recusa",..: 3 3 3 3 NA 3 3 1 3 3 ...
##  $ TotalDesp : num  4.53e+07 1.78e+08 1.85e+07 1.63e+08 4.64e+07 ...
##  $ TxObResInf: int  6 24 NA 14 NA 2 1 2 1 8 ...
##  $ TxObResTot: int  6 24 NA 14 NA 2 1 2 1 8 ...
##  $ AguaEnc   : num  93.7 98.5 95.5 98 97.5 ...
##  $ BanAguaEnc: num  80.2 85.3 91.6 93.4 86.9 ...
##  $ ColLixoPc : num  94 96.7 99.1 98.2 91.9 ...
##  $ EnergEle  : num  94 98.6 96.4 98.9 98.8 ...
##  $ Densidade : num  22.6 27.1 19.9 20.5 16.7 ...

Análise exploratória dos dados

O intuito dessa seção é examinar as relaçãos entre as variáveis presentes no frame agregado. Para isso, serão utilizados recursos analíticos como tabelas, gráficos e mapas.

Através da Tabela 1, podemos constatar que a taxa de iluminação pública é a tarifa mais cobrada nos municipios brasileiros. Aproximadamente, 4 a cada 5 prefeituras cobram esse tipo de imposto. Em contra partida, a taxa contra incêndios e sismos é a menos cobrada, menos de 5% dos municípios adotam esse tipo de imposto.

Parâmetro	Sim	Não	Recusa	Total
Iluminação pública	78.31	21.67	0.02	100
Coleta de lixo	52.23	47.75	0.02	100
Incêndio e Sismos	4.48	95.50	0.02	100
Limpeza urbana	36.27	63.71	0.02	100
Polícia	48.74	51.24	0.02	100

O Gráfico 1 ilustra a proporção de habitantes dos municípios brasileiros. Podemos constatar que aproximadamente 85% das cidades possuem até 50.000 habitantes. Os municípios que possuem mais do que 500.000 habitantes representam apenas 7% do total nacional.

O Gráfico 2 ilustra o número de mortes por infecção em cada região geográfica. Constatamos que a região Sudeste possui a maior frequência. Muito disso se deve ao fato dela possuir o maior número de habitantes.

Já o Gráfico 3 mostra a associação entre a porcentagem de municípios com água encanada e coleta de lixo. Podemos observar que nas regiões Centro-Oeste e Sul essas variáveis são mais correlacionadas, enquando nas regiões Norte e Nordeste elas se encontram mais dispersas.

Por sua vez, o Gráfico 4 representa a associação entre o gasto dos municípios e com o total de habitantes. Examinamos que quando maior o número de habitantes, maior o dispêndio das prefeituras. A linha de tendência nos auxilia a verificar isso.

Para finalizar, o Mapa abaixo ilustra a porcentagem de habitações com energia elétrica nos municípios brasileiros.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
AtlasBrasil_Consulta.csv		AtlasBrasil_Consulta.csv
Base_MUNIC_2015.xls		Base_MUNIC_2015.xls
MUNBRASIL.dbf		MUNBRASIL.dbf
MUNBRASIL.shp		MUNBRASIL.shp
MUNBRASIL.shx		MUNBRASIL.shx
README.md		README.md
UFEBRASIL.dbf		UFEBRASIL.dbf
UFEBRASIL.shp		UFEBRASIL.shp
UFEBRASIL.shx		UFEBRASIL.shx
data_sus.csv		data_sus.csv
finbra.csv		finbra.csv
script_atlas_brasil.R		script_atlas_brasil.R
script_data_sus.R		script_data_sus.R
script_geral.R		script_geral.R
script_ibge.R		script_ibge.R
script_tesouro.R		script_tesouro.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Desafio3

Informações do aluno:

Descrição da atividade

Variáveis selecionadas

Estratégia de operacionalização dos dados

Análise exploratória dos dados

About

Uh oh!

Releases

Packages

Uh oh!

Languages

lucaseosilva/Desafio3

Folders and files

Latest commit

History

Repository files navigation

Desafio3

Informações do aluno:

Descrição da atividade

Variáveis selecionadas

Estratégia de operacionalização dos dados

Análise exploratória dos dados

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages