Método

Dados Públicos na Pesquisa: IBGE, DATASUS e INEP

IBGE, DATASUS e INEP oferecem bases de dados públicas e gratuitas para pesquisa. Entenda o que cada uma oferece e como usá-las de forma ética e metodologicamente correta.

dados-publicos metodologia pesquisa-quantitativa fontes-de-dados

Uma virada de chave que muita pesquisa ainda não tomou

Vamos lá. Existe um recurso disponível gratuitamente, produzido com dinheiro público, sobre inúmeros aspectos da realidade brasileira, e que boa parte dos pesquisadores não usa por falta de familiaridade ou por nunca ter parado para explorar o que existe.

Estou falando das bases de dados públicas do governo federal. IBGE, DATASUS, INEP. Há outros, mas esses três são os que mais aparecem em pesquisas acadêmicas e os que têm infraestrutura de acesso mais consolidada.

Usar dados públicos não é um atalho ou uma forma de fazer pesquisa mais fácil. É uma escolha metodológica com vantagens e limitações próprias que vale entender bem.

IBGE: o retrato mais amplo do Brasil

O Instituto Brasileiro de Geografia e Estatística é a principal fonte de dados sociodemográficos do Brasil. As pesquisas mais usadas em ciências sociais, economia, saúde e educação incluem:

PNAD Contínua (Pesquisa Nacional por Amostra de Domicílios Contínua): dados trimestrais e anuais sobre mercado de trabalho, renda, acesso a serviços. É a pesquisa mais usada para análises sobre emprego, desemprego e condições de vida.

Censo Demográfico: realizado a cada dez anos, oferece o retrato mais completo da população brasileira em termos de domicílios, escolaridade, renda, raça, migração e muito mais. O último foi realizado em 2022.

POF (Pesquisa de Orçamentos Familiares): dados sobre consumo, gastos e condições de vida das famílias brasileiras. Relevante para pesquisas sobre pobreza, alimentação e padrões de consumo.

Pesquisa de Saúde do Escolar (PeNSE): dados sobre saúde de adolescentes em idade escolar. Muito usada em pesquisas de saúde pública relacionadas a adolescentes.

Os dados ficam disponíveis no portal do IBGE (ibge.gov.br) e também podem ser acessados via SIDRA (Sistema IBGE de Recuperação Automática), que permite montar tabelas personalizadas online.

DATASUS: saúde pública em dados

O Departamento de Informática do SUS (DATASUS) mantém um conjunto extenso de bases de dados sobre saúde pública no Brasil. Para pesquisas em saúde coletiva, epidemiologia, e áreas afins, é frequentemente indispensável.

As bases mais usadas incluem:

SIM (Sistema de Informações sobre Mortalidade): dados de óbitos por causa, faixa etária, sexo, localização. Permite análises de mortalidade e suas determinantes.

SINASC (Sistema de Informações sobre Nascidos Vivos): dados de nascimentos, incluindo características das mães e dos bebês. Muito usado em pesquisas de saúde materno-infantil.

SIH (Sistema de Informações Hospitalares): dados de internações hospitalares no SUS. Permite análises de morbidade hospitalar, procedimentos e custos.

SINAN (Sistema de Informação de Agravos de Notificação): dados de doenças de notificação compulsória. Fundamental para pesquisas epidemiológicas de doenças infectocontagiosas, violência e outros agravos.

O acesso ao DATASUS é pelo portal datasus.saude.gov.br, com ferramenta TabNet para consultas online e possibilidade de download de arquivos para análise local.

Uma advertência importante: bases administrativas como DATASUS têm limitações metodológicas que precisam ser discutidas na pesquisa. Subnotificação é um problema real em determinadas condições e regiões. Inconsistências históricas existem em algumas variáveis. Usar sem discutir essas limitações é um erro metodológico que bancas e revisores vão apontar.

INEP: educação em números

O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira produz dados sobre o sistema educacional brasileiro. As bases mais relevantes para pesquisa incluem:

Censo Escolar: dados anuais sobre escolas, matrículas, docentes, infraestrutura. Cobre educação básica pública e privada.

ENEM (Exame Nacional do Ensino Médio): microdados de participantes com notas e variáveis socioeconômicas. Base muito usada em pesquisas sobre desigualdade educacional e desempenho escolar.

ENADE (Exame Nacional de Desempenho de Estudantes): dados sobre desempenho de estudantes de ensino superior.

Censo da Educação Superior: dados anuais sobre instituições de ensino superior, cursos, matrículas, docentes.

Os microdados do INEP estão disponíveis no portal inep.gov.br e podem ser baixados em formatos compatíveis com os principais softwares de análise estatística.

Como usar dados públicos com rigor

Alguns pontos metodológicos que fazem diferença:

Declare a fonte com precisão. Não basta escrever “dados do IBGE”. Informe qual pesquisa, qual ano de referência, qual edição. Os dados têm datas de coleta e de publicação que precisam ficar claras.

Entenda o plano amostral. PNAD, Censo e outras pesquisas por amostragem têm designs complexos que precisam ser considerados na análise estatística. Ignorar o plano amostral pode levar a estimativas incorretas de erros padrão. Softwares como R (com o pacote survey) e Stata têm funções específicas para isso.

Discuta as limitações. Nenhuma base de dados é perfeita. Subnotificação, seleção não-aleatória, mudanças metodológicas ao longo do tempo, categorias que mudaram de definição. Identificar e discutir essas limitações não enfraquece sua pesquisa. Pelo contrário, demonstra que você conhece o material com que está trabalhando.

Verifique a versão dos dados. Bases públicas são atualizadas e às vezes revisadas. Certifique-se de que está usando a versão correta e mais atual para seus fins, e documente qual versão utilizou.

Questões éticas com dados secundários

Usar dados que outros coletaram tem algumas implicações éticas e legais que valem atenção.

A LGPD (Lei Geral de Proteção de Dados) se aplica mesmo a dados agregados, especialmente se houver possibilidade de identificação de indivíduos. Bases como ENEM têm microdados que, combinados com outras informações, podem permitir identificação. O INEP tem regras específicas sobre como esses dados podem ser usados e publicados.

Se sua pesquisa usa dados que podem identificar indivíduos ou que envolvem populações vulneráveis, consulte seu CEP mesmo para dados secundários. As regras variam, mas o princípio de proteção dos participantes se aplica independente de como os dados foram obtidos.

O que isso significa para sua pesquisa

Usar bases públicas não é para qualquer tipo de pergunta de pesquisa. Há perguntas que exigem dados primários coletados com instrumentos específicos para sua questão. Mas há também um número grande de perguntas de pesquisa que podem ser respondidas com dados já existentes, com qualidade e representatividade que uma coleta própria nunca conseguiria alcançar.

Se você ainda não explorou o que o IBGE, DATASUS e INEP oferecem para a sua área, pode ser que esteja deixando de aproveitar um recurso significativo. E se você já usa, vale sempre revisar a metodologia para garantir que está usando com o rigor que a pesquisa merece.

Outras bases públicas relevantes

Além das três grandes, existem outras bases de dados públicas que aparecem com frequência em pesquisas brasileiras e vale conhecer.

O Cadastro Único para Programas Sociais (CadÚnico) do Ministério do Desenvolvimento Social tem dados sobre famílias de baixa renda. O acesso direto aos microdados tem restrições por causa de dados sensíveis, mas há produtos analíticos derivados que são públicos.

O DataSUS do CONASS e CONASEMS oferece informações sobre a rede de saúde pública, estabelecimentos, profissionais e serviços que complementam as bases epidemiológicas do DATASUS tradicional.

O portal dados.gov.br reúne datasets de diversos órgãos federais em um único catálogo. Nem todos têm qualidade adequada para pesquisa científica, mas é um ponto de partida útil para explorar o que existe.

O Tribunal Superior Eleitoral (TSE) disponibiliza dados detalhados sobre eleições, candidatos e partidos que são muito usados em ciência política e sociologia. Os dados são de alta qualidade para o que cobrem.

Para pesquisas em educação básica, o Portal da Transparência do MEC e os microdados do Censo Escolar do INEP frequentemente se complementam.

Trabalhando com dados públicos na prática

Acessar os dados é só o primeiro passo. Trabalhar com bases grandes como PNAD ou Censo Demográfico requer ferramentas adequadas.

Para quem usa R, os pacotes survey, sidrar e PNADcIBGE foram desenvolvidos especificamente para trabalhar com pesquisas do IBGE, incluindo o tratamento correto do plano amostral complexo. Para quem prefere Python, há alternativas como pandas para manipulação e pyreadstat para leitura de formatos como .sav e .dta.

Stata tem longa tradição no trabalho com dados de survey e é amplamente usado em programas de economia e ciências sociais. Seus comandos svyset e svy implementam as correções para o design amostral de forma direta.

A documentação das pesquisas do IBGE, disponível junto com os microdados, é parte indispensável do trabalho. Ela descreve o plano amostral, explica as variáveis, documenta as mudanças metodológicas entre edições, e fornece os pesos necessários para as estimativas.

Da base pública para a contribuição científica

Usar dados públicos não é automaticamente fazer ciência de qualidade. O que transforma um conjunto de dados numa contribuição científica é a pergunta de pesquisa, o referencial teórico, as escolhas metodológicas de análise, e a interpretação rigorosa dos resultados.

Bases públicas são matéria-prima. A pesquisa é o que você constrói com elas. E esse trabalho de construção, de transformar dados existentes em conhecimento novo, pode ser tão rigoroso e tão original quanto qualquer pesquisa que coletou seus próprios dados do zero.

A vantagem adicional: ao usar bases reconhecidas e documentadas, você facilita a replicabilidade da sua pesquisa. Outros pesquisadores podem acessar os mesmos dados, verificar seus cálculos, e testar se suas conclusões se sustentam com análises diferentes. Isso é parte do que torna a ciência robusta.

Perguntas frequentes

Preciso de aprovação do CEP para usar dados do IBGE ou DATASUS?
Dados secundários de bases públicas como IBGE, DATASUS e INEP geralmente não exigem aprovação do CEP, pois não envolvem coleta direta com participantes. Porém, se os dados puderem identificar indivíduos ou se houver combinação com outras fontes que permitam identificação, o CEP pode precisar ser consultado. Verifique com seu programa.
Os dados do DATASUS são confiáveis para pesquisa científica?
O DATASUS é uma fonte legítima e amplamente usada em pesquisas de saúde pública no Brasil. Limitações existem: subnotificação em algumas regiões, inconsistências históricas em determinadas variáveis, e o fato de que registros administrativos têm finalidade primária diferente da pesquisa. Essas limitações devem ser discutidas na metodologia.
Como citar dados do IBGE corretamente em trabalhos acadêmicos?
Cite com o nome da pesquisa, edição ou ano de referência, Instituto Brasileiro de Geografia e Estatística (IBGE), e URL de acesso com data de consulta. Exemplo: IBGE. Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD Contínua) 2023. Rio de Janeiro: IBGE, 2024. Disponível em: [URL]. Acesso em: [data].
<