Estudo aprimora Plataforma de Dados Educacionais, solução do C3SL e MEC com ferramentas open source para análise interativa e acesso a indicadores da educação

Os pesquisadores do Centro de Computação Científica e Software Livre (C3SL), laboratório de inovação da Universidade Federal do Paraná (UFPR), participam nesta semana 40º Simpósio Brasileiro de Banco de Dados (SBBD), em Fortaleza (CE) apresentando dados da pesquisa sobre o projeto de Plataforma de Dados Educacionais para Políticas Públicas (DEPP), desenvolvido em parceria com o Ministério da Educação (MEC). Intitulado “Utilização do Apache Superset para visualização escalável de dados educacionais públicos: um estudo de caso com o Censo Escolar”, o trabalho debate o uso da ferramenta de código aberto para superação de desafios técnicos na plataforma, facilitando a geração de indicadores educacionais úteis para gestores, pesquisadores e a sociedade civil.
O paper aprovado em um dos principais eventos da área na América Latina é assinado pelos pesquisadores de graduação do C3SL, João Pedro Ramalho, João Silveira, Thales Gabriel e Mateus Herbele, pelo pesquisador do doutorando, Josiney de Souza, e pelos professores e pesquisadores sênior do C3SL, Guilherme Derenievicz, Letícia Peres e Simone Dominico.
Para o pesquisador do C3SL, Mateus Herbele, a participação no evento completa o processo da pesquisa. “Poder apresentar nossa solução para a comunidade científica da área de banco de dados foi uma etapa importante para concluir todo o nosso processo de pesquisa e aprimoramento dentro dos nossos objetivos com a plataforma de dados educacionais. Com as novas visões que obtivemos no evento sobre o nosso próprio trabalho junto do conhecimento de outras pesquisas, temos agora novas bases para planejarmos nossos próximos passos no projeto e contornamos desafios existentes”, destaca.

A Plataforma de Dados Educacionais (DEPP), objeto do projeto apresentado, é uma solução inovadora baseada em software livre que reúne diferentes bases de dados educacionais em um ambiente analítico moderno. O objetivo da plataforma é permitir o cruzamento e análise de padrões temporais, demográficos e geográficos dos dados educacionais, permitindo diferentes níveis de desagregação e a construção de indicadores acessíveis para gestores públicos, pesquisadores e a sociedade civil.
Apesar de o Censo Escolar, disponibilizado pelo INEP, conter informações essenciais para o planejamento educacional, sua análise enfrenta obstáculos devido à alta dimensionalidade dos dados, heterogeneidade entre as edições anuais e ausência de ferramentas adequadas para exploração. Os arquivos CSV apresentam inconsistências, como mudanças na nomenclatura e estrutura de dados ao longo dos anos, demandando reparos manuais e scripts que tornam o processo trabalhoso e sujeito a erros. Além disso, soluções proprietárias para visualização costumam ser caras e inacessíveis a órgãos públicos, o que reforça a necessidade de alternativas escaláveis e abertas.
Para superar esses desafios, o estudo em desenvolvimento pela equipe de base de dados do C3SL propõe um fluxo integrado baseado em ferramentas abertas. O Apache NiFi automatiza a ingestão e padronização dos arquivos CSV, corrigindo inconsistências e consolidando os dados em um modelo relacional gerenciado pelo ClickHouse. O Apache Superset, conectado a esse banco, viabiliza a criação de dashboards interativos que permitem a exploração de padrões temporais, espaciais e demográficos por meio de filtros globais e visualizações interligadas. Exemplos incluem dashboards de matrículas por cor/raça, gênero, faixa etária e educação especial, além de dados docentes organizados por escola, usando gráficos de linha, mapas interativos e tabelas para maior clareza.
O uso do Superset mostrou alta eficiência. Além disso, a solução diminui a complexidade do trabalho manual, simplifica atualizações e adapta-se às mudanças futuras do Censo Escolar. O ambiente relacional possibilita consultas avançadas por SQL e visualizações dinâmicas, promovendo transparência e suporte à tomada de decisão.