Trabalho apresentado pelo bolsista Muriki Yamanaka debate soluções adotadas diante de mudanças anuais nos datasets do Censo Escolar

A evolução do esquema de banco de dados do Censo da Escolar ao longo dos anos e os desafios na integração das bases de informações para o projeto Laboratório de Dados Educacionais (LDE) é foco do artigo apresentado pelos pesquisadores do Centro de Computação Científica e Software Livre (C3SL), no 39º Simpósio Brasileiro de Banco de Dados (SBBD). Intitulado “Statistical Validation of Column Matching in the Database Schema Evolution of the Brazilian Public School Census”, o artigo será apresentado nesta quinta-feira (17) na trilha principal do SBBD pelo bolsista de graduação Muriki Yamanaka. A também autora do trabalho e pesquisadora do pós-doutorado do PPGInf, Simone Dominico, participa do evento, que segue com programação até esta quinta-feira (17).
Maior simpósio de bancos de dados da América Latina, o SBBD reúne pesquisadores, estudantes e profissionais da indústria para discutir os avanços mais recentes e as direções futuras da área. O trabalho apresentado por Muriki apresenta uma metodologia estatística para validar a integração de dados do Censo Escolar do Brasil. Abordando o desafio de acompanhar as mudanças no esquema do banco de dados à medida que novas versões dos datasets são divulgadas anualmente pelo Ministério da Educação, propondo contribuições significativas para a integração de dados.

Conforme destacam os autores no trabalho, a base do Censo Escolar alimenta o projeto encabeçado pelo Ministério da Educação e realizado em parceria com o C3SL, UFPR e UFG, a partir do Laboratório de Dados Educacionais (LDE). Os dados são fundamentais para ferramentas como o Simulador de Custo-Aluno Qualidade (SIMCAQ), que avalia o custo de oferecer educação de qualidade com base em várias variáveis educacionais e estruturais, como tamanho das turmas, salários dos professores e recursos de bibliotecas, o MapFor, que rastreia a formação acadêmica dos professores, e o Laboratório de Dados Educacionais, que disponibiliza dados e indicadores sobre a educação básica e superior no Brasil, permitindo acesso a informações em série histórica e diferentes níveis de desagregação.
“Esses projetos têm um impacto demonstrável na sociedade, destacando a importância de manter uma alta qualidade de dados dentro do banco de dados do LDE”, apontam os autores no artigo. O LDE reúne dados de 12 anos do Censo Escolar, coletando informações abrangentes sobre 179 mil escolas no país. O resultado da pesquisa apresentada pelos bolsistas do C3SL no SBBD é fundamental para a manutenção desse banco de dados, ferramenta vital para monitorar tendências ao longo do tempo e obter insights valiosos sobre o contexto educacional no Brasil.O artigo Statistical Validation of Column Matching in the Database Schema Evolution of the Brazilian Public School Census é assinado pelos pesquisadores Muriki Yamanaka, Diogo de Almeira, Paulo Lisboa de Almeida, Simone Dominico, Letícia Peres, Marcos Sunye e Eduardo de Almeida. Clique aqui e confira a íntegra do trabalho nos anais do 39º Simpósio Brasileiro de Banco de Dados.