Débora Barbosa Pina

Débora Pina é Doutora em Engenharia de Sistemas e Computação pela COPPE/UFRJ (2025) e Mestre na mesma área pela COPPE/UFRJ (2020). Graduou-se em Engenharia de Computação e Informação pela Universidade Federal do Rio de Janeiro (UFRJ) em 2017. Sua trajetória acadêmica inclui a realização de Iniciação Científica na área de workflows científicos entre 2014 e 2016. Durante o doutorado, participou do Programa Institucional de Internacionalização (PRINT), realizando um período de doutorado sanduíche na University of Southampton, no Reino Unido, com financiamento da CAPES, voltado ao aprofundamento de suas pesquisas em aprendizado profundo e dados de proveniência. Após seu retorno ao Brasil, dedicou-se ao fortalecimento das colaborações internacionais estabelecidas durante o doutorado sanduíche e à disseminação dos resultados. Ao longo de sua carreira, colaborou em projetos de grande relevância, destacando-se sua atuação em iniciativas conjuntas da Coppetec com a Dell/EMC e em projetos com a Petrobras. Seus interesses de pesquisa abrangem Banco de Dados, Workflows Científicos, Ambientes de Processamento de Alto Desempenho, Proveniência e Aprendizado Profundo, com foco no desenvolvimento de soluções inovadoras para desafios computacionais complexos.

Informações coletadas do Lattes em 07/12/2025

Acadêmico

Formação acadêmica

Doutorado em Engenharia de Sistemas e Computação

2020 - 2025

Universidade Federal do Rio de Janeiro
Título: Provenance Data as A First-Class Citizen for Deep Learning Workflow Analyses
com Marta Lima de Queirós Mattoso. Coorientador: Daniel Cardoso Moraes de Oliveira. Bolsista do(a): Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq, Brasil.

Mestrado em Engenharia de Sistemas e Computação

2018 - 2020

Universidade Federal do Rio de Janeiro
Título: Captura de dados de proveniência para apoiar a análise de hiperparâmetros em redes de aprendizado profundo
, Ano de Obtenção: 2020.Marta Lima de Queirós Mattoso.Coorientador: Daniel Cardoso Moraes de Oliveira. Bolsista do(a): Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq, Brasil.

Graduação em Engenharia de Computação e Informação

2013 - 2017

Universidade Federal do Rio de Janeiro
Título: Uma interface para análise de fluxo de dados em simulações computacionais intensivas em dados
Orientador: Marta Lima de Queirós Mattoso

Curso técnico/profissionalizante em Técnico em Informática

2009 - 2011

Centro Federal de Educação Tecnológica de Minas Gerais

Ensino Médio (2º grau)

2009 - 2011

Centro Federal de Educação Tecnológica de Minas Gerais

Pós-doutorado

2025

Pós-Doutorado. , Universidade Federal do Rio de Janeiro, UFRJ, Brasil. , Bolsista do(a): COPPETEC, COPPETEC, Brasil.

Formação complementar

2019 - 2019

Francês. (Carga horária: 48h). , Idioma sem fronteiras, ISF, Brasil.

2014 - 2016

Inglês. (Carga horária: 100h). , Cultura Inglesa, CC, Brasil.

Idiomas

Inglês

Compreende Bem, Fala Bem, Lê Bem, Escreve Razoavelmente.

Espanhol

Compreende Pouco, Fala Pouco, Lê Pouco, Escreve Pouco.

Áreas de atuação

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Metodologia e Técnicas da Computação/Especialidade: Banco de Dados.

Participação em eventos

ACM Summer School on HPC Computer Architectures for AI and Dedicated Applications. 2024. (Outra).

EDBT: 25th International Conference on Extending Database Technology. 2022. (Congresso).

Escola SantosDumont - Programa de Verão. 2022. (Oficina).

ICDT: 25th International Conference on Database Theory. 2022. (Congresso).

Brazilian Symposium on Databases (SBBD).Captura Automática de Dados de Proveniência de Experimentos de Aprendizado de Máquina com Keras-Prov. 2021. (Simpósio).

Ibero-Latin American Congress on Computational Methods in Engineering. Capturing Provenance to Improve the Model Training of PINNs: first handon experiences with Grid5000. 2021. (Congresso).

Ibero-Latin American Congress on Computational Methods in Engineering. 2021. (Congresso).

International Provenance and Annotation Workshop (IPAW). Provenance Supporting Hyperparameter Analysis in Deep Neural Networks. 2021. (Congresso).

SIAM Conference on Computational Science and Engineering. 2021. (Congresso).

Supercomputing. 2021. (Congresso).

Theory and Practice of Provenance (TaPP). 2021. (Congresso).

Workshop on Provenance for Transparent Research. 2021. (Congresso).

ACM SIGMOD/PODS International Conference on Management of Data. 2020. (Congresso).

Brazilian Symposium on Databases (SBBD).Uma abordagem para coleta e análise de dados de configurações em redes neurais profundas. 2020. (Simpósio).

Simpósio Brasileiro de Bancos de Dados.Análise de Hiperparâmetros em Aplicações de Aprendizado Profundo por meio de Proveniência. 2019. (Simpósio).

Simpósio Brasileiro de Bancos de Dados. 2019. (Simpósio).

Campus Party. 2015. (Congresso).

XXXVII Jornada Giulio Massarani de Iniciação Científica, Artística e Cultural.Portal para análise de workflows científicos de biologia computacional. 2015. (Simpósio).

XXXVI Jornada Giulio Massarani de Iniciação Científica, Artística e Cultural.Modelagem de workflows científicos de biologia computacional para execução paralela. 2014. (Simpósio).

Participação em bancas

Aluno: Bruno Gabriel Montate da Silva

Daniel de Oliveira; LAGE, M.; BEDO, M.;PINA, DÉBORA. Um Data Warehouse para Dados de Futebol. 2025. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal Fluminense.

Aluno: Pedro Paulo Sobral de Moraes

PINA, D.; COUTINHO, R.; OLIVEIRA, D.. Sistema Web para Execução de Aplicações em Múltiplas Máquinas. 2024. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal Fluminense.

Aluno: Philippe Santos Simões

OLIVEIRA, D.; PAES, A;PINA, D.. Proveniência de Dados: Sua Importância na Predição de Fácies Orgânicas na Aplicação Achilles.Br. 2023. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal Fluminense.

Orientou

Lorenzo Barreto Aceti, Leonardo Teixeira de Brito

Desenvolvimento de uma Aplicação Web para Instrumentação de Scripts para a Ferramenta DfAnalyzer; 2023; Trabalho de Conclusão de Curso; (Graduação em Sistemas de Informação) - Universidade Federal Fluminense; Orientador: Débora Barbosa Pina;

Produções bibliográficas

PINA, DÉBORA ; KUNSTMANN, LILIANE ; CHAPMAN, ADRIANE ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . DLProv: a suite of provenance services for deep learning workflow analyses. PEERJ COMPUTER SCIENCE , v. 11, p. e2985, 2025.
PINA, DÉBORA ; KUNSTMANN, LILIANE ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . Breadcrumbs for your Deep Learning Model: Following Provenance Traces with DLProv. Software Impacts , v. 23, p. 100730, 2025.
PINA, DÉBORA ; KUNSTMANN, LILIANE ; BEVILAQUA, FELIPE ; SIQUEIRA, ISABELA ; LYRA, ALAN ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . Capturing Provenance from Deep Learning Applications Using Keras-Prov and Colab: a Practical Approach. Journal of Information and Data Management - JIDM , v. 13, p. 513, 2022.
KUNSTMANN, LILIANE ; PINA, DÉBORA ; SILVA, FILIPE ; PAES, ALINE ; VALDURIEZ, PATRICK ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . Online Deep Learning Hyperparameter Tuning based on Provenance Analysis. Journal of Information and Data Management - JIDM , v. 12, p. 396-414, 2021.
PINA, DÉBORA ; CHAPMAN, ADRIANE ; KUNSTMANN, LILIANE ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . DLProv: A Data-Centric Support for Deep Learning Workflow Analyses. In: SIGMOD/PODS '24: International Conference on Management of Data, 2024, Santiago AA Chile. Proceedings of the Eighth Workshop on Data Management for End-to-End Machine Learning, 2024. p. 77.
KUNSTMANN, LILIANE ; PINA, D. ; OLIVEIRA, D. ; MATTOSO, M. . Scientific Workflow Deployment: Container Provenance in High-Performance Computing. In: Simpósio Brasileiro de Bancos de Dados, 2024, Florianópolis. Anais do XXXIX Simpósio Brasileiro de Bancos de Dados, Florianópolis/SC, 2024.
DE OLIVEIRA, LYNCOLN S. ; KUNSTMANN, LILIANE ; PINA, DÉBORA ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . PINNProv: Provenance for Physics-Informed Neural Networks. In: 2023 International Symposium on Computer Architecture and High Performance Computing Workshops (SBACPADW), 2023, Porto Alegre. 2023 International Symposium on Computer Architecture and High Performance Computing Workshops (SBAC-PADW), 2023. p. 16.
PINA, DÉBORA ; CHAPMAN, ADRIANE ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . Deep Learning Provenance Data Integration: a Practical Approach. In: WWW '23: The ACM Web Conference 2023, 2023, Austin TX USA. Companion Proceedings of the ACM Web Conference 2023. p. 1542.
ROSENDO, DANIEL ; MATTOSO, MARTA ; COSTAN, ALEXANDRU ; SOUZA, RENAN ; PINA, DÉBORA ; VALDURIEZ, PATRICK ; ANTONIU, GABRIEL . ProvLight: Efficient Workflow Provenance Capture on the Edge-to-Cloud Continuum. In: 2023 IEEE International Conference on Cluster Computing (CLUSTER), 2023, Santa Fe. 2023 IEEE International Conference on Cluster Computing (CLUSTER), 2023. p. 221.
DE OLIVEIRA, LYNCOLN S. ; SILVA, RÔMULO M. ; KUNSTMANN, LILIANE ; PINA, DÉBORA ; DE OLIVEIRA, DANIEL ; COUTINHO, ALVARO L. G. A. ; MATTOSO, MARTA . Dados de proveniência para redes neurais guiadas pela Física: o caso da equação eikonal. In: Simpósio Brasileiro de Banco de Dados, 2022, Brasil. Anais do XXXVII Simpósio Brasileiro de Banco de Dados (SBBD 2022). p. 373.
KUNSTMANN, LILIANE ; PINA, DÉBORA ; OLIVEIRA, LYNCOLN S. DE ; OLIVEIRA, DANIEL DE ; MATTOSO, MARTA . ProvDeploy: Explorando Alternativas de Conteinerização com Proveniência para Aplicações Científicas com PAD. In: Simpósio em Sistemas Computacionais de Alto Desempenho, 2022, Brasil. Anais do XXIII Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 2022). p. 49.
PINA, D. ; NEVES, L ; OLIVEIRA, D. ; VALDURIEZ, P. ; MATTOSO, M. . Provenance Supporting Hyperparameter Analysis in Deep Neural Networks. In: International Provenance and Annotation Workshop, 2021, Charlotte, North Carolina. Provenance and Annotation of Data and Processes, 2021.
PINA, DÉBORA ; NEVES, LILIANE ; DE OLIVEIRA, DANIEL ; MATTOSO, MARTA . Captura Automática de Dados de Proveniência de Experimentos de Aprendizado de Máquina com Keras-Prov. In: Anais Estendidos do Simpósio Brasileiro de Banco de Dados, 2021, Brasil. Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021). p. 69.
SILVA, FILIPE ; PINA, DÉBORA ; KUNSTMANN, LILIANE ; MATTOSO, MARTA . Painel de Proveniência: análise durante o treinamento de Redes Neurais Profundas. In: Anais Estendidos do Simpósio Brasileiro de Banco de Dados, 2021, Brasil. Anais Estendidos do XXXVI Simpósio Brasileiro de Banco de Dados (SBBD Estendido 2021). p. 22.
SILVA, R. M. ; PINA, D. ; NEVES, L ; OLIVEIRA, D. ; VALDURIEZ, P. ; COUTINHO, A. L. G. A. ; Marta Mattoso . Capturing Provenance to Improve the Model Training of PINNs: first hand- on experiences with Grid5000. In: Pan-American Congress on Computational Mechanics, 2021, Rio de Janeiro. CILAMCE-PANACM 2021, 2021. p. 1-7.
PINA, DÉBORA ; KUNSTMANN, LILIANE ; OLIVEIRA, DANIEL ; VALDURIEZ, PATRICK ; MATTOSO, MARTA . Uma abordagem para coleta e análise de dados de configurações em redes neurais profundas. In: XXXV Simpósio Brasileiro de Banco de Dados, 2020, Brasil. Anais do XXXV Simpósio Brasileiro de Banco de Dados (SBBD 2020). p. 187.
NEVES, L ; PINA, D. ; OLIVEIRA, D. ; MATTOSO, M. . Apoio à Utilização de Análise de Dados em Aplicações CSE por meio de Contêineres. In: Escola Regional de Alto Desempenho do Rio de Janeiro, 2020, Rio de Janeiro. Anais da VI Escola Regional de Alto Desempenho do Rio de Janeiro.
PINA, D. ; NEVES, L ; PAES, A ; OLIVEIRA, D. ; MATTOSO, M. . Análise de Hiperparâmetros em Aplicações de Aprendizado Profundo por meio de Proveniência. In: Simpósio Brasileiro de Bancos de Dados, 2019, Fortaleza. XXXIV SBBD, 2019.
PINA, D. ; CAMPOS, V. ; SILVA, V. ; OCANA, K. ; OLIVEIRA, D. ; MATTOSO, M. . BioSciCumulus: um portal para análise de dados de proveniência em workflows de biologia computacional. In: Brazilian e-Science Workshop (e-Science), 2017, São Paulo. Anais do XI Brazilian e-Science Workshop (BreSci)., 2017.
OLIVEIRA, LYNCOLN S. DE ; PINA, D. ; KUNSTMANN, L. N. O. ; OLIVEIRA, D. ; MATTOSO, M. . The Role of Provenance Data in Physics Informed Machine Learning. In: 9th European Congress on Computational Methods in Applied Sciences and Engineering, 2024, Lisbon. ECCOMAS 2024, 2024.
KUNSTMANN, LILIANE ; PINA, DÉBORA ; Daniel de Oliveira ; Marta Mattoso . Provenance Support for Containerized Workflow Analyses in High-Performance Computing Environments. Journal of Information and Data Management - JIDM , 2025.
PINA, D. ; CHAPMAN, ADRIANE ; KUNSTMANN, LILIANE ; OLIVEIRA, D. ; MATTOSO, M. . DLProv: A data-centric support for deep learning workflow analyses. 2024. (Apresentação de Trabalho/Simpósio).
PINA, D. ; CHAPMAN, ADRIANE ; Daniel de Oliveira ; MATTOSO, M. . Deep learning provenance data integration: a practical approach. 2023. (Apresentação de Trabalho/Simpósio).
DE OLIVEIRA, LYNCOLN S. ; KUNSTMANN, LILIANE ; PINA, D. ; OLIVEIRA, D. ; MATTOSO, M. . PINNProv: Provenance for Physics-Informed Neural Networks. 2023. (Apresentação de Trabalho/Simpósio).
PINA, D. ; NEVES, L ; OLIVEIRA, D. ; MATTOSO, M. . The Role of Provenance in Data Analyses in Physics Informed Neural Networks. 2021. (Apresentação de Trabalho/Seminário).
PINA, D. . Captura de Dados de Proveniência para Apoiar a Análise de Hiperparâmetros em Redes Neurais Profundas. 2021. (Apresentação de Trabalho/Seminário).
SILVA, R. M. ; PINA, D. ; KUNSTMANN, LILIANE ; OLIVEIRA, D. ; VALDURIEZ, P. ; COUTINHO, A. L. G. A. ; MATTOSO, M. . Capturing provenance to improve the model training of pinns: first hand-on experiences with grid5000. 2021. (Apresentação de Trabalho/Congresso).
PINA, D. ; NEVES, L ; OLIVEIRA, D. ; VALDURIEZ, P. ; MATTOSO, M. . Uma abordagem para coleta e análise de dados deconfigurações em redes neurais profundas. 2020. (Apresentação de Trabalho/Simpósio).
PINA, D. . Hyperparameter Analysis in Deep Neural Networks. 2020. (Apresentação de Trabalho/Seminário).
BARBOSA, C. H. S. ; NEVES, L ; PINA, D. ; FREITAS, R. S. M. ; BERNADA, G. G. ; ROCHINHA, F. A. ; MATTOSO, M. ; COUTINHO, A. L. G. A. . Runtime Hyperparameter Tuning of DNN Surrogates for UQ Analysis in Seismic Imaging. 2020. (Apresentação de Trabalho/Congresso).
PINA, D. ; NEVES, L ; PAES, A ; OLIVEIRA, D. ; MATTOSO, M. . Análise de Hiperparâmetros em Aplicações de Aprendizado Profundo por meio de Proveniência. 2019. (Apresentação de Trabalho/Simpósio).
PINA, D. . Portal para análise de workflows científicos de biologia computacional. 2015. (Apresentação de Trabalho/Simpósio).
PINA, D. . Modelagem de workflows científicos de biologia computacional para execução paralela. 2014. (Apresentação de Trabalho/Simpósio).

Outras produções

KUNSTMANN, LILIANE ; PINA, D. ; DE OLIVEIRA, DANIEL ; MATTOSO, M. . ProvDeploy: Provenance-oriented Containerization of High Performance Computing Scientific Workflows. 2024.

Projetos de pesquisa

2024 - Atual

FedProv - Gerência de Dados de Proveniência em Aplicações de Aprendizado de Máquina Federado, Descrição: O Aprendizado de Máquina Federado (ou simplesmente Aprendizado Federado) é uma técnica distribuída que permite a colaboração entre múltiplos usuários no treinamento de modelos de Aprendizado de Máquina (e.g., Redes Neurais Profundas). O Aprendizado Federado vem sendo aplicado em diversas áreas como a Medicina, a Biologia e a Farmácia, pois com seu uso não há a necessidade de acessar todo o conjunto de dados para o treinamento de modelos, já que parte dos dados pode ser privada ou sensível. Em uma aplicação de Aprendizado Federado, cada nó cliente (e.g., um celular, computador ou um cluster) treina um modelo "localmente" e, em seguida, envia as atualizações desse modelo para um nó servidor, onde são combinadas em um modelo global. Esse modelo global é redistribuído para uma nova rodada de treinamento nos nós clientes. O treinamento de um modelo pode exigir várias iterações, tornando-o demorado, pois a duração de cada iteração depende das configurações escolhidas, e.g., o método de agregação do modelo global, os hiperparâmetros e os conjuntos de dados utilizados. A análise de método de agregação, hiperparâmetros e métricas, e.g., acurácia, durante o treinamento distribuído permite uma melhor compreensão do modelo treinado e abre oportunidades para melhorias, como a sintonia automática de hiperparâmetros e tolerância a falhas. Os dados de proveniência se mostram como uma alternativa interessante para representar o caminho de derivação dos dados durante o treinamento, permitindo a análise, o monitoramento e eventuais intervenções necessárias. O projeto FedProv tem como objetivo desenvolver algoritmos e técnicas para capturar, modelar, armazenar e gerenciar dados de proveniência de artefatos envolvidos no ciclo de vida de uma aplicação de Aprendizado Federado. Esses artefatos incluem conjuntos de dados, transformações de dados e usuários associados às etapas de pré-processamento, treinamento, teste e validação, além dos próprios modelos treinados. Além disso, o FedProv tem como objetivo apoiar outras ações por meio de dados de proveniência capturados, como adaptações em configurações, sintonia fina de parâmetros e tolerância a falhas (já que uma aplicação distribuída tem maior susceptibilidade a falhas). Ao capturar metadados e dados de proveniência integrados em uma base de dados, esperamos que as consultas realizadas sobre essa base de dados sejam capazes de auxiliar o usuário durante o treinamento distribuído.. , Situação: Em andamento; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Marta Lima de Queiros Mattoso - Integrante / Liliane Neves de Oliveira Kunstmann - Integrante / PAES, ALINE - Integrante / DE OLIVEIRA, LYNCOLN S. - Integrante / Marcos Lage - Integrante / Camila Lopes - Integrante / Daniel Cardoso Moraes de Oliveira - Coordenador., Financiador(es): Fundação Carlos Chagas Filho de Amparo à Pesquisa do Estado do RJ - Cooperação.
2023 - Atual

Quantificação de Incertezas para Dados Sísmicos Multicomponentes Aplicados ao Imageamento Sísmico, Descrição: O objetivo do projeto consiste em realizar o estudo e o entendimento dos impactos das incertezas associadas ao processo de imageamento e interpretação de dados sísmicos multicomponentes. Com isso, o presente projeto de pesquisa visa introduzir novos avanços ao workflow de quantificação de incertezas para imageamento sísmico, no que diz respeito à construção de campos de velocidades para caracterização de reservatórios utilizando dados sísmicos multicomponentes. Este projeto não se limita ao estudo da Migração reversa no tempo, também explorando méodos mais populares como a Inversão do campo de onda completo (Full waveform inversion - FWI), porém, dando continuidade às descobertas do projeto RTM-UQ.. , Situação: Em andamento; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Marta Mattoso - Integrante / Alvaro Luiz Gayoso de Azeredo Coutinho - Coordenador / José Luis Drummond Alves - Integrante / Fernando Alves Rochinha - Integrante / Rômulo Montalvão Silva - Integrante / Liliane Neves de Oliveira Kunstmann - Integrante / Carlos Henrique dos Santos Barbosa - Integrante / Charlan Dellon da Silva Alves - Integrante / Rodolfo da Silva Machado de Freitas - Integrante.
2022 - 2024

ProvDL - Geração e análise de dados de proveniência em aprendizado de máquina profundo, Descrição: Processos de aprendizado de máquina vem sendo cada vez mais adotados para subsidiar tomadas de decisões automáticas. Processos computacionais, em geral, tendem a ser totalmente automáticos, incluindo o aprendizado de máquina profundo. No entanto, decisões ainda são realizadas por humanos entre uma etapa e outra de processamento do aprendizado de máquina e de acordo com a literatura recente, essa participação vem sendo ignorada. Ainda que todo o processo do ciclo de vida seja automatizado, realizar associações entre os arquivos de dados brutos e modelos, entre os algoritmos utilizados para decisões finais ou mesmo para avaliar uma nova abordagem, tornam-se quase inviáveis de serem feitas manualmente ou com logs. Este projeto visa a suprir a lacuna da gerência de dados, de modo que artefatos do aprendizado de máquina profundo fiquem disponíveis para serem apresentados aos humanos que participam do ciclo de vida do treinamento, teste e validação de modelos. O apoio à análise de dados se baseia no W3C PROV para fornecer uma representação declarativa geral dos referidos artefatos de aprendizado de máquina profundo, seguindo um padrão de fato para dados de proveniência. Ao mesmo tempo em que a base de dados de proveniência complementa os recursos de análise com visualização gráfica típicos dos ambientes de aprendizado de máquina profundo, ela serve também para contribuir com a reprodutibilidade do modelo gerado.. , Situação: Concluído; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Marta Mattoso - Coordenador / Liliane Neves de Oliveira Kunstmann - Integrante.
2022 - Atual

ANNALIST: Apoio à Gerência e Análise de Dados em Aplicações de Cidades Inteligentes - Produtividade em Pesquisa (PQ) 2021, Descrição: O conceito de Cidades Inteligentes vem ganhando muita relevância, em especial na última década, por conta da proliferação de dados associados a cidades (e.g., dados de sensores, telefonia móvel, de sistemas de informação governamentais, etc). O objetivo do uso desses dados é melhorar os serviços oferecidos à população, por meio do desenvolvimento de aplicações, e assim aumentar o chamado bem-estar social. Diversas iniciativas têm sido propostas nas mais variadas áreas, e.g., saúde, transportes e segurança. As aplicações no contexto de Cidades Inteligentes são fortemente baseadas em Ciência de Dados, que engloba áreas como Inteligência Artificial, Estatística e Visualização. Entretanto, considerando o volume e a heterogeneidade dos dados envolvidos no processo (principalmente de análise e extração do conhecimento), a área de Gerência de Dados desempenha um papel-chave. Caso os dados não sejam bem estruturados, pré-processados, passíveis de consulta de forma eficiente e não possuam metadados que os descrevam, o resultado de aplicações de aprendizado de máquina, por exemplo, pode ficar comprometido. De fato, uma Gerência de Dados bem realizada pode representar a diferença crítica entre uma iniciativa de Cidades Inteligentes que ganha o apoio das partes interessadas e uma que acaba não sendo utilizada na prática. Grande parte das soluções existentes para Gerência de Dados no contexto de Cidades Inteligentes ou são específicas para uma determinada aplicação/domínio, ou não consideram todo o ciclo de vida do dado, desde o momento em que foi obtido, passando por múltiplas transformações, até a entrega para o usuário final. Assim, o projeto ANNALIST tem como objetivo oferecer uma arquitetura que permita aos diferentes usuários envolvidos realizar a gerência e a análise dos dados no contexto de aplicações de Cidades Inteligentes de forma eficiente durante todo o ciclo de vida do dado. Objetivamos desenvolver soluções para armazenamento, representação, consulta e análise de dados para apoiar as aplicações a serem desenvolvidas. Todo o apoio manterá o uso de padrões na representação de dados e procurará estender/adaptar, sempre que possível, serviços de análise de dados já propostos pelo grupo de pesquisa do proponente do projeto. Todos os resultados serão validados utilizando aplicações reais de projetos de Cidades Inteligentes... , Situação: Em andamento; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Vítor Silva - Integrante / Marta Mattoso - Integrante / Aline Marins Paes Carvalho - Integrante / Marcos Lage - Integrante / Daniel Cardoso Moraes de Oliveira - Coordenador / Isabel Rosseti - Integrante / Marcos Bedo - Integrante / Yuri Frota - Integrante / Victor Stroele - Integrante., Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Cooperação.
2021 - Atual

Centro de Excelência em Transformação Digital e Inteligência Artificial do Estado do Rio de Janeiro (Hub.Rio): Rede Temática em Energias Renováveis e Mudanças Climáticas, Descrição: O grande desafio do desenvolvimento sustentável neste século é equilibrar o aumento da demanda em energia com as restrições impostas pelas emissões de carbono e as mudanças climáticas. Neste contexto, os avanços recentes de inteligência artificial, ciência de dados e computação de alto desempenho têm papel fundamental para melhorar a eficiência computacional e a eficácia dos modelos matemáticos, com foco em energias renováveis e mudanças climáticas. Esta proposta tem como objetivo formar uma rede temática para o desenvolvimento de novas técnicas e aplicação de resultados recentes de inteligência artificial, ciência de dados e computação de alto desempenho, com apoio de engenharia de software, para modelagem climática e aplicações em energia oriunda de fontes renováveis, tais como eólica, oceânicas, solar e biomassa, bem como questões relacionadas à transição energética e distribuição de energia. A rede está organizada em grupos de trabalho (GT) com um grupo de trabalho transversal (GT0) e cinco grupos de trabalho verticais (GT1-5).. , Situação: Em andamento; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Alvaro Luiz Gayoso de Azeredo Coutinho - Coordenador / Fernando Alves Rochinha - Integrante / Marta Lima de Queiros Mattoso - Integrante / KUNSTMANN, LILIANE - Integrante / Guilherme Horta Travassos - Integrante / Antônio Tadeu Gomes - Integrante., Financiador(es): FAPERJ - Cooperação.
2020 - Atual

INRIA Associate Team: HPDaSc- High Performance Data Science, Descrição: Data-intensive science requires the integration of two fairly different paradigms: high-performance computing (HPC) and data science. HPC is compute-centric and focuses on high-performance of simulation applications, typically using powerful, yet expensive supercomputers whereas data science is data-centric and focuses on scalability and fault-tolerance of web and cloud applications using cost-effective clusters of commodity hardware.In the context of the SciDISC project (associated team 2016-2019) and the Inria Project Lab (IPL) HPC-BigData (2018-2022), we studied various architectures for integrating HPC and big data (post-processing, in-situ, in-transit) for applications in astronomy, life science and agronomy, and geoscience (oil gas). We learned major lessons, which are the basis for this new project: * Importance of realtime analytics to make critical high-consequence decisions, e.g. preventing useless drilling based on a drillers realtime data and realtime visualization of simulated data ; * Effectiveness of machine learning (ML) to deal with scientific data, e.g. computing Probability Density Functions (PDFs) over simulated seismic data using Spark; * Effectiveness of the Human-In-the-Loop (HIL) paradigm in combination with provenance data in scientific workflows, e.g. to avoid useless, long-duration computations in a supercomputer; * Significance of working closely with domain experts in order to interpret scientific data.This project addresses the grand challenge of High Performance Data Science (HPDaSc), by developing architectures and methods to combine simulation, ML and data analytics.. , Situação: Em andamento; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Kary Ocaña - Integrante / Alvaro Luiz Gayoso de Azeredo Coutinho - Integrante / Fernando Alves Rochinha - Integrante / Marta Lima de Queiros Mattoso - Integrante / Patrick Valduriez - Coordenador / KUNSTMANN, LILIANE - Integrante / PAES, ALINE - Integrante / Rafaelli Coutinho - Integrante / Daniel Cardoso Moraes de Oliveira - Integrante / Eduardo Ogasawara - Integrante / Fabio Porto - Integrante / Luiz M. R. Gadelha Jr. - Integrante / Reza Akbarinia - Integrante / Esther Pacitti - Integrante / Florent Masseglia - Integrante / Dennis Shasha - Integrante / Alexis Joly - Integrante / Christophe Pradal - Integrante.
2019 - 2023

D-Interpret - Gerência de dados para auxiliar a explicação de resultados em aplicações de ciência de dados- Chamada MCTIC/CNPq No 28/2018 - Universal/Faixa C, Descrição: A área de ciência de dados caracteriza-se pelo uso de métodos científicos para validar hipóteses. Dados de diversos tipos e formatos são gerados e analisados por meio de algoritmos e sistemas específicos, voltados para a natureza dos dados em questão. Com o aumento do volume e da necessidade de análises específicas sobre dados de todos os tipos e formatos, surgiram diversos sistemas com processamento paralelo de alto desempenho voltados para essas especificidades que geram dados em arquivos e isolados entre si. Como resultado, temos hoje vários sistemas geradores de dados separados de sistemas de análise de dados que funcionam sem nenhum tipo de integração. Os resultados a serem usados na validação de hipóteses se tornam muitas vezes caixas-pretas de difícil investigação. Tentar buscar e relacionar fontes de dados envolvidas na obtenção do resultado após o processamento, além de custoso, pode não ser possível. Este projeto visa ao desenvolvimento de uma solução centrada em dados para facilitar análises de resultados de ciência de dados. A contribuição original do projeto está em se antecipar às análises, visando à interpretação de resultados. Pretende-se realizar a captura e representação de um mapa global de conjuntos de dados e suas transformações ao longo de programas paralelos de ciência de dados, com ênfase no domínio de dados científicos. Essa captura deve funcionar como um serviço a ser invocado por sistemas geradores de dados e resultados. Esses serviços de captura e registro não interferem na geração em si dos dados, são opcionais e a granularidade da captura e registro deve ser flexível. Como resultado, pretende-se gerar uma visão global, reduzida, do grande volume de dados distribuídos sendo gerado, junto à sua proveniência. Por meio desta visão global, dados podem ser analisados e monitorados durante e após a geração do resultado de validação da hipótese a ser verificada com a ciência de dados.. , Situação: Concluído; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Daniel de Oliveira - Integrante / Marta Lima de Queiros Mattoso - Coordenador / Patrick Valduriez - Integrante / KUNSTMANN, LILIANE - Integrante., Financiador(es): Conselho Nacional de Desenvolvimento Científico e Tecnológico - Bolsa.
2018 - 2022

Desenvolvimento de Metodologias de Quantificação de Incertezas Aplicadas ao Imageamento Sísmico de Meios Anisotrópicos obtido através da Migração Reversa no Tempo (MRT), Descrição: O processo decisório na indústria de Óleo e Gás, visando aumento de sua eficácia e diminuição dos riscos, estrutura-se através do encadeamento de etapas sequenciais, cada uma delas constituída de atividades técnicas complexas. Etapas que vão desde a construção de imagens sísmicas até a decisão do posicionamento de poços, passando pela modelagem e simulação do reservatório em questão. Cada uma delas aporta novas informações e análises ao processo, que, frequentemente, fazem uso exaustivo de técnicas computacionais avançadas. Associado a isso, dada a natureza intrínseca de modelos, há introdução de incertezas que se acumulam e se combinam com aquelas originadas em etapas anteriores da cadeia. A compreensão da natureza e impacto dessas incertezas ganha um papel central na tomada de decisões. Os levantamentos através de Imageamento Sísmicos representam uma ferramenta poderosa para mitigar os altos riscos envolvidos na tomada de decisões cruciais associadas à produção de petróleo. Especialmente, quando as incertezas são consideradas e avaliadas, fornece aos tomadores de decisão a capacidade de combinar as imagens com a análise de risco, será um passo à frente para aumentar a robustez de técnicas de Imageamento Sísmico. O desenvolvimento e investigação das metodologias para avaliação do impacto de incertezas presentes nos dados de entrada e parâmetros de modelos (modelo de velocidades e parâmetros de anisotropia) na construção computacional de imagens sísmicas através de Migração Reversa no Tempo (MRT) alicerçam-se em três eixos de ações complementares. Dentro deste contexto, este projeto visa a desenvolver e investigar metodologias para avaliação do impacto de incertezas presentes nos dados de entrada e parâmetros de modelos (modelo de velocidades e parâmetros de anisotropia) na construção computacional de imagens sísmicas através de Migração Reversa no Tempo (MRT). , Situação: Concluído; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Marta Mattoso - Integrante / Liliane Neves de Oliveira Kunstmann - Integrante / Alvaro Luiz Gayoso de Azeredo Coutinho - Coordenador / José Luis Drummond Alves - Integrante / Fernando Alves Rochinha - Integrante / Gerson Gomes Cunha - Integrante / Maria Celia Santos Lopes - Integrante / Rômulo Montalvão Silva - Integrante / Henrique Ferreira da Costa - Integrante / Bruno de Souza Silva - Integrante / Carlos Henrique dos Santos Barbosa - Integrante / Charlan Dellon da Silva Alves - Integrante / Gabriel Guerra Bernadá - Integrante / Rodolfo da Silva Machado de Freitas - Integrante.
2018 - 2022

MonDataSim - Análise de dados de simulações computacionais por meio de monitoramento da execução, dados de proveniência e intervenções dinâmicas, Descrição: O projeto MonDataSim objetiva prover análise de dados científicos em larga-escala, baseada em monitoramento, visualização, consultas, etc. Tal solução prevê o desenvolvimento de arquiteturas de software e protótipos voltados para ambientes de computação paralela de alto desempenho combinados com técnicas de análise de dados em "Big Data". Diversos avanços têm sido realizados para apoiar a análise de dados científicos. No entanto, esse apoio se dá de forma isolada, seja para o monitoramento, seja para a visualização ou seja para a submissão de consultas analíticas a dados científicos. Apenas soluções baseadas em sistemas de workflows científicos têm se aproximado para fornecer uma solução integrada para essas três atividades, i.e. análise, monitoramento e visualização, ainda assim, de modo incipiente, muitas vezes não permitindo a interação ao longo da execução da simulação computacional. Neste projeto, propomos avançar os recursos disponíveis em sistemas de workflows científicos para esse apoio interativo, bem como propor soluções de monitoramento, visualização, e consultas analíticas por meio de um sistema mais leve que os de workflows, apenas cuidando da parte analítica e não da gerência de execução paralela... , Situação: Concluído; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Marta Lima de Queiros Mattoso - Coordenador / KUNSTMANN, LILIANE - Integrante., Financiador(es): FAPERJ - Bolsa.
2018 - 2019

Coleta e Armazenamento de Dados de Proveniência em Execuções de Scripts, Descrição: O projeto tem por objetivo a realização conjunta de pesquisa e desenvolvimento visando especificar e implementar métodos e técnicas computacionais para o gerenciamento de dados de proveniência em um contexto de execuções de scripts. , Situação: Concluído; Natureza: Pesquisa. , Integrantes: Débora Barbosa Pina - Integrante / Vítor Silva - Integrante / Daniel de Oliveira - Integrante / Marta Mattoso - Coordenador / Liliane Neves de Oliveira Kunstmann - Integrante / Luiz Gustavo Dias - Integrante / Jonas Dias - Integrante.

Prêmios

2024

Best Full Paper at the Data Management End-to-End Machine Learning Workshop (co-located with SIGMOD 2024) for the paper "DLProv: A Data-Centric Support for Deep Learning Workflow Analyses", ACM.

2024

Prêmio José Mauro Castilho de Melhor Artigo Completo no XXXIX Simpósio Brasileiro de Banco de Dados para o artigo intitulado "Scientific Workflow DeploymentL Container Provenance in HPC", Sociedade Brasileira de Computação.

2021

Best Demonstration Paper of the 36o Simpósio Brasileiro de Banco de Dados com o artigo "Captura Automática de Dados de Proveniência de Experimentos de Aprendizado de Máquina com Keras-Prov", Sociedade Brasileira de Computação.

2020

Melhor artigo da trilha de Pós-Graduação da VI Escola Regional de Alto Desempenho do Rio de Janeiro - Artigo "Apoio à Utilização de Análise de Dados em Aplicações CSE por meio de Contêineres", Sociedade Brasileira de Computação.

2007

Menção Honrosa na Olimpíada Brasileira de Matemática das Escolas Públicas (OBMEP).

Histórico profissional

Experiência profissional

2024 - Atual

Universidade Federal Fluminense