Diego Oliveira Lopes

Atualmente, estou cursando um mestrado em ciência da computação com especialização em Processamento de Linguagem Natural e Redes Neurais. Com cinco anos de experiência como Engenheiro de Dados, possuo amplo conhecimento em bancos de dados relacionais e não relacionais, processos de engenharia de dados, como Extrair, Transformar e Carregar (ETL), e suas variações, como EL e ELT. Além disso, minha experiência se estende além dos processos de dados quase em tempo real e em tempo real.Além disso, sou bem versado em vários aspectos da engenharia de dados, incluindo gerenciamento de dados, modelagem de dados, modelagem de relacionamento de entidade, governança de dados, segurança de dados, dados estruturados e não estruturados, normalização de dados (forma 3NF), modelagem dimensional, transações ACID, teorema CAP, lagos de dados, data marts, data mesh e data warehouses.Além da minha experiência em engenharia de dados e tecnologias de banco de dados, também tenho experiência em CI/CD (Integração Contínua e Implantação Contínua) e Desenvolvimento Orientado a Testes (TDD). Trabalhei em projetos em que implementei pipelines de CI/CD para automatizar os processos de construção e implantação, o que resultou em uma entrega de software mais rápida e eficiente.Da mesma forma, sou proficiente em Python, uma linguagem popular de programação de engenharia de dados e ciência. Eu usei o Python para desenvolver pipelines de dados, analisar e visualizar dados e criar modelos de aprendizado de máquina. Minha proficiência em Python me permitiu trabalhar efetivamente com dados em vários formatos, incluindo dados estruturados, semiestruturados e não estruturados.No geral, minha experiência em CI/CD, TDD e Python e minha experiência em engenharia de dados e tecnologias de banco de dados me permitem projetar e implementar soluções de dados abrangentes que atendam às necessidades de negócios, aderindo aos padrões e às melhores práticas do setor.Além disso, atualmente estou ganhando uma experiência valiosa através do meu envolvimento em um projeto inovador focado em Processamento de Linguagem Natural (NLP) e Redes Neurais. Este projeto se concentra em melhorar as soluções para traduzir consultas geoespaciais de linguagem natural em código SQL. Esse esforço não apenas aguça minhas habilidades em PNL e redes neurais, mas também melhora minha compreensão dos meandros envolvidos na ponte entre a linguagem humana com instruções legíveis por máquina. Essa experiência prática enriquece ainda mais meu repertório, complementando minha experiência existente em engenharia de dados e reforçando meu compromisso de ultrapassar os limites da inovação tecnológica.

Informações coletadas do Lattes em 25/05/2025

Acadêmico

Formação acadêmica

Mestrado em andamento em Ciências da Computação

2023 - Atual

Universidade de São Paulo
Kelly Rosa Braghetto.Palavras-chave: Redes Neurais; Banco de Dados; Processamento de Linguagem Natural.Grande área: Ciências Exatas e da TerraGrande Área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Redes Neurais.

Especialização em andamento em Segurança Digital, Governança e Gestão de Dados

2023 - Atual

Pontifícia Universidade Católica do Rio Grande do Sul

Graduação em Análise e Desenvolvimento de Sistemas

2016 - 2021

Instituto Federal de São Paulo
Título: BRAIN COMPUTER INTERFACE: UM MÉTODO DE COMUNICAÇÃO PARA PESSOAS COM PARALISIA CEREBRAL
Orientador: CRISTINA CORRÊA DE OLIVEIRA

Formação complementar

2020 - 2020

Extensão universitária em AWS Academy Cloud Foundations. , Instituto Federal de São Paulo, IFSP, Brasil.

Idiomas

Bandeira representando o idioma Inglês

Compreende Bem, Fala Bem, Lê Bem, Escreve Bem.

Áreas de atuação

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Engenharia de Dados.

Grande área: Ciências Exatas e da Terra / Área: Probabilidade e Estatística / Subárea: Banco de Dados.

Grande área: Ciências Exatas e da Terra / Área: Probabilidade e Estatística / Subárea: Análise de Dados.

Grande área: Ciências Exatas e da Terra / Área: Probabilidade e Estatística / Subárea: Ciência de Dados.

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Redes Neurais.

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Processamento de Linguagem Natural.

Produções bibliográficas

  • Diego Lopes ; Cristina Correa de Oliveira . Interface Humano-Computador: Uma abordagem para extração dos sinais elétricos do cérebro para controle do mouse.. In: José Erick Souza Lima; Mirella Novais Oliveira; Rubens Pantano Filho. (Org.). Educação, Ciência, Tecnologia & Sociedade. 1ed.Salto: FoxTablet, 2022, v. 1, p. 105-114.

  • Diego Lopes ; JOSÉ ERICK SOUZA LIMA ; Cristina Correa de Oliveira . INTERFACE HUMANO-COMPUTADOR: UMA ABORDAGEM PARA EXTRAÇÃO DOS SINAIS ELÉTRICOS DO CÉREBRO PARA CONTROLE DO MOUSE. In: Concistec, 2022, Bragança Paulista. 12o Congresso Científico da Semana Nacional de Ciência e Tecnologia no IFSP, 2022.

Histórico profissional

Experiência profissional

2022 - 2022

ACT digital

Vínculo: Celetista, Enquadramento Funcional: Engenheiro de Dados, Carga horária: 40

Outras informações:
I am responsible to create a user journey among our platforms to help increase user experience and offer them new product. Furthermore, I responsible to maintain the architecture of the databases and pipelines to process data from a graph database and others systems database to an analytical database BigQuery using DataForm.

2021 - 2022

CI&T

Vínculo: Celetista, Enquadramento Funcional: Engenheiro de Dados, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
Conectar a equipe de negócios com a equipe de dados, parte fundamental e vital do projeto. Entendo as necessidades da equipe, analiso os protótipos e verifico a viabilidade de implementação dos processos propostos, além de pesquisar todos os dados necessários para a solução. Responsável pelo mapeamento de dados, realizando a identificação dos bancos de dados, sejam eles disponíveis em Teradata ou SQL Server, mapeia as colunas e regras para realizar as métricas necessárias. Feito todo o mapeamento, atuo no processo de consolidação das informações, sendo responsável por realizar a normalização das bases que estão na camada Raw do data lake para a camada Refined, implementando o processo de consolidação através do Teradata, através do Python para executar os scripts SQL responsáveis por transformar os dados e fornecer uma View para a equipe consumir as informações. Além das atividades principais como a criação de todo o processo de ETL. Sou responsável por garantir a qualidade, segurança e disponibilidade dos dados.

2020 - 2021

Ernst & Young

Vínculo: Celetista, Enquadramento Funcional: Engenheiro de Dados, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
Implementação de novos relatórios financeiros de produtos de crédito para um dos maiores bancos do país. Faça melhorias e refatoração de relatórios existentes para aumentar o desempenho de execução dos scripts HiveQL e melhorar sua capacidade de manutenção. Os relatórios anteriormente levavam cerca de 1 hora cada para serem executados, com as melhorias feitas por mim foi possível reduzir o tempo em 20 minutos. Também fui responsável por identificar as bases no data warehouse da HIVE, realizar a limpeza e consolidação dos dados para que seja possível extrair informações relevantes ao negócio, além de acompanhar todos os processos de ELT para garantir a execução e entrega dos dados. Esporadicamente, auxiliava a equipe fora do horário de trabalho com a análise de relatórios e sua execução para que no início do dia a equipe de negócios tivesse as informações e métricas prontas para tomar decisões importantes e vitais. Trabalhei no projeto por seis meses e nesse tempo consegui fazer melhorias em todos os processos de ETL dos produtos de crédito existentes.

2020 - 2020

Wavy Global

Vínculo: Celetista, Enquadramento Funcional: Engenheiro de Dados, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
Trabalhei com dois segmentos diferentes, aplicativos e mensagens, que incluíam SMS e WhatsApp Bots. Fui responsável pela manutenção dos pipelines de dados e dashboards de métricas da empresa, sendo responsável por identificar as necessidades das equipes de marketing, produto e finanças da empresa. Na área de aplicativos, trabalhei com a consolidação de métricas como DAU (Daily Active Users), WAU (Weekly Active Users), MAU (Monthly Active Users) para criar a jornada do usuário dentro do app, neste projeto ele consumiu dados de Amazon Redshift usando Pentaho Data Integration, que executa scripts SQL em todas as etapas de normalização de dados e cálculo de métricas e, após a conclusão do processo de consolidação, carregou os dados no Google BigQuery. Após criar o processo ETL com Pentaho, desenvolvi os dashboards necessários em Power BI que consumiam os dados do BigQuery. Além de criar o pipeline de dados e dashboards, era responsável pela manutenção dos processos existentes, e também pela realização de análises esporádicas que eram solicitadas pelo time financeiro. Na área de mensageria, trabalhei na consolidação do data warehouse, Google BigQuery e Amazon Redshift. Fui responsável por desenvolver novos pipelines de dados que usam Apache Airflow e Python para orquestração de processos. Atuou também como responsável por realizar o enriquecimento de dados por meio de informações de crédito, como o Score Serasa, a partir de APIs. O enriquecimento de dados também foi orquestrado pelo Airflow, que realizou a extração de dados de APIs, limpou e normalizou os dados e realizou a carga no Redshift. Com esse enriquecimento, auxiliei a equipe financeira na tomada de decisões internas. Manutenção e criação de novos dashboards no Grafana que consumiam dados do Elasticsearch para monitorar o tráfego de mensagens enviadas e entregues aos usuários.

2022 - Atual

Pulsus

Vínculo: Celetista, Enquadramento Funcional: Engenheiro de Dados, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
Nesta função, sou responsável por projetar, construir e manter a arquitetura de dados que se concentra em escalabilidade, resiliência e alta disponibilidade para processar dados em lote e em tempo real. Além disso, monitoro a conta de cobrança da AWS para criar relatórios de custos de arquitetura. Minhas responsabilidades também incluem entender as necessidades e desafios de negócios para implementar uma arquitetura que possa lidar com grandes volumes de dados por segundo, permitindo que as equipes de negócios extraiam insights e métricas significativas dos dados. Também sou responsável por garantir a qualidade, a segurança e a disponibilidade dos dados, garantindo a conformidade com os regulamentos de proteção de dados. Para cumprir essas responsabilidades, aproveito minha experiência em Python e SQL, juntamente com vários AWS serviços, incluindo S3, Redshift, Aurora, Athena e Glue. Além disso, utilizo minha proficiência em PostgreSQL para lidar com dados relacionais de forma eficaz. No geral, garanto que a arquitetura de dados suporta os objetivos da empresa e se alinha com as melhores práticas e padrões do setor.