João Vitor Rodrigues Baptista

Com mais de 7 anos de experiência, sou especialista na construção e implantação de pipelines de dados escaláveis e sistemas de backend que impulsionam o sucesso dos negócios. Minha expertise reside na utilização de Apache Spark, Apache Beam e frameworks Python, combinados com práticas avançadas de DevOps (Azure Expert DevOps, GCP Professional DevOps), para otimizar fluxos de trabalho de engenharia de dados e machine learning em plataformas de nuvem.Como Arquiteto de Dados certificado (GCP AWS), eu projeto e implemento arquiteturas robustas, incluindo data warehouses, data lakes, lakehouses, data fabrics e data mesh, entregando soluções de dados inovadoras e escaláveis. Meu foco é criar sistemas orientados a dados que otimizam a eficiência, segurança e confiabilidade.Como Mestre Pesquisador em IA, sou especialista em Processamento de Linguagem Natural e IA de ponta, trabalhando com grandes modelos de linguagem (LLMs), geração aumentada por recuperação (RAG) e bancos de dados vetoriais. Sou altamente qualificado em frameworks robustos de ML como TensorFlow e PyTorch (certificações Azure AI GCP Professional AI). Minha paixão reside em expandir os limites do que é possível com a IA, particularmente em aplicações de PNL.Com fortes habilidades de consultoria e liderança e nível de inglês B2+ reconhecido, eu prospero na resolução de desafios complexos, impulsionando iniciativas estratégicas e entregando resultados excepcionais para clientes em diversos setores.

Informações coletadas do Lattes em 27/08/2025

Acadêmico

Formação acadêmica

Mestrado profissional em andamento em Programa de Pós-Graudação em Computação Aplicada

2023 - Atual

Universidade de Brasília, UnB
Título: GraphRAG on FHIR: Exploring Augmented Retrieval with Graphs in Electronic Medical Records., Ano de Obtenção:
Orientador: Luis Paulo Faina Garcia
Palavras-chave: Inteligencia Artificial; GenAI; Grafos; LLMs; Computação em Nuvem; RAGs. Grande área: Ciências Exatas e da Terra

Aperfeiçoamento em Global leadership with an emphasis on innovation

2014 - 2014

Georgetown University
Título: Global leadership with an emphasis on innovation. Ano de finalização: 2014
Bolsista do(a): Governo do Distrito Federal, GDF, Brasil.

Graduação em Engenharia Eletrônica

2015 - 2020

Universidade de Brasília, UnB
Título: Aplicação de técnicas de XAI em redes neurais convolucionais na classificação de lesões de pele
Orientador: Dr. Nilton Correia da Silva

Ensino Médio (2º grau)

2012 - 2014

Centro de Ensino 04 da Ceilândia

Formação complementar

2023 - 2025

Professional Cloud DevOps Engineer. , Google Inc., Google, Estados Unidos.

2022 - 2025

AWS Certified Cloud Practitioner. , Amazon Web Services Training and Certification, AMZ, Estados Unidos.

2021 - 2024

Microsoft Certified: Azure AI Engineer Associate. , Microsoft Corporation, MC*, Estados Unidos.

2020 - 2024

Professional Data Engineer. , Google Inc., Google, Estados Unidos.

2021 - 2023

Microsoft Certified: DevOps Engineer Expert. , Microsoft Corporation, MC*, Estados Unidos.

2020 - 2023

Associate Cloud Engineer. , Google Inc., Google, Estados Unidos.

2020 - 2023

Microsoft Certified: Azure Data Engineer Associate. , Microsoft Corporation, MC*, Estados Unidos.

2020 - 2022

Microsoft Certified: Azure Administrator Associate. , Microsoft Corporation, MC*, Estados Unidos.

Idiomas

Inglês

Compreende Bem, Fala Bem, Lê Bem, Escreve Bem.

Português

Compreende Bem, Fala Bem, Lê Bem, Escreve Bem.

Áreas de atuação

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: Enganharia de dados.

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: COMPUTAÇÃO EM NUVEM.

Grande área: Ciências Exatas e da Terra / Área: Ciência da Computação / Subárea: INTELIGENCIA ARTIFICAL.

Projetos de pesquisa

2023 - Atual

GraphRAG on Electronic Health Record: A Knowledge Graph-Enhanced RAG Approach for Healthcare Information Access, Descrição: The increasing importance of digital health and the need for better health literacy require effective methods to access and understand Electronic Health Records (EHRs). While Large Language Models (LLMs) show promise in this domain, traditional Retrieval-Augmented Generation (RAG) struggles to handle the complex, interconnected nature of clinical data. GraphRAG emerges as a powerful alternative, leveraging knowledge graphs (KGs) to capture semantic relationships within EHRs. This research evaluates the effectiveness of graph expansion in a GraphRAG to enhance information retrieval from FHIR-formatted medical data. We propose a 1-hop expansion approach built upon a lexical search baseline which, while inheriting some limitations of traditional keyword-based retrieval, significantly enhances LLMs' access to comprehensive and diverse contextual information. Our evaluation, using synthetic patient data and a targeted set of questions across five models, reveals that the 1-hop expansion strategy consistently outperforms the baseline in subjective metrics like comprehensiveness and diversity, and frequently in qualitative metrics such as answer and contextual relevancy. These results highlight the potential of our proposal to enhance LLM response when querying intricate medical data.. , Situação: Em andamento; Natureza: Pesquisa. , Alunos envolvidos: / Mestrado profissional: (1) / Doutorado: (1) . , Integrantes: João Vitor Rodrigues Baptista - Coordenador / Luis Paulo Faina Garcia - Integrante., Financiador(es): EPAM Systems - Outra.
2021 - 2021

Aplicação de técnicas de XAI em redes neurais convolucionais na classificação de lesões de pele, Descrição: Modelos de machine learning estão cada vez mais presentes no dia a dia. Com o crescimento do poder computacional verificou-se um aumento na complexidade desses modelos. Devido a alta complexidade, principalmente, em redes neurais profundas conhecidas como ?caixas pretas?. pois é extremamente difícil como o modelo lida com os dados de entrada. O presente trabalho tem como finalidade aplicar duas grandes técnicas de XAI: baseado em perturbações usando LIME e outras cinco técnicas baseada no cálculo de gradiente e como essas técnicas fornecem recursos para o entendimento da base do processo de decisão feito pela rede neural profunda. Na mesma linha, compara quais métodos fornecem os melhores recursos para análises humanas..Para tanto, foi desenvolvido um modelo que classifica 9 tipos de lesões de pele, sendo 4 tipos malignos. Esse modelo foi utilizado para classificar um conjunto de imagens de 9 tipos de lesões diferentes com a finalidade de analisar as técnicas de interpretabilidade de cada amostra isolada amostras.Essas doenças afetam mais de 14,1 milhões de pacientes e tem sido a causa de mais de 8,2 milhões de mortes no mundo. Para auxiliar os diagnósticos clínicos é necessário avaliar o processo de decisão do modelo. Para tratar-se de decisões sensíveis é necessário confiabilidade baseado na interpretabilidade do modelo. Com o auxílio do modelo e os insight gerados a partir da explicabilidade dos padrões aprendidos, pode-se criar novas metodologias de classificação de lesões por profissionais da saúde.. , Situação: Concluído; Natureza: Pesquisa. , Alunos envolvidos: Graduação: (1) / Doutorado: (1) . , Integrantes: João Vitor Rodrigues Baptista - Coordenador / Nilton Correia da Silva - Integrante.

Prêmios

2023

Itau internal Data Engineer Black Belt, Itau Unibanco.

2022

1st place in the Ministry of Agriculture?s Big Data Specialist Contest, Ministry of Agriculture.

Histórico profissional

Experiência profissional

2021 - 2021

Universidade de Brasília, UnB

Vínculo: , Enquadramento Funcional:

2020 - 2020

Qubo Tecnologia

Vínculo: Celetista, Enquadramento Funcional: Data Engineer | Cloud Engineer | Back-End Dev, Carga horária: 40, Regime: Dedicação exclusiva.

2019 - 2020

Qubo Tecnologia

Vínculo: Bolsista, Enquadramento Funcional: Software Engineer Internship, Carga horária: 30

Outras informações:
Working as a Backend developer. Developing RESTful APIs with Django, modeling databases and server management. Main technologies in this job: Python, Django, PostgreSQL, MongoDB, Nginx, Gunicorn, Docker, ELK Stack and Git in Github.

2020 - 2020

Leega

Vínculo: Celetista, Enquadramento Funcional: Data Engineer, Carga horária: 40

Outras informações:
Working as Google Cloud Plataform Data Engineer: - Creating ETL Stream/Batch Jobs in Dataflow with Apache Beam(Java and Python) - Developing solutions with Cloud Pub/Sub, Cloud Spanner, Dataflow and GCS. - Architecting data flow cloud solutions.

2021 - 2022

XP Inc

Vínculo: Celetista, Enquadramento Funcional: Data Engineer, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
- Creating the fundatition data flow solutions for Risk Management Squad and PDD & modeling squad; - Creating the analytics SCR environment and deploying variables books as product to credit engine; - Creating streaming data flows consuming from Confluent Kafka and serving real-time Lakehouse solution; - Creating Data Quality and QA processes for ensure great data integrity; - Refining DevOps culture in Data Chapter through using of clean code, best practices, CI/CD pipelines, agile methodologies and Automated testing; - Using/Applying Lakehouse and Data Mesh paradigms; Skills: Azure Databricks · PySpark · Apache Spark Streaming · Delta Lake · Apache Kafka · Airflow · Azure DevOps · Continuous Integration and Continuous Delivery (CI/CD) · Microsoft Azure

2020 - 2021

XP Inc

Vínculo: Celetista, Enquadramento Funcional: Data Engineer, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
- Structuring data flow solutions for offshore US and UK XPI offices - Creating data flow migrations plans. - Creating OnShore Compliance Solution. - Creating CI/CD pipelines for ETL jobs and Database schemas - Creating RESTful API using ASP.NET Core with Clean Architecture - Creating Monitoring alerts AML, Matrix, Analytics and Trade surveillance for costumers. Main technologies and platforms: Azure, Azure SQL and SQL Server, Azure Data Factory, C#, T-SQL, Databricks, Python, PySpark, SSIS, ASP.NET, HTML, CSS, Javascript and so on.

2022 - 2023

Itau Unibanco

Vínculo: Celetista, Enquadramento Funcional: Data Engineer, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
- Migrating SAS Legacy jobs to AWS.- Modeling dimensional and analytics tables to serve internal stakeholders and visualizations usinglakehouse/mesh paradigms.- Modernizing legacy jobs using unit testing, clean code, standards templates, data quality andobservability.Skills: AWS Athena AWS Glue Dimensional Modeling Amazon Web Services (AWS)

2023 - 2024

ThoughtWorks

Vínculo: Celetista, Enquadramento Funcional: Data Engineer - Healthcare | GCP AI Integr, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
As a Lead Data Developer, I specialize in building secure and scalable data pipelines on Google Cloud Platform (GCP) tailored for the healthcare industry. I leverage my expertise in FHIR standards and Apache Beam with Java to efficiently transform and deliver healthcare data. Additionally, I utilize AI to implement Large Language Model (LLM) integrations with prompt engineering and Retrieval-Augmented Generation (RAG) within GCP.Key Skills:- Google Cloud Platform (GCP): GCS, Pub/Sub, FHIR Storage, Dataflow, BigQuery, Cloud SQL, Cloud Functions- Apache Beam (Java)- FHIR Standards- Python: FastAPI.- AI/ML: LLM integration, GPT-4, prompt engineering, Neo4j, LangSmith, LangServer, LangChain, graphRAG, and RAG.Achievements:- Architected and implemented a comprehensive data pipeline using GCP services (GCS, Pub/Sub, FHIR Storage, Dataflow, BigQuery, Cloud SQL), seamlessly ingesting, transforming, and delivering healthcare data from various third-party sources.- Led GenAI implementations using graphRAG, LLMs, LangChain, Vertex AI, Neo4j, and vector databases, creating an advanced GenAI chat for customers to discuss their data.- Ensured data integrity and adherence to industry standards by effectively transforming FHIR data within Dataflow using Apache Beam with Java.- Developed user-friendly data products that extract valuable insights from FHIR data using Python and Cloud Functions.- Championed best practices throughout the project lifecycle, including Infrastructure as Code (IaC) for automated deployment and unit testing for robust code quality.- Established sensible defaults within the platform to streamline development and maintenance processes.

2024 - Atual

EPAM Systems

Vínculo: Celetista, Enquadramento Funcional: Data Engineer | AI Engineer, Carga horária: 40, Regime: Dedicação exclusiva.

Outras informações:
As a Lead Data Developer, I specialized in designing and developing a robust data platform for one of the largest oil and gas companies in the US. My work focused on areas such as incremental data processing, backfill implementations, and optimizing workflows within the AWS ecosystem, leveraging a tech stack that included Apache Hudi, Apache Spark, and Apache Airflow. Apache Hudi, Delta Lake, Iceberg, Duckdb, Polars, Dask, EMR on EC2, EMR on EKS, Docker.Additionally, I have expertise in Generative AI (GenAI) products, particularly in the healthcare domain. I led two teams in an internal GenAI bootcamp, focusing on developing solutions powered by FHIR standards, GraphRAG, Knowledge Graphs, and LangChain, among other cutting-edge technologies. I further solidified my GenAI expertise by completing the GCP GenAI L400 training and certification, earning recognition as a GenAI