Este artigo foi escrito com dois objetivos principais: guiar aspirantes que estão iniciando sua jornada em 2025 e inspirar profissionais já atuantes que desejam preencher lacunas no conhecimento ou explorar novas fronteiras no campo. Meu objetivo aqui é compartilhar uma visão prática, baseada em conceitos fundamentais e na realidade do mercado sob minhas lentes.
Meu nome é Matheus Domingos. Há sete anos atuo na área de dados e, nos últimos quatro, também na de educação. Essa combinação de experiência prática e dedicação ao ensino foram importantes para a escrita desse texto, já que como professor me habituei a refletir sobre ferramentas e conceitos que utilizo de forma critica para justamente transmitir em aulas.
Introdução
A engenharia de dados continua a ser uma área muito desejadas no setor de tecnologia. Com salários atrativos e uma demanda crescente por profissionais qualificados, ela atrai tanto iniciantes quanto aqueles em transição de carreira. No entanto, a jornada até aqui pode ser intimidante. Você provavelmente já se deparou co um arsenal de ferramentas, frameworks, linguagens e plataforma. E, como se não bastasse, a área é recheada de jargões técnico, muitas vezes em inglês, que deixam tudo ainda mais incompreensível a primeira vista.
Se você chegou até este roadmap, acredito que já tenha identificado sua afinidade com a engenharia de dados, mesmo em um universo onde outras profissões relacionadas, como ciência e análise de dados. Minha intenção aqui é desmistificar um pouco o caminho, ajudando você a traçar uma rota clara e eficiente.
Dividirei este roadmap em categorias organizadas por prioridade, começando pelo que considero essencial e avançando para tópicos mais específicos. Antes de entrar nesses detalhes, aqui estão algumas considerações gerais que valem para qualquer tema abordado:
1. Ferramentas mudam, conceitos permanecem: Embora o mercado ofereça uma infinidade de ferramentas os conceitos fundamentais são o verdadeiro alicerce. Dominar a lógica por trás de um tema faz com que a transição entre ferramentas seja muito mais tranquila.
2. Estudo contínuo é inevitável: Nenhum dos tópicos abordados aqui será aprendido completamente em poucas horas, nem masterizado em alguns meses. Tecnologia é uma área dinâmica, com atualizações frequentes, exigindo constante evolução dos profissionais.
3. Estude na medida certa: Não caia na armadilha de passar tempo demais ou de menos em um único tema. Procure um equilíbrio: dedique-se até sentir que domina o suficiente para aplicá-lo na prática, mas saiba que algumas áreas oferecem aprendizado infinito.
4. Recursos acessíveis estão disponíveis: É possível começar a estudar de forma prática sem grandes investimentos. Existem opções open source e gratuitas para quase todas as categorias de ferramentas mencionadas aqui.
Fundamentos
Python
A linguagem de programação mais popular nesse ecossistema é utilizada por muitas ferramentas em diferentes etapas do ciclo de vida do dado, desde a ingestão e transformação até a disponibilização.
Seja pela urgência que tens em se reposicionar, seja por acreditar que iniciar na área rapidamente acelerará seu desenvolvimento, raramente indicaria que mergulhes imediatamente em Cálculo, mas não subestime a importância de de bom raciocínio lógico matemático, especialmente se lhe for uma grande deficiência.
Onde estudar?
Se eu tivesse começando a aprender python hoje, procuraria por alguma das muitas fontes gratuitas e de qualidade na internet, como os exemplos abaixo.
Além disso, escolher uma boa IDE (Integrated Development Environment) pode fazer toda a diferença na sua experiência de aprendizado e prática. Minha recomendação é o Visual Studio Code (VS Code). Ele é gratuito, amplamente utilizado no mercado, possui uma comunidade ativa e suporta extensões que tornam o trabalho com Python e bibliotecas de dados muito mais eficiente.
Microsoft Learn: Python para Iniciantes
YouTube: Curso em Vídeo, Téo me Why
Data Science Academy: Fundamentos de Python para Análise de Dados e Data Science
Tente não ir muito além dos fundamentos nesse momento, estudo de python lhe acompanhará por toda carreira, possivelmente. Uma base sólida pode ser construída com domínio de:
Estruturas de dados básicas (listas, dicionários, tuplas).
Estruturas condicionais (if, else)
Estruturas de repetição (for, while)
Funções e orientação a objetos (essenciais para lidar com código escalável e colaborativo).
SQL e banco de dados
Linguagem de consulta originalmente para bancos de dados relacionais, que por tamanha popularidade entre profissionais segue suportada por muitas das ferramentas modernas disponíveis. Extrair dados de bancos e utilizar SQL para transformações ou validações de dados são atividades rotineiras a um engenheiro de dados.
Inseri banco de dados, não apenas SQL, pois o conhecimento que juntei ao longo da minha trajetória profissional em diferentes tipos me foi muito útil para utiliza-los mais eficientemente, partindo dos relacionais para então explorar NoSQL (documentos, chave valor, etc.).
Onde estudar?
YouTube: Curso em Vídeo
Mais um vez, atente-se aos fundamentos:
Comandos DDL para criar e alterar tabelas
SELECT, INSERT, UPDATE, DELETE, JOINs, GROUP BY e funções agregadas.
Sub-queries e CTEs
Views e Materialized Views
Explore window functions, são especialmente úteis para remover duplicados (ficam ainda mais elegantes com QUALIFY)
Tendo dominado esses temas, quando couber, estude índices e otimizações de consultas.
Git e versionamento
No mercado atual, é impensável colaborar em projetos de qualidade sem uma ferramenta de versionamento, e o Git é a escolha mais popular. Ainda assim, entre os fundamentos, Git é um dos mais fáceis de ser negligenciado, especialmente para quem estuda por conta própria. Porém, lembre-se: você provavelmente não trabalhará sozinho, e dominar pelo menos o básico será essencial para colaborar de forma eficiente em equipes.
Comandos básicos: add, commit, push, pull.
Fluxo de trabalho em equipe: Pull Requests, merges e como trabalhar com branches.
Resolução de conflitos
Como estudar?
Vou lhe deixar aqui o “get started” do GitHub para que adquira o hábito de consumir conteúdos menos mastigados, ciente de que pode usufruir dos muitos cursos gratuitos disponíveis na internet.
Microsoft Learn: Introdução ao Git
YouTube: Téo Me Why
Uma excelente forma de praticar Git é integrá-lo ao desenvolvimento do seu portfólio. Isso não só o ajudará a construir boas práticas desde o início, mas também servirá como um diferencial em sua apresentação profissional.
Extração de Dados
Aqui compilo técnicas para extrair dados de diferentes sistemas e aplicações, para que possam ser então levados a um ambiente onde serão transformados e disponibilizados. Tarefa fundamental à engenharia de dados.
Sistemas diferentes apresentam formas diferentes de extração, a primeira que recomendo são bancos de dados que já aprendeu a utilizar nos fundamentos, e depois APIs (python como pré-requisito) que estarão abaixo com mais detalhes.
Bancos de Dados Relacionais
Tente extrair dados utilizando Python que já estudou, e salve os arquivos, em formato CSV, em um sistema de arquivos qualquer.
Bibliotecas como SQL Alchemy e conectores podem te ajudar.
APIs
Muitos sistemas e aplicações lhe disponibilizarão dados através de APIs. Mais uma vez pode utilizar apenas python, tendo Requests como grande aliado.
Para praticar, pode utilizar fontes de dados públicas governamentais, ou redes sociais como Instagram, LinkedIn e Discord.
Onde estudar
Ada Tech: API Rest
Computação em Nuvem
Computação em nuvem é uma realidade para empresas dos mais variados portes e orçamentos, mesmo no Brasil onde apresentam custo proporcionalmente alto aos EUA ou Europa. Ainda assim, ambientes on-premises estão cada vez mais restritos a casos de uso específicos. Há três grandes players nesse mercado: AWS, Azure e GCP; sugiro que comece por algum deles pela maior quantidade de oportunidades.
Costumo indicar aos meus alunos que, se estiverem em transição de carreira, com acesso a um deles na empresa atual, que seja o escolhido; dessa forma, terão mais facilidade de testar os produtos e de aplicar conhecimento adquirido. Todos oferecem formas gratuitas para degustação.
Em plataformas como essas terá acesso a poder computacional para executar seus códigos de extração e processamento de dados, além de recursos para armazena-los. Mas para além do provisionamento, notará que ferramentas estarão ali disponíveis para executar as atividades que vou mencionar, portanto a escolha da cloud pode pautar a escolha das ferramentas que decida usar para estudar cada conceito.
Onde estudar
Ada Tech: Introdução a Cloud Computing
Microsoft learning path das certificações: Fundamentos do Microsoft Azure e Fundamentos de Dados do Microsoft Azure.
AWS: Treinamento de Cloud Practitioner; Dan Resende e Marilia Brito.
GCP: Google Cloud Learning Plan
Orquestração
Se já está criando códigos para extrair dados, é hora de orquestrá-los! Com uma ferramenta desse tipo é possível agendar tarefas e criar relações e dependências entre elas,
Seguem algumas indicações:
Apache Airflow: a solução de orquestração open-source mais popular do mercado. Recomendo que siga Marc Lamberti que sempre produz muito conteúdo relacionado. Sendo open source, pode utiliza-lo localmente em sua máquina, ou mesmo instalá-lo em uma máquina em alguma nuvem, por fim, também é possível que encontre AirFlow gerenciado em alguma nuvem, dessa forma não precisará de muito esforço para mante-lo (por um custo, é claro).
Como mencionado, provedores de nuvem têm ferramentas próprias, e dentro da Azure encontrará o Azure Data Factory: com ele poderá não apenas orquestrar fluxos, como também realizar extrações com seus conectores, e transformações (evite). Consulte o curso Integração de dados em escala com o Azure Data Factory ou o pipeline Azure Synapse.
Arquitetura de Dados
É importante que, ao menos conceitualmente, esteja familiarizado com termos como:
Data Warehouse: entenda sua origem e relevância para a área de dados, e como seguem sendo utilizados em arquiteturas modernas para small data. Caso queira se aprofundar, conheça os trabalhos de Ralph Kimball e Bill Inmon que embora já não sejam vistos como soluções modernas, além dos muitos legados por aí, têm partes de suas propostas sendo amplamente relevantes, como modelagem star schema.
Data Lake e Data Lakehouse: estude sobre arquitetura em camadas, pois é muito importante que entenda o papel de cada uma, e se familiarize com formatos de arquivos comuns em Big Data como Parquet. A arquitetura medallion pode ser um ótimo ponto de partida.
Transformação de Dados
A necessidade de transformar dados, seja entre camadas de um data lake, ou para inserir em um Data Warehouse mais tradicional, compõe a rotina de um engenheiro de dados. Tais tarefas podem ser realizadas com linguagens já citadas como Python, e bibliotecas como Pandas, e SQL, e aqui indico dbt-core.
Entretanto, é possível que em cenários com grande volumetria precise de mais poder computacional, recorrendo a clusters onde múltiplos computadores são conectados para realizar tarefas. Neste caso, Apache Spark pode ser uma ótima opção tanto para ser explorada de forma open source, quanto através da plataforma Databricks que possui uma versão community para que dê seus primeiros passos.
Streaming e mensageria
A demanda por consumo e disponibilização de dados em tempo real, embora superestimada por negócio imaturos para agir em janelas de tempo tão curtas, é inegavelmente uma realidade. Partindo do pressuposto que já explorou cargas em lotes (batch), é chegado o momento de se aventurar pelo streaming de dados, e com ele conhecer ferramentas de mensageria muito comuns na comunicação entre sistemas.
Se estiver seguindo uma linha open-source, o Apache Kafka é a opção mais popular. Caso esteja utilizando produtos nativos de alguma cloud, avalie seu catálogo e encontrará soluções gerenciadas como o Amazon Kinesis ou MSK na AWS, e Azure Event Hubs e Stream Analytics na Microsoft Azure.
Para mensageria e filas, teste o RabbitMQ que pode ser facilmente manipulado em Python através de uma biblioteca de nome engraçado, ou Amazon SQS.
Onde estudar
Microsoft Learn: **Implementar uma solução de streaming de dados com o Azure Stream Analytics e **Explorar Hubs de Eventos do Azure.
AWS: Send Messages Between Distributed Applications
Certificações
Aqui vai uma lista de certificações dos principais players do mercado. Podem te abrir muitas portas, mas avalie o investimento com a devida calma.
Esteja sempre atento as redes oficiais dessas empresas e parceiras, pois vouchers são comuns.
Microsoft Azure
AZ-900: Fundamentos do Microsoft Azure
DP-900: Fundamentos de dados do Microsoft Azure
DP-700: Fabric Data Engineer Associate
AWS
AWS Certified Cloud Practitioner
AWS Certified Data Engineer - Associate
GCP
Databricks
Databricks Lakehouse Fundamentals
Databricks Data Engineer Associate
Databricks Certified Data Engineer Professional
Databricks Associate Developer for Apache Spark
Snowflake
Airflow
Próximos passos
Há sempre novas bibliotecas de python para estudar, além de uma infinidade de ferramentas interessantes no mercado. É muito difícil ter tempo disponível para tudo, por isso ao longo da minha carreira fui direcionando meus estudos para o que acreditava ser capaz de aplicar na minha rotina mais facilmente, e te aconselho a fazer o mesmo.
Sobre conceitos, avalie o seguinte:
Extração de Dados:
Pode ser um bom momento de explorar ferramentas dedicadas a esse processo, tais quis o Airbyte ou Fivetran;
Extração de dados por Web Scraping (Beautiful Soup e Selenium);
Extração de dados de dispositivos IoT;
Governança de dados (catálogo de dados, dicionário de dados, line age, LGPD);
Qualidade de dados (Great Expectations, Soda, Deequ);
Testes: engenharia de dados têm absorvido boas práticas e aprendizados da engenharia de software, pytest e unittest vão lhe ajudar muito. Test Driven Development (TDD) é definitivamente algo para se conhecer também.
Arquitetura: Data Mesh (Zhamak Dehghani)
Modelagem: One Big Table (OBT), Data vault
Conclusão
Espero que esse post tenha lhe trazido alguma luz em meio a tanto conteúdo.
Vá com calma, e explore novos produtos e conceitos apenas conforme a necessidade, não tente tudo o que está ai de uma só vez!
O segredo reside na sua capacidade de aplicar o que aprendeu e transformar em valor. Tecnologia é apenas o meio, não o fim.