Em 2023, alcancei a certificação "Data Engineer Associate" da Databricks, uma meta que perseguia há algum tempo. Neste artigo, compartilharei minha jornada, esperando inspirá-lo(a) e guiá-lo(a) caso esteja perdido(a) ou inseguro(a).
O Primeiro Passo
Você pode já estar familiarizado(a) com o mundo da Engenharia de Dados e do Data Lakehouse, mas caso não esteja, é crucial adquirir conhecimentos introdutórios deste contexto. Se este for o seu caso, recomendo começar pelo treinamento e certificação gratuitos "Databricks Lakehouse Fundamentals". Esse curso te apresentará à plataforma, sua arquitetura e funcionalidades.
Além disso, para a certificação Data Engineer Associate, é indispensável ter conhecimento em Python e SQL, habilidades que podem ser adquiridas de diversas formas na internet.
Treinamento Oficial
A Databricks, por meio do Databricks Academy, oferece treinamentos gratuitos a clientes e parceiros. Foi lá que iniciei minha preparação, já tendo o background dos Fundamentals.
Por trabalhar em uma empresa parceira, pude acessar como "Partner". Caso isso não se aplique a você, cadastre-se como "Customers and prospects" e consulte o catálogo, onde pode encontrar alguns dos treinamentos mencionados neste artigo sem custos.
Registrei-me no Learning Plan de Data Engineer que, na época, possuía duas versões disponíveis do curso para esta certificação: V2 e V3. Fiz ambos e recomendo que realize apenas a V3, mais atualizada e alinhada com a prova. Perdi muito tempo com a V2!
Admito ter feito também o curso mais avançado, Advanced Data Engineering with Databricks, ainda que se referisse à certificação seguinte, Data Engineer Professional, me trouxe ainda mais conhecimento teórico já que não tive pressa em me preparar. Todavia, não é pre-requisito! Se o tempo estiver curto, poupe essas horas.
Treinamento Oficial Foi Suficiente?
Lamento confirmar suas suspeitas, mas não foi. Embora tenha aproveitado e gostado dos treinamentos, meus resultados na prova corroboram essa afirmação: meu desempenho foi muito melhor nos tópicos com os quais trabalhava diariamente. Databricks foi parte da stack de vários projetos ao longo da minha carreira, mas nenhum deles com Workflows e Delta Live Tables, o que se refletiu nos desafios adicionais que enfrentei na prova.
A Prática
Dado meu melhor desempenho nos tópicos frequentemente utilizados, recomendo praticar todas as ferramentas mencionadas ao longo do treinamento, indo além dos exercícios propostos nas doze horas de curso. A Databricks oferece uma versão community totalmente gratuita; aproveite ao máximo. Provedores de cloud computing, como o Microsoft Azure, costumam oferecer produtos gratuitos ou um pequeno orçamento que pode ser utilizado para exploração. Em meu caso, tenho um ambiente pessoal na Azure relacionado à arquitetura que mais utilizei nos projetos, com Databricks realizando transformações orquestradas pelo Data Factory.
Sugiro, portanto, para seu projeto, ter não apenas Delta tables, mas também Delta Live Tables (é importante ter conhecimento prático em ambos), orquestrando tudo com Workflows. Quanto ao Unity Catalog, acredito que a experiência teórica do curso, se bem realizada, seja suficiente.
Um laboratório robusto certamente demandará muito tempo, mas o conhecimento adquirido será mais completo e profundo. Se tiver conectado seus notebooks ao GitHub, terá, como benefício adicional, um portfólio.
Simulados
O principal simulado que utilizei para me preparar foi este oficial da Databricks:
Practice Exam - Data Engineer Associate
Quando me senti preparado, fiz o simulado completo, monitorando o tempo, e depois busquei o conhecimento necessário para as questões que errei. Agendei a prova apenas quando estava praticamente gabaritando este simulado.
Dicas extras
Recomento fortemente o canal oficial da Databricks no YouTube onde encontrará workshops, demos e mais. Todo conteúdo lá produzido pelo Simon Whiteley é excepcional.
A Barreira do Inglês
Se inglês é uma dificuldade para você, deve ter notado que todos os cursos e simulados, gratuitos ou não, mencionados nesse artigo estão nesse idioma. É sempre tempo de reforçar a importância de adquirir proficiência nessa língua pois muitas portas se abrirão, não apenas educacionais.
Aqui vão duas indicações de conteúdos sobre Databricks que podem ser encontrados em português:
Aprender Dados; do meu amigo Bernardo Cambruzzi.
Bons estudos e boa prova!