Databricks professional data engineer. Como me preparei?
Minha jornada e preparação para a mais avançada certificação de engenharia de dados da Databricks
Com o ano novo batendo à porta, talvez você também esteja considerando se aventurar em uma nova certificação. Ao longo deste artigo, compartilharei os detalhes da minha preparação para a Certified Data Engineer Professional da Databricks: os materiais, cursos e simulados que utilizei, algumas dicas sobre os conteúdos abordados e um pouco da minha vivência com essa poderosa plataforma até o momento.
Vale a pena investir em certificações?
Antes de entrar nos detalhes da preparação, acho importante refletir sobre o valor das certificações e quem pode se beneficiar mais delas.
Certificações são uma maneira interessante de “comprovar” conhecimentos técnicos – note as aspas. Afinal, um certificado é um indicador, mas nunca uma garantia absoluta de domínio. Ainda assim, elas têm seus contextos de utilidade.
1. Processos seletivos: Uma certificação pode servir como critério de desempate ou chamar a atenção de recrutadores quando avaliações práticas extensas não são viáveis. Contudo, não crie expectativas desproporcionais: sozinha, dificilmente será um elemento transformador no seu currículo.
2. Consultorias: Aqui, as certificações brilham um pouco mais. Como grande parte do trabalho em consultorias envolve alocação em projetos de clientes, possuir um currículo recheado com esses certificados pode abrir portas rapidamente – algo que experiência prática demora mais para construir. Pessoalmente, já recebi incentivos e reconhecimentos até financeiros por conquistas desse tipo durante minha trajetória, que em sua maior parte se deu em consultorias.
3. Aprendizado estruturado: Certificações também podem ser excelentes para quem busca aprender algo novo. Seguir trilhas de aprendizado específicas ajuda a explorar tópicos relevantes de forma organizada. Claro, se certificar em algo que você já conhece é muito menos difícil, já que muitas vezes será capaz de responder uma questão baseando-se em experiências práticas, não em conteúdos teóricos estudados.
Minha vivência com a plataforma
Meu primeiro contato profissional com o Databricks foi em 2021. Desde então, passaram-se mais de três anos até conquistar a certificação Professional. Esse tempo é importante, pois minha preparação foi influenciada por essa bagagem.
Além disso, em maio de 2023, obtive a certificação Data Engineer Associate, que, embora não seja um pré-requisito para a Professional, ajudou bastante na minha preparação.
A Data Engineer Professional valeu a pena?
De forma direta, para mim, sim. Como engenheiro de dados que trabalha com a plataforma Databricks, esta é a certificação que decidi levar para o futuro. Dado que renovações gratuitas não são oferecidas como por outros provedores, provavelmente deixarei a Data Engineer Associate, o passo antecessor, expirar. Afinal, os 200 euros (240 com taxas na região onde vivo) são difíceis de justificar quanto já possuo a certificação mais avançada no currículo.
A preparação
Cursos
Minha jornada começou com os cursos oficiais da Databricks Academy na trilha de engenharia de dados. Por ser funcionário de uma empresa parceira, tive acesso gratuito a cursos assíncronos. Caso você não tenha essa vantagem, saiba que a Databricks oferece um catálogo gratuito ao público geral, com conteúdos que mudam periodicamente.
Neste learning path que segui há treinamentos de aproximadamente 2 horas sobre diferentes tópicos, como Delta Live tables, Optimizações, e governança de dados com Unity Catalog, além de um curso principal “Advanced Data Engineering with Databricks” com duração de 12h. Todos os cursos estão disponíveis em inglês, obstáculo a grande parte do público brasileiro, cuja remoção deve ser tratada como prioridade na sua carreira caso ainda se aplique.
Simulados
Para a Associate fiz esse Practice Exam que certamente lhe ajudará. É destinado a uma certificação inferior, de questões menos complexas, mas lhe dará alguma noção se está muito longe na sua preparação.
Todos sabemos dos muitos dumps dessas provas disponíveis na internet. Enquanto professor, MCT, e alguém com alguma experiência na área, eu lhe recomendo muita cautela. Tendo dito que não acho que um certificado elevará drasticamente seu currículo, eu não vejo muito valor em decorar questões para passar em um teste. Todavia, tenho plena consciência do investimento em uma prova como essa, e das mais variadas consequências caso falhe, avalie como achar que deve.
Sugestões
Recomendo que não apenas assista a aulas e leia materiais, mas de fato ponha em prática o que estiver estudando, são muitos os “pequenos detalhes” que somente uma implementação lhe propiciará. Caso precise de um ambiente, em um primeiro momento o Databricks Community lhe ofereça bastante, gratuitamente, para começar. Mas sendo essa uma prova avançada, será importante que explore recursos não disponíveis nessa versão, e para isso pode, por exemplo, utilizar créditos iniciais oferecidos por parceiros como Microsoft Azure. Não se esqueça que podes transformar esses códigos em um bom portfolio no GitHub.
Caso algum dos temas abaixo seja novo para ti, não deixe de pesquisar com profundidade, encare essa lista como uma lista de recursos importantes para um engenheiro de dados no databricks.
Apache Spark (arquitetura do framework, e como fazer diagnósticos de perfomance usando spark UI - data spill, etc.)
A prova
Esta é a página oficial do teste.
As 60 questões da prova, que poderá ser completada em até duas horas, se dividirão nas seguintes áreas e proporções:
Databricks Tooling – 20%
Data Processing – 30%
Data Modeling – 20%
Security and Governance – 10%
Monitoring and Logging – 10%
Testing and Deployment – 10%
Lembre-se de realiza-la em um local calmo e com poucos objetos ao redor, avise familiares e quem mais tiver acesso ao ambiente em que estiver que não poderá ser interrompido durante esse período. Senti que a empresa responsável por aplicar a prova foi menos exigente que outras, não me pedindo vídeos e fotos do cômodo em que fiz o teste, mas ainda assim mitigue os riscos.
Minhas principais impressões pós-prova incluem:
Perguntas sobre orquestração: comportamento de tarefas, suas dependências e IDs - a depender de quem cria o job e quem o executa.
• Permissões em tabelas e clusters - can restart, can manage, etc.
• Uso da CLI e API do Databricks - foi minha maior dificuldade, já que uso pouco no dia a dia.
• DLT: criação de constraints e seus comportamentos.
• Change Data Feed: abordado de forma conceitual.
• SCD Type 1 e Type 2: foco em conceitos, sem detalhes de implementação complexa.
• Testes unitários e de integração: também apresentados de maneira conceitual.
Conclusões
Aqui estão meus resultados, depois da preparação que mencionei:
Topic Level Scoring:
Tooling: 91%
Data Processing: 88%
Data Modeling: 91%
Security: 100%
Monitoring: 83%
Testing and Deployment: 100%
Result: PASS
De forma geral, adianto que a prova não é de fato introdutória, esse papel cabe a fundamentals e data engineer associate. Para profissionais experientes com a plataforma e técnicas de engenharia de dados, a prova pode ser menos assustadora do que parece. Em muitos cenários eu até consideraria pular a Associate e ir direto nessa.
Tenho pouca experiência com DLT em produção, mas não me senti muito impactado por isso, além do mais, muitos conceitos que podem ter aplicações complexas como SCD 2 e testes unitários foram abordados de forma conceitual e rasa. Change Data Feed e structured streaming que são dois dos recursos mais poderosos da plataforma também não foram exigidos em detalhes. Para orquestração, será capaz de responder grande parte das questões por se tratarem de conceitos comuns a todas ferramentas deste tipo que já tiver experimentado, não exigindo grande prática com Workflows. Por fim, meu maior desafio realmente se deu com as APIs e CLIs, por conta da pouca experiência que tenho, e de perguntas um tanto quanto trickies.
Bons estudos e boa prova!