Última atualização: 8 de Outubro de 2025
Sobre
Principais atividades:
- Modelos de Dados: Ajusta e adiciona colunas a fatos e dimensões, compreendendo a diferença entre modelagem transacional e dimensional. Constrói e documenta modelos relacionais e dimensionais com supervisão, interpretando entidades e relacionamentos.
- Pipeline de Dados: Supervisiona fluxos de ingestão batch com base em código de referência e configura pipelines simples, considerando agendamento por horário e dependências diretas.
- Processamento Distribuído: Interage com ambientes como Spark, S3 e GCS, compreendendo conceitos de paralelismo e concorrência, além de otimizar o uso de recursos para minimizar custos.
- SQL e Qualidade de Dados: Escreve queries SQL básicas (CTE, joins, filtros, agregações), garantindo integridade e qualidade dos dados (ACID, alertas para duplicação e dados recentes). Também traduz consultas SQL para Spark-SQL para produtivização de tabelas.
Requisitos:
- Conhecimento em modelagem de Dados.
- Conhecimento de banco de dados não relacional.
- Conhecimento em estruturas de sistemas legados.
- Capacidade de execução de queries avançadas.
- Conhecimentos de aiflow e Spark.
- Conhecimentos em SQL.
Requisitos desejáveis (diferencial):
- Conhecimentos em Cloud (GCP).
- Conhecimento e atuação em pipelines de dados complexas.
Outras Informações
Selecionamos as principais informações da posição. Para conferir o descritivo completo, clique em "acessar"
Hey!
Cadastre-se na Remotar para ter acesso a todos os recursos da plataforma, inclusive inscrever-se em vagas exclusivas e selecionadas!