Description and Responsibilities
Estamos em busca de um(a) Estagiário(a) em Engenharia de Dados para apoiar o time no desenvolvimento e manutenção de pipelines de dados, com foco em coleta automatizada, processamento e organização de informações provenientes da web.
A pessoa atuará no tratamento de dados estruturados e não estruturados, contribuindo para a construção de bases confiáveis e escaláveis que suportem análises, produtos de dados e sistemas internos.
Principais Atividades
- Desenvolver e manter rotinas de coleta automatizada de dados a partir de fontes públicas na internet
- Implementar processos de web scraping e web crawling
- Tratar, limpar e estruturar dados em diferentes formatos
- Realizar parsing de conteúdos como HTML, PDF e outros formatos
- Apoiar a segmentação e organização de grandes volumes de texto para uso em sistemas de recuperação de informação (ex.: chunking)
- Auxiliar na construção e automação de pipelines utilizando Python e/ou SQL
- Documentar pipelines, fluxos de dados e boas práticas
O foco será em ganhar experiência prática, visando um equilíbrio entre produtividade e crescimento profissional.
Requirements
Estar cursando graduação em áreas como Ciência da Computação, Engenharia, Sistemas de Informação, Ciência de Dados ou áreas correlatas
Previsão de formatura: 2027.1 a 2028.1
Conhecimentos básicos em Python
Noções de SQL e bancos de dados
Interesse em engenharia de dados, automação e sistemas de dados
Perfil analítico, organizado e com vontade de aprender
Facilidade para lidar com dados brutos e não estruturados
Diferenciais
Experiência acadêmica ou pessoal com web scraping e web crawling
Conhecimento em bibliotecas como BeautifulSoup, Scrapy, Selenium ou similares
Experiência com parsing de arquivos PDF
Conhecimento em Git e controle de versão
Contato com pipelines de dados ou ambientes de dados em nuvem
Não é necessário experiência profissional prévia, mas projetos pessoais ou acadêmicos na área de Engenharia de Dados serão valorizados.
Benefits
148106
2026-02-09
2026-02-09
Confidential