Data Engineer - Project
Info en Functieomschrijving
Team Data voorziet de verschillende Product & Insights teams van de nodige tools, platformen en services om data driven te kunnen werken. Onder andere:
- een platform om digitaal gedrag (high throughput events) te verzamelen
- een cloud based, custom architected data architectuur & computational engine om deze events te verzamelen, te combineren met andere databronnen, en te ontsluiten voor verschillende doeleinden zoals traffic dashboards, rapportering en diepgaande analytics (modeling)
- data diensten voor onder andere personalisatie
- en de nodige processen en dashboards om de kwaliteit van de digitale data te bewaken.
Wat ga je doen?
- Samenwerken met data scientists en analisten, data engineers en project managers om ons data science-platform naar een next level te brengen
- Duiken in de internals van data-intensieve gedistribueerde systemen in Python met focus op data engineering, hierbij gebruik maken van technologieën zoals Panda's en Dask als gedistribueerde rekenomgeving voor batch- en streamingopdrachten
- Helpen bij het ontwikkelen van onze data abstraction layer en dit connecteren met een reeks interne data bronnen zoals relationele databases en externe data bronnen
- Ondersteunen en ontwikkelen van onze Jupyter-gebaseerde omgeving
- In formaten voor efficiënte storage en snelle reactietijden duiken
- Helpen bij het uittekenen van de volgende versie van onze pub / sub systemen, gebaseerd op technologieën zoals Eventhub of Kafka
- Ondersteuning bij het ontwerpen van de volgende versie van ons data quality control systeem
- Indien nodig, visualisaties & dashboards opzetten voor de data analisten
- Maintenance van onze data architectuur in de cloud (Azure)
- Zo veel als mogelijk automatiseren
Wat vragen wij?
- Goede kennis van Python en het open-source ecosysteem, in het bijzonder Panda's
- Goede kennis van Linux, Docker en Kubernetes (bij voorkeur ook Helm)
- Ervaring met het werken met column-based stores en/of formaten (bijvoorbeeld Parquet)
- Ervaring met SQL, relationele databases en ElasticSearch
- Interesse in parallelle / gedistribueerde data handling met Dask en Apache Airflow
Andere relevante ervaring
- Javascript
- Kennis van Azure of eventueel Google Cloud (bijvoorbeeld Data Lake, Big Query)
- Nginx
- Supervisors en logging
Personal skills
- Al het bovenstaande klinkt voor jou als veel werk, maar vooral als een leuke uitdaging binnen een klein team!
- Je bent leergierig (wil continu bijleren) en nieuwe technologieën schrikken je niet af
- Je bent pragmatisch ingesteld maar met oog voor detail en kwaliteit
- Je beschikt over een devops mentaliteit:
- je voelt je verantwoordelijk voor de applicaties van je team (incl. operations)
- Je werkt zelfstandig, resultaatgericht en weet de juiste prioriteiten te stellen
- Je hebt een agile mindset en bent een echte team player
- Kennis van het Nederlands is een must
Interesse? Neem dan zo snel mogelijk contact op want het is om ASAP op te starten!
Interesse, neem contact op met mij!