Data Engineer H/F
faisant partie du groupe Cegedim, qui réalise des études épidémiologiques à
partir de données de santé issues de registres ou du Système National de
Données de Santé (SNDS), pour le compte des laboratoires pharmaceutiques ou des
sociétés savantes.
Clinityx a développé une expertise forte sur la
gestion des données du SNDS. Nous disposons aujourd'hui d'un entrepôt de
données de santé unique en son genre, comportant une volumétrie importante, de
lordre de 30 To. Nous cherchons aujourd'hui à renforcer l'équipe sur les
capacités de traitement de cette forte volumétrie.
Nous travaillons dans un environnement cloud HDS
(hébergeur de données de santé), sur des cluster Kubernetes. La stack
technologique repose principalement sur l'utilisation de clusters Spark (Scala)
pour l'analyse distribuée des données, avec du stockage objet de type S3.
Mission :
Les data engineers fournissent un travail
crucial chez Clinityx, en étroite collaboration avec les data scientistes
d'une part, et avec les épidémiologistes d'autre part. Ces interactions sont
indispensables à la définition des besoins des équipes en vue de construire les
outils utilisés en interne.
La
personne nous rejoignant pour le poste de Data engineer :
à la conception et à l'implémentation de pipelines de données, en vue de
la préparation d'un datalake structuré pour les data scientists
- Assurera
le développement, l'intégration, la qualité et la disponibilité de ces
pipelines
- Participera
aux développements d'outils fortement réutilisables afin d'automatiser et
industrialiser la production d'analyses clés
- Travaillera
en étroite collaboration avec les équipes de data science et
d'épidémiologie pour comprendre et répondre à leurs besoins en matière de
données.
Bénéfices :
- Télé-travail hybride : 2 jours
de TT / 2 jours sur site (Boulogne)
- 13 jours de RTT et 25 jours de
congés annuels
- Mutuelle groupe très avantageuse
- Avantages du CSE (billetterie,
chèques vacances)
- Carte tickets restaurant
- Participation.
- Ingénieur
intéressé par les données à forte volumétrie
- Bonne
connaissance du framework Spark et du langage Scala (ou Java, ou
Python/PySpark
- Expérience de 2 à 5 ans dans un poste similaire
- La
connaissance des environnements de données de santé est un plus.