Data Ingénieur H/F

Détail de l'offre

Informations générales

Entité de rattachement

Unicancer est l'unique réseau hospitalier français dédié à 100 % à la lutte contre le cancer et la seule fédération hospitalière nationale dédiée à la cancérologie. Il réunit 18 Centres de lutte contre le cancer (CLCC), établissement de santé privé à but non lucratif, répartis sur 20 sites hospitaliers en France. 540 000 patients par an sont pris en charge dans le réseau Unicancer, plus de 20 000 femmes et hommes sont engagés, au quotidien, dans une quête permanente d'excellence en matière de soins, de recherche et d'enseignement supérieur.
Unicancer est aussi le premier promoteur académique d'essais cliniques, en oncologie, à l'échelle européenne. Reconnu comme leader de la recherche en cancérologie en France, le réseau Unicancer bénéficie d'une réputation mondiale avec la production d'un tiers des publications internationales en oncologie. Les 18 CLCC et l'activité R&D d'Unicancer sont certifiés ISO 9001 pour leur recherche clinique.  

Référence

2026-5104  

Description du poste

Intitulé du poste

Data Ingénieur H/F

Type de contrat

CDI

Date de prise de poste

01/10/2026

Temps de travail

Temps plein

Organisation du temps de travail

Télétravail jusqu'à 3 jours par semaine possible

Description du poste

Finalité du poste :

Acteur majeur dans la construction de pipelines de données évolutifs pour traiter des données structurées et non structurées (données de santé de vie réelle).

Développer, maintenir et améliorer les solutions et infrastructures datas nécessaires à la collecte, la centralisation, le stockage et l’accès aux données de santé collectées auprès des établissements de soins contributeurs et mises à disposition des équipes scientifiques.

Missions :

Concevoir efficacement et maintenir des flux d’intégration (collecte, Ingestion, Stockage) permettant de centraliser les données issues de plusieurs établissements de santé (et de plusieurs sources de données pour chaque établissement) dans un entrepôt de données de santé tout en garantissant une qualité de données.

Mettre en place des pipelines de données sécurisées qui seront traitées et nettoyées par les data managers pour délivrer des bases « gelées » mises à disposition des experts scientifiques, biostatisticiens et data scientistes.

Concevoir et mettre en œuvre un process et un data pipeline permettant de valider la qualité des données intégrées automatiquement dans les Bases et entrepôts de données, par confrontation avec les données intégrées à partir de collecte manuelle.

Améliorer et automatiser les flux d’intégration existants

Participer à la conception de plateformes pour le traitement efficace de volumes importants de données tout en garantissant leur sécurité

Accompagner le développement des outils permettant l’extraction des données sous forme structurée

Assister des prestataires externes spécialistes de la structuration de données non structurées issues de compte-rendu médicaux ou fiche RCP (Réunion de Concertation Pluridisciplinaire) ou documents du DPI, avec des solutions de type Natural Language Processing (NLP) et Named Entity Recognition (NER).

Etre force de proposition sur l’évolution de la data stack du Pôle Gestion de Données de la DDP permettant d’apporter des solutions innovantes pour répondre aux challenges des nouveaux projets de la DDP : EDS fédérés et projet d’appariement des EDS actuels avec un système fils du SNDS (Système National des Données de Santé)

Assurer la montée en compétence de l’équipe Data Engineers

Rédiger et mettre à disposition la documentation (guide de procédure, documents utilisateurs, référentiels, …) dans le respect du système de Management de la Qualité en place (SMQ - Certification ISO 9001)

Proposer des indicateurs pertinents du suivi de l’activité des Data Ingénieurs et construire un dashboard permettant de visualiser ces indicateurs et leurs évolutions

Communication/collaboration avec les pilotes des différents projets : reporting auprès du manager hiérarchique et des managers fonctionnels

Assister et participer aux réunions avec les équipes projets et avec le Pôle Gestion de Données

Compétences requises

Computing : SQL, Javascript, Python, Pandas, Numpy, Spark, PySpark, Elasticsearch, Spacy, Kibana, Java, Camel, Nginx, Liferay, Angular, XML, HTML, JSON, PDF/A (Texte), CSS, Windows, Unix/Linux (Debian), Solaris, NLP – NER, PowerBI, KNIME, Talend, SAS (plus appréciable)

Base de Données : SQL et NoSQL (PostgreSQL, MariaDB)

Cloud : connaissances est un plus

Intégration continue : Git, CI/CD

Transverses : Méthodologie Agile

Interopérabilité : connaissance format OMOP, FHIR HL7, OSIRIS serait un plus

Fonctionnelles : secteur de la santé, Entrepôts de Données de Santé, curiosité très prononcée pour la cancérologie

Plus de 2 ans d'expérience en tant que Data Engineer, avec une première expérience réussie en tant que Data Engineer dans le secteur de la santé.

Bonne compréhension du cycle de vie de la donnée, de la data lineage, de la data gouvernance et de la data privacy.

Capacité à travailler en agilité dans un environnement collaboratif.

Fourchette de salaire

45-50 k€

Rémunération

50 K€

Critères candidat

Langues

Anglais (2- Niveau professionnel)

Localisation du poste

Localisation du poste

Ile-de-France, Val de Marne (94)

Lieu

Le Kremlin Bicètre