Corrections des données structurées via LLMs et REGEX
EDF
Détails de l'offre
Présentation de l'entreprise :
Le groupe EDF est l'un des premiers électriciens mondiaux, à la pointe de l'innovation technologique. Le respect de la personne et celui de l'environnement, l'intégrité, la solidarité sont au cœur de nos actions. Face à l’urgence climatique, notre rôle est d’inventer un modèle énergétique qui respecte notre planète.
Nous voulons construire un monde où il sera possible de produire une électricité neutre en CO2, grâce au nucléaire et aux énergies renouvelables, conciliant préservation de la planète, bien-être et développement, grâce à l’électricité et à des solutions et services innovants.
Pourquoi nous rejoindre ? 😀
Rejoindre EDF, c’est travailler dans un Groupe qui lutte au quotidien contre le réchauffement climatique. C’est travailler dans un Groupe avec des valeurs fortes qui innove avec de solides actifs industriels et vous confie des missions qui ont du sens. Rejoindre EDF, c’est partager une aventure ensemble.
Missions :
Contexte et objectif du stage
Rejoignez l’équipe R&D d’EDF et participez à l’amélioration de la qualité des données volumineuses.
En intégrant notre équipe, vous aurez l’opportunité de contribuer au développement de méthodes innovantes de correction et de fiabilisation des données. Vous travaillerez sur des techniques avancées de traitement automatique du langage naturel (NLP) et de génération de texte à l’aide de modèles de langage (LLMs, SLMs)
Déroulement du stage :
Le stage vise à proposer des méthodes de correction de données structurées, avec un cas d’application sur les schémas mécaniques des centrales nucléaires. Il consistera dans le développement d’un pipeline de suggestion de corrections potentielles. Les étapes principales du stage seront :
- Etat de l’art des méthodes de correction des données erronées par génération d’expressions régulières (REGEX)
- Implémentation et tests des méthodes suggérées
- Comparaison des méthodes à base de RAG et/ou fine-tuning
- Développement d’un pipeline de corrections des données
Ce stage permettra au stagiaire de prendre connaissance des schémas mécaniques des centrales nucléaires. Il participera aux réunions de clarification avec le client et devra assurer la livraison de son travail dans les délais.
Le stagiaire intégrera le groupe R4F « Fiabilité, IA, Cyber Sécurité, Interopérabilité et résilience des réseaux électriques » du Département SYSTEME à EDF R&D Lab Saclay.
Profil recherché :
Profil recherché :
Stage de fin d’études ou de césure Bac +4/+5
Étudiant(e) en école d’ingénieur ou en Master 1 ou 2.
Profil : Machine Learning / Deep Learning / LLMs
Compétences Obligatoires :
- Compétences en Programmation : Bonne maîtrise du langage Python, y compris des bibliothèques telles que Pandas, NumPy, et Matplotlib.
- Data science : Expérience avec les process de Data Science : Traitement des données structurées (csv, json, xml …), analyse et visualisation des données.
- GenAI & NLP : Connaissances des méthodes classiques de traitement du langage naturel et expérience avec les LLM (inférence/prompt engineering/fine-tuning). Maîtrise de la bibliothèque Transformers.
Compétences recommandées :
- Apprentissage automatique : Expérience d’entraînement des modèles d’IA (réseau des neurones ou modèles de ML classiques), ainsi qu’une maîtrise de bibliothèques (scikit-learn / pytorch ou tensorflow)
- Gestion de Projet et Outils Collaboratifs : Connaissance des principes de gestion de version avec Git et GitLab
Des expériences avec des systèmes de RAG seront appréciées.
Conditions du stage
Unité d’accueil : EDF Lab Saclay – Département SYSTEME
7 boulevard Gaspard Monge, 91120 Palaiseau
Durée : 5 à 6 mois à partir de mars/avril 2025
Le stage est rémunéré
Rémunération transport : 50%
Contacts
Ilias ELFRYAKH: ******