YP

Stage IA avancée (LLM, RAG, ROG) pour extraire des informations dans les plans nucléaires d'EdF F / H

EDF

Stage 6 Mois Sciences, Recherche Palaiseau A définir

Détails de l'offre

Présentation de l'entreprise :

Le groupe EDF est l'un des premiers électriciens mondiaux, à la pointe de l'innovation technologique. Le respect de la personne et celui de l'environnement, l'intégrité, la solidarité sont au cœur de nos actions. Face à l’urgence climatique, notre rôle est d’inventer un modèle énergétique qui respecte notre planète.



Nous voulons construire un monde où il sera possible de produire une électricité neutre en CO2, grâce au nucléaire et aux énergies renouvelables, conciliant préservation de la planète, bien-être et développement, grâce à l’électricité et à des solutions et services innovants.



Pourquoi nous rejoindre ? 😀



Rejoindre EDF, c’est travailler dans un Groupe qui lutte au quotidien contre le réchauffement climatique. C’est travailler dans un Groupe avec des valeurs fortes, qui innove avec de solides actifs industriels et vous confie des missions qui ont du sens. Rejoindre EDF, c’est partager une aventure ensemble.

Missions :

Avec près de 1850 collaborateurs de 29 nationalités, EDF Lab Paris Saclay travaille sur plus de 250 projets de recherche et de développement qui visent à répondre aux enjeux du Groupe EDF d'aujourd'hui et aux évolutions de demain.
Dans ce cadre, au sein du Département PERICLES (PErformance et prévention des Risques Industriels du parC par la simuLation et les EtudeS), le groupe Réalité Virtuelle et Visualisation Scientifique (RVVS) réunit les compétences de modélisation / interaction 3D et d'analyse visuelle de données. Le projet IRENE (Intelligence artificielle et REalité virtuelle pour les chantiers du NucléairE) mène des activités de développement d’outils innovants pour rendre la documentation intelligente.


Cette documentation se compose de plans, essentiellement des documents images, organisés selon une architecture complexe, chaque plan faisant référence à une dizaine d’autres plans apportant des informations sur la continuité de celui-ci (plans voisins) ou des informations complémentaires localisées dans des plans de typologies multiples (schémas mécaniques, électriques, etc.). Les installations électronucléaires d’EDF ayant entre 20 et 40 ans, la documentation historique a été pensée pour une gestion papier et non informatique. Aujourd’hui, ces plans sont chronophages à exploiter. La ressaisie de toutes les informations en relation (localisation - bâtiment, local -, numéros de contrat, applicabilité sur les technologies ou sur les unités de production concernées, etc.) est variable en fonction de l’année d’édition du document. Et cette ressaisie n’a pas forcément été réalisée exhaustivement.

Une première avancée a été obtenue par le lot Intelligence Artificielle du projet IRENE sous la forme d’une IA capable d’extraire des plans les Repères Fonctionnels des différents composants (étiquettes indiquant un identifiant unique, l’immatriculation du dit composant). Au-delà de cette détection d’items isolés, l’idée est désormais de construire leurs relations au sein d’un même plans ainsi qu’au travers des différents documents rapprochables.

Des avancées prometteuses apparaissent dans la catégorie des algorithmes de type RAG (Retrieval Augmented Generation (1)) qui combinent des techniques de récupération de connaissances propres au domaine métier (le contexte, gros grain) avec les techniques d’attention qu’apportent les Large Language Models (LLM, comme LayoutML) (grain fin).

Les systèmes RAG constituent ainsi une voie permettant de corriger certains défauts des grands modèles de langage :
• Raisonnement à longue portée : un RAG contribue à relier des faits entre documents.
• Apprentissage continu : le récupérateur indexe les données en évolution, gardant ainsi les connaissances LLM à jour.
• Réduction des hallucinations : les LLM peuvent produire des faits incorrects. Les preuves récupérées étayent les LLM, réduisant ainsi les fausses allégations.


Exemple : #

Profil recherché :

En parallèle, la mise en oeuvre de technique de Knowledge Graph (2) dans la phase de récupération des informations du domaine métier sont également un ingrédient clef pour améliorer les performances globales.
L’objectif du stage est de tester ces approches sur les données internes disponibles dans le but de proposer une preuve de concept apportant de la valeur au unités métier utilisant la documentation tous les jours.

1. # 2. # 

Compétences requises

• Compétences en traitement d’image
• Utilisation de réseaux de neurones profonds pour les images
• Développement Python, bibliothèques de vision par ordinateur, bibliothèques de statistiques et apprentissage
automatique.


Profil souhaité

Bac+5, élève ingénieur ou étudiant en Master 2 en informatique, vision par ordinateur, machine learning.

 

Conditions matérielles

Lieu du stage : EDF Lab Paris-Saclay, 7 boulevard Gaspard Monge, 91120 PALAISEAU
Département PERICLES / Groupe I2C (Réalité Virtuelle et Visualisation Scientifique)
Durée : 5-6 mois, début souhaité en mars - avril 2024 ou en septembre 2024


Références
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks( 2020). Facebook AI Research, University College
London, New York University NeurIPS (Over 870 Citations).
LayoutLMv2 (2022). Multi-modal Pre-training for Visually-rich Document Understanding, Harbin Institute of
Technology, Microsoft Research Asia, Microsoft Azure AI, Soochow University.

Postuler

En cliquant sur « Postuler maintenant », vous acceptez que vos données soient transmises au recruteur qui a publié cette offre. La société Yupeek s’engage pour la protection des données à caractère personnel. Vous bénéficiez d’un droit d’accès, de rectification, d’opposition, de suppression et de portabilité de vos données, ainsi que du droit d’obtenir la limitation de leur traitement. Vous pouvez exercer vos droits en contactant le Délégué à la protection des données (DPO) de Yupeek par mail à dpo@yupeek.com, ou par courrier à Yupeek - à l’attention du DPO, 11 rue Pierre Simon de Laplace 57070 Metz. Vous disposez également de la possibilité d’introduire une réclamation auprès de la CNIL si vous estimez que le traitement de vos données n’est pas effectué conformément aux dispositions applicables. Pour en savoir plus sur la gestion de vos données et de vos droits vous pouvez consulter notre politique de protection des données à caractère personnel.

Upload ton CV