YP

STAGE EN INGÉNIERIE LINGUISTIQUE : Résumé et Simplification de texte - H/F

EDF

Stage Informatique, Télécommunications, Web Palaiseau

Détails de l'offre

La R&D d'EDF (2000 chercheurs) a pour missions principales de contribuer à l'amélioration de la performance des unités opérationnelles du groupe EDF, d'identifier et de préparer les relais de croissance à moyen et long termes. Dans ce cadre, le département Innovation Commerciale Analyse des Marchés et de leur Environnement (ICAME) est un département pluridisciplinaire (sciences de l'ingénieur, sciences humaines et sociales) qui fournit un appui à l'élaboration et au portage des offres, des services et des outils de relation Client aux Directions opérationnelles du groupe EDF. Au sein de ce département, le stage sera rattaché au groupe "Statistiques et Outils d'Aide à la Décision " (SOAD) qui compte une vingtaine d'ingénieurs chercheurs spécialisés en data mining, informatique décisionnelle et data science ayant pour mission de construire et mettre en oeuvre les méthodes d'analyse, de fouille et d'enrichissement de données volumineuses d'origines multiples, structurées ou complexes.
Le volume des données numériques textuelles disponibles augmente chaque année à un rythme exponentiel et l'analyse de ces informations, structurées ou non, est aujourd'hui un impératif stratégique pour une entreprise telle qu'EDF. Dans ce cadre, et dans l'objectif de toujours mieux connaître les besoins de ses clients, l'exploitation de ces documents implique l'utilisation de méthodes et d'outils adaptés. Dans le cadre des réflexions associées à la transition numérique du groupe EDF, il s’agit d’instruire comment l’intégration d’outils « intelligents » du Traitement Automatique de la Langue Naturelle écrite pourrait faciliter la recherche d'information dans les données textuelles notamment à travers des méthodes de résumé et de simplification de texte.
Depuis les premières méthodes proposées dans les années 50, les travaux sur le résumé automatique ont permis de développer des méthodologies performantes, principalement basées sur l’identification et l’extraction des phrases principales d’un texte. L’arrivée récente des méthodes de deep learning, qui permettent d’introduire de la génération de texte et de sortir des méthodes purement extractives, a permis de proposer de nouvelles méthodologies, combinant extraction et apprentissage.
Ces méthodes sont particulièrement adaptées en cas de corpus annotés volumineux, mais cela est peu fréquent en contexte industriel. Dans un premier temps, EDF souhaiterait donc effectuer une revue de la littérature et un test des principales méthodologies sur ses bases de données, afin d’identifier les possibilités et éventuels blocages présentés par ces méthodes pour nos cas métiers. Dans un second temps, nous souhaiterions proposer, en se basant sur cette première analyse, des pistes de développement pour la mise en place d’un système de résumé automatique adapté à nos métiers.



La mission consistera à réaliser un état de l'état des outils et méthodes existants pour résumer ou simplifier un texte et tester ceux qui semblent les plus pertinents pour faciliter la consultation des données textuelles.
Plus précisément, il s’agira de:
• Réaliser un état de l'art des outils et méthodes de résumé automatique et de simplification de texte.
• Mettre en place et appliquer des prétraitements adaptés selon la qualité des données.
• Réaliser des tests sur différents types de données.
• Étudier la problématique de l’évaluation de la qualité d’un résumé.
Il sera notamment attendu :
• Un transfert et dépôt des codes à l’équipe (git)
• Une restitution des travaux réalisés.
• Une documentation technique si nécessaire.


Compétences requises :


• Master en Linguistique Informatique ou Traitement Automatique des Langues ou école d'ingénieur.
• Connaissances des problématiques et technologies du text mining (recherche d'information, clustering, détection de similarité sémantique à différentes échelles).
• Connaissance du langage python.
• Connaissance d’outils de TALN (exploitation lexicales, syntaxiques, sémantiques ou autre).
• Notions en ontologie et web sémantique.
• Travail en équipe, aisance relationnelle.
• Aisance rédactionnelle.


Début de stage : février 2020


Durée du stage : 6 mois


Lieu : EDF Lab, 7 boulevard Gaspard Monge, 91120 PALAISEAU


 


 

Tu souhaites postuler à cette offre ? Utilise le formulaire de candidature !

Postuler

En cliquant sur « Postuler maintenant », vous acceptez que vos données soient transmises au recruteur qui a publié cette offre. La société Yupeek s’engage pour la protection des données à caractère personnel. Vous bénéficiez d’un droit d’accès, de rectification, d’opposition, de suppression et de portabilité de vos données, ainsi que du droit d’obtenir la limitation de leur traitement. Vous pouvez exercer vos droits en contactant le Délégué à la protection des données (DPO) de Yupeek par mail à dpo@yupeek.com, ou par courrier à Yupeek - à l’attention du DPO, 11 rue Pierre Simon de Laplace 57070 Metz. Vous disposez également de la possibilité d’introduire une réclamation auprès de la CNIL si vous estimez que le traitement de vos données n’est pas effectué conformément aux dispositions applicables. Pour en savoir plus sur la gestion de vos données et de vos droits vous pouvez consulter notre politique de protection des données à caractère personnel.

Upload ton CV

{$ jobofferController.cv_errors $}

Annonces similaires

{$ s.title $}
{$ s.location $}