Stage/Pré-Thèse: NLP/Ontologies du secteur public H/F
Le groupe étend son expertise métier dans les domaines des ressources humaines, de la gestion financière, de la gestion de la maintenance des infrastructures, ainsi que des solutions spécifiques destinées aux citoyens, aux établissements scolaires et de santé. BERGER-LEVRAULT c'est 1700 collaborateurs réunis autour de plusieurs marques (Carl-Software, Aytos, Segilog, LibreAir, Sigems, Infosilem...) à l'international (France, Canada, Espagne, Maroc, Italie, Belgique) avec plus 51 000 clients et 25% de son chiffre d'affaires investi dans la Recherche & Développement.
Si vous souhaitez intégrer une entreprise pérenne et en pleine croissance, avec une culture fondée sur le renouvellement et des valeurs qui placent incontestablement l'humain au cœur de l'entreprise…
Alors rejoignez-nous et venez vivre l'odyssée Berger-Levrault !
Référence2019-309
Catégorie de l'offre
Standard
Description du posteIntitulé du poste
Stage/Pré-Thèse: NLP/Ontologies du secteur public H/F
Contrat
STAGE
Durée du contrat
6 mois
Description de la mission
Notre époque est de plus en plus influencée par la prédominance des données intelligentes se trouvant dans des corpus de taille non négligeable.Les processus de recherche de documents pertinents ou de regroupement de documents pour en tirer des thématiques ne sont pas toujours facilités en particulier lorsque les documents sont tirés d’un domaine de spécialité. La génération automatique de textes pour apprendre à un chatbot ou un voicebot comment répondre aux besoins de leurs utilisateurs reflète le même problème : le manque d’une bonne représentation de la connaissance de chaque domaine de spécialité potentiel qui pourrait être exploité. La plupart des systèmes de recherche et d’extraction d’information reposent sur l’utilisation d’une ou plusieurs ressources linguistiques externes, mais se heurtent à la difficulté de développer et d’entretenir des ressources spécifiques à chaque domaine. Avoir à disposition une ontologie du domaine devient donc indispensable pour l’amélioration des systèmes cités ci-dessus.
L’objectif principal de ce stage est d’étudier les méthodes « état de l’art » de construction automatique d’une ontologie de domaine (le secteur public pour notre besoin) pour ensuite développer des modèles de génération d’ontologies. L’idée consiste à identifier les verrous scientifiques pour faire face au : (1) large vocabulaire que peut contenir un corpus de données ; et (2) niveau d’ambiguïté sémantique des termes par rapport à leurs sens (peu ambigu, ambigu ou très ambigu). Après avoir construit l’ontologie de domaine, la question qui restera à aborder est comment représenter cette ressource sémantique et la rendre exploitable ?
Les Activités principales seront les suivantes :
- Études des méthodes « état de l’art » de construction automatique et semi-automatique d’ontologies d’un domaine de spécialité ;
- Exploitation des caractéristiques des documents d’un corpus de spécialité et identification des variables les plus importantes servant à la construction d’ontologies ;
- Développement de modèles de construction d’ontologies à base de corpus par application des méthodes d’apprentissage automatique (machine learning) ;
- Évaluation des modèles proposés.
Vous intégrerez notre équipe de recherche et développement et profiterez des connaissances et expertises de nos ingénieurs de recherche, doctorants et jeunes docteurs. Vous travaillerez directement avec le Responsable R&D du pole et le doctorant en charge de ce sujet.
À la suite de ce stage, Berger-Levrault souhaite mettre en place une thèse CIFRE autour du même sujet.
Profil requis
Ce stage s’adresse à un(e) étudiant(e) en dernière année d’école d’Ingénieur ou équivalent universitaire (BAC+5), ayant une orientation en Intelligence Artificielle (IA) et/ou extraction et gestion des connaissances (EGC). La personne candidate doit posséder les qualifications suivantes :
- Connaissances sur les bases de données orientées graphes (par exemple, Neo4j ou OrientDB) ;
- Maitrise des techniques d’apprentissage automatique et de fouille de données (data mining) ;
- Bon niveau de programmation (Python et/ou JAVA) ;
- Des connaissances sur les technologies du Web Sémantique sont appréciées (JSON-LD / RDF / OWL / SKOS / SPARQL) ;
- Capacités à proposer des solutions innovantes ;
- Autonome, curieux(se) avec des capacités d’analyse et de synthèse.
- Pourquoi faire un stage chez Berger-Levrault ?
- Parce que nous sommes une entreprise en pleine croissance et ça dure depuis plus de 400 ans… (Nous mettons tout en œuvre pour y arriver ) ;
- Parce que nous sommes une entreprise ouverte vers l’international mais nous n’en restons pas moins une entreprise à taille humaine ;
- Parce que nous impliquons nos stagiaires dans des projets qui ont du sens
- Parce que nous nous sommes fiers de devenir les acteurs du changement et de la transformation numérique des citoyens.
Localisation du posteLocalisation du poste
France, Occitanie, Haute Garonne (31)
Lieu
Labège