Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale

Thèse Année : 2021

Incorporation of prior Knowledge for Neural Information Retrieval on Text Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale

(1)

1 (UMR 5217 - Laboratoire LIG - Bâtiment IMAG - 700 avenue Centrale - Domaine Universitaire de Saint-Martin-d’Hères Adresse postale : CS 40700 - 38058 Grenoble cedex 9 Tél. : 04 57 42 14 00 - France) 1043301

CNRS - Centre National de la Recherche Scientifique : UMR5217 (France) 441569
UGA - Université Grenoble Alpes (Adresse CS 40700 - 38058 Grenoble cedex - France) 1042703
Grenoble INP - Institut polytechnique de Grenoble - Grenoble Institute of Technology (46 avenue Félix Viallet 38031 Grenoble Cedex 1 - France) 1043329
- UGA - Université Grenoble Alpes (Adresse CS 40700 - 38058 Grenoble cedex - France) 1042703

"> LIG - Laboratoire d'Informatique de Grenoble

Jibril Frej

Fonction : Auteur
PersonId : 1064593

Laboratoire d'Informatique de Grenoble

Résumé

This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice. In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR : (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency. We focused on three types of prior knowledge to address the limitations mentioned above : (1) knowledge from a semi-structured resource : Wikipedia ; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri ; (3) knowledge from unstructured text. At first, we propose WIKIR : an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.

Ce travail de thèse se situe dans les domaines de la recherche d’information RI) textuelle et de l’apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l’utilisation de réseaux de neurones en RI textuelle s’est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique. Dans ce travail de thèse, nous proposons d’étudier l’incorporation de connaissances a priori pour aborder 3 limitations de l’utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées ; (2) les représentations du texte sont basées uniquement sur des analyses statistiques ; (3) le manque d’efficience. Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus : (1) des connaissances issues d’une ressource semi-structurée : Wikipédia ; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus ; (3) des connaissances issues de texte non structurées. Dans un premier temps, nous proposons WIKIR : un outil libre d’accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L’intégration de ressources sémantiques aux réseaux de neurones leur permet d’atteindre de meilleures performances pour la recherche d’information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l’efficience des modèles de référence de RI n’utilisant pas d’apprentissage.

Mots clés

Information Retrieval Neural Network Deep Learning Natural Language Processing

Recherche d'Information Réseau de Neurones Apprentissage Profond Traitement Automatique du Langage Naturel

Domaines

Recherche d'information [cs.IR] Traitement du texte et du document Intelligence artificielle [cs.AI]

Fichier principal

Manuscrit_de_these_Frej_Jibril.pdf (2)

Origine	Fichiers produits par l'(les) auteur(s)

Jibril FREJ : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-03323605

Soumis le : dimanche 22 août 2021-10:09:01

Dernière modification le : vendredi 24 janvier 2025-14:12:46

Archivage à long terme le : mardi 23 novembre 2021-18:04:05

Dates et versions

tel-03323605 , version 1 (22-08-2021)

Identifiants

HAL Id : tel-03323605 , version 1

Citer

Jibril Frej. Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale. Recherche d'information [cs.IR]. Université Grenoble Alpes, 2021. Français. ⟨NNT : ⟩. ⟨tel-03323605⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS LIG LIG_SIDCH

131 Consultations

227 Téléchargements