Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale - TEL - Thèses en ligne
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Thèse Année : 2021
Incorporation of prior Knowledge for Neural Information Retrieval on Text Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale
1 LIG - Laboratoire d'Informatique de Grenoble (UMR 5217 - Laboratoire LIG - Bâtiment IMAG - 700 avenue Centrale - Domaine Universitaire de Saint-Martin-d’Hères Adresse postale : CS 40700 - 38058 Grenoble cedex 9 Tél. : 04 57 42 14 00 - France)
"> LIG - Laboratoire d'Informatique de Grenoble
Jibril Frej
  • Fonction : Auteur
  • PersonId : 1064593

Résumé

This thesis work is in the fields of textual information retrieval (IR) and deep learning using neural networks. The motivation for this thesis work is that the use of neural networks in textual IR has proven to be efficient under certain conditions but that their use still presents several limitations that can greatly restrict their application in practice. In this thesis work, we propose to study the incorporation of prior knowledge to address 3 limitations of the use of neural networks for textual IR : (1) the need to have large amounts of labeled data, (2) a representation of the text-based only on statistical analysis, (3) the lack of efficiency. We focused on three types of prior knowledge to address the limitations mentioned above : (1) knowledge from a semi-structured resource : Wikipedia ; (2) knowledge from structured resources in the form of semantic resources such as ontologies or thesauri ; (3) knowledge from unstructured text. At first, we propose WIKIR : an open-access toolkit to automatically build IR collections from Wikipedia. The neural networks trained on the collections created automatically need less labeled data afterward to achieve good performance. Secondly, we developed neural networks for IR that use semantic resources. The integration of semantic resources into neural networks allows them to achieve better performance for information retrieval in the medical field. Finally, we present neural networks that use knowledge from unstructured text to improve the performance and efficiency of non-learning baseline IR models.
Ce travail de thèse se situe dans les domaines de la recherche d’information RI) textuelle et de l’apprentissage profond utilisant des réseaux de neurones. Les travaux effectués dans ce travail de thèse sont motivés par le fait que l’utilisation de réseaux de neurones en RI textuelle s’est révélée efficace sous certaines conditions mais que leur utilisation présente néanmoins plusieurs limitations pouvant grandement restreindre leur application en pratique. Dans ce travail de thèse, nous proposons d’étudier l’incorporation de connaissances a priori pour aborder 3 limitations de l’utilisation de réseaux de neurones pour la RI textuelle : (1) la nécessité de disposer de grandes quantités de données étiquetées ; (2) les représentations du texte sont basées uniquement sur des analyses statistiques ; (3) le manque d’efficience. Nous nous sommes intéressés à trois types de connaissances a priori pour aborder les limitations mentionnées ci-dessus : (1) des connaissances issues d’une ressource semi-structurée : Wikipédia ; (2) des connaissances issues de ressources structurées sous forme de ressources sémantiques telles que des ontologies ou des thésaurus ; (3) des connaissances issues de texte non structurées. Dans un premier temps, nous proposons WIKIR : un outil libre d’accès permettant de créer automatiquement des collections de RI depuis Wikipédia. Les réseaux de neurones entraînés sur les collections créées automatiquement ont besoin par la suite de moins de données étiquetées pour atteindre de bonnes performances. Dans un second temps, nous avons développé des réseaux de neurones pour la RI utilisant des ressources sémantiques. L’intégration de ressources sémantiques aux réseaux de neurones leur permet d’atteindre de meilleures performances pour la recherche d’information dans le domaine médical. Finalement, nous présentons des réseaux de neurones utilisant des connaissances issues de texte non structurées pour améliorer la performance et l’efficience des modèles de référence de RI n’utilisant pas d’apprentissage.
Fichier principal
Vignette du fichier
Manuscrit_de_these_Frej_Jibril.pdf (2.49 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03323605 , version 1 (22-08-2021)
Identifiants
  • HAL Id : tel-03323605 , version 1

Citer

Jibril Frej. Incorporation de Connaissances a priori pour la Recherche d’Information Textuelle Neuronale. Recherche d'information [cs.IR]. Université Grenoble Alpes, 2021. Français. ⟨NNT : ⟩. ⟨tel-03323605⟩
123 Consultations
209 Téléchargements

Partager

More