Apprentissage de Modèles de Langue Neuronaux pour la Recherche d'Information

Abstract

La recherche d’information (RI) ad-hoc se heurte à différentes difficultés, notam- ment liées à des discordances de vocabulaire entre requête et documents, ainsi qu’à la prise en compte de dépendances séquentielles entre les termes de la requête. Les récents modèles de langue neuronaux sont capables de capturer différents types de dépendances, grâce à une représentation distribuée des mots, mais nécessitent de gros volumes de données pour être en- trainés efficacement. Jusqu’alors, ces modèles n’ont pas été utilisés directement pour des tâches de RI classiques, pour lesquelles l’estimation d’un modèle de langue pour chaque document est requise. Nous proposons une approche basée sur des transformations spécifiques (à chaque do- cument) d’une représentation générique (apprise sur l’ensemble du corpus), pour définir des modèles de langue neuronaux pour la RI ad-hoc.