Architecture basée sur les mécanismes d'attention: le cas de la génération de questions neuronales

Abstract

RÉSUMÉ. Les architectures neuronales basées sur l’attention, telles que le Transformer, ont ré- cemment suscité l’intérêt de la communauté scientifique et ont permis d’obtenir des progrès im- portants par rapport à l’état de l’art dans plusieurs domaines. L’adaptation des Transformers à la tâche de la génération de questions n’est pas simple car les données sont ici relativement peu volumineuses. Nous explorons, par conséquent, comment un Transformer peut être adapté et, en particulier, étudions l’effet des mécanismes de copie, de remplacement d’entité nommée ainsi que l’intégration de représentations de mots contextualisées. Ces mécanismes sont parti- culièrement utiles pour le traitement des mots hors vocabulaire, qui sont les plus susceptibles d’affecter les performances dans le cadre de tâches pour lesquelles les données sont relative- ment moins disponibles. Les expériences rapportées montrent des résultats encourageants dans le scénario où la réponse n’est pas connue (mode non guidé). On obtient, par ailleurs, une amélioration par rapport à l’état de l’art quand elle ne l’est pas (mode guidé).