Reconnaissance automatique de la parole d'enfants apprenant·e·s lecteur·ice·s en salle de classe : modélisation acoustique de phonèmes

Lucile Gelin

Résumé

In this PhD thesis, we aim at perfecting the phonetic transcriptions of oral readings of children learning to read, recorded in a classroom environment. These automatic transcriptions power a reading mistakes detection system used in the reading aloud exercise of the Lalilo pedagogical platform. Good accuracy is essential to provide appropriate feedback to the child, thus promoting his·her learning. A first section presents the main challenges of our task. The automatic recognition of children's speech is more difficult than adults' speech, due to its very high acoustic and prosodic variability. The scarcity of available data, especially in French, requires us to be more inventive as to correctly model its variability. Finally, frequent occurrences of fluency and decoding mistakes, as well as the presence of classroom babble noise, constitute additional difficulties. In a second section, we build a hybrid TDNNF-HMM acoustic model, which will become our baseline model. Using transfer learning allows to overcome the lack of data and achieve a PER of 30.1%. We study different acoustic parameters and normalization methods, aiming at maximizing our model's performance. Data augmentation by adding noise with the objective of improving the model's robustness to classroom babble noise further improves the PER by 6.4% relative. In our final section, we explore recent end-to-end architectures based on RNNs, CTC modules and attention mechanisms. Our work is one of the first to apply end-to-end architectures to child speech and to analyze their strengths and weaknesses with respect to the specificities of oral reading by children learning to read. Our Transformer+CTC system provides the best results (25.0% PER) thanks to the relevance of the acoustic and textual information extracted by its self-attention mechanisms and the complementarity of the CTC and attention modules. Our system is then enhanced with data augmentation techniques. In particular, we introduce an innovative method of simulating reading mistakes, that seeks to train the model to better detect them. It reveals complementary to the noise data augmentation previously studied. These two techniques then allow the Transformer+CTC to greatly outperform the hybrid reference model, with a PER of 21.2%, and to improve the quality of its transcriptions over misreadings or classroom babble noise.

À travers ces travaux de thèse, nous cherchons à perfectionner les transcriptions phonétiques de lectures orales d'enfants apprenant·e·s lecteur·rice·s réalisées en environnement scolaire. Ces transcriptions automatiques forment la base d'un système de détection d'erreurs utilisé dans un exercice de lecture orale de la plateforme pédagogique Lalilo. Une bonne précision est primordiale pour fournir un retour adapté à l'enfant, et ainsi favoriser son apprentissage. Une première partie présente les principaux défis de notre tâche. La reconnaissance automatique de la parole d'enfants est plus ardue que celle d'adultes, en raison de ses très grandes variabilités acoustique et prosodique. La rareté des données disponibles, notamment en français, nous oblige de plus à redoubler d'inventivité pour en modéliser correctement la variabilité. Enfin, de fréquentes occurrences d'erreurs de fluence et de déchiffrage, ainsi que la présence de bruit de brouhaha typique des salles de classe, constituent des difficultés supplémentaires. Nous construisons dans une seconde partie un modèle acoustique hybride TDNNF-HMM, qui deviendra notre modèle de référence. Son entraînement via un apprentissage par transfert permet de pallier au manque de données et d'atteindre un PER de 30,1%. Nous étudions différents paramètres acoustiques et méthodes de normalisation, visant à maximiser la performance de notre modèle. Une technique d'augmentation de données par ajout de bruit, visant à améliorer la robustesse du modèle aux bruits de salle de classe, apporte également une amélioration relative du PER de 6,4%. Dans notre dernière partie, nous explorons les architectures récentes end-to-end fondées sur des réseaux RNN, des modules CTC et des mécanismes d'attention. Notre travail est l'un des premiers à appliquer des architectures end-to-end sur de la parole d'enfants, et à analyser leurs forces et faiblesses quant aux spécificités de la lecture orale d'apprenant·e·s lecteur·rice·s. Notre système Transformer+CTC fournit les meilleurs résultats (PER de 25,0%) grâce à la pertinence des informations acoustiques et textuelles extraites par ses mécanismes d'auto-attention et à la complémentarité des modules CTC et d'attention. Notre système est ensuite enrichi de techniques d'augmentation de données. Nous introduisons notamment une méthode novatrice de simulation d'erreurs de lecture, afin d'entraîner le modèle à mieux les détecter. Celle-ci s'avère complémentaire à l'augmentation par ajout de bruit étudiée en deuxième partie. Ces deux techniques permettent alors au Transformer+CTC de surpasser largement le modèle hybride de référence, avec un PER de 21,2%, et d'améliorer la qualité de ses transcriptions sur de la lecture incorrecte ou en présence de bruit de brouhaha.

Automatic speech recognition for children learning to read in a classroom environment : acoustic modelling of phonemes

Reconnaissance automatique de la parole d'enfants apprenant·e·s lecteur·ice·s en salle de classe : modélisation acoustique de phonèmes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager