Des chercheurs de McGill mettent en lumière des processus neuronaux complexes qui nous aident à comprendre la parole
La vitesse à laquelle le cerveau arrive à décoder le flux rapide d’informations acoustiques pour traiter la parole est remarquable. Pour ce faire, le cerveau compte essentiellement sur le contexte. Selon une hypothèse, des mécanismes cérébraux prédiraient, lorsqu’on écoute quelqu’un parler, quels mots sont les plus probables à chaque moment du discours. Ces prédictions sont le fruit de notre éducation, de nos expériences de vie et des représentations mentales de notre environnement, y compris de notre interlocuteur. Lorsque la prédiction est correcte, le cerveau enregistre rapidement l’information dans le flux vocal et n’a pas besoin de dépenser plus de ressources métaboliques pour mettre à jour et améliorer ses modèles prédictifs internes.
Champ de recherche très dynamique, la neuroscience du langage est toutefois restreinte par les contingences qu’imposent les appareils d’imagerie cérébrale et la complexité des signaux cérébraux lors de l’utilisation de la lecture naturelle de la parole : il est difficile de décoder les signaux cérébraux et de départager ce qui relève de l’énoncé du discours perçu ou de l’influence du contexte. Voilà pourquoi les chercheurs présentent en général les mots séparément, dans des séquences relativement lentes et courtes, afin d’isoler les signaux cérébraux induits par chacun. Cela limite notre capacité à comprendre pleinement comment le contexte influe sur la perception de façon naturelle, en temps réel.
Or, des chercheurs de l’Université McGill ont appliqué une nouvelle approche afin de découvrir comment le cerveau met en œuvre ces fonctions complexes pour extraire des informations éloquentes sur la parole. Leur étude a paru dans une récente édition de la revue Neuron.
Les chercheurs ont utilisé TED-LIUM, une ressource en libre accès contenant les transcriptions de 1 500 conférences TED. Peter Donhauser, doctorant à McGill et coauteur de l’étude, a élaboré la méthodologie pour aligner de façon temporelle les transcriptions avec l’audio correspondant. Il a ensuite présenté ce corpus (un lexique de quelque 10 500 mots uniques) à un réseau de neurones artificiels (RNA) inspiré par la technologie actuelle employée en intelligence artificielle pour le traitement du langage naturel. Le RNA a été utilisé comme un substitut des modèles prédictifs internes du cerveau humain. Donhauser a ensuite combiné les résultats des prévisions du RNA avec les signaux neurophysiologiques du cerveau enregistrés à l’échelle de la milliseconde, grâce à la magnétoencéphalographie (MEG), chez des participants humains à qui on présentait les mêmes extraits audio.
« Notre approche a permis de montrer qu’en cas de contexte imprécis, des processus cérébraux améliorent la sensibilité aux signaux de parole entrants pour les décoder correctement », indique le professeur Sylvain Baillet, du Département de neurologie et de neurochirurgie de McGill, coauteur de l’article. « Ça s’apparente à augmenter le volume de sa radio quand on attend quelque chose d’important. Cela dit, ces processus cérébraux se produisent à un rythme rapide, qu’on appelle le rythme thêta (à peu près 4-8 fois par seconde). Lorsque la surprise provoquée par un discours entrant est élevée, des processus cérébraux plus lents entrent en jeu, soit le rythme delta (moins de 4 fois par seconde), plus intense dans des régions cérébrales adjacentes aux zones auditives primaires. Selon nous, ces signaux véhiculent des erreurs de prédiction qui servent finalement à mettre à jour et à corriger nos modèles internes de représentation de la parole. »
Les chercheurs ont été étonnés de constater que les régions cérébrales mises à contribution dans les mécanismes de traitement de l’incertitude contextuelle et de la surprise dans le discours sont confinées autour du cortex auditif et non réparties dans le cerveau. « C’est logique, en fait, car le traitement de la parole nécessite des circuits neuronaux pour décoder rapidement le contenu du langage », explique Donhauser. « Notre étude ne signifie pas que tout le traitement du langage se fait à quelques centimètres carrés du cortex – nous savons qu’il est largement réparti dans le cerveau – mais que les mécanismes importants de contrôle et d’adaptation du gain contextuel sont proches de l’endroit où les signaux audio atteignent le cortex. Ce sont ces mécanismes qui font en sorte que le reste du cerveau reçoit les informations dont il a besoin pour comprendre le langage parlé. »
Les chercheurs comptent utiliser la même approche pour affiner leurs conclusions concernant des paramètres neurolinguistiques subtils comme la syntaxe et la sémantique. Ils espèrent aussi étudier les mécanismes des troubles de la parole ou l’expérience unique du cerveau multilingue.
« Nous estimons que notre découverte est importante, car la parole est une caractéristique distinctive du cerveau humain. Le progrès de nos connaissances sur la façon dont le cerveau traite des informations aussi complexes nous éclaire sur le tissu de la nature humaine. Par ailleurs, les troubles de la parole touchent un très grand nombre de personnes. Nous espérons que nos recherches inspireront de nouvelles approches et des études spécialisées pour aider ceux qui vivent avec de tels handicaps », a ajouté le Pr Baillet.
L’article « Two Distinct Neural Timescales for Predictive Speech Processing », par Peter Donhauser et Sylvain Baillet, a été publié dans la revue Neuron du 22 janvier 2020. DOI: https://doi.org/10.1016/j.neuron.2019.10.019
Le 30 janvier 2020