Les embeddings de Whisper s'alignent étonnamment avec l'activité cérébrale humaine pendant la parole
Une étude révèle un alignement surprenant entre le modèle de reconnaissance vocale Whisper d'OpenAI et l'activité neuronale dans le cerveau humain lors de conversations naturelles. En comparant les embeddings de Whisper à l'activité cérébrale dans des régions comme le gyrus frontal inférieur (IFG) et le gyrus temporal supérieur (STG), les chercheurs ont découvert que les embeddings du langage atteignaient leur pic avant les embeddings de la parole pendant la production de la parole, et vice-versa pendant la compréhension. Cela suggère que Whisper, bien qu'il n'ait pas été conçu en tenant compte des mécanismes cérébraux, capture des aspects clés du traitement du langage. Les résultats mettent également en évidence une « hiérarchie douce » dans le traitement du langage cérébral : les régions d'ordre supérieur comme l'IFG priorisent les informations sémantiques et syntaxiques, mais traitent également les caractéristiques auditives de bas niveau, tandis que les régions d'ordre inférieur comme le STG priorisent le traitement acoustique et phonémique, mais captent également des informations au niveau des mots.