Embeddings do Whisper se alinham surpreendentemente com a atividade cerebral humana durante a fala

Um estudo revela uma surpreendente alinhamento entre o modelo de reconhecimento de fala Whisper da OpenAI e a atividade neural no cérebro humano durante conversas naturais. Ao comparar as embeddings do Whisper com a atividade cerebral em regiões como o giro frontal inferior (IFG) e o giro temporal superior (STG), os pesquisadores descobriram que as embeddings de linguagem atingiram o pico antes das embeddings de fala durante a produção da fala, e vice-versa durante a compreensão. Isso sugere que o Whisper, apesar de não ter sido projetado com mecanismos cerebrais em mente, captura aspectos importantes do processamento da linguagem. As descobertas também destacam uma 'hierarquia suave' no processamento da linguagem cerebral: áreas de ordem superior, como o IFG, priorizam informações semânticas e sintáticas, mas também processam recursos auditivos de baixo nível, enquanto áreas de ordem inferior, como o STG, priorizam o processamento acústico e fonêmico, mas também capturam informações em nível de palavra.